TF-IDF (Sade Anlatım)
Bir terimin doküman içerisindeki önemini gösteren istatistiki yöntemle hesaplanan ağırlık faktörüdür.
Kaynak :
https://medium.com/algorithms-data-structures/tf-idf-term-frequency-inverse-document-frequency-53feb22a17c6
Örneğin Yılmaz Erdoğan’ın her senaryosunun ismi bir döküman olacak şekilde liste yapalım. İçinde:
Bir Demet Tiyatro
Bana Bir Şeyhler Oluyor
Sen Hiç Ateş Böceği Gördün mü
Vizontele
Organize İşler
olsun. 5 farklı dökümanımız var. Bu metin içerisinde bazı terimlerin tf-idf değerini hesaplayalım.
İlk terimimiz “Bir Demet Tiyatro” dökümanındaki: Demet
TF = Demet Kelimesinin İlgili Dökümanda Geçme Sayısı / Bir Demet Tiyatro Kelime Sayısı
TF = 1 / 3 = 0.33
IDF = log(Toplam Doküman Sayısı / Demet Kelimesinin Geçtiği Doküman Sayısı)
IDF = log(5/1) = 0.698
TF-IDF = TF*IDF = 0.33*0.698 = 0.23
Devam edelim.
İkinci terimimiz “Bir Demet Tiyatro” dökümanındaki: Bir
TF = Bir Kelimesinin İlgili Dökümanda Geçme Sayısı / Bir Demet Tiyatro Kelime Sayısı
TF = 1/3 = 0.33
IDF = log(Toplam Doküman Sayısı / Bir Kelimesinin Geçtiği Doküman Sayısı)
IDF = log(5/2) = 0.397
TF-IDF = TF*IDF = 0.33*0.397 = 0.131
Gördüğünüz gibi bir terim diğer dokümanlarda ne kadar çok olursa TF-IDF değeri düşüyor. Aynı şekilde bir terim kendi dokümanında ne kadar çok olursa TF-IDF değeri artıyor. Örneğin:
Bir Demet Tiyatro yerine Bir Demet Tiyatro Demet gibi bir isim olsaydı, Demet kelimesi 2 kere geçecekti ve TF değeri 1/3=0.33 yerine 2/4=0.5 olacaktı artacaktı.