<img src='https://miro.medium.com/v2/resize:fit:1100/format:webp/1*qQgnyPLDIkUmeZKN2_ZWbQ.png' width='750' height='450'> [Görsel kaynağı](https://towardsdatascience.com/tf-term-frequency-idf-inverse-document-frequency-from-scratch-in-python-6c2b61b78558)

## TF-IDF Nedir

**Term Frequency – Inverse Document Frequency**

TF-IDF, bir kelimenin doküman içerisindeki anlam yoğunluğunu istatistiksel yöntemlerle tespit ederek belirli bir ağırlık değeri bulmayı amaçlar. Ortaya çıkan bu TF-IDF değeri, terimin dokümanda ne kadar sık geçtiği ve doküman kümesinde ne kadar nadir olduğu ile orantılıdır. Böylece, dokümanların içeriğini yansıtan ve ayırt edici kelimeleri tespit etmek mümkün olur.

### TF (Term Frequency)
**TF = (Belirli bir kelimenin belgedeki tekrar sayısı) / (Dokümandaki toplam kelime sayısı)**

Örnek olarak, bir dokümanda *<b>filhakika</b>* kelimesisnin 10 kere geçtiğini varsayalım ve dokümanın tamamı da 500 kelime olsun. Bu durumda, filhakika kelimesinin terim frekansı $10/500 = 0.02$ olarak bulunmuş olur.

Bir terimin sık kullanılması, genellikle o terimin önemli bir bilgi içerdiğini gösterirken, tüm doküman kümesinde nadir bulunması, terimin diğerlerinden farklı ve özgün olduğu anlamına gelebilir. 

Ayrıca burada şöyle bir handikap vardır, **Stop Words**. Bunun ne ifade ettiğini anlamak için Türkçe dilindeki stop words sayılan kelimelere baktığımızda  *ama, bu, şu, ve, gibi* vs. sözcükler görürüz. Bu sözcükler doküman içerisinde çokça geçebilir olmasına rağmen bun kelimelerin temsil ettiği büyük bir anlam yoktur ve sıklıklarından dolayı TF işleminde gereksiz bir ağırlık kazanabilirler. Dolayısıyla stop words olarak adlandırılan bu kelimlerin işlemin daha anlamlı olabilmesi için, kelime vektörleri oluşturulmadan önce dokumandan ayıklanmalıdırlar. (İngilizce Stop Words örnekleri: *is, on, the, in, of, it* etc.)

### IDF (Inverse Document Frequency)

**IDF = log((Toplam doküman sayısı) / (Belirli kelime içeren doküman sayısı))**

$IDF(t) = log(N / (1 + DF(t)))$

$IDF = \log\left(\frac{\text{Toplam Dokuman Sayisi}}{\text{Kelimenin Essiz Dokuman Sayisi}}\right)$


Burada:
   - N: Toplam doküman sayısı.
   - DF(t): Belirli bir kelimenin geçtiği doküman sayısı.
   
IDF, bir kelimenin doküman kümesi içerisindeki nadirliğini gösterir. Bu sayede kelimenin doküman içerisindeki önemini belirlemeye yardımcı olur. IDF değeri, tüm dokümanlar üzerinden hesaplanır.

IDF, logaritmik bir ölçeğe sahip olduğundan dolayı nadir kelimelerin büyük değerler almasını engeller ve daha dengeli bir ölçüm değeri sunar. Eğer bir kelime doküman kümesi içerisinde sıkça geçiyorsa, IDF değeri düşük olacaktır ve bu kelime, muhtemelen genel bilgi taşıyan ve metinler arasında ayrımcılık yapmayan yaygın bir kelimeye tekabul edecektir. Tüm dokümanlar içerisinde az geçen bir kelimenin IDF değeri ise büyük olacaktır.

### TF-IDF
TF-IDF, her terimin doküman içerisindeki sıklığını (TF) ve tüm doküman koleksiyonu içerisinde o terimin ne kadar yaygın olduğunu (IDF) birleştirerek (çarparak) hesaplanır. 

<b>$TF-IDF(d, t) = TF(d, t) * IDF(t)$</b>

Burada:
- $TF(d, t)$ : Belirli bir dokümandaki (d) terimin (t) geçme sıklığı. Yani, dokümandaki terimin tekrar sayısı.
- $IDF(t$) : Tüm dokümanlardaki (corpus) terimin (t) geçme sıklığının tersi. 

Sonuç olarak en yüksek ağırlık değeri, bir kelimenin az sayıda dokümanda birçok kez geçtiği zaman ortaya çıkar.

## Python ile Uygulama

### Stop Words

In [1]:
stop_words = ['acaba', 'ama', 'ancak', 'artık', 'asla', 'aslında', 'az', 'bana', 'bazen', 'bazı', 'belki',
            'ben','beni', 'bu','benim', 'beri', 'bile', 'bir', 'biri', 'birkaç', 'birçok', 'şey', 'daha',
            'az', 'gene','gibi', 'da', 'de', 'en', 'daha','diğer', 'diğeri' , 'diye', 'dolayı', 'fakat',
            'falan', 'filan', 'gibi', 'hala', 'hatta', 'ise', 'kim', 'kime', 'niye', 'oysa', 'pek',
            'rağmen', 'sanki', 'şayet', 'sen', 'siz', 'tabii', 've', 'veya', 'zira']

### TF işlemi

In [2]:
import re

def kelime_listesi(dokuman):
    liste = []
    for kelime in dokuman: 
        kelimeler = kelime.split(' ')  
        for kelime in kelimeler:  
            kelime = re.sub(r'[^\w\s]', '', kelime)  
            if kelime.lower() not in stop_words:
                liste.append(kelime.lower())
    return liste

def dokuman_boyutu(liste):
    return len(liste)

def frekans(liste):
    frekans = {}
    for kelime in liste:
        if kelime in frekans:
            frekans[kelime] += 1
        else:
            frekans[kelime] = 1
    return frekans

def tf_degeri(frekans, boyut):
    for anahtar, deger in frekans.items():
        tf = deger/boyut
        print(f'{anahtar}: {tf}')
    
def main(dokuman):
    degerler = kelime_listesi(dokuman)
    boyut = dokuman_boyutu(degerler)
    frekans_degerleri = frekans(degerler)
    tf = tf_degeri(frekans_degerleri, boyut)
    
if __name__ == '__main__':
    dokuman = ['Bu bir örnek dokümandır.', 'Bu örnek dokümanda TF işlemi yapacağız.']
    main(dokuman)       

örnek: 0.2857142857142857
dokümandır: 0.14285714285714285
dokümanda: 0.14285714285714285
tf: 0.14285714285714285
işlemi: 0.14285714285714285
yapacağız: 0.14285714285714285


### TF-IDF işlemi

In [3]:
import re
import math 

def kelime_listesi(dokuman):
    liste = []
    for kelime in dokuman: 
        kelimeler = kelime.split(' ')  
        for kelime in kelimeler:  
            kelime = re.sub(r'[^\w\s]', '', kelime)  
            if kelime.lower() not in stop_words:
                liste.append(kelime.lower())
    return liste

def dokuman_boyutu(liste):
    return len(liste)

def frekans(liste):
    frekans = {}
    for kelime in liste:
        if kelime in frekans:
            frekans[kelime] += 1
        else:
            frekans[kelime] = 1
    return frekans

def tf_degeri(frekans, boyut):
    for anahtar, deger in frekans.items():
        tf = deger/boyut
        print(f'{anahtar}: {tf}')


def idf_degeri(frekans_degerleri):  
    idf_boyut = dokuman_boyutu(dokuman)
    for anahtar, deger in frekans_degerleri.items():
        idf = math.log(idf_boyut / deger)
        print(f'{anahtar}: {idf}')
    
    
    
def main(dokuman):
    
    degerler = kelime_listesi(dokuman)
    boyut = dokuman_boyutu(degerler)
    
    frekans_degerleri = frekans(degerler)
    
    print('\n TF degerleri: \n')
    tf = tf_degeri(frekans_degerleri, boyut)
    print('\n---------------------------')
    print('\n IDF degerleri: \n')
    idf = idf_degeri(frekans_degerleri)
    
if __name__ == '__main__':
    dokuman = ['Platon\'un devletinde kişinin başkasına değil, kendisine köle olma düşüncesi vardır.',
               'Platon\'un devlet eserinde başka birisine köle olmaktansa insanın kendisine köle olma düşüncesi vardır.']
    main(dokuman)       


 TF degerleri: 

platonun: 0.08695652173913043
devletinde: 0.043478260869565216
kişinin: 0.043478260869565216
başkasına: 0.043478260869565216
değil: 0.043478260869565216
kendisine: 0.08695652173913043
köle: 0.13043478260869565
olma: 0.08695652173913043
düşüncesi: 0.08695652173913043
vardır: 0.08695652173913043
devlet: 0.043478260869565216
eserinde: 0.043478260869565216
başka: 0.043478260869565216
birisine: 0.043478260869565216
olmaktansa: 0.043478260869565216
insanın: 0.043478260869565216

---------------------------

 IDF degerleri: 

platonun: 0.6931471805599453
devletinde: 1.0986122886681098
kişinin: 1.0986122886681098
başkasına: 1.0986122886681098
değil: 1.0986122886681098
kendisine: 0.6931471805599453
köle: 0.5108256237659906
olma: 0.6931471805599453
düşüncesi: 0.6931471805599453
vardır: 0.6931471805599453
devlet: 1.0986122886681098
eserinde: 1.0986122886681098
başka: 1.0986122886681098
birisine: 1.0986122886681098
olmaktansa: 1.0986122886681098
insanın: 1.0986122886681098


### TF-IDF Değerleri

In [4]:
import re
import math 

stop_words = ['acaba', 'ama', 'ancak', 'artık', 'asla', 'aslında', 'az', 'bana', 'bazen', 'bazı', 'belki',
            'ben','beni', 'bu','benim', 'beri', 'bile', 'bir', 'biri', 'birkaç', 'birçok', 'şey', 'daha',
            'az', 'gene','gibi', 'da', 'de', 'en', 'daha','diğer', 'diğeri' , 'diye', 'dolayı', 'fakat',
            'falan', 'filan', 'gibi', 'hala', 'hatta', 'ise', 'kim', 'kime', 'niye', 'oysa', 'pek',
            'rağmen', 'sanki', 'şayet', 'sen', 'siz', 'tabii', 've', 'veya', 'zira']

def kelime_listesi(dokuman):
    liste = []
    for kelime in dokuman: 
        kelimeler = kelime.split(' ')
        for kelime in kelimeler:
            kelime = re.sub(r'[^\w\s]', '', kelime)
            if kelime.lower() not in stop_words:
                liste.append(kelime.lower())
    return liste

def dokuman_boyutu(liste):
    return len(liste)

def frekans(liste):
    frekans = {}
    for kelime in liste:
        if kelime in frekans:
            frekans[kelime] += 1
        else:
            frekans[kelime] = 1
    return frekans

def tf_degeri(frekans, boyut):
    tf_values = {}
    for anahtar, deger in frekans.items():
        tf = deger / boyut
        tf_values[anahtar] = tf
    return tf_values

def idf_degeri(frekans_degerleri, idf_boyut):
    idf_values = {}
    for anahtar, deger in frekans_degerleri.items():
        idf = math.log(idf_boyut / deger)
        idf_values[anahtar] = idf
    return idf_values

def main(dokuman):
    degerler = kelime_listesi(dokuman)
    boyut = dokuman_boyutu(degerler)
    
    frekans_degerleri = frekans(degerler)
    
    print('\nTF degerleri:\n')
    tf_values = tf_degeri(frekans_degerleri, boyut)
    for kelime, tf in tf_values.items():
        print(f'{kelime}: {tf}')
    
    print('\n---------------------------\n')
    print('IDF degerleri:\n')
    idf_boyut = len(dokuman)
    idf_values = idf_degeri(frekans_degerleri, idf_boyut)
    for kelime, idf in idf_values.items():
        print(f'{kelime}: {idf}')

    print('\n---------------------------\n')
    print('TF-IDF degerleri:\n')
    for kelime in frekans_degerleri:
        tf_idf = tf_values[kelime] * idf_values[kelime]
        print(f'{kelime}: {tf_idf}')

if __name__ == '__main__':
    dokuman = ['Platon\'un devletinde kişinin başkasına değil, kendisine köle olma düşüncesi vardır.',
               'Platon\'un devlet eserinde başka birisine köle olmaktansa insanın kendisine köle olma düşüncesi vardır.']
    main(dokuman)


TF degerleri:

platonun: 0.08695652173913043
devletinde: 0.043478260869565216
kişinin: 0.043478260869565216
başkasına: 0.043478260869565216
değil: 0.043478260869565216
kendisine: 0.08695652173913043
köle: 0.13043478260869565
olma: 0.08695652173913043
düşüncesi: 0.08695652173913043
vardır: 0.08695652173913043
devlet: 0.043478260869565216
eserinde: 0.043478260869565216
başka: 0.043478260869565216
birisine: 0.043478260869565216
olmaktansa: 0.043478260869565216
insanın: 0.043478260869565216

---------------------------

IDF degerleri:

platonun: 0.6931471805599453
devletinde: 1.0986122886681098
kişinin: 1.0986122886681098
başkasına: 1.0986122886681098
değil: 1.0986122886681098
kendisine: 0.6931471805599453
köle: 0.5108256237659906
olma: 0.6931471805599453
düşüncesi: 0.6931471805599453
vardır: 0.6931471805599453
devlet: 1.0986122886681098
eserinde: 1.0986122886681098
başka: 1.0986122886681098
birisine: 1.0986122886681098
olmaktansa: 1.0986122886681098
insanın: 1.0986122886681098

---------