# SKLearn 11 - Mengenal TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF (Term Frequency - Inverse Document Frequency) merupakan salah satu metode statistik yang digunakan untuk mengukur seberapa penting suatu kata terhadap suatu dokumen tertentu dari sekumpulan dokumen atau corpus. TF-IDF merupakan hasil perkalian antara nilai TF dengan nilai IDF.

## TF (Term Frequency)
Terdapat banyak opsi formula untuk merepresentasikan nilai TF. Salah satu yang paling sederhana adalah *raw count* yang menghitung jumlah suatu term atau kata pada suatu document. Sedangkan, TF yang diimplementasikan pada SKLearn adalah *term frequency adjusted for document length* yang merupakan hasil dari jumlah kemunculan suatu term pada document yang kemudian dibagi oleh total jumlah kata yang terkandung dalam document tersebut.

- **Raw count**

    $ tf(t,d) = f_{t,d} $


- **Term frequency adjusted for document length**

    $ tf(t,d) = f_{t,d} ÷ (number \ of \ words \ in \ d) $

## IDF (Inverse Document Frequency)
Terdapat banyak opsi formula untuk merepresentasikan nilai IDF. Salah satu yang paling sederhana adalah *Inverse document frequency* yang menghitung nilai log dari pembagian antara total jumlah document dalam suatu corpus dengan jumlah document yang mengandung term tertentu. Sedangkan, IDF yang diimplementasikan pada SKLearn menggunakan operasi pembagian antara total jumlah document dalam satu corpus oleh jumlah document yang mengandung term tertentu, kemudian nilai hasil pembagiannya ditambah dengan 1.

- **Inverse document frequency**

    $ idf(t,D) = log \frac{N}{n_{t}} = -log \frac{n_{t}}{N}$ 


- **IDF yang diimplementasikan pada SKLearn**
   
   $ idf(t) = log \frac{1+n}{1+df(t)} + 1$ 

**Referensi**

https://en.wikipedia.org/wiki/Tf%E2%80%93idf

https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction

### Dataset


In [1]:
corpus = [
    'the house had a tiny little mouse', 
    'the cat saw the mouse',
    'the mouse ran away from the house', 
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

corpus

['the house had a tiny little mouse',
 'the cat saw the mouse',
 'the mouse ran away from the house',
 'the cat finally ate the mouse',
 'the end of the mouse story']

## TF-IDF Weights dengan `TfidfVectorizer`

- Pada SKlearn, TF-IDF dapat diterapkan dengan mengimport module `TfidfVectorizer`.
- Membentuk object TfidfVectorizer() yang disertai dengan parameter `stop_words='english'` karena kalimat yang ada pada corpus menggunakan bahasa Inggris.
- Memanggil method fit_transform dari object vectorizer yang akan kita terapkan terhadap corpus yang akan ditampung oleh variabel `response`.

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
response = vectorizer.fit_transform(corpus)
print(response)

  (0, 7)	0.2808823162882302
  (0, 6)	0.5894630806320427
  (0, 11)	0.5894630806320427
  (0, 5)	0.47557510189256375
  (1, 9)	0.7297183669435993
  (1, 2)	0.5887321837696324
  (1, 7)	0.3477147117091919
  (2, 1)	0.5894630806320427
  (2, 8)	0.5894630806320427
  (2, 7)	0.2808823162882302
  (2, 5)	0.47557510189256375
  (3, 0)	0.5894630806320427
  (3, 4)	0.5894630806320427
  (3, 2)	0.47557510189256375
  (3, 7)	0.2808823162882302
  (4, 10)	0.6700917930430479
  (4, 3)	0.6700917930430479
  (4, 7)	0.3193023297639811


- Dari hasil yang ditampung oleh variabel `response`, terdapat 3 bagian yang bisa kita misalkan dengan `(a, b) c`
    - Pada bagian sisi paling kiri atau yang dimisalkan dengan `a` merepresentasikan index dari corpus. Contohnya, kalimat pertama direpresentasikan dengan index 0, kalimat kedua direpresentasikan dengan index 1, dan seterusnya.
    - Pada bagian tengah atau yang dimisalkan dengan `b` merepresentasikan index features name yang dihasilkan dari bag of words yang sudah dieliminiasi stop wordsnya.
    - Pada bagian sisi paling kanan atau yang dimisalkan dengan `c` merepresentasikan bobot dari TF-IDF.

- Sebagai contoh, 
    (0, 7)	0.2808823162882302
    - 0 merepresentasikan kalimat pertama yang ada pada corpus
    - 7 merepresentasikan index features namenya, yaitu `mouse`
    - (0,7) berarti kalimat pada index ke-0 mengandung token dengan index ke-7 yang telah diurutkan secara alfabetik dan dibuang stop wordsnya.
    - 0.2808823162882302 merepresentasikan bobot dari TF-IDF nya.

In [3]:
vectorizer.get_feature_names()

['ate',
 'away',
 'cat',
 'end',
 'finally',
 'house',
 'little',
 'mouse',
 'ran',
 'saw',
 'story',
 'tiny']

- Memanggil `response.todense()` untuk mentranform hasil response ke dalam bentuk array 2 dimensi yang setiap barisnya akan merepresentasikan document pada corpus.

In [4]:
response.todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.4755751 , 0.58946308, 0.28088232, 0.        , 0.        ,
         0.        , 0.58946308],
        [0.        , 0.        , 0.58873218, 0.        , 0.        ,
         0.        , 0.        , 0.34771471, 0.        , 0.72971837,
         0.        , 0.        ],
        [0.        , 0.58946308, 0.        , 0.        , 0.        ,
         0.4755751 , 0.        , 0.28088232, 0.58946308, 0.        ,
         0.        , 0.        ],
        [0.58946308, 0.        , 0.4755751 , 0.        , 0.58946308,
         0.        , 0.        , 0.28088232, 0.        , 0.        ,
         0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.67009179, 0.        ,
         0.        , 0.        , 0.31930233, 0.        , 0.        ,
         0.67009179, 0.        ]])

- Mengkonversikan response.todense() ke dalam format pandas data frame agar tampilannya menjadi lebih rapih dan mudah dipahami. Kita juga akan melakukan Transpose sehingga perlu menyertakan parameter `T`. Proses transpose ini dilakukan untuk menukar kolom menjadi baris dan sebaliknya sehingga menghasilkan dataframe yang kolomnya merepresentasikan document dan barisnya merepresentasikan token.

In [5]:
import pandas as pd

df = pd.DataFrame(response.todense().T,
                 index=vectorizer.get_feature_names(),
                 columns=[f'D{i+1}' for i in range(len(corpus))])

df

Unnamed: 0,D1,D2,D3,D4,D5
ate,0.0,0.0,0.0,0.589463,0.0
away,0.0,0.0,0.589463,0.0,0.0
cat,0.0,0.588732,0.0,0.475575,0.0
end,0.0,0.0,0.0,0.0,0.670092
finally,0.0,0.0,0.0,0.589463,0.0
house,0.475575,0.0,0.475575,0.0,0.0
little,0.589463,0.0,0.0,0.0,0.0
mouse,0.280882,0.347715,0.280882,0.280882,0.319302
ran,0.0,0.0,0.589463,0.0,0.0
saw,0.0,0.729718,0.0,0.0,0.0


- Sebagai contoh, dari hasil yang ada pada pandas data frame di atas, token `cat` terdapat pada document D2 dan D4 karena nilai dari TF-IDF nya lebih dari 0. Selain itu, bobot nilai token cat pada D2 lebih besar dari D4. 
- Semakin tinggi bobot suatu kata di dalam document, maka kata tersebut semakin layak untuk dijadikan keyword pencarian untuk document tersebut.