## Mengenal TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF (Term Frequency - Inverse Document Frequency) merupakan salah satu metode statistik yang digunakan untuk mengukur seberapa penting suatu kata terhadap suatu dokumen tertentu dari sekumpulan dokumen atau corpus. TF-IDF ini pada dasarnya melibatkan perkalian antara dua nilai yaitu nilai TF atau Term Frequency dengan nilai IDF atau Inverse Document Frequency.

### TF (Term Frequency)

Term Frequency Adjusted for Document Length, diekspreksikan sebagai hasil pembagian antara jumlah kemunculan suatu term pada document dengan total jumlah kata yang terkandung dalam document.

![rumus18.svg](attachment:rumus18.svg)

### Inverse Document Frequency

Menghitung nilai log dari pembagian antara total jumlah document dalam suatu corpus dengan jumlah document yang mengandung term tertentu. Berikut implementasinya secara matematis :

![rumus19.svg](attachment:rumus19.svg)

Sedangkan, implementasi inverse document frequency pada SkLearn:

![rumus20.svg](attachment:rumus20.svg)

- $n$ : Merepresentasikan total jumlah dokumen dalam suatu corpus.
- $df(t)$ : Merepresentasikan jumlah dokumen yang mengandung term tertentu

### Dataset

In [1]:
corpus = [
    'the house had a tiny little mouse', 
    'the cat saw the mouse',
    'the mouse ran away from the house', 
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

corpus

['the house had a tiny little mouse',
 'the cat saw the mouse',
 'the mouse ran away from the house',
 'the cat finally ate the mouse',
 'the end of the mouse story']

### TF-IDF Weights dengan TfidfVectorizer

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
response = vectorizer.fit_transform(corpus)
print(response)

  (0, 7)	0.2808823162882302
  (0, 6)	0.5894630806320427
  (0, 11)	0.5894630806320427
  (0, 5)	0.47557510189256375
  (1, 9)	0.7297183669435993
  (1, 2)	0.5887321837696324
  (1, 7)	0.3477147117091919
  (2, 1)	0.5894630806320427
  (2, 8)	0.5894630806320427
  (2, 7)	0.2808823162882302
  (2, 5)	0.47557510189256375
  (3, 0)	0.5894630806320427
  (3, 4)	0.5894630806320427
  (3, 2)	0.47557510189256375
  (3, 7)	0.2808823162882302
  (4, 10)	0.6700917930430479
  (4, 3)	0.6700917930430479
  (4, 7)	0.3193023297639811


Angka di sisi kiri (kolom pertama) merepresentasikan indeks dari corpus
- Indeks 0 merepresentasikan kalimat pertama dari corpus
- Indeks 1 merepresentasikan kalimat kedua dari corpus
- Indeks 2 merepresentasikan kalimat ketiga dari corpus
- Indeks 3 merepresentasikan kalimat keempat dari corpus
- Indeks 4 merepresentasikan kalimat kelima dari corpus

Sedangkan, angka di sisi kanan (kolom kedua) merepresentasikan indeks dari features name yang dihasilkan dari back of words dan angka di ujung kanan merepresentasikan bobot dari TF-IDF hasil kalkulasi yang dilakukan oleh TfidfVectorizer.

In [5]:
vectorizer.get_feature_names()

['ate',
 'away',
 'cat',
 'end',
 'finally',
 'house',
 'little',
 'mouse',
 'ran',
 'saw',
 'story',
 'tiny']

Menampilkan sekumpulan kata yang kemudian diurutkan berdasarkan alphabet. Pada pembahasan kali ini, semua case menjadi lowercase.

In [6]:
response.todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.4755751 , 0.58946308, 0.28088232, 0.        , 0.        ,
         0.        , 0.58946308],
        [0.        , 0.        , 0.58873218, 0.        , 0.        ,
         0.        , 0.        , 0.34771471, 0.        , 0.72971837,
         0.        , 0.        ],
        [0.        , 0.58946308, 0.        , 0.        , 0.        ,
         0.4755751 , 0.        , 0.28088232, 0.58946308, 0.        ,
         0.        , 0.        ],
        [0.58946308, 0.        , 0.4755751 , 0.        , 0.58946308,
         0.        , 0.        , 0.28088232, 0.        , 0.        ,
         0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.67009179, 0.        ,
         0.        , 0.        , 0.31930233, 0.        , 0.        ,
         0.67009179, 0.        ]])

response.todense() berfungsi untuk mentranformasikan hasil response ke dalam bentuk array 2 dimensi.

In [7]:
import pandas as pd

df = pd.DataFrame(response.todense().T,
                 index=vectorizer.get_feature_names(),
                 columns=[f'D{i+1}' for i in range(len(corpus))])

df

Unnamed: 0,D1,D2,D3,D4,D5
ate,0.0,0.0,0.0,0.589463,0.0
away,0.0,0.0,0.589463,0.0,0.0
cat,0.0,0.588732,0.0,0.475575,0.0
end,0.0,0.0,0.0,0.0,0.670092
finally,0.0,0.0,0.0,0.589463,0.0
house,0.475575,0.0,0.475575,0.0,0.0
little,0.589463,0.0,0.0,0.0,0.0
mouse,0.280882,0.347715,0.280882,0.280882,0.319302
ran,0.0,0.0,0.589463,0.0,0.0
saw,0.0,0.729718,0.0,0.0,0.0


T artinya melakukan proses transpose, kata ate terdapat dalam dokumen ke 4, kata away terdapat dalam dokumen ke 3 dan kata cat terdapat dalam dokumen ke 2 dan ke 4, tetapi bobot dokumen ke 2 lebih besar. Hasil pada pembahasan kali ini merupakan nilai pembobotan yang sudah di normaliasikan dengan menggunakan L2 Normalization yang nilai terkecilnya adalah 0,0 dan nilai terbesarnya adalah 1,0. Semakin tinggi bobot suatu kata pada suatu document, mengindikasikan bahwa kata tersebut semakin layak untuk digunakan sebagai keyword atau kata pencarian terhadap dokumen tersebut.

## SUMBER :  https://www.youtube.com/watch?v=f0a1XXmaQp8 