# Mengenal TF-IDF (Term Frequency - Inverse Document Frequency)

Pada sesi pemeblejaran kali ini, kita akan mempelajari salah satu teknik yang umum ditemui untuk melakukan feature extraction pada sekumpulan teks atau dokumen yaitu "Term Frequency - Inverse Document Frequency" atau biasa disingkat sebagai TF-IDF. Pada sesi pembelajaran sebelumnya, kita sudah mempelajari dua teknik dasar yang umum ditemui dalam text processing yaitu "Back of Word" dan "Stop Word Filtering".

Dalam sesi pembelajaran kita kali ini, kita akan mempelajari suatu teknik untuk menghitung bobot suatu kata terhadap suatu dokumen dari sekumpulan dokumen. Teknik ini dikenal sebagai "Term Frequency - Inverse Document Frequency" atau biasa disingkat TF-IDF. Teknik ini juga cukup umum ditemui dalam bidang information retrieval.  

TF-IDF (Term Frequency - Inverse Document Frequency) merupakan salah satu metode statistik yang digunakan untuk mengukur seberapa penting suatu kata terhadap suatu dokumen tertentu dari sekumpulan dokumen atau corpus. TF-IDF ini pada dasarnya melibatkan perkalian antara dua nilai yaitu nilai TF atau Term Frequency dengan nilai IDF atau Inverse Document Frequency.

Referensi:

- https://en.wikipedia.org/wiki/Tf%E2%80%93idf
- https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction

# TF (Term Frequency)

Pertama-tama kita akan mempelajari TF atau Term Frequency terlebih dahulu. Terdapat beberapa opsi formula yang bisa digunakan untuk merepresentasikan Term Frequency. Forumula yang paling sederhana adalah dengan menghitung jumlah kemunculan suatu term atau suatu kata pada suatu dokumen, formula semacam ini sering kali dikenal sebagai row count dengan formula $f_{{t,d}}$, hanya saja implementasi Term Frequency pada SkLearn tidak mengadopsi formula semacam ini. Term Frequency yang diimplementasikan pada SkLearn menerapkan formula sebagai berikut :

Term Frequency Adjusted for Document Length, dimana term frequency diekspreksikan sebagai hasil pembagian antara jumlah kemunculan suatu term pada document dengan total jumlah kata yang terkandung dalam document tersebut dengan formula matematis sebagai berikut :

${\displaystyle f_{t,d}{\Bigg /}{\sum _{t'\in d}{f_{t',d}}}}$

# Inverse Document Frequency 

Selanjutnya kita akan mempelajari "Inverse Document Frequency". Sama halnya dengan "Term Frequency", disini juga terdapat beberapa opsi formula yang dapat digunakan untuk merepresentasikan Inverse Document Frequency. Formula yang paling sederhana adalah dengan menghitung nilai log dari pembagian antara total jumlah document dalam suatu corpus dengan jumlah document yang mengandung term tertentu. 

Berikut merupakan implementasinya secara matematis :

${\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}}$

Hanya saja implementasi inverse document frequency pada SkLearn memiliki formula sebagai berikut :

idf$(t) = log \frac{1+n}{1+df(t)} + 1$

- $n$ : Merepresentasikan total jumlah dokumen dalam suatu corpus.
- $df(t)$ : Merepresentasikan jumlah dokumen yang mengandung term tertentu

Formula diatas merupakan formula untuk merepresentasikan inverse document frequency. Selain itu, SKLearn juga menerapkan l2 normalization atau pada kalkulasi pemboboton "TF-IDF".


# Dataset

In [8]:
# Code 01

corpus = [
    'the house had a tiny little mouse', 
    'the cat saw the mouse',
    'the mouse ran away from the house', 
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

corpus

['the house had a tiny little mouse',
 'the cat saw the mouse',
 'the mouse ran away from the house',
 'the cat finally ate the mouse',
 'the end of the mouse story']

Alur berpikir code 01 :
- Pertama-tama kita akan menyiapkan terlebih dahulu suatu dataset text.
- Untuk kasus kita kali ini, datasetnya berupa sekumpulan kalimat pendek. Seperti kita pelajari pada sesi sebelumnya, dataset ini juga seringkali dikenal dengan istilah "corpus".
- Lalu kita akan coba tampilkan ke layar untuk corpusnya.

Jika kita perhatikan pada code 01, corpus yang kita miliki pada kali ini terdiri dari lima buah kalimat pendek dengan kalimat sebagai berikut :
- Kalimat pertama yaitu 'the house had a tiny little mouse'.
- Kalimat kedua yaitu 'the cat saw the mouse'.
- Kalimat ketiga yaitu 'the mouse ran away from the house'.
- Kalimat keempat yaitu 'the cat finally ate the mouse'.
- Kalimat kelima yaitu 'the end of the mouse story'.

Kita akan menggunakan corpus tersebut sebagai studi kasuk kita pada kali ini.

# TF-IDF Weights dengan TfidfVectorizer

Selanjutnya kita akan menerapkan TF-IDF pada dataset corpus yang kita miliki. Pada SkLearn, TF-IDF dapat diterapkan dengan modul  TfidfVectorizer.

In [9]:
# Code 02

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
response = vectorizer.fit_transform(corpus)
print(response)

  (0, 7)	0.2808823162882302
  (0, 6)	0.5894630806320427
  (0, 11)	0.5894630806320427
  (0, 5)	0.47557510189256375
  (1, 9)	0.7297183669435993
  (1, 2)	0.5887321837696324
  (1, 7)	0.3477147117091919
  (2, 1)	0.5894630806320427
  (2, 8)	0.5894630806320427
  (2, 7)	0.2808823162882302
  (2, 5)	0.47557510189256375
  (3, 0)	0.5894630806320427
  (3, 4)	0.5894630806320427
  (3, 2)	0.47557510189256375
  (3, 7)	0.2808823162882302
  (4, 10)	0.6700917930430479
  (4, 3)	0.6700917930430479
  (4, 7)	0.3193023297639811


Alur berpikir code 02 :
- Pertama-tama kita akan mengimport modulnya terlebih dahulu dengan memanggil "from sklearn.feature_extraction.text import TfidfVectorizer".
- Lalu pada tahapan berikutnya, kita akan membentuk objek dari class TfidfVectorizer tersebut dengan menyertakan parameter (stop_words) yang kita beri nilai 'english'.
- Selanjutnya objek TF-IDF tersebut kita akan tampung ke dalam variabel "vectorizer".
- Pada tahapan berikutnya, kita akan memanggil method fit.transform dari objek "vectorizer" tersebut dan akan kita terapkan pada (corpus) yang kita miliki.
- Lalu hasil fit.transform nya kita akan tampung kedalam variabel "response".
- Untuk selanjutnya kita akan coba tampilkan ke layar dengan print.

Berdasarkan hasil output 02 terdiri dari angka-angka yang sangat banyak. Kita akan mulai mencoba memahami maksud output tersebut. Pada hasil output sisi kiri, angka-angkanya merepresentasikan indeks dari corpus yang kita miliki yang terdiri dari angka 0, 1, 2, 3, dan 4.
- Indeks 0 merepresentasikan indeks kalimat pertama dari corpus kita.
- Indeks 1 merepresentasikan indeks kalimat kedua dari corpus kita.
- Indeks 2 merepresentasikan indeks kalimat ketiga dari corpus kita.
- Indeks 3 merepresentasikan indeks kalimat keempat dari corpus kita.
- Indeks 4 merepresentasikan indeks kalimat kelima dari corpus kita.

Lalu berikutnya angka pada kolom yang kedua. Angka-angka tersebut merepresentasikan indeks dari features name yang dihasilkan dari Bag of Words kita. Untuk lebih jelasnya, selanjutnya kita akan panggil "vectorizer.get_feature_names()" perhatikan pada code 03.

In [10]:
# Code 03 


vectorizer.get_feature_names()

['ate',
 'away',
 'cat',
 'end',
 'finally',
 'house',
 'little',
 'mouse',
 'ran',
 'saw',
 'story',
 'tiny']

Berdasarkan hasil output 03, kita bisa menyimpulkan beberapa hal sebagai berikut :

- Berdasarkan hasil output code 03 merupakan kumpulan token yang sudah di eliminier stop wordnya. Bisa kita lihat ada 'ate', 'away', 'cat', 'end', 'finally', 'house', 'little', 'mouse', 'ran', 'saw', 'story', dan 'tiny'. 
- Token-token tersebut diurutkan berdasarkan urutan alphabetic. Jika kita perhatikan disini, untuk kalimat indeks ke 0, disni ada 7, 6, 11, dan 5 artinya kalimat pada indeks ke 0 tersebut, mengandung token indeks ke 7 berarti pada kalimat tersebut mengandung kata 'mouse', dan jika kita perhatikan pada dataset kita di awal pada corpus, pada kalimat pertama indeks ketujuh yaitu mengandung kata 'mouse'. 
- Selanjunya juga mengandung pada toke indeks ke 6, dan token pada indeks ke 6 adalah 'little'. Bisa kita lihat bahwa cocok karena kalimat pertama juga mengandung kata 'little'.
- Lalu berikutnya juga mengandung token pada indeks ke 5, dan token pada indeks kelima adalah 'house'. Disini juga kita bisa lihat bahwa cocok karena pada kalimat pertama dari corpus juga mengandung kata 'house'.
- Lalu berikutnya disni mengandung pada indeks ke 11. Token pada indeks ke 11 adalah 'tiny'. Bisa kita lihat juga cocok karena teradapat kata 'tiny' pada kalimat pertama dari corpus.

Jadi bisa kita simpulkan bahwa baris paling kiri dari hasil code 02, merepresentasikan indek dari dokumen pada corpus kita, sedangkan pada baris tengah merepresentasikan indeks dari token yang terdapat dalam kalimat tersebut, dan pada baris ketiga yang berupa sekumpulan angka, merepresentasikan bobot dari TF-IDF hasil kalkulasi yang dilakukan oleh TF-IDF Vectorizer.

In [11]:
# Code 04

response.todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.4755751 , 0.58946308, 0.28088232, 0.        , 0.        ,
         0.        , 0.58946308],
        [0.        , 0.        , 0.58873218, 0.        , 0.        ,
         0.        , 0.        , 0.34771471, 0.        , 0.72971837,
         0.        , 0.        ],
        [0.        , 0.58946308, 0.        , 0.        , 0.        ,
         0.4755751 , 0.        , 0.28088232, 0.58946308, 0.        ,
         0.        , 0.        ],
        [0.58946308, 0.        , 0.4755751 , 0.        , 0.58946308,
         0.        , 0.        , 0.28088232, 0.        , 0.        ,
         0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.67009179, 0.        ,
         0.        , 0.        , 0.31930233, 0.        , 0.        ,
         0.67009179, 0.        ]])

Untuk lebih jelasnya pada code 04 ini kita akan mencoba mentransformasikan hasil response nya kedalam bentuk array dengan memanggil function "response.todense()".

Pada hasil output code 04 disini akan terbentuk array dua dimensi, dimana setiap row nya tersebut akan merepresentasikan setiap kalimat atau setiap document pada corpus kita. Agar tampilannya lebih manis dan rapih, kita akan mecoba untuk mengkonversikan kedalam format Pandas DataFrame. 

Jika kita perhatikan pada code 04 kembali, bentuk array nya adalah array dua dimensi, dimana setiap barisnya ini merepresentasikan kalimatnya, hanya saja pada code 05 dalam bentuk pandas DataFrame, kita akan coba tampilkan kalimatnya dalam bentuk kolom, sedangkan barisnya akan digunakan untuk merepresentasikan setiap tokennya. Oleh karenanya, kita butuh untuk melakukan proses transpose terhadap array code 04 tersebut (lihat pada code 05).

In [12]:
# Code 05

import pandas as pd

df = pd.DataFrame(response.todense().T,
                 index=vectorizer.get_feature_names(),
                 columns=[f'D{i+1}' for i in range(len(corpus))])

df

Unnamed: 0,D1,D2,D3,D4,D5
ate,0.0,0.0,0.0,0.589463,0.0
away,0.0,0.0,0.589463,0.0,0.0
cat,0.0,0.588732,0.0,0.475575,0.0
end,0.0,0.0,0.0,0.0,0.670092
finally,0.0,0.0,0.0,0.589463,0.0
house,0.475575,0.0,0.475575,0.0,0.0
little,0.589463,0.0,0.0,0.0,0.0
mouse,0.280882,0.347715,0.280882,0.280882,0.319302
ran,0.0,0.0,0.589463,0.0,0.0
saw,0.0,0.729718,0.0,0.0,0.0


Alur berpikir code 05 :
- Pertama-tama kita import terlebih dahulu modul pandasnya dengan memanggil "import pandas as pd".
- Lalu kita panggil "response.todense().T". T pada code tersebut artinya adalah transpose.
- Lalu kita panggil "index=vectorizer.get_feature_names()" untuk menampilkan nama-namanya yang dalam hal ini kita jadikan sebagai feature.
- Selanjutnya kita akan panggil "columns=[f'D{i+1}' for i in range(len(corpus))]" untuk menampilkan semua baris dari corpusnya.
- Lalu kita coba tampilkan ke layar.

Pada hasil output code 05, disini informasinya menjadi lebih jelas, kita bisa melihat document 1 atau D1, D2, D3, D4, dan D5. Baris pertama merepresentasikan token 'ate' dan seterusnya sampai token 'tiny'. Cara membacanya yaitu untuk 'cat' kata cat terdapat dalam document ke-2 dan document ke-4, hanya saja kata cat ini memiliki bobot yang lebih tinggi pada document ke-2 bila dibandingkan pada document ke-4. Nilai pembobotan yang berada pada hasil output code 05 tersebut merupakan nilai pembobotan yang sudah di normaliasikan dengan menggunakan L2 Normalization yang nilai terkecilnya adalah 0,0 dan nilai terbesarnya adalah 1,0. Semakin tinggi bobot suatu kata pada suatu document, mengindikasikan bahwa kata tersebut semakin layak untuk digunakan sebagai keyword atau kata pencarian terhadap dokumen tersebut.

Untuk pembelajaran lebih lengkapnya, jangan lupa kunjungi channel youtube Indonesia Belajar pada link berikut : https://www.youtube.com/watch?v=f0a1XXmaQp8 dan jangan lupa untuk like, comment, dan share.

# "Banyak Belajar, Biar Bisa Bantu Banyak Orang"

Written by : Clarence Code Pianist