Dalam sesi pembelajaran kali ini,kita akan mempelajari suatu teknik untuk menghitung bobot suatu kata terhadap suatu dokumen dari sekumpulan dokumen

TF-IDF (Term Frequency - Inverse Document Frequency) merupakan salah satu metode statistik yang digunakan untuk mengukur seberapa penting suatu kata terhadap suatu dokumen tertentu dari sekumpulan dokumen atau corpus.

Teknik ini cukup umum ditemui dalam bidang information retrieval

Referensi:

* https://en.wikipedia.org/wiki/Tf%E2%80%93idf
* https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction

TF-IDF ini pada dasarnya melibatkan perkalian antara dua nilai yaitu nilai TF (Term Frequency) dengan nilai IDF (Inverse Document Frequency)

### Term Frequency

Terdapat beberapa opsi formula yang bisa digunakan untuk menrepresentasikan term frequency.

Formula yang paling sederhana adalah dengan menghitung jumlah kemunculan suatu term atau suatu kata pada suatu dokumen.formula semacam ini seringkali dikenal sebagai "Raw Count".Hanya saja implementasi term frequency pada scikit learn tidak mengadopsi formula semacam ini.

Term frequency yang diimplementasikan pada scikit learn menerapkan formula sebagai berikut
* Term frequency adjusted for document length, dimana term frequency diekspresikan sebagai hasil pembagian antara jumlah kemunculan suatu term pada dokumen dengan total jumlah kata yang terkandung dalam dokumen tersebut

Sama halnya dengan term frequency disini juga terdapat beberapa opsi formula yang bisa digunakan untuk menrepresentasikan inverse document frequency.formula yang paling sederhana adalah dengan menghitung nilai log dari pembagian antara total jumlah dokumen dalam suatu corpus dengan jumlah dokumen yang mengandung term tertentu.

*Membuka link scikit learn untuk melihat implementasi inverse document frequency*

Scroll kebawah,terdapat formula diterapkan pada scikit learn untuk menrepresentasikan inverse document frequency
* n menrepresentasikan total jumlah dokumen dalam suatu corpus
* df(t) menrepresentasikan jumlah dokumen yang mengandung term tertentu

Selain itu scikit learn juga menerapkan L2 Normalization pada kalkulasi pembobotan TF-IDF

# Dataset

In [None]:
corpus = [
    'the house had a tiny little mouse', 
    'the cat saw the mouse',
    'the mouse ran away from the house', 
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

corpus

Kasus kita kali ini datasetnya berupa sekumpulan kalimat pendek.seperti yang dibicarakan pada chapter 10,dataset text ini juga sering dikenal dengan istilah "Corpus".Corpusnya terdiri dari lima kalimat pendek

# TF-IDF Weights dengan TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer #import module

vectorizer = TfidfVectorizer(stop_words='english') #Menyertakan parameter stop_words yang kita beri nilai "english"
response = vectorizer.fit_transform(corpus)
print(response)

Pada scikit learn TF-IDF dapat diterapkan dengan memanfaatkan module TfidfVectorizer

Dari hasil tersebut :
* Angka-Angka di kiri (kolom pertama),menrepresentasikan indeks dari corpus kita (0,1,2,3,4)
 * Index 0 menrepresentasikan kalimat pertama dari corpus 
 * Index 1 menrepresentasikan kalimat kedua dari corpus
 * Index 2 menrepresentasikan kalimat ketiga dari corpus
 * dst
 
* Angka-Angka di kiri (kolom kedua),menrepresentasikan indeks dari features name yang dihasilkan dari bag of words kita

* Angka-Angka di kanan,mempresentasikan bobot dari TF-IDF hasil kalkulasi yang dilakukan TfidfVectorizer

In [None]:
vectorizer.get_feature_names()

In [None]:
response.todense() #transform ke bentuk array

Dari hasil tersebut,terbentuk array dua dimensi,dimana setiap rownya akan menrepresentasikan setiap kalimat atau setiap dokumen pada corpus kita

In [None]:
import pandas as pd 

df = pd.DataFrame(response.todense().T, # T= Melakukan proses Transpose
                 index=vectorizer.get_feature_names(),
                 columns=[f'D{i+1}' for i in range(len(corpus))])

df

Dalam pandas dataframe kita akan tampilkan kalimatnya dalam bentuk kolom,sedangkan barisnya akan digunakan untuk menrepresentasikan setiap tokennya

*Semakin tinggi bobot suatu kata terhadap suatu dokumen mengindikasikan bahwa kata tersebut semakin layak digunakan sebagai keyword atau kata pencarian terhadap dokumen tersebut*