# TF-IDF Search Using Cosine Similarity

# Import Packages

In [1]:
import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Read Dataset

Read dataset dan merubahnya menjadi objek dalam DataFrame dengan menggunakan method read_csv dari package panda

In [2]:
df = pd.read_csv('documents.csv')
pd.set_option('display.max_colwidth', None)
df.head(None)

Unnamed: 0,document,text
0,A,"90% data yang ada di dunia, dibuat hanya dalam dua tahun terakhir"
1,B,Suhu tubuh merupakan contoh dari data kontinu
2,C,"Dalam era revolusi industri 4.0 ini, data menjadi mata uang baru"
3,D,Data scientist bertugas menganalisis berbagai macam data dalam jumlah besar
4,E,Indexing atau pengindeksan merupakan suatu proses penting dalam IR
5,F,"Informasi adalah data yang disimpan, diproses, atau ditransmisikan"
6,G,Data adalah catatan atas kumpulan fakta
7,H,Machine Learning merupakan salah satu cabang dari disiplin ilmu Kecerdasan Buatan (AI) yang membahas mengenai pembangunan sistem yang berdasarkan pada data
8,I,"Jaringan saraf tiruan, adalah jaringan dari sekelompok unit pemroses kecil yang dimodelkan berdasarkan sistem saraf manusia"
9,J,Multilayer perceptron adalah kelas jaringan saraf tiruan feedforward


# TF-IDF Search Engine

Merubah collection dalam dataset menjadi matriks TF-IDF

In [3]:
vectorizer = TfidfVectorizer()

Method fit_transform digunakan untuk merubah teks yang diberikan menjadi skor TF-IDF untuk semua dokumen dan menyimpannya dalam bentuk objek (['banyak_dokumen', 'banyak_kata'])

In [4]:
X = vectorizer.fit_transform(df['text'])

In [5]:
print(X.shape)

(20, 177)


# Query Processing

Input query

In [6]:
query = "data"

Menggunakan method cosine_similarity untuk mendapatkan cosine similarity dari query yang diinputkan untuk semua dokumen pada dataset

In [7]:
query_vec = vectorizer.transform([query])
results = cosine_similarity(X,query_vec).reshape((-1,))

# Print Results

Menampilkan hasil pencarian dari query yang diinputkan dan melakukan ranking terhadap dokumen tersebut

In [8]:
for i in results.argsort()[-5:][::-1]:
    print('\033[1m' + '\033[91m' + df.iloc[i,0] + '\033[0m')
    print(df.iloc[i,1] + "\n")

[1m[91mD[0m
Data scientist bertugas menganalisis berbagai macam data dalam jumlah besar

[1m[91mG[0m
Data adalah catatan atas kumpulan fakta

[1m[91mF[0m
Informasi adalah data yang disimpan, diproses, atau ditransmisikan

[1m[91mB[0m
Suhu tubuh merupakan contoh dari data kontinu

[1m[91mC[0m
Dalam era revolusi industri 4.0 ini, data menjadi mata uang baru

