# Document Similarity with Cosine Similarity 

## Import Library

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from warnings import filterwarnings
filterwarnings('ignore')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re
from string import punctuation
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

sw_indo = stopwords.words('indonesian')

## Import Data

In [2]:
df = pd.read_csv("data/kompas.csv")
df.head()

Unnamed: 0,teks
0,Ginandjar Tetap Ditahan. Jaksa Agung Dilaporka...
1,Jakarta Dikangkangi Para Preman\nKALAU tak pun...
2,Penyimpangan di Setpres Seolah Terjadi Sekaran...
3,"Dibayarkan, Rapel Kenaikan Gaji Pegawai Pos\nK..."
4,"Stop Kekerasan, Elite agar Duduk Bersama\nSeju..."


In [3]:
df.shape

(2008, 1)

Data terdiri dari 2008 baris dan 1 kolom.

In [4]:
df.dtypes

teks    object
dtype: object

Tipe data telah sesuai.

In [5]:
df.isna().sum()

teks    0
dtype: int64

Data telah bersih.

## Cleaning 

In [7]:
def cleansing(text):
    word_list = word_tokenize(text)
    word_list = [word for word in word_list if len(word) > 1 and word.isalpha()]
    word_list = [word for word in word_list if word not in punctuation]
    word_list = [word for word in word_list if word not in sw_indo]
    text = ' '.join(word_list)
    return text

In [8]:
df['teks'] = df.teks.apply(cleansing)

In [9]:
df.head()

Unnamed: 0,teks
0,Ginandjar Tetap Ditahan Jaksa Agung Dilaporkan...
1,Jakarta Dikangkangi Para Preman KALAU nyali ua...
2,Penyimpangan Setpres Seolah Terjadi Sekarang P...
3,Dibayarkan Rapel Kenaikan Gaji Pegawai Pos Ken...
4,Stop Kekerasan Elite Duduk Bersama Sejumlah in...


## Extract Features 

In [11]:
tfidf = TfidfVectorizer(ngram_range=(1, 2), min_df=2)

In [12]:
tfidf_matrix = tfidf.fit_transform(df.teks)

## Cosine Similarity

In [16]:
from sklearn.metrics.pairwise import cosine_similarity

In [17]:
sim = cosine_similarity(tfidf_matrix[0], tfidf_matrix)
sim

array([[1.        , 0.00916904, 0.01255362, ..., 0.00640402, 0.00811811,
        0.01923131]])

Kita akan sorting berdasarkan nilai lalu tampilkan indexnya.

In [18]:
sim.argsort()

array([[ 932, 1131,  958, ...,  144,  215,    0]], dtype=int64)

Sorting dari kecil ke besar.

## Cek hasil 

In [23]:
df.teks[0][:200]

'Ginandjar Tetap Ditahan Jaksa Agung Dilaporkan Polri Kejaksaan Agung memutuskan menahan tersangka korupsi Ginandjar Kartasasmita batas ditentukan KUHAP Sedangkan kuasa hukum Ginandjar Senin malam ruan'

In [24]:
df.teks[215][:200]

'Kuasa Hukum Ginandjar Bertahan Rutan Sejumlah kuasa hukum Ginandjar Kartasasmita Selasa bertahan ruang tahanan rutan Kejaksaan Agung Kejagung Selasa pagi mengirimkan surat resmi Kejagung isinya Kejagu'

In [25]:
df.teks[144][:200]

'Kejaksaan Agung Terbitkan Surat Penahanan Baru Kejaksaan Agung Kejagung menerbitkan surat perintah penahanan mantan Menteri Pertambangan Energi Ginandjar Kartasasmita Dalam Surat Perintah Penahanan No'

Dapat dilihat bahwa isi berita mirip.

In [26]:
df.teks[932][:200]

'Pusat Pengolahan Ikan Asin Lhokseumawe Terbakar Pusat pengolahan ikan asin kawasan Pasar Ikan Lhokseumawe Aceh terbakar stok ikan asin Sabtu siang Sedikitnya gudang pengolahan ikan asin gubuk buruh ne'

Sedangkan berita indeks 932 sangat tidak mirip.