# **TEXT MINING 6 - TERM FREQUENCY & INVERSE DOCUMENT FREQUENCY**

Build Date | April, 18th 2020
--- | ---
Male Tutor | Gustian Herlambang & Pahmi Alifya Bahri
Female | Siti Rahmah & Imelda Putri Anggraini

## **A. PRELUDE**

`Term Frequency — Inverse Document Frequency` atau TF — IDF adalah suatu metode algoritma yang berguna untuk menghitung bobot setiap kata yang umum digunakan. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap **token (kata)** di setiap dokumen dalam korpus. Secara sederhana, metode TF-IDF digunakan untuk mengetahui berapa sering suatu kata muncul di dalam dokumen.

In [1]:
# import library
import re

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

In [2]:
# membaca file
documents = []
for i in range(1, 11):
  with open("source{}.txt".format(i), "r") as file:
    documents.append(file.read())

print(documents[0])

Pada masa modern ini masih banyak terdapat kenakalan remaja di tengah-tengah masyarakat khususnya masyarakat di daerah perkotaan. Kenakalan remaja dapat berupa perkelahian, balapan liar, perjudian, dan coret-coret di dinding tanpa ijin. Aksi corat-coret dinding biasanya dilakukan pada dinding-dinding bangunan perkantoran dan pada properti publik atau swasta. Hasil dari aksi corat-coret dinding dapat diketahui dari perubahan citra antara citra awal dengan citra setelah adanya sebuah gerakan. Penelitian ini mengembangkan sebuah sistem deteksi perubahan citra pada video untuk mendeteksi aksi corat-coret pada dinding melalui sebuah kamera Closed Circuit Television (CCTV) diamana dilakukan secara simulasi dengan menggunakan kamera webcam. Proses deteksi gerak dilakukan dengan metode Accumulative Differences Images (ADI) dan proses deteksi perubahan citra dilakukan dengan metode Illumination Invariant Change Detection ditambah dengan metode Cropping citra dimana hasilnya dilakukan perbanding

In [3]:
# case folding
for i, document in enumerate(documents):
  documents[i] = document.lower()

print(documents[0])

pada masa modern ini masih banyak terdapat kenakalan remaja di tengah-tengah masyarakat khususnya masyarakat di daerah perkotaan. kenakalan remaja dapat berupa perkelahian, balapan liar, perjudian, dan coret-coret di dinding tanpa ijin. aksi corat-coret dinding biasanya dilakukan pada dinding-dinding bangunan perkantoran dan pada properti publik atau swasta. hasil dari aksi corat-coret dinding dapat diketahui dari perubahan citra antara citra awal dengan citra setelah adanya sebuah gerakan. penelitian ini mengembangkan sebuah sistem deteksi perubahan citra pada video untuk mendeteksi aksi corat-coret pada dinding melalui sebuah kamera closed circuit television (cctv) diamana dilakukan secara simulasi dengan menggunakan kamera webcam. proses deteksi gerak dilakukan dengan metode accumulative differences images (adi) dan proses deteksi perubahan citra dilakukan dengan metode illumination invariant change detection ditambah dengan metode cropping citra dimana hasilnya dilakukan perbanding

In [8]:
# menghilangkan tanda baca
for i, document in enumerate(documents):
	documents[i] = re.sub(r'[.,(,);%]', "", document)

print(documents[0])

pada masa modern ini masih banyak terdapat kenakalan remaja di tengah-tengah masyarakat khususnya masyarakat di daerah perkotaan kenakalan remaja dapat berupa perkelahian balapan liar perjudian dan coret-coret di dinding tanpa ijin aksi corat-coret dinding biasanya dilakukan pada dinding-dinding bangunan perkantoran dan pada properti publik atau swasta hasil dari aksi corat-coret dinding dapat diketahui dari perubahan citra antara citra awal dengan citra setelah adanya sebuah gerakan penelitian ini mengembangkan sebuah sistem deteksi perubahan citra pada video untuk mendeteksi aksi corat-coret pada dinding melalui sebuah kamera closed circuit television cctv diamana dilakukan secara simulasi dengan menggunakan kamera webcam proses deteksi gerak dilakukan dengan metode accumulative differences images adi dan proses deteksi perubahan citra dilakukan dengan metode illumination invariant change detection ditambah dengan metode cropping citra dimana hasilnya dilakukan perbandingan antara ci

In [9]:
# menghilangkan angka
for i, document in enumerate(documents):
	documents[i] = re.sub(r'\d', "", document)

print(documents[0])

pada masa modern ini masih banyak terdapat kenakalan remaja di tengah-tengah masyarakat khususnya masyarakat di daerah perkotaan kenakalan remaja dapat berupa perkelahian balapan liar perjudian dan coret-coret di dinding tanpa ijin aksi corat-coret dinding biasanya dilakukan pada dinding-dinding bangunan perkantoran dan pada properti publik atau swasta hasil dari aksi corat-coret dinding dapat diketahui dari perubahan citra antara citra awal dengan citra setelah adanya sebuah gerakan penelitian ini mengembangkan sebuah sistem deteksi perubahan citra pada video untuk mendeteksi aksi corat-coret pada dinding melalui sebuah kamera closed circuit television cctv diamana dilakukan secara simulasi dengan menggunakan kamera webcam proses deteksi gerak dilakukan dengan metode accumulative differences images adi dan proses deteksi perubahan citra dilakukan dengan metode illumination invariant change detection ditambah dengan metode cropping citra dimana hasilnya dilakukan perbandingan antara ci

In [10]:
# menghapus stopwords
factory = StopWordRemoverFactory()
stopwords_remover = factory.create_stop_word_remover()

for i, document in enumerate(documents):
  documents[i] = stopwords_remover.remove(document)

print(documents[0])

masa modern masih banyak terdapat kenakalan remaja tengah-tengah masyarakat khususnya masyarakat daerah perkotaan kenakalan remaja berupa perkelahian balapan liar perjudian coret-coret dinding ijin aksi corat-coret dinding biasanya dilakukan dinding-dinding bangunan perkantoran properti publik swasta hasil aksi corat-coret dinding diketahui perubahan citra citra awal citra adanya sebuah gerakan penelitian mengembangkan sebuah sistem deteksi perubahan citra video mendeteksi aksi corat-coret dinding melalui sebuah kamera closed circuit television cctv diamana dilakukan simulasi menggunakan kamera webcam proses deteksi gerak dilakukan metode accumulative differences images adi proses deteksi perubahan citra dilakukan metode illumination invariant change detection ditambah metode cropping citra hasilnya dilakukan perbandingan citra referensi citra ada gerakan citra ada gerakan pengujian sistem dilakukan beberapa kondisi waktu berbeda pada pagi siang sore malam hari metode diajukan sistem d

In [11]:
# melihat stopwords
print(factory.get_stop_words())

['yang', 'untuk', 'pada', 'ke', 'para', 'namun', 'menurut', 'antara', 'dia', 'dua', 'ia', 'seperti', 'jika', 'jika', 'sehingga', 'kembali', 'dan', 'tidak', 'ini', 'karena', 'kepada', 'oleh', 'saat', 'harus', 'sementara', 'setelah', 'belum', 'kami', 'sekitar', 'bagi', 'serta', 'di', 'dari', 'telah', 'sebagai', 'masih', 'hal', 'ketika', 'adalah', 'itu', 'dalam', 'bisa', 'bahwa', 'atau', 'hanya', 'kita', 'dengan', 'akan', 'juga', 'ada', 'mereka', 'sudah', 'saya', 'terhadap', 'secara', 'agar', 'lain', 'anda', 'begitu', 'mengapa', 'kenapa', 'yaitu', 'yakni', 'daripada', 'itulah', 'lagi', 'maka', 'tentang', 'demi', 'dimana', 'kemana', 'pula', 'sambil', 'sebelum', 'sesudah', 'supaya', 'guna', 'kah', 'pun', 'sampai', 'sedangkan', 'selagi', 'sementara', 'tetapi', 'apakah', 'kecuali', 'sebab', 'selain', 'seolah', 'seraya', 'seterusnya', 'tanpa', 'agak', 'boleh', 'dapat', 'dsb', 'dst', 'dll', 'dahulu', 'dulunya', 'anu', 'demikian', 'tapi', 'ingin', 'juga', 'nggak', 'mari', 'nanti', 'melainkan', '

In [12]:
# stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

for i, document in enumerate(documents):
  documents[i] = stemmer.stem(document)

In [13]:
# fungsi untuk melakukan tokenisasi (memisahkan teks menjadi kata)
tokenize = lambda text: [token.strip() for token in text.split()]

# vektorisasi
count_vectorizer = CountVectorizer(tokenizer=tokenize)
count_vectorizer.fit(documents)

# transformasi data dengan vektorizer (proses vektorisasi)
data = count_vectorizer.transform(documents).toarray()
vocab = count_vectorizer.get_feature_names()



In [14]:
print("Jumlah Term of Frequency")
print(data)

Jumlah Term of Frequency
[[1 0 3 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [15]:
print("Vektor Features")
print(vocab)

Vektor Features
['accumulative', 'aceh', 'ada', 'adalah', 'adi', 'adu', 'ahp', 'ajar', 'aju', 'akan', 'akhir', 'akses', 'aksi', 'aktif', 'akurasi', 'alih', 'alternatif', 'ambil', 'amir', 'analisa', 'analytical', 'anggap', 'antara', 'apache', 'aparatur', 'asal', 'atas', 'awal', 'awas', 'awat', 'baca', 'badan', 'bagai', 'bagi', 'baik', 'bakat', 'balap', 'banding', 'bangun', 'bantu', 'banyak', 'baru', 'bas', 'basis', 'batuk', 'bayes', 'beberapa', 'beda', 'belimbing', 'benar', 'bentuk', 'beri', 'bersamaanmahasiswa', 'besar', 'biasa', 'bidang', 'bisa', 'bkd', 'blue', 'bobot', 'borda', 'boxing', 'buah', 'buka', 'bukan', 'bukti', 'burundi', 'butuh', 'calon', 'catat', 'cctv', 'change', 'chi', 'china', 'cipta', 'circuit', 'ciri', 'citra', 'closed', 'coba', 'cocok', 'corat-coret', 'coret', 'corona', 'course', 'covid-', 'credit', 'cropping', 'daerah', 'daftar', 'dan', 'dapat', 'dari', 'daring', 'dasar', 'data', 'database', 'datang', 'dekat', 'demam', 'demikian', 'detection', 'deteksi', 'di', 'dia

In [16]:
# hitung TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(documents)

tfidf = tfidf_vectorizer.transform(documents).toarray()
print("Jumlah TF-IDF")
print(tfidf)

Jumlah TF-IDF
[[0.05823289 0.         0.14850984 ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]


In [17]:
# bandingkan doc4 dan doc8
doc1_vect = tfidf[3].reshape(1, -1) # doc1
doc2_vect = tfidf[7].reshape(1, -1) # doc2

# hitung jarak
distance = cosine_similarity(doc1_vect, doc2_vect)
print("Kesamaan doc1 dan doc2: {:.2%}".format(distance.item(0)))

Kesamaan doc1 dan doc2: 4.77%


In [None]:
from sklearn.metrics.pairwise import euclidean_distances

doc1_vect = tfidf[1].reshape(1, -1) # doc1
doc2_vect = tfidf[2].reshape(1, -1) # doc2

# hitung jarak
distance = euclidean_distances(doc1_vect, doc2_vect)
print("Kesamaan doc1 dan doc2: {:.2%}".format(distance.item(0)))

In [None]:
import matplotlib.pyplot as plt
muncul_token.plot(80, cumulative=True)
print(muncul_token)