# **Pemodelan Vektor Kata dan Dokumen dengan TF-IDF**

**1.** Import library yang dibutuhkan

In [1]:
import nltk
import numpy as np
import random
import string
import re

**2. Tokenisasi**: memproses teks masukan (terdiri dari beberapa kalimat)

In [5]:
article_text = "Kekerasan Seksual adalah setiap perbuatan merendahkan, menghina, melecehkan.\n"
article_text += "Dan/atau menyerang tubuh, dan/atau fungsi reproduksi seseorang.\n"
article_text += "Karena ketimpangan relasi kuasa dan/atau gender, yang berakibat atau dapat berakibat penderitaan psikis.\n"
article_text += "Dan/atau fisik termasuk yang mengganggu kesehatan reproduksi seseorang.\n"
article_text += "Dan hilang kesempatan melaksanakan pendidikan dengan aman dan optimal.\n"

In [6]:
print(article_text)

Kekerasan Seksual adalah setiap perbuatan merendahkan, menghina, melecehkan.
Dan/atau menyerang tubuh, dan/atau fungsi reproduksi seseorang.
Karena ketimpangan relasi kuasa dan/atau gender, yang berakibat atau dapat berakibat penderitaan psikis.
Dan/atau fisik termasuk yang mengganggu kesehatan reproduksi seseorang.
Dan hilang kesempatan melaksanakan pendidikan dengan aman dan optimal.



In [7]:
nltk.download('punkt')
corpus = nltk.sent_tokenize(article_text)
print(corpus)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['Kekerasan Seksual adalah setiap perbuatan merendahkan, menghina, melecehkan.', 'Dan/atau menyerang tubuh, dan/atau fungsi reproduksi seseorang.', 'Karena ketimpangan relasi kuasa dan/atau gender, yang berakibat atau dapat berakibat penderitaan psikis.', 'Dan/atau fisik termasuk yang mengganggu kesehatan reproduksi seseorang.', 'Dan hilang kesempatan melaksanakan pendidikan dengan aman dan optimal.']


In [13]:
for i in range(len(corpus)):
  corpus[i] = corpus[i].lower()
  corpus[i] = re.sub(r'\W', ' ', corpus[i]) # hapus punctuation
  corpus[i] = re.sub(r'\s+', ' ', corpus[i]) # hapus spasi > 1
wordfreq = {}
for sentence in corpus:
  tokens = nltk.word_tokenize(sentence)
  for token in tokens:
    if token not in wordfreq.keys():
      wordfreq[token] = 1
    else:
      wordfreq[token] += 1
import heapq
# heapq.nlargest(n, iterable, key=None)
# n: The number of largest items to return.
# iterable: The container from which to extract the largest items.
# key: A function that is applied to each element before comparison. If omitted, the elements are compared directly.
most_freq = heapq.nlargest(5, wordfreq, key=wordfreq.get) # parameter dapat di-tune sesuai karakteristik data
# The get() method is a way to retrieve a value from a dictionary given a key. In this case, it's used as the key argument to heapq.nlargest() to specify that the comparison should be based on the frequency values associated with each word in wordfreq.
print(wordfreq)

{'kekerasan': 1, 'seksual': 1, 'adalah': 1, 'setiap': 1, 'perbuatan': 1, 'merendahkan': 1, 'menghina': 1, 'melecehkan': 1, 'dan': 6, 'atau': 5, 'menyerang': 1, 'tubuh': 1, 'fungsi': 1, 'reproduksi': 2, 'seseorang': 2, 'karena': 1, 'ketimpangan': 1, 'relasi': 1, 'kuasa': 1, 'gender': 1, 'yang': 2, 'berakibat': 2, 'dapat': 1, 'penderitaan': 1, 'psikis': 1, 'fisik': 1, 'termasuk': 1, 'mengganggu': 1, 'kesehatan': 1, 'hilang': 1, 'kesempatan': 1, 'melaksanakan': 1, 'pendidikan': 1, 'dengan': 1, 'aman': 1, 'optimal': 1}


**3.** Menghitung nilai **IDF**

Yang dianggap sebagai sebuah dokumen adalah 1 kalimat.

In [14]:
print(len(corpus))
print(corpus)
print(wordfreq)
print(most_freq)

5
['kekerasan seksual adalah setiap perbuatan merendahkan menghina melecehkan ', 'dan atau menyerang tubuh dan atau fungsi reproduksi seseorang ', 'karena ketimpangan relasi kuasa dan atau gender yang berakibat atau dapat berakibat penderitaan psikis ', 'dan atau fisik termasuk yang mengganggu kesehatan reproduksi seseorang ', 'dan hilang kesempatan melaksanakan pendidikan dengan aman dan optimal ']
{'kekerasan': 1, 'seksual': 1, 'adalah': 1, 'setiap': 1, 'perbuatan': 1, 'merendahkan': 1, 'menghina': 1, 'melecehkan': 1, 'dan': 6, 'atau': 5, 'menyerang': 1, 'tubuh': 1, 'fungsi': 1, 'reproduksi': 2, 'seseorang': 2, 'karena': 1, 'ketimpangan': 1, 'relasi': 1, 'kuasa': 1, 'gender': 1, 'yang': 2, 'berakibat': 2, 'dapat': 1, 'penderitaan': 1, 'psikis': 1, 'fisik': 1, 'termasuk': 1, 'mengganggu': 1, 'kesehatan': 1, 'hilang': 1, 'kesempatan': 1, 'melaksanakan': 1, 'pendidikan': 1, 'dengan': 1, 'aman': 1, 'optimal': 1}
['dan', 'atau', 'reproduksi', 'seseorang', 'yang']


In [16]:
word_idf_values = {}
x = 0
for token in most_freq:
  doc_containing_word = 0
  for document in corpus:
    x += 1
    if token in nltk.word_tokenize(document):
      doc_containing_word += 1
  word_idf_values[token] = np.log10(len(corpus)/(doc_containing_word))
  # After this loop, word_idf_values will contain IDF values for each word in most_freq, indicating how important each word is in distinguishing documents within the corpus.

In [18]:
print(word_idf_values)

{'dan': 0.09691001300805642, 'atau': 0.22184874961635637, 'reproduksi': 0.3979400086720376, 'seseorang': 0.3979400086720376, 'yang': 0.3979400086720376}


**4.** Menghitung nilai **TF**. Nilai TF yang digunakan adalah nilai yang dinormalisasi dengan panjang dokumen

In [19]:
word_tf_values = {}
for token in most_freq:
  sent_tf_vector = []
  for document in corpus:
    doc_freq = 0
    for word in nltk.word_tokenize(document):
      if token == word:
        doc_freq += 1
    word_tf = doc_freq # tanpa normalisasi
    #word_tf = doc_freq/len(nltk.word_tokenize(document)) # normalisasi dengan panjang dokumen
    sent_tf_vector.append(word_tf)
  word_tf_values[token] = sent_tf_vector

In [20]:
print(word_tf_values)

{'dan': [0, 2, 1, 1, 2], 'atau': [0, 2, 2, 1, 0], 'reproduksi': [0, 1, 0, 1, 0], 'seseorang': [0, 1, 0, 1, 0], 'yang': [0, 0, 1, 1, 0]}


**5.** Hitung Nilai **TF-IDF**

In [21]:
tfidf_values = []
for token in word_tf_values.keys():
  tfidf_sentences = []
  for tf_sentence in word_tf_values[token]:
    tf_idf_score = tf_sentence * word_idf_values[token]
    tfidf_sentences.append(tf_idf_score)
  tfidf_values.append(tfidf_sentences)

In [22]:
print(tfidf_values)

[[0.0, 0.19382002601611284, 0.09691001300805642, 0.09691001300805642, 0.19382002601611284], [0.0, 0.44369749923271273, 0.44369749923271273, 0.22184874961635637, 0.0], [0.0, 0.3979400086720376, 0.0, 0.3979400086720376, 0.0], [0.0, 0.3979400086720376, 0.0, 0.3979400086720376, 0.0], [0.0, 0.0, 0.3979400086720376, 0.3979400086720376, 0.0]]


**6.** Tampilkan sebagai array

In [23]:
tf_idf_model = np.asarray(tfidf_values)
tf_idf_model = np.transpose(tf_idf_model)
print(tf_idf_model)

[[0.         0.         0.         0.         0.        ]
 [0.19382003 0.4436975  0.39794001 0.39794001 0.        ]
 [0.09691001 0.4436975  0.         0.         0.39794001]
 [0.09691001 0.22184875 0.39794001 0.39794001 0.39794001]
 [0.19382003 0.         0.         0.         0.        ]]


**7.** Hitung **cosine similarity** antar kalimat

Cosine similarity antara kalimat 1 dan 2

In [25]:
cos_sim_01 = np.dot(tf_idf_model[0],tf_idf_model[1])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[1])
print(str(cos_sim_01))

nan


  cos_sim_01 = np.dot(tf_idf_model[0],tf_idf_model[1])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[1])


Cosine similarity antara kalimat 1 dan 3

In [26]:
cos_sim_02 = np.dot(tf_idf_model[0],tf_idf_model[2])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[2])
print(str(cos_sim_02))

nan


  cos_sim_02 = np.dot(tf_idf_model[0],tf_idf_model[2])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[2])


Cosine similarity antara kalimat 1 dan 4

In [27]:
cos_sim_03 = np.dot(tf_idf_model[0],tf_idf_model[3])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[3])
print(str(cos_sim_03))

nan


  cos_sim_03 = np.dot(tf_idf_model[0],tf_idf_model[3])/np.linalg.norm(tf_idf_model[0])*np.linalg.norm(tf_idf_model[3])


Cosine similarity antara kalimat 4 dan 5

In [28]:
cos_sim_34 = np.dot(tf_idf_model[3],tf_idf_model[4])/np.linalg.norm(tf_idf_model[3])*np.linalg.norm(tf_idf_model[4])
print(str(cos_sim_34))

0.004983410175761161
