# **Pointwise Positive Mutual Information**

**Positive Pointwise Mutual Information (PPMI)** adalah metrik yang digunakan dalam pemrosesan bahasa alami (NLP) untuk mengevaluasi keterkaitan antara dua kata dalam sebuah korpus teks.



Singkatnya, PPMI mengukur kecenderungan dua kata untuk muncul bersama lebih sering daripada yang diharapkan secara acak. Hal ini digunakan dalam berbagai aplikasi NLP, seperti dalam konstruksi model representasi kata, deteksi asosiasi kata, atau dalam proses pembedaan kata yang relevan dari yang tidak relevan dalam konteks tertentu.

**1.** Import library

In [2]:
import nltk
import numpy as np
import random
import string
import re

**2.** Read file

In [4]:
article_text = 'Kami sudah buat simulasi-simulasi.Secara nasional DPP sudah menetapkan bahwa Golkar dalam Pilkada Serentak ini punya target 60 persen.'
article_text += 'Doli menyampaikan Golkar sudah memulai penjaringan kandidat di tingkat daerah sejak awal tahun.'
article_text += 'Pada minggu kedua Maret, kata dia, Golkar akan menguji bakal calon yang mereka usung lewat survei.'
article_text += 'Azis tak menampik kalau Golkar akan membuka pintu koalisi dengan partai-partai di luar koalisi pemerintah pusat.'
article_text += 'Sebab menurutnya perlu strategi berbeda menyikapi situasi di berbagai daerah.'

article_text

'Kami sudah buat simulasi-simulasi.Secara nasional DPP sudah menetapkan bahwa Golkar dalam Pilkada Serentak ini punya target 60 persen.Doli menyampaikan Golkar sudah memulai penjaringan kandidat di tingkat daerah sejak awal tahun.Pada minggu kedua Maret, kata dia, Golkar akan menguji bakal calon yang mereka usung lewat survei.Azis tak menampik kalau Golkar akan membuka pintu koalisi dengan partai-partai di luar koalisi pemerintah pusat.Sebab menurutnya perlu strategi berbeda menyikapi situasi di berbagai daerah.'

In [5]:
nltk.download('punkt')
corpus = nltk.sent_tokenize(article_text)
print(corpus)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['Kami sudah buat simulasi-simulasi.Secara nasional DPP sudah menetapkan bahwa Golkar dalam Pilkada Serentak ini punya target 60 persen.Doli menyampaikan Golkar sudah memulai penjaringan kandidat di tingkat daerah sejak awal tahun.Pada minggu kedua Maret, kata dia, Golkar akan menguji bakal calon yang mereka usung lewat survei.Azis tak menampik kalau Golkar akan membuka pintu koalisi dengan partai-partai di luar koalisi pemerintah pusat.Sebab menurutnya perlu strategi berbeda menyikapi situasi di berbagai daerah.']


In [7]:
for i in range(len(corpus)):
  corpus[i] = corpus[i].lower()
  corpus[i] = re.sub(r'\W', ' ', corpus[i]) # hapus punctuation
  corpus[i] = re.sub(r'\s+', ' ', corpus[i]) # hapus extra space

In [9]:
print(corpus)

['kami sudah buat simulasi simulasi secara nasional dpp sudah menetapkan bahwa golkar dalam pilkada serentak ini punya target 60 persen doli menyampaikan golkar sudah memulai penjaringan kandidat di tingkat daerah sejak awal tahun pada minggu kedua maret kata dia golkar akan menguji bakal calon yang mereka usung lewat survei azis tak menampik kalau golkar akan membuka pintu koalisi dengan partai partai di luar koalisi pemerintah pusat sebab menurutnya perlu strategi berbeda menyikapi situasi di berbagai daerah ']


**3.** Hitung **frekuensi kemunculan** tiap token/kata

In [10]:
mod_sentences = []
for sentence in corpus:
  mod_sentence = []
  sent_tokens = nltk.word_tokenize(sentence)
  mod_sentence.append('<s>')
  for token in sent_tokens:
    mod_sentence.append(token)
  mod_sentence.append('</s>')
  mod_sentences.append(mod_sentence)

print(mod_sentences)
print(len(mod_sentences))


[['<s>', 'kami', 'sudah', 'buat', 'simulasi', 'simulasi', 'secara', 'nasional', 'dpp', 'sudah', 'menetapkan', 'bahwa', 'golkar', 'dalam', 'pilkada', 'serentak', 'ini', 'punya', 'target', '60', 'persen', 'doli', 'menyampaikan', 'golkar', 'sudah', 'memulai', 'penjaringan', 'kandidat', 'di', 'tingkat', 'daerah', 'sejak', 'awal', 'tahun', 'pada', 'minggu', 'kedua', 'maret', 'kata', 'dia', 'golkar', 'akan', 'menguji', 'bakal', 'calon', 'yang', 'mereka', 'usung', 'lewat', 'survei', 'azis', 'tak', 'menampik', 'kalau', 'golkar', 'akan', 'membuka', 'pintu', 'koalisi', 'dengan', 'partai', 'partai', 'di', 'luar', 'koalisi', 'pemerintah', 'pusat', 'sebab', 'menurutnya', 'perlu', 'strategi', 'berbeda', 'menyikapi', 'situasi', 'di', 'berbagai', 'daerah', '</s>']]
1


In [11]:
wordfreq = {}
for sentence in corpus:
  tokens = nltk.word_tokenize(sentence)
  for token in tokens:
    if token not in wordfreq.keys():
      wordfreq[token] = 1
    else:
      wordfreq[token] += 1

In [13]:
import heapq
most_freq = heapq.nlargest(200, wordfreq, key=wordfreq.get)
print(most_freq)
print(wordfreq)

['golkar', 'sudah', 'di', 'simulasi', 'daerah', 'akan', 'koalisi', 'partai', 'kami', 'buat', 'secara', 'nasional', 'dpp', 'menetapkan', 'bahwa', 'dalam', 'pilkada', 'serentak', 'ini', 'punya', 'target', '60', 'persen', 'doli', 'menyampaikan', 'memulai', 'penjaringan', 'kandidat', 'tingkat', 'sejak', 'awal', 'tahun', 'pada', 'minggu', 'kedua', 'maret', 'kata', 'dia', 'menguji', 'bakal', 'calon', 'yang', 'mereka', 'usung', 'lewat', 'survei', 'azis', 'tak', 'menampik', 'kalau', 'membuka', 'pintu', 'dengan', 'luar', 'pemerintah', 'pusat', 'sebab', 'menurutnya', 'perlu', 'strategi', 'berbeda', 'menyikapi', 'situasi', 'berbagai']
{'kami': 1, 'sudah': 3, 'buat': 1, 'simulasi': 2, 'secara': 1, 'nasional': 1, 'dpp': 1, 'menetapkan': 1, 'bahwa': 1, 'golkar': 4, 'dalam': 1, 'pilkada': 1, 'serentak': 1, 'ini': 1, 'punya': 1, 'target': 1, '60': 1, 'persen': 1, 'doli': 1, 'menyampaikan': 1, 'memulai': 1, 'penjaringan': 1, 'kandidat': 1, 'di': 3, 'tingkat': 1, 'daerah': 2, 'sejak': 1, 'awal': 1, 'tah

**4.** Hitung nilai **IDF**

In [14]:
word_idf_values = {}
x = 0
for token in most_freq:
  doc_containing_word = 0
  for document in corpus:
    x += 1
    if token in nltk.word_tokenize(document):
      doc_containing_word += 1
  word_idf_values[token] = np.log10(len(corpus)/(doc_containing_word))

word_idf_values

{'golkar': 0.0,
 'sudah': 0.0,
 'di': 0.0,
 'simulasi': 0.0,
 'daerah': 0.0,
 'akan': 0.0,
 'koalisi': 0.0,
 'partai': 0.0,
 'kami': 0.0,
 'buat': 0.0,
 'secara': 0.0,
 'nasional': 0.0,
 'dpp': 0.0,
 'menetapkan': 0.0,
 'bahwa': 0.0,
 'dalam': 0.0,
 'pilkada': 0.0,
 'serentak': 0.0,
 'ini': 0.0,
 'punya': 0.0,
 'target': 0.0,
 '60': 0.0,
 'persen': 0.0,
 'doli': 0.0,
 'menyampaikan': 0.0,
 'memulai': 0.0,
 'penjaringan': 0.0,
 'kandidat': 0.0,
 'tingkat': 0.0,
 'sejak': 0.0,
 'awal': 0.0,
 'tahun': 0.0,
 'pada': 0.0,
 'minggu': 0.0,
 'kedua': 0.0,
 'maret': 0.0,
 'kata': 0.0,
 'dia': 0.0,
 'menguji': 0.0,
 'bakal': 0.0,
 'calon': 0.0,
 'yang': 0.0,
 'mereka': 0.0,
 'usung': 0.0,
 'lewat': 0.0,
 'survei': 0.0,
 'azis': 0.0,
 'tak': 0.0,
 'menampik': 0.0,
 'kalau': 0.0,
 'membuka': 0.0,
 'pintu': 0.0,
 'dengan': 0.0,
 'luar': 0.0,
 'pemerintah': 0.0,
 'pusat': 0.0,
 'sebab': 0.0,
 'menurutnya': 0.0,
 'perlu': 0.0,
 'strategi': 0.0,
 'berbeda': 0.0,
 'menyikapi': 0.0,
 'situasi': 0.0,
 'b

**5.** Hitung Nilai **TF**

In [15]:
word_tf_values = {}
for token in most_freq:
  sent_tf_vector = []
  for document in corpus:
    doc_freq = 0
    for word in nltk.word_tokenize(document):
      if token == word:
        doc_freq += 1
    word_tf = doc_freq/len(nltk.word_tokenize(document)) # normalisasi dgn panjang dokumen
    sent_tf_vector.append(word_tf)
  word_tf_values[token] = sent_tf_vector

word_tf_values

{'golkar': [0.05263157894736842],
 'sudah': [0.039473684210526314],
 'di': [0.039473684210526314],
 'simulasi': [0.02631578947368421],
 'daerah': [0.02631578947368421],
 'akan': [0.02631578947368421],
 'koalisi': [0.02631578947368421],
 'partai': [0.02631578947368421],
 'kami': [0.013157894736842105],
 'buat': [0.013157894736842105],
 'secara': [0.013157894736842105],
 'nasional': [0.013157894736842105],
 'dpp': [0.013157894736842105],
 'menetapkan': [0.013157894736842105],
 'bahwa': [0.013157894736842105],
 'dalam': [0.013157894736842105],
 'pilkada': [0.013157894736842105],
 'serentak': [0.013157894736842105],
 'ini': [0.013157894736842105],
 'punya': [0.013157894736842105],
 'target': [0.013157894736842105],
 '60': [0.013157894736842105],
 'persen': [0.013157894736842105],
 'doli': [0.013157894736842105],
 'menyampaikan': [0.013157894736842105],
 'memulai': [0.013157894736842105],
 'penjaringan': [0.013157894736842105],
 'kandidat': [0.013157894736842105],
 'tingkat': [0.01315789473

In [16]:
word_tf_values = {}
for token in most_freq:
  sent_tf_vector = []
  for document in corpus:
    doc_freq = 0
    for word in nltk.word_tokenize(document):
      if token == word:
        doc_freq += 1
    word_tf = doc_freq
    sent_tf_vector.append(word_tf)
  word_tf_values[token] = sent_tf_vector

word_tf_values

{'golkar': [4],
 'sudah': [3],
 'di': [3],
 'simulasi': [2],
 'daerah': [2],
 'akan': [2],
 'koalisi': [2],
 'partai': [2],
 'kami': [1],
 'buat': [1],
 'secara': [1],
 'nasional': [1],
 'dpp': [1],
 'menetapkan': [1],
 'bahwa': [1],
 'dalam': [1],
 'pilkada': [1],
 'serentak': [1],
 'ini': [1],
 'punya': [1],
 'target': [1],
 '60': [1],
 'persen': [1],
 'doli': [1],
 'menyampaikan': [1],
 'memulai': [1],
 'penjaringan': [1],
 'kandidat': [1],
 'tingkat': [1],
 'sejak': [1],
 'awal': [1],
 'tahun': [1],
 'pada': [1],
 'minggu': [1],
 'kedua': [1],
 'maret': [1],
 'kata': [1],
 'dia': [1],
 'menguji': [1],
 'bakal': [1],
 'calon': [1],
 'yang': [1],
 'mereka': [1],
 'usung': [1],
 'lewat': [1],
 'survei': [1],
 'azis': [1],
 'tak': [1],
 'menampik': [1],
 'kalau': [1],
 'membuka': [1],
 'pintu': [1],
 'dengan': [1],
 'luar': [1],
 'pemerintah': [1],
 'pusat': [1],
 'sebab': [1],
 'menurutnya': [1],
 'perlu': [1],
 'strategi': [1],
 'berbeda': [1],
 'menyikapi': [1],
 'situasi': [1],
 'b

**6.** Hitung nilai **TF-IDF**

In [17]:
tfidf_values = []
for token in word_tf_values.keys():
  tfidf_sentences = []
  for tf_sentence in word_tf_values[token]:
    tf_idf_score = tf_sentence * word_idf_values[token]
    tfidf_sentences.append(tf_idf_score)
  tfidf_values.append(tfidf_sentences)

tfidf_values

[[0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0],
 [0.0]]

In [18]:
tf_idf_model = np.asarray(tfidf_values)
tf_idf_model = np.transpose(tf_idf_model)
print(tf_idf_model)

[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [19]:
print(np.shape(tf_idf_model))

(1, 64)


**Elemen matriks TF-IDF dan PPMI yang bernilai tidak sama dengan 0**

In [20]:
def count_zero(matrix):
  num_of_elm = 0
  count = 0
  for elements in matrix:
    for vector in elements:
      if (vector != 0.0):
        count += 1
      num_of_elm += 1
  return(count/num_of_elm) * 100

In [21]:
print(str(count_zero(tfidf_values)))

0.0


In [22]:
tf_idfmodel = np.asarray(word_tf_values)
tf_idfmodel = np.transpose(tf_idfmodel)
print(tf_idfmodel)

{'golkar': [4], 'sudah': [3], 'di': [3], 'simulasi': [2], 'daerah': [2], 'akan': [2], 'koalisi': [2], 'partai': [2], 'kami': [1], 'buat': [1], 'secara': [1], 'nasional': [1], 'dpp': [1], 'menetapkan': [1], 'bahwa': [1], 'dalam': [1], 'pilkada': [1], 'serentak': [1], 'ini': [1], 'punya': [1], 'target': [1], '60': [1], 'persen': [1], 'doli': [1], 'menyampaikan': [1], 'memulai': [1], 'penjaringan': [1], 'kandidat': [1], 'tingkat': [1], 'sejak': [1], 'awal': [1], 'tahun': [1], 'pada': [1], 'minggu': [1], 'kedua': [1], 'maret': [1], 'kata': [1], 'dia': [1], 'menguji': [1], 'bakal': [1], 'calon': [1], 'yang': [1], 'mereka': [1], 'usung': [1], 'lewat': [1], 'survei': [1], 'azis': [1], 'tak': [1], 'menampik': [1], 'kalau': [1], 'membuka': [1], 'pintu': [1], 'dengan': [1], 'luar': [1], 'pemerintah': [1], 'pusat': [1], 'sebab': [1], 'menurutnya': [1], 'perlu': [1], 'strategi': [1], 'berbeda': [1], 'menyikapi': [1], 'situasi': [1], 'berbagai': [1]}


**Nilai *cosine similarity* antar dokumen dengan topik yang sama**

Topik yang sama

In [25]:
cos_sim_02 = np.dot(tf_idf_model[0,1],tf_idf_model[0,6])/np.linalg.norm(tf_idf_model[0,1])*np.linalg.norm(tf_idf_model[0,6])
print(str(cos_sim_02))

nan


  cos_sim_02 = np.dot(tf_idf_model[0,1],tf_idf_model[0,6])/np.linalg.norm(tf_idf_model[0,1])*np.linalg.norm(tf_idf_model[0,6])


In [26]:
cos_sim_02 = np.dot(tf_idf_model[0,0],tf_idf_model[0,5])/np.linalg.norm(tf_idf_model[0,0])*np.linalg.norm(tf_idf_model[0,5])
print(str(cos_sim_02))

nan


  cos_sim_02 = np.dot(tf_idf_model[0,0],tf_idf_model[0,5])/np.linalg.norm(tf_idf_model[0,0])*np.linalg.norm(tf_idf_model[0,5])


Topik yang beda

In [28]:
cos_sim_01 = np.dot(tf_idf_model[0,5],tf_idf_model[0,19])/np.linalg.norm(tf_idf_model[0,5])*np.linalg.norm(tf_idf_model[0,19])
print(str(cos_sim_01))

nan


  cos_sim_01 = np.dot(tf_idf_model[0,5],tf_idf_model[0,19])/np.linalg.norm(tf_idf_model[0,5])*np.linalg.norm(tf_idf_model[0,19])


In [29]:
cos_sim_01 = np.dot(tf_idf_model[0,1],tf_idf_model[0,17])/np.linalg.norm(tf_idf_model[0,1])*np.linalg.norm(tf_idf_model[0,17])
print(str(cos_sim_01))

nan


  cos_sim_01 = np.dot(tf_idf_model[0,1],tf_idf_model[0,17])/np.linalg.norm(tf_idf_model[0,1])*np.linalg.norm(tf_idf_model[0,17])


**Hitung nilai *cosine similarity* antar kata**

Topik yang sama

In [30]:
cos_sim_01 = np.dot(tfidf_values[1],tfidf_values[6])/np.linalg.norm(tfidf_values[1])*np.linalg.norm(tfidf_values[6])
print(str(cos_sim_01))

nan


  cos_sim_01 = np.dot(tfidf_values[1],tfidf_values[6])/np.linalg.norm(tfidf_values[1])*np.linalg.norm(tfidf_values[6])


In [31]:
cos_sim_01 = np.dot(tfidf_values[0],tfidf_values[9])/np.linalg.norm(tfidf_values[0])*np.linalg.norm(tfidf_values[9])
print(str(cos_sim_01))

nan


  cos_sim_01 = np.dot(tfidf_values[0],tfidf_values[9])/np.linalg.norm(tfidf_values[0])*np.linalg.norm(tfidf_values[9])


Topik yang beda

In [32]:
cos_sim_02 = np.dot(tfidf_values[2],tfidf_values[19])/np.linalg.norm(tfidf_values[2])*np.linalg.norm(tfidf_values[19])
print(str(cos_sim_02))

nan


  cos_sim_02 = np.dot(tfidf_values[2],tfidf_values[19])/np.linalg.norm(tfidf_values[2])*np.linalg.norm(tfidf_values[19])


In [33]:
cos_sim_02 = np.dot(tfidf_values[2],tfidf_values[14])/np.linalg.norm(tfidf_values[2])*np.linalg.norm(tfidf_values[14])
print(str(cos_sim_02))

nan


  cos_sim_02 = np.dot(tfidf_values[2],tfidf_values[14])/np.linalg.norm(tfidf_values[2])*np.linalg.norm(tfidf_values[14])


**PPMI**

In [34]:
nltk.download('punkt')
corpus = nltk.sent_tokenize(article_text)

for i in range(len(corpus )):
    corpus [i] = corpus [i].lower()
    corpus [i] = re.sub(r'\W',' ',corpus [i]) # hapus punctuation / tanda baca
    corpus [i] = re.sub(r'\s+',' ',corpus [i]) # hapus spasi berlebih

vocab_freq = {}
for sentence in corpus:
    tokens = nltk.word_tokenize(sentence)
    for token in tokens:
        if token not in vocab_freq:
          vocab_freq[token] = 1
        else:
          vocab_freq[token] += 1

print(vocab_freq)

{'kami': 1, 'sudah': 3, 'buat': 1, 'simulasi': 2, 'secara': 1, 'nasional': 1, 'dpp': 1, 'menetapkan': 1, 'bahwa': 1, 'golkar': 4, 'dalam': 1, 'pilkada': 1, 'serentak': 1, 'ini': 1, 'punya': 1, 'target': 1, '60': 1, 'persen': 1, 'doli': 1, 'menyampaikan': 1, 'memulai': 1, 'penjaringan': 1, 'kandidat': 1, 'di': 3, 'tingkat': 1, 'daerah': 2, 'sejak': 1, 'awal': 1, 'tahun': 1, 'pada': 1, 'minggu': 1, 'kedua': 1, 'maret': 1, 'kata': 1, 'dia': 1, 'akan': 2, 'menguji': 1, 'bakal': 1, 'calon': 1, 'yang': 1, 'mereka': 1, 'usung': 1, 'lewat': 1, 'survei': 1, 'azis': 1, 'tak': 1, 'menampik': 1, 'kalau': 1, 'membuka': 1, 'pintu': 1, 'koalisi': 2, 'dengan': 1, 'partai': 2, 'luar': 1, 'pemerintah': 1, 'pusat': 1, 'sebab': 1, 'menurutnya': 1, 'perlu': 1, 'strategi': 1, 'berbeda': 1, 'menyikapi': 1, 'situasi': 1, 'berbagai': 1}


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [35]:
# inisialisasi matriks co-occurrence
co_occurrence_mat = {}
for token_1 in vocab_freq.keys():
  co_occurrence_terms = []
  for token_2 in vocab_freq.keys():
     co_occurrence_mat[(token_1,token_2)] = 0

# set ukuran window
window_size = 2 # contoh, ukuran window = 2

# inisialisasi jumlah bigram (term, context) yang muncul
sum_term_context = 0 # jumlah kemunculan term, context

# proses
for sentence in corpus:
  tokens = nltk.word_tokenize(sentence)
  for i in range(0,len(tokens)):
    # konteks kata-kata sebelah kiri
    left_index = i-1
    while left_index >= 0 and left_index >= i-window_size:
      token_1 = tokens[i]
      token_2 = tokens[left_index]
      co_occurrence_mat[(token_1,token_2)] += 1
      sum_term_context += 1
      left_index = left_index - 1
    # konteks kata-kata sebelah kanan
    right_index = i+1
    while right_index < len(tokens) and right_index <= i+window_size:
      token_1 = tokens[i]
      token_2 = tokens[right_index]
      co_occurrence_mat[(token_1,token_2)] += 1
      sum_term_context += 1
      right_index = right_index + 1

print(co_occurrence_mat)


{('kami', 'kami'): 0, ('kami', 'sudah'): 1, ('kami', 'buat'): 1, ('kami', 'simulasi'): 0, ('kami', 'secara'): 0, ('kami', 'nasional'): 0, ('kami', 'dpp'): 0, ('kami', 'menetapkan'): 0, ('kami', 'bahwa'): 0, ('kami', 'golkar'): 0, ('kami', 'dalam'): 0, ('kami', 'pilkada'): 0, ('kami', 'serentak'): 0, ('kami', 'ini'): 0, ('kami', 'punya'): 0, ('kami', 'target'): 0, ('kami', '60'): 0, ('kami', 'persen'): 0, ('kami', 'doli'): 0, ('kami', 'menyampaikan'): 0, ('kami', 'memulai'): 0, ('kami', 'penjaringan'): 0, ('kami', 'kandidat'): 0, ('kami', 'di'): 0, ('kami', 'tingkat'): 0, ('kami', 'daerah'): 0, ('kami', 'sejak'): 0, ('kami', 'awal'): 0, ('kami', 'tahun'): 0, ('kami', 'pada'): 0, ('kami', 'minggu'): 0, ('kami', 'kedua'): 0, ('kami', 'maret'): 0, ('kami', 'kata'): 0, ('kami', 'dia'): 0, ('kami', 'akan'): 0, ('kami', 'menguji'): 0, ('kami', 'bakal'): 0, ('kami', 'calon'): 0, ('kami', 'yang'): 0, ('kami', 'mereka'): 0, ('kami', 'usung'): 0, ('kami', 'lewat'): 0, ('kami', 'survei'): 0, ('kam

Inisialisasi jumlah kemunculan sebuah term sebagai bagian dari bigram

In [36]:
bigram_count = {}

Buat fungsi untuk print matriks co-occurrence, untuk contoh data yang tidak terlalu banyak. Proses ini sekaligus mengisi nilai jumlah kemunculan sebuah term sebagai bagian dari bigram.

In [37]:
def print_cooccurrence_mat():
  str_token = '\t'
  for token in vocab_freq.keys():
    str_token += '\t\t'+token
  print(str_token)
  for token_1 in vocab_freq.keys():
    str_row = token_1+'\t'
    curr_bigram_count = 0
    bigram_count[token_1] = 0
    #print(token_1)
    for token_2 in vocab_freq.keys():
      str_row += '\t\t'+str(co_occurrence_mat[(token_1,token_2)])
      curr_bigram_count += co_occurrence_mat[(token_1,token_2)] # update jumlah kemunculan term
    bigram_count[token_1] = curr_bigram_count # assignemnt jumlah kemunculan term sebagai bagian dari bigram
    print(str_row)
  return str_row


In [38]:
print_cooccurrence_mat()

			kami		sudah		buat		simulasi		secara		nasional		dpp		menetapkan		bahwa		golkar		dalam		pilkada		serentak		ini		punya		target		60		persen		doli		menyampaikan		memulai		penjaringan		kandidat		di		tingkat		daerah		sejak		awal		tahun		pada		minggu		kedua		maret		kata		dia		akan		menguji		bakal		calon		yang		mereka		usung		lewat		survei		azis		tak		menampik		kalau		membuka		pintu		koalisi		dengan		partai		luar		pemerintah		pusat		sebab		menurutnya		perlu		strategi		berbeda		menyikapi		situasi		berbagai
kami			0		1		1		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0
sudah			1		0		1		1		0		1		1		1		1		1		0		0		0		0		0		0		0		0		0		1		1		1		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0
buat			1		1		0		2		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0		0

'berbagai\t\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t1\t\t0\t\t1\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t0\t\t1\t\t0'

In [39]:
print(bigram_count)

{'kami': 2, 'sudah': 11, 'buat': 4, 'simulasi': 8, 'secara': 4, 'nasional': 4, 'dpp': 4, 'menetapkan': 4, 'bahwa': 4, 'golkar': 16, 'dalam': 4, 'pilkada': 4, 'serentak': 4, 'ini': 4, 'punya': 4, 'target': 4, '60': 4, 'persen': 4, 'doli': 4, 'menyampaikan': 4, 'memulai': 4, 'penjaringan': 4, 'kandidat': 4, 'di': 12, 'tingkat': 4, 'daerah': 6, 'sejak': 4, 'awal': 4, 'tahun': 4, 'pada': 4, 'minggu': 4, 'kedua': 4, 'maret': 4, 'kata': 4, 'dia': 4, 'akan': 8, 'menguji': 4, 'bakal': 4, 'calon': 4, 'yang': 4, 'mereka': 4, 'usung': 4, 'lewat': 4, 'survei': 4, 'azis': 4, 'tak': 4, 'menampik': 4, 'kalau': 4, 'membuka': 4, 'pintu': 4, 'koalisi': 8, 'dengan': 4, 'partai': 8, 'luar': 4, 'pemerintah': 4, 'pusat': 4, 'sebab': 4, 'menurutnya': 4, 'perlu': 4, 'strategi': 4, 'berbeda': 4, 'menyikapi': 4, 'situasi': 4, 'berbagai': 3}


Print isi matriks co-occurrence, dan print jumlah term/context yang muncul pada dokumen

In [40]:
print(co_occurrence_mat)
print(sum_term_context)

{('kami', 'kami'): 0, ('kami', 'sudah'): 1, ('kami', 'buat'): 1, ('kami', 'simulasi'): 0, ('kami', 'secara'): 0, ('kami', 'nasional'): 0, ('kami', 'dpp'): 0, ('kami', 'menetapkan'): 0, ('kami', 'bahwa'): 0, ('kami', 'golkar'): 0, ('kami', 'dalam'): 0, ('kami', 'pilkada'): 0, ('kami', 'serentak'): 0, ('kami', 'ini'): 0, ('kami', 'punya'): 0, ('kami', 'target'): 0, ('kami', '60'): 0, ('kami', 'persen'): 0, ('kami', 'doli'): 0, ('kami', 'menyampaikan'): 0, ('kami', 'memulai'): 0, ('kami', 'penjaringan'): 0, ('kami', 'kandidat'): 0, ('kami', 'di'): 0, ('kami', 'tingkat'): 0, ('kami', 'daerah'): 0, ('kami', 'sejak'): 0, ('kami', 'awal'): 0, ('kami', 'tahun'): 0, ('kami', 'pada'): 0, ('kami', 'minggu'): 0, ('kami', 'kedua'): 0, ('kami', 'maret'): 0, ('kami', 'kata'): 0, ('kami', 'dia'): 0, ('kami', 'akan'): 0, ('kami', 'menguji'): 0, ('kami', 'bakal'): 0, ('kami', 'calon'): 0, ('kami', 'yang'): 0, ('kami', 'mereka'): 0, ('kami', 'usung'): 0, ('kami', 'lewat'): 0, ('kami', 'survei'): 0, ('kam


Buat matriks probability(term, context)

In [41]:
# definisikan dan isi matriks probability (term, context)
term_context_prob = {}
for token_1 in vocab_freq.keys():
  for token_2 in vocab_freq.keys():
    term_context_prob[(token_1,token_2)] = co_occurrence_mat[(token_1,token_2)]/sum_term_context

In [42]:
print(len(vocab_freq))
print(len(co_occurrence_mat))

64
4096


Buat fungsi print matriks probability (term, context), untuk contoh data sedikit, supaya lebih mudah diperiksa isinya.

In [43]:
def print_term_context_prob():
  str_token = '\t'
  for token in vocab_freq.keys():
    str_token += '\t\t'+token
  print(str_token)
  for token_1 in vocab_freq.keys():
    str_row = token_1+'\t'
    for token_2 in vocab_freq.keys():
      str_row += '\t\t'+str(round(term_context_prob[(token_1,token_2)],4))
    print(str_row)

In [44]:
print_term_context_prob()

			kami		sudah		buat		simulasi		secara		nasional		dpp		menetapkan		bahwa		golkar		dalam		pilkada		serentak		ini		punya		target		60		persen		doli		menyampaikan		memulai		penjaringan		kandidat		di		tingkat		daerah		sejak		awal		tahun		pada		minggu		kedua		maret		kata		dia		akan		menguji		bakal		calon		yang		mereka		usung		lewat		survei		azis		tak		menampik		kalau		membuka		pintu		koalisi		dengan		partai		luar		pemerintah		pusat		sebab		menurutnya		perlu		strategi		berbeda		menyikapi		situasi		berbagai
kami			0.0		0.0034		0.0034		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0
sudah			0.0034		0.0		0.0034		0.0034		0.0		0.0034		0.0034		0.0034		0.0034		0.0034		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0		0.0034		0.0034		0.0034		0.0		0.0		0.

Buat matriks PMI (term, context)

In [45]:
# definisikan dan isi matriks probability (term, context)
pmi_mat = {}
# import lib math untuk menghitung log2
import math
for token_1 in vocab_freq.keys():
  for token_2 in vocab_freq.keys():
    token_1_prob = bigram_count[token_1]/sum_term_context
    token_2_prob = bigram_count[token_2]/sum_term_context
    if term_context_prob[(token_1,token_2)] > 0:
      pmi_mat[(token_1,token_2)] = round(math.log2(term_context_prob[(token_1,token_2)]/(token_1_prob*token_2_prob)), 4)
    else: # kalau nilai probability = 0, tidak bisa dihitung log 2 -nya
      pmi_mat[(token_1,token_2)] = None

Print matriks PMI

In [46]:
def print_pmi_mat():
  str_row = ''
  str_row += '\n'+str(pmi_mat)
  print(str_row)

print_pmi_mat()


{('kami', 'kami'): None, ('kami', 'sudah'): 3.7597, ('kami', 'buat'): 5.2192, ('kami', 'simulasi'): None, ('kami', 'secara'): None, ('kami', 'nasional'): None, ('kami', 'dpp'): None, ('kami', 'menetapkan'): None, ('kami', 'bahwa'): None, ('kami', 'golkar'): None, ('kami', 'dalam'): None, ('kami', 'pilkada'): None, ('kami', 'serentak'): None, ('kami', 'ini'): None, ('kami', 'punya'): None, ('kami', 'target'): None, ('kami', '60'): None, ('kami', 'persen'): None, ('kami', 'doli'): None, ('kami', 'menyampaikan'): None, ('kami', 'memulai'): None, ('kami', 'penjaringan'): None, ('kami', 'kandidat'): None, ('kami', 'di'): None, ('kami', 'tingkat'): None, ('kami', 'daerah'): None, ('kami', 'sejak'): None, ('kami', 'awal'): None, ('kami', 'tahun'): None, ('kami', 'pada'): None, ('kami', 'minggu'): None, ('kami', 'kedua'): None, ('kami', 'maret'): None, ('kami', 'kata'): None, ('kami', 'dia'): None, ('kami', 'akan'): None, ('kami', 'menguji'): None, ('kami', 'bakal'): None, ('kami', 'calon'): 

In [47]:
print_pmi_mat()


{('kami', 'kami'): None, ('kami', 'sudah'): 3.7597, ('kami', 'buat'): 5.2192, ('kami', 'simulasi'): None, ('kami', 'secara'): None, ('kami', 'nasional'): None, ('kami', 'dpp'): None, ('kami', 'menetapkan'): None, ('kami', 'bahwa'): None, ('kami', 'golkar'): None, ('kami', 'dalam'): None, ('kami', 'pilkada'): None, ('kami', 'serentak'): None, ('kami', 'ini'): None, ('kami', 'punya'): None, ('kami', 'target'): None, ('kami', '60'): None, ('kami', 'persen'): None, ('kami', 'doli'): None, ('kami', 'menyampaikan'): None, ('kami', 'memulai'): None, ('kami', 'penjaringan'): None, ('kami', 'kandidat'): None, ('kami', 'di'): None, ('kami', 'tingkat'): None, ('kami', 'daerah'): None, ('kami', 'sejak'): None, ('kami', 'awal'): None, ('kami', 'tahun'): None, ('kami', 'pada'): None, ('kami', 'minggu'): None, ('kami', 'kedua'): None, ('kami', 'maret'): None, ('kami', 'kata'): None, ('kami', 'dia'): None, ('kami', 'akan'): None, ('kami', 'menguji'): None, ('kami', 'bakal'): None, ('kami', 'calon'): 