<h1>LDA (Latent Dirichlet Allocation) Manual</h1>
<br>
<p>
Pada bagian ini penulis akan menjelaskan pembuatan model LDA dengan metode manual dan implementasinya menggunakan code python. Sistematis perhitungan dari model Latent Dirichlet Allocation yang penulis dapatkan dari (Harsh Bansal, 2020) secara manual dapat dirincikan dengan beberapa tahapan sebagai berikut :
</p>
<br>
<ul>
  <li><h4>Contoh jika kita mengambil salah satu kalimat dari dataset yang dimiliki <i><b>“cant login even though change password”</b></i><h4></li>
</ul>
<br>

In [None]:
import re
topics = [
    "cant login even though change password"
    # .....
    # .....
    # ..... Anggap aja ada 300 juta data, aowkwkkw...
]

tokenize = [
    re.findall(r'\b\w+\b', topic.lower()) for topic in topics
]

print(f"tokenize: {tokenize}")

tokenize: [['cant', 'login', 'even', 'though', 'change', 'password']]


<br>
<ul>
  <li><h4>Tahapan selanjutnya adalah menentukan jumlah topik yang diinginkan, misal dalam penelitian ini penulis menggunakan jumlah topik tiga (3).</h4></li>
</ul>
<br>

In [None]:
topic_total = 3

<br>
<h3>Libraries</h3>

In [None]:
import pandas as pd
from IPython.display import HTML

<br>
<ul>
  <li><h4>Jika sudah menentukan jumlah topik yang diinginkan, selanjutnya model LDA akan secara acak menyebarkan kata-kata yang dimiliki kalimat tersebut ke masing-masing <i>num_topic</i> misal dalam hal ini menggunakan dua dokumen.</h4></li>
</ul>
<br>
<p><i>Tabel 4.9 Penyebaran Acak Kata Pada Dokumen</i></p>
<br>

In [None]:
document_topic_matrix = [
    [2, 3, 1],
    [2, 2, 2]
]

def show_table_document_topic_matrix():
  topic_matrix = []

  for k_topic, v_topic in enumerate(document_topic_matrix):
    topic_matrix.append(
        [f"Doc {k_topic + 1}" if x == 0 else v_topic[x - 1] for x in range(len(v_topic) + 1)]
    )

  return pd.DataFrame(
    topic_matrix,
    columns = ['Doc', 'T1', 'T2', 'T3']
  ).to_html(index=False)



HTML(show_table_document_topic_matrix())

Doc,T1,T2,T3
Doc 1,2,3,1
Doc 2,2,2,2


<br>
<ul>
  <li><h4>Tahapan selanjutnya adalah menghitung semua kata unik tersebut yang berasal dari semua dokumen pada topik yang ditentukan</h4></li>
</ul>

In [None]:
words_topic_matrix = [
    [8, 2, 20],
    [13, 10, 11],
    [11, 14, 23],
    [15, 24, 4],
    [10, 15, 11],
    [7, 11, 5]
]

def show_table_words_topic_matrix():
  topic_matrix = []

  for k_topic, v_topic in enumerate(words_topic_matrix):
      topic_matrix.append(
          [f"{tokenize[0][k_topic]}" if x == 0 else v_topic[x - 1] for x in range(len(v_topic) + 1)]
      )

  return pd.DataFrame(
    topic_matrix,
    columns = ['Doc', 'T1', 'T2', 'T3']
  ).to_html(index=False)



HTML(show_table_words_topic_matrix())

Doc,T1,T2,T3
cant,8,2,20
login,13,10,11
even,11,14,23
though,15,24,4
change,10,15,11
password,7,11,5


<br>
<ul>
  <li><h4>Pengurangan hitungan sebesar 1 dari <i>document topic matrix</i></h4></li>
</ul>

In [None]:
for k_document_topic, v_document_topic in enumerate(document_topic_matrix):
    for k_topic, v_topic in enumerate(v_document_topic):
        document_topic_matrix[k_document_topic][k_topic] -= 1

HTML(show_table_document_topic_matrix())

Doc,T1,T2,T3
Doc 1,1,2,0
Doc 2,1,1,1


<br>
<ul>
  <li><h4>Pengurangan hitungan sebesar 1 dari <i>words topic matrix</i></h4></li>
</ul>

In [None]:
for k_word_topic, v_word_topic in enumerate(words_topic_matrix):
    for k_topic, v_topic in enumerate(v_word_topic):
        words_topic_matrix[k_word_topic][k_topic] -= 1

HTML(show_table_words_topic_matrix())

Doc,T1,T2,T3
cant,7,1,19
login,12,9,10
even,10,13,22
though,14,23,3
change,9,14,10
password,6,10,4


<br>
<ul>
  <li><h4>Menghitung $P(Topic\space T \space|\space Document \space D )$ atau $P(t_k\space| D_i)$</h4></li>
</ul>
<br>
<p>Perhitungan ini untuk menghitung proporsi kata dalam dokumen $D$ yang saat ini ditugaskan ke topik $T$. Rumus dari perhitungan ini adalah sebagai berikut :</p>
<br>
<p>$P(t_k\space| D_i) = \frac{n_{i,k} \space+\space {\alpha}}{N_i\space-\space1\space+\space k_{\alpha}}$</p>
<p>Dimana :</p>
<ul>
  <li>$n_{i,k}$ = total kata dalam i doc dan k topic</li>
  <li>$\alpha$ = <i>hyper parameter</i>, pada contoh ini menggunakan nilai $0.1$</li>
  <li>$N_i$ = total jumlah kata pada i document</li>
  <li>$K$ = total topik yang ditentukan</li>
</ul>
<br>
<p>perhitungannya adalah sebagai berikut :</p>

In [None]:
def calculate_topic_document_probability(doc_idx, topic_idx, doc_length):
    ALPHA = 0.1
    # (n_ik + a) / ((N_i - 1) + K * a)
    return (document_topic_matrix[doc_idx][topic_idx] + ALPHA) / (doc_length - 1 + topic_total * ALPHA)

<h4><i><b>Simulasi :</b></i></h4>

In [None]:
# memilih urutan Doc ke 1 == idx ke 0
doc = 0

# memilih urutan topik ke-1 == idx ke 0
topic = 0


for k_document, v_document in enumerate(tokenize):
  probability = calculate_topic_document_probability(
      doc_idx = doc,
      topic_idx = topic,
      doc_length = len(v_document),
  )

  print(
      f"[ Doc {k_document + 1} ]\n" +
      f"Data: {v_document}\n" +
      f"n_ik: {document_topic_matrix[doc][topic]}\n" +
      f"N_i: {len(v_document)}\n" +
      f"Total Topic: {topic_total}\n" +
      f"{'-'*10}\nProbablility: {probability}\n\n"
  )

  calculate_topic_document_probability_result = probability


[ Doc 1 ]
Data: ['cant', 'login', 'even', 'though', 'change', 'password']
n_ik: 1
N_i: 6
Total Topic: 3
----------
Probablility: 0.2075471698113208




<br>
<ul>
  <li><h4>Menghitung $P(Word\space W \space|\space Topic \space T )$ atau $P(w_j\space| T_k)$</h4></li>
</ul>
<br>
<p>Perhitungan ini untuk menghitung proporsi penugasan ke topik $T$ atas semua dokumen yang berasal dari kata $W$. Rumus dari perhitungan ini adalah sebagai berikut :</p>
<br>
<p>$P(w_j\space| T_k) = \frac{m_{j,k} \space+\space {\beta}}
{\Sigma_{j=v}m_{j,k}\space+\space V\beta}$</p>
<p>Dimana :</p>
<ul>
  <li>$m_{j,k}$ = berapa kali kata $W$ muncul pada topik $T$</li>
  <li>$\beta$ = <i>hyper parameter</i>, pada contoh ini menggunakan nilai $0.1$</li>
  <li>$V$ = total kata yang terdapat pada topik $T$</li>
</ul>
<br>
<p>perhitungannya adalah sebagai berikut :</p>

In [None]:
# Login (word: 2 -> idx: 1; topic: 1 -> idx: 0)
print(f"Login Word: {words_topic_matrix[1][0]}")

# Perhitungan Sigma words (topic: 1 -> idx: 0)
total = 0
for word_topic_matrix in words_topic_matrix :
  total += word_topic_matrix[0]

print(f"peritungan sigma: {total}")

Login Word: 12
peritungan sigma: 58


In [None]:
def calculate_word_topic_probability(word_idx, topic_idx, word_length):
  ALPHA = 0.1
  # Perhitungan Sigma words (topic: 1 -> idx: 0)
  sigma_opt_total = 0
  for word_topic_matrix in words_topic_matrix :
    sigma_opt_total += word_topic_matrix[0]

  # Word Topic value
  word_topic_val = words_topic_matrix[word_idx][topic_idx]

  return (word_topic_val + ALPHA) / (sigma_opt_total + word_length * ALPHA)

<h4><i><b>Simulasi :</b></i></h4>

In [None]:
# Login (word: 2 -> idx: 1; topic: 1 -> idx: 0)
word_idx = 1

# Perhitungan Sigma words (topic: 1 -> idx: 0)
topic_idx = 0

for k_word, v_word in enumerate(tokenize):
  probability = calculate_word_topic_probability(
      word_idx = word_idx,
      topic_idx = topic_idx,
      word_length = len(v_word),
  )
  print(
      f"[ Word {k_word + 1} (Login) ]\n" +
      f"word_idx: {word_idx}\n" +
      f"topic_idx: {topic_idx}\n" +
      f"word_length: {len(v_word)}\n" +
      f"Total Topic: {topic_total}\n" +
      f"{'-'*10}\nProbablility: {probability}\n\n"
  )

  calculate_word_topic_probability_result = probability

[ Word 1 (Login) ]
word_idx: 1
topic_idx: 0
word_length: 6
Total Topic: 3
----------
Probablility: 0.20648464163822525




<br>
<ul>
  <li><h4>Tahapan terakhir adalah menetapkan w ke topik baru dimana topik tersebut ditentukan dengan rumus probabilitas $P(t_k\space| D_i)$ * $P(w_j\space| T_k)$. Sehingga perhitungannya adalah sebagai berikut :</h4></li>
</ul>

In [None]:
probability = calculate_topic_document_probability_result * calculate_word_topic_probability_result
print(f"probability: {probability}")

probability: 0.042855302981518455


<br>
<ul>
  <li><h4>Menghitung probabilitas distribusi co-occurrence $P(W1, W2 | T) = Count(W1, W2, T) / Count(W1, T)$</h4></li>
</ul>

In [None]:
def cooccurrence(word1_probability, word2_probability):
  return (word1_probability * word2_probability) / word1_probability

<br>
<ul>
  <li><h4>Simulasi mencari $PMI$ dari kata <i><b>"cant login"</b></i> dan <i><b>"change password"</b></i></h4></li>
</ul>

In [None]:
from math import log

# "cant login" word
cant_prob  = calculate_word_topic_probability(
      word_idx = 0,
      topic_idx = topic_idx,
      word_length = len(tokenize[0]),
)
login_prob = calculate_word_topic_probability_result
cant_login_cooccurance = cooccurrence(cant_prob, login_prob)
cant_login_pmi = log(cant_login_cooccurance / (cant_prob * login_prob))
print(
    f"word: 'cant login'\n" +
    f"cooccurance: {cant_login_cooccurance}\n" +
    f"pmi: {cant_login_pmi}\n\n"
)


# "change password" word
change_prob = calculate_word_topic_probability(
      word_idx = 4,
      topic_idx = topic_idx,
      word_length = len(tokenize[0]),
)
password_prob = calculate_word_topic_probability(
      word_idx = 5,
      topic_idx = topic_idx,
      word_length = len(tokenize[0]),
)
change_password_cooccurance = cooccurrence(change_prob, password_prob)
change_password_pmi = log(change_password_cooccurance / (change_prob * password_prob))
print(
    f"word: 'change password'\n" +
    f"cooccurance: {change_password_cooccurance}\n" +
    f"pmi: {change_password_pmi}\n\n"
)

coherence_datas = [cant_login_pmi, change_password_pmi]

word: 'cant login'
cooccurance: 0.20648464163822525
pmi: 2.110639912535697


word: 'change password'
cooccurance: 0.10409556313993173
pmi: 1.8624602830601626




<br>
<ul>
  <li><h4>Simulasi menghitung Coherence Score</h4></li>
</ul>

In [None]:
coherence_score = sum(coherence_datas) / len(coherence_datas)
print(f"Coherence Score: {coherence_score}")

Coherence Score: 1.98655009779793
