# K = 5

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold
from collections import Counter

In [2]:
data = pd.read_csv('output_with_pos.txt', delimiter='\t', header=None, names=['kalimat'])
data

Unnamed: 0,kalimat
0,Bocah/NOUN kuwi/DET seneng/VERB nggambar/VERB ...
1,Ing/ADP wayah/NOUN sore/NOUN biasane/ADV Siti/...
2,Mbakyune/_ Mbakyu/NOUN e/PRON seneng/VERB ngla...
3,Ibu/NOUN kuwi/DET ngendikakake/VERB yen/SCONJ ...
4,Nonton/VERB tivi/NOUN bisa/AUX njembarake/VERB...
...,...
834,/PUNCT Sesuk/ADV aku/PRON pengen/VERB ngerti/V...
835,"/PUNCT Dhik/PROPN ,/PUNCT kok/ADV sajak/SCONJ ..."
836,Bocah/NOUN enom/ADJ saiki/ADV racake/ADV akeh/...
837,Lha/INTJ ning/PART nek/SCONJ bapak/NOUN biyen/...


In [3]:
# Fungsi untuk memisahkan setiap kalimat menjadi kata dan tag
def split_words_tags(sentence):
    words_tags = sentence.split()
    return [tuple(word_tag.rsplit('/', 1)) for word_tag in words_tags]

data['kata_tag'] = data['kalimat'].apply(split_words_tags)
data

Unnamed: 0,kalimat,kata_tag
0,Bocah/NOUN kuwi/DET seneng/VERB nggambar/VERB ...,"[(Bocah, NOUN), (kuwi, DET), (seneng, VERB), (..."
1,Ing/ADP wayah/NOUN sore/NOUN biasane/ADV Siti/...,"[(Ing, ADP), (wayah, NOUN), (sore, NOUN), (bia..."
2,Mbakyune/_ Mbakyu/NOUN e/PRON seneng/VERB ngla...,"[(Mbakyune, _), (Mbakyu, NOUN), (e, PRON), (se..."
3,Ibu/NOUN kuwi/DET ngendikakake/VERB yen/SCONJ ...,"[(Ibu, NOUN), (kuwi, DET), (ngendikakake, VERB..."
4,Nonton/VERB tivi/NOUN bisa/AUX njembarake/VERB...,"[(Nonton, VERB), (tivi, NOUN), (bisa, AUX), (n..."
...,...,...
834,/PUNCT Sesuk/ADV aku/PRON pengen/VERB ngerti/V...,"[(, PUNCT), (Sesuk, ADV), (aku, PRON), (pengen..."
835,"/PUNCT Dhik/PROPN ,/PUNCT kok/ADV sajak/SCONJ ...","[(, PUNCT), (Dhik, PROPN), (,, PUNCT), (kok, A..."
836,Bocah/NOUN enom/ADJ saiki/ADV racake/ADV akeh/...,"[(Bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra..."
837,Lha/INTJ ning/PART nek/SCONJ bapak/NOUN biyen/...,"[(Lha, INTJ), (ning, PART), (nek, SCONJ), (bap..."


In [4]:
# Case Folding (Lowercase)
def case_folding(word_tag_list):
    return [(word.lower(), tag) for word, tag in word_tag_list]

data['kata_tag'] = data['kata_tag'].apply(case_folding)
data

Unnamed: 0,kalimat,kata_tag
0,Bocah/NOUN kuwi/DET seneng/VERB nggambar/VERB ...,"[(bocah, NOUN), (kuwi, DET), (seneng, VERB), (..."
1,Ing/ADP wayah/NOUN sore/NOUN biasane/ADV Siti/...,"[(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia..."
2,Mbakyune/_ Mbakyu/NOUN e/PRON seneng/VERB ngla...,"[(mbakyune, _), (mbakyu, NOUN), (e, PRON), (se..."
3,Ibu/NOUN kuwi/DET ngendikakake/VERB yen/SCONJ ...,"[(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB..."
4,Nonton/VERB tivi/NOUN bisa/AUX njembarake/VERB...,"[(nonton, VERB), (tivi, NOUN), (bisa, AUX), (n..."
...,...,...
834,/PUNCT Sesuk/ADV aku/PRON pengen/VERB ngerti/V...,"[(, PUNCT), (sesuk, ADV), (aku, PRON), (pengen..."
835,"/PUNCT Dhik/PROPN ,/PUNCT kok/ADV sajak/SCONJ ...","[(, PUNCT), (dhik, PROPN), (,, PUNCT), (kok, A..."
836,Bocah/NOUN enom/ADJ saiki/ADV racake/ADV akeh/...,"[(bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra..."
837,Lha/INTJ ning/PART nek/SCONJ bapak/NOUN biyen/...,"[(lha, INTJ), (ning, PART), (nek, SCONJ), (bap..."


In [5]:
underscore = data['kata_tag'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if kata == '_' or tag == '_')).sum()
print(f"Jumlah kata dan tag yang berupa '_': {underscore}")

Jumlah kata dan tag yang berupa '_': 595


In [6]:
# Menghapus kata dan tag yang berupa '_'
data['kata_tag'] = data['kata_tag'].apply(lambda kalimat: [(kata, tag) for kata, tag in kalimat if kata != '_' and tag != '_'])
underscore = data['kata_tag'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if kata == '_' or tag == '_')).sum()
print(f"Jumlah kata dan tag yang berupa '_': {underscore}")

Jumlah kata dan tag yang berupa '_': 0


In [7]:
# Fungsi untuk memisahkan kalimat berdasarkan kata PUNCT
def split_after_punct(kalimat):
    result = []
    temp = []
    for kata, tag in kalimat:
        temp.append((kata, tag))
        if tag == 'PUNCT' and kata == '.':
            result.append(temp)
            temp = []
    if temp:  # Menambahkan kalimat terakhir jika ada
        result.append(temp)
    return result

# Menerapkan fungsi split_after_punct
data['kalimat_split'] = data['kata_tag'].apply(split_after_punct)

# Membuat DataFrame baru dengan setiap kalimat terpisah
split_rows = []

for index, row in data.iterrows():
    for kalimat in row['kalimat_split']:
        split_rows.append({'kalimat': ' '.join(kata for kata, tag in kalimat), 'kata_tag': kalimat})

# Membuat DataFrame baru dari hasil split
split_df = pd.DataFrame(split_rows)

split_df

Unnamed: 0,kalimat,kata_tag
0,bocah kuwi seneng nggambar sesawangan sing asri .,"[(bocah, NOUN), (kuwi, DET), (seneng, VERB), (..."
1,"ing wayah sore biasane siti sinau , kangmas e ...","[(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia..."
2,"mbakyu e seneng nglangi , nanging adhi e ora s...","[(mbakyu, NOUN), (e, PRON), (seneng, VERB), (n..."
3,ibu kuwi ngendikakake yen putra e mbarep wis n...,"[(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB..."
4,"nonton tivi bisa njembarake kawruh , nanging u...","[(nonton, VERB), (tivi, NOUN), (bisa, AUX), (n..."
...,...,...
1015,"kanthi rasa bungah , dak rangkul wong tuwa ku ...","[(kanthi, ADP), (rasa, NOUN), (bungah, ADJ), (..."
1016,"kados dereng saged nampi kasunyatan niki , ” ...","[(, PUNCT), (kados, ADV), (dereng, ADV), (sage..."
1017,bocah enom saiki racake akeh sing lali karo ka...,"[(bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra..."
1018,"lha ning nek bapak biyen sida lunga , ora ana ...","[(lha, INTJ), (ning, PART), (nek, SCONJ), (bap..."


In [8]:
# split_df['train_data'] = split_df['kata_tag']

# # Menghitung jumlah tag 'PUNCT' dan 'SYM' dalam data
# punct_count = split_df['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'PUNCT')).sum()
# sym_count = split_df['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'SYM')).sum()

# print(f"Jumlah tag 'PUNCT' dalam train data: {punct_count}")
# print(f"Jumlah tag 'SYM' dalam train data: {sym_count}")

In [9]:
# Data yang akan digunakan untuk training, tanpa 'PUNCT' dan 'SYM'
def remove_punct_sym(kalimat):
    return [(kata, tag) for kata, tag in kalimat if tag not in ['PUNCT', 'SYM']]

# Menerapkan fungsi remove_punct_sym
split_df['train_data'] = split_df['kata_tag'].apply(remove_punct_sym)
print(split_df['train_data'])

0       [(bocah, NOUN), (kuwi, DET), (seneng, VERB), (...
1       [(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia...
2       [(mbakyu, NOUN), (e, PRON), (seneng, VERB), (n...
3       [(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB...
4       [(nonton, VERB), (tivi, NOUN), (bisa, AUX), (n...
                              ...                        
1015    [(kanthi, ADP), (rasa, NOUN), (bungah, ADJ), (...
1016    [(kados, ADV), (dereng, ADV), (saged, AUX), (n...
1017    [(bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra...
1018    [(lha, INTJ), (ning, PART), (nek, SCONJ), (bap...
1019    [(sampun, AUX), (damel, VERB), (ibu, NOUN), (k...
Name: train_data, Length: 1020, dtype: object


In [10]:
# Menghitung jumlah tag 'PUNCT' dan 'SYM' dari train data
punct_count = split_df['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'PUNCT')).sum()
sym_count = split_df['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'SYM')).sum()

print(f"Jumlah tag 'PUNCT' dari train data: {punct_count}")
print(f"Jumlah tag 'SYM' dari train data: {sym_count}")

Jumlah tag 'PUNCT' dari train data: 0
Jumlah tag 'SYM' dari train data: 0


In [11]:
# Testing data tetap mempertahankan semua kata dan tag untuk prediksi otomatis
split_df['test_data'] = split_df['kata_tag']
print(split_df['test_data'])

0       [(bocah, NOUN), (kuwi, DET), (seneng, VERB), (...
1       [(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia...
2       [(mbakyu, NOUN), (e, PRON), (seneng, VERB), (n...
3       [(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB...
4       [(nonton, VERB), (tivi, NOUN), (bisa, AUX), (n...
                              ...                        
1015    [(kanthi, ADP), (rasa, NOUN), (bungah, ADJ), (...
1016    [(, PUNCT), (kados, ADV), (dereng, ADV), (sage...
1017    [(bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra...
1018    [(lha, INTJ), (ning, PART), (nek, SCONJ), (bap...
1019    [(sampun, AUX), (damel, VERB), (ibu, NOUN), (k...
Name: test_data, Length: 1020, dtype: object


In [12]:
# Fungsi untuk menghitung probabilitas transisi awal
def hitung_probabilitas_awal(sentences):
    total_probabilitas_awal = Counter([kalimat[0][1] for kalimat in sentences if kalimat])
    total_sentences = len(sentences)
    transisi_awal = {pos: freq / total_sentences for pos, freq in total_probabilitas_awal.items()}
    return transisi_awal

# Fungsi untuk menghitung probabilitas emisi dengan Laplace smoothing
def hitung_probabilitas_emisi(word, pos, kata_pos_freq, pos_freq, vocab_size):
    kata_pos_count = kata_pos_freq.get((word, pos), 0)
    return (kata_pos_count + 1) / (pos_freq[pos] + vocab_size)

def hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size):
    pos_bigram_freq = Counter()
    pos_bigram_freq.update(zip(pos_sequence, pos_sequence[1:])) # update gunanya untuk masukin pasangan bigram ke counter. zip() gunanya gabungin dua list untuk dijadikan proses bigramnya
    return (pos_bigram_freq[(pos1, pos2)] + 1) / (pos_freq[pos1] + vocab_size)

# Algoritma Forward
def algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags):
    alpha = [{}]
    for pos in pos_tags:
        alpha[0][pos] = probabilitas_awal.get(pos, 0) * probabilitas_emisi.get((sentence[0], pos), 0)
    
    for t in range(1, len(sentence)):
        alpha.append({})
        for pos in pos_tags:
            alpha[t][pos] = sum(alpha[t-1][prev_pos] * probabilitas_transisi.get((prev_pos, pos), 0) * probabilitas_emisi.get((sentence[t], pos), 0) for prev_pos in pos_tags)
    
    return alpha

    # Algoritma Backward
def algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags):
    beta = [{} for _ in range(len(sentence))]
    
    # Inisialisasi beta pada waktu t = T
    for pos in pos_tags:
        beta[-1][pos] = 1
    
    # Iterasi mundur dari t = T-1 ke t = 0
    for t in range(len(sentence) - 2, -1, -1):
        for pos in pos_tags:
            beta[t][pos] = sum(beta[t + 1][next_pos] * probabilitas_transisi.get((pos, next_pos), 0) * probabilitas_emisi.get((sentence[t + 1], next_pos), 0) for next_pos in pos_tags)
    
    return beta

def expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags):
    gamma = [{} for _ in range(len(sentence))]
    ksi = [{} for _ in range(len(sentence) - 1)]
    
    # menghitung gamma
    for t in range(len(sentence)):
        normalization_factor = sum(alpha[t][pos] * beta[t][pos] for pos in pos_tags)
        for pos in pos_tags:
            gamma[t][pos] = (alpha[t][pos] * beta[t][pos]) / normalization_factor
    
    # menghitung ksi
    for t in range(len(sentence) - 1):
        normalization_factor = sum(
            alpha[t][pos1] * probabilitas_transisi.get((pos1, pos2)) *
            probabilitas_emisi.get((sentence[t + 1], pos2)) * beta[t + 1][pos2]
            for pos1 in pos_tags for pos2 in pos_tags
        )
        for pos1 in pos_tags:
            ksi[t][pos1] = {}
            for pos2 in pos_tags:
                ksi[t][pos1][pos2] = (
                    alpha[t][pos1] * probabilitas_transisi.get((pos1, pos2)) *
                    probabilitas_emisi.get((sentence[t + 1], pos2)) * beta[t + 1][pos2]
                ) / normalization_factor
    
    return gamma, ksi

def maximization_step(gamma, ksi, sentence, pos_tags):
    probabilitas_awal_baru = {pos: gamma[0][pos] for pos in pos_tags}
    
    probabilitas_transisi_baru = {}
    for pos1 in pos_tags:
        for pos2 in pos_tags:
            a = sum(ksi[t][pos1][pos2] for t in range(len(ksi)))
            b = sum(gamma[t][pos1] for t in range(len(gamma)))
            if b != 0:
                probabilitas_transisi_baru[(pos1, pos2)] = a / b
            else:
                probabilitas_transisi_baru[(pos1, pos2)] = 0
    
    # Menghitung probabilitas emisi baru
    probabilitas_emisi_baru = {}
    for pos in pos_tags:
        for word in set(sentence):
            a = sum(gamma[t][pos] for t in range(len(sentence)) if sentence[t] == word)
            b = sum(gamma[t][pos] for t in range(len(sentence)))
            probabilitas_emisi_baru[(word, pos)] = a / b if b != 0 else 0
    
    return probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru

# Catatan
# Kenapa perlu b != 0 pada maximization step, hal ini diperlukan untuk menghindari pembagian dengan 0 pada tag SYM sehingga mencegah muncul error ZeroDivisionError


In [13]:
# # MAXIMIZATION STEP INI BEDANYA HANYA PADA PROSES MENGAMBIL NILAI PROBABILITAS EMISI. KARENA SAAT MAXIMIZATION STEP PROSES PENYIMPANAN EMISI MENGGUNAKAN probabilitas_emisi_baru[pos] = {}

# # Forward Algorithm dengan Maximization Step
# def algoritma_forward_max(sentence, probabilitas_awal, probabilitas_transisi, probabilitas_emisi, pos_tags):
#     # Inisialisasi alpha
#     alpha = [{}]
#     for pos in pos_tags:
#         alpha[0][pos] = probabilitas_awal.get(pos, 0) * probabilitas_emisi[pos].get(sentence[0], 0)
        
#     # Iterasi untuk menghitung alpha
#     for t in range(1, len(sentence)):
#         alpha.append({})
#         for pos2 in pos_tags:
#             alpha[t][pos2] = sum(alpha[t-1][pos1] * probabilitas_transisi.get((pos1, pos2), 0) * probabilitas_emisi[pos2].get(sentence[t], 0) for pos1 in pos_tags)
            
#     return alpha

# # Backward Algorithm dengan Maximization Step
# def algoritma_backward_max(sentence, probabilitas_transisi, probabilitas_emisi, pos_tags):
#     # Inisialisasi beta
#     beta = [{} for _ in range(len(sentence))] # Membuat list kosong sebanyak panjang kalimat. Jika tidak dibuat list kosong sepanjang kalimat, maka akan error karena tidak bisa mengakses index yang belum ada
#     for pos in pos_tags:
#         beta[-1][pos] = 1
        
#     # Iterasi untuk menghitung beta
#     for t in range(len(sentence)-2, -1, -1): # range(start, stop, step), len(sentence) - 2 Loop dimulai dari indeks sebelum terakhir dari sentence, stop = -1 → Loop berhenti sebelum mencapai -1 (artinya hingga 0). step = -1 → Mengurangi nilai t setiap iterasi (loop berjalan mundur).
#         for pos1 in pos_tags:
#             beta[t][pos1] = sum(probabilitas_transisi.get((pos1, pos2), 0) * probabilitas_emisi[pos2].get(sentence[t+1], 0) * beta[t+1][pos2] for pos2 in pos_tags)
            
#     return beta

# # Expectation Step setelah Maximization: Menghitung gamma dan ksi
# def expectation_step_max(sentence, alpha, beta, probabilitas_transisi, probabilitas_emisi, pos_tags):
#     gamma = [{} for _ in range(len(sentence))]
#     ksi = [{} for _ in range(len(sentence) - 1)]
    
#     for t in range(len(sentence)):
#         normalization_factor = sum(alpha[t][pos] * beta[t][pos] for pos in pos_tags)
#         for pos in pos_tags:
#             gamma[t][pos] = (alpha[t][pos] * beta[t][pos]) / normalization_factor
    
#     for t in range(len(sentence) - 1):
#         normalization_factor = sum(alpha[t][pos1] * probabilitas_transisi.get((pos1, pos2), 0) * probabilitas_emisi[pos2].get(sentence[t+1], 0) * 
#                         beta[t+1][pos2] for pos1 in pos_tags for pos2 in pos_tags)
#         for pos1 in pos_tags:
#             ksi[t][pos1] = {}
#             for pos2 in pos_tags:
#                 ksi[t][pos1][pos2] = (alpha[t][pos1] * probabilitas_transisi.get((pos1, pos2), 0) * probabilitas_emisi[pos2].get(sentence[t+1], 0) * 
#                                         beta[t+1][pos2]) / normalization_factor
    
#     return gamma, ksi


In [14]:
# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=5, random_state=42, shuffle=True) #Shuffle data jadi True supaya data teracak dan jika False & random_state tidak di-set, maka akurasi menurun
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['train_data']
    test_sentences = split_df.iloc[test_index]['test_data']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat: # _ adalah konvensi dalam Python yang digunakan untuk mengabaikan nilai kedua (karena tidak diperlukan dalam proses).
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     for kata, tag in kalimat:
    #         for pos in pos_tags:
    #             print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     for pos in pos_tags:
        #         if pos in alpha_t:
        #             print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'ADJ' in alpha_t:
        #         print(f"α{t+1}(ADJ): {alpha_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     for pos in pos_tags:
        #         if pos in beta_t:
        #             print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'ADJ' in beta_t:
        #         print(f"β{len(beta) - t}(ADJ): {beta_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        # print("Nilai Gamma Untuk:")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk ADJ:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'ADJ' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(ADJ) = {gamma_t['ADJ']:.9f}")
        
        # print("Ksi values:")
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk ADJ:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t:
        #         for pos2 in ksi_t['ADJ']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> {pos2}) = {ksi_t['ADJ'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")

        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)

        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

        # Cetak nilai probabilitas emisi baru
        # print("Probabilitas Emisi Baru:")
        # for pos, words in probabilitas_emisi_baru.items():
        #     for word, prob in words.items():
        #         print(f"Probabilitas Emisi Baru untuk {word} dengan tag {pos}: {prob:.9f}")

        # # Cetak nilai probabilitas transisi baru
        # print("\nProbabilitas Transisi Baru:")
        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # # Cetak nilai probabilitas awal baru
        # print("\nProbabilitas Awal Baru:")
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru untuk {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # Menampilkan hasil Forward dengan Maximization Step
    # print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    # for t in range(len(sentence)-1, -1, -1):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # print("\nGamma (γ) setelah Maximization:")
    # for t in range(len(gamma_max)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

    # # Menampilkan hasil Ksi setelah Maximization
    # print("\nKsi (ξ) setelah Maximization:")
    # for t in range(len(ksi_max)):
    #     print(f"(t={t+1})")
    #     for pos1 in pos_tags:
    #         for pos2 in pos_tags:
    #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-2
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
            predicted_tags.append('PUNCT')
        elif kata in ['$', '%', '@', '&', '#', '*']:
            predicted_tags.append('SYM')
        else:
            predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)



Fold 1 Vocabulary Size:  15
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2266, 'VERB': 1552, 'PROPN': 1270, 'PRON': 771, 'ADV': 637, 'ADP': 592, 'ADJ': 575, 'DET': 553, 'NUM': 296, 'AUX': 279, 'SCONJ': 248, 'CCONJ': 230, 'PART': 194, 'X': 149, 'INTJ': 23})
Nilai Likelihood (L): 2.760741255039835e-10
Iteration 1: Likelihood = 0.000000000, Change in Likelihood = inf
Iteration 2: Likelihood = 0.000000120, Change in Likelihood = 0.000000119

Final Likelihood: 1.1971693420693302e-07
Akurasi POS Tagging: 90.91%
Fold 2 Vocabulary Size:  15
Fold 2 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2292, 'VERB': 1577, 'PROPN': 1230, 'PRON': 776, 'ADV': 640, 'ADP': 600, 'ADJ': 592, 'DET': 555, 'NUM': 303, 'AUX': 271, 'SCONJ': 262, 'CCONJ': 243, 'PART': 188, 'X': 136, 'INTJ': 26})
Nilai Likelihood (L): 

In [15]:
# Menghitung rata-rata akurasi di luar looping fold
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Rata-rata Akurasi POS Tagging: {average_accuracy:.2f}%")


Rata-rata Akurasi POS Tagging: 70.10%


# K = 10

In [16]:
# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=10, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['train_data']
    test_sentences = split_df.iloc[test_index]['test_data']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     for kata, tag in kalimat:
    #         for pos in pos_tags:
    #             print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     for pos in pos_tags:
        #         if pos in alpha_t:
        #             print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'ADJ' in alpha_t:
        #         print(f"α{t+1}(ADJ): {alpha_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     for pos in pos_tags:
        #         if pos in beta_t:
        #             print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'ADJ' in beta_t:
        #         print(f"β{len(beta) - t}(ADJ): {beta_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        # print("Nilai Gamma Untuk:")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk ADJ:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'ADJ' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(ADJ) = {gamma_t['ADJ']:.9f}")
        
        # print("Ksi values:")
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk ADJ:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t:
        #         for pos2 in ksi_t['ADJ']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> {pos2}) = {ksi_t['ADJ'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")

        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)

        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

        # Cetak nilai probabilitas emisi baru
        # print("Probabilitas Emisi Baru:")
        # for pos, words in probabilitas_emisi_baru.items():
        #     for word, prob in words.items():
        #         print(f"Probabilitas Emisi Baru untuk {word} dengan tag {pos}: {prob:.9f}")

        # # Cetak nilai probabilitas transisi baru
        # print("\nProbabilitas Transisi Baru:")
        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # # Cetak nilai probabilitas awal baru
        # print("\nProbabilitas Awal Baru:")
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru untuk {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # Menampilkan hasil Forward dengan Maximization Step
    # print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    # for t in range(len(sentence)-1, -1, -1):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # print("\nGamma (γ) setelah Maximization:")
    # for t in range(len(gamma_max)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

    # # Menampilkan hasil Ksi setelah Maximization
    # print("\nKsi (ξ) setelah Maximization:")
    # for t in range(len(ksi_max)):
    #     print(f"(t={t+1})")
    #     for pos1 in pos_tags:
    #         for pos2 in pos_tags:
    #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-4
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
            predicted_tags.append('PUNCT')
        elif kata in ['$', '%', '@', '&', '#', '*']:
            predicted_tags.append('SYM')
        else:
            predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)



Fold 1 Vocabulary Size:  15
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2604, 'VERB': 1764, 'PROPN': 1430, 'PRON': 867, 'ADV': 708, 'ADP': 683, 'ADJ': 650, 'DET': 633, 'NUM': 334, 'AUX': 311, 'SCONJ': 276, 'CCONJ': 270, 'PART': 218, 'X': 164, 'INTJ': 30})
Nilai Likelihood (L): 1.382075377595717e-54
Iteration 1: Likelihood = 0.000000000, Change in Likelihood = inf
Iteration 2: Likelihood = 0.000000000, Change in Likelihood = 0.000000000

Final Likelihood: 1.4684438872652632e-20
Akurasi POS Tagging: 61.90%
Fold 2 Vocabulary Size:  15
Fold 2 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2529, 'VERB': 1740, 'PROPN': 1413, 'PRON': 865, 'ADV': 727, 'ADJ': 661, 'ADP': 657, 'DET': 621, 'NUM': 324, 'AUX': 308, 'SCONJ': 286, 'CCONJ': 266, 'PART': 210, 'X': 160, 'INTJ': 25})
Nilai Likelihood (L): 

In [17]:
# Menghitung rata-rata akurasi di luar looping fold
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Rata-rata Akurasi POS Tagging: {average_accuracy:.2f}%")

Rata-rata Akurasi POS Tagging: 69.55%


# K = 5 (Tanpa Menghapus PUNCT & SYM Pada Data Training)

In [18]:
data = pd.read_csv('output_with_pos.txt', delimiter='\t', header=None, names=['kalimat'])
# Fungsi untuk memisahkan setiap kalimat menjadi kata dan tag
def split_words_tags(sentence):
    words_tags = sentence.split()
    return [tuple(word_tag.rsplit('/', 1)) for word_tag in words_tags]

data['kata_tag'] = data['kalimat'].apply(split_words_tags)

# Case Folding (Lowercase)
def case_folding(word_tag_list):
    return [(word.lower(), tag) for word, tag in word_tag_list]

data['kata_tag'] = data['kata_tag'].apply(case_folding)

data['kata_tag'] = data['kata_tag'].apply(lambda kalimat: [(kata, tag) for kata, tag in kalimat if kata != '_' and tag != '_'])
underscore = data['kata_tag'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if kata == '_' or tag == '_')).sum()

# Fungsi untuk memisahkan kalimat berdasarkan kata PUNCT
def split_after_punct(kalimat):
    result = []
    temp = []
    for kata, tag in kalimat:
        temp.append((kata, tag))
        if tag == 'PUNCT' and kata == '.':
            result.append(temp)
            temp = []
    if temp:  # Menambahkan kalimat terakhir jika ada
        result.append(temp)
    return result

# Menerapkan fungsi split_after_punct
data['kalimat_split'] = data['kata_tag'].apply(split_after_punct)

# Membuat DataFrame baru dengan setiap kalimat terpisah
split_rows = []

for index, row in data.iterrows():
    for kalimat in row['kalimat_split']:
        split_rows.append({'kalimat': ' '.join(kata for kata, tag in kalimat), 'kata_tag': kalimat})

# Membuat DataFrame baru dari hasil split
split_df = pd.DataFrame(split_rows)

# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=5, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['kata_tag']
    test_sentences = split_df.iloc[test_index]['kata_tag']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     for kata, tag in kalimat:
    #         for pos in pos_tags:
    #             print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     for pos in pos_tags:
        #         if pos in alpha_t:
        #             print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'ADJ' in alpha_t:
        #         print(f"α{t+1}(ADJ): {alpha_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     for pos in pos_tags:
        #         if pos in beta_t:
        #             print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'ADJ' in beta_t:
        #         print(f"β{len(beta) - t}(ADJ): {beta_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        # print("Nilai Gamma Untuk:")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk ADJ:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'ADJ' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(ADJ) = {gamma_t['ADJ']:.9f}")
        
        # print("Ksi values:")
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk ADJ:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t:
        #         for pos2 in ksi_t['ADJ']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> {pos2}) = {ksi_t['ADJ'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")

        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)

        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

        # Cetak nilai probabilitas emisi baru
        # print("Probabilitas Emisi Baru:")
        # for pos, words in probabilitas_emisi_baru.items():
        #     for word, prob in words.items():
        #         print(f"Probabilitas Emisi Baru untuk {word} dengan tag {pos}: {prob:.9f}")

        # # Cetak nilai probabilitas transisi baru
        # print("\nProbabilitas Transisi Baru:")
        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # # Cetak nilai probabilitas awal baru
        # print("\nProbabilitas Awal Baru:")
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru untuk {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # Menampilkan hasil Forward dengan Maximization Step
    # print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    # for t in range(len(sentence)-1, -1, -1):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # print("\nGamma (γ) setelah Maximization:")
    # for t in range(len(gamma_max)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

    # # Menampilkan hasil Ksi setelah Maximization
    # print("\nKsi (ξ) setelah Maximization:")
    # for t in range(len(ksi_max)):
    #     print(f"(t={t+1})")
    #     for pos1 in pos_tags:
    #         for pos2 in pos_tags:
    #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-3
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

Fold 1 Vocabulary Size:  17
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
Counter({'NOUN': 2266, 'PUNCT': 1808, 'VERB': 1552, 'PROPN': 1270, 'PRON': 771, 'ADV': 637, 'ADP': 592, 'ADJ': 575, 'DET': 553, 'NUM': 296, 'AUX': 279, 'SCONJ': 248, 'CCONJ': 230, 'PART': 194, 'X': 149, 'INTJ': 23, 'SYM': 10})
Probabilitas Awal untuk Fold 1 :  {'NOUN': 0.2916666666666667, 'ADP': 0.07720588235294118, 'VERB': 0.06740196078431372, 'SCONJ': 0.0428921568627451, 'PRON': 0.07598039215686274, 'ADV': 0.11887254901960784, 'AUX': 0.01838235294117647, 'PROPN': 0.1053921568627451, 'DET': 0.031862745098039214, 'INTJ': 0.013480392156862746, 'NUM': 0.014705882352941176, 'X': 0.004901960784313725, 'PUNCT': 0.09681372549019608, 'PART': 0.0196078431372549, 'ADJ': 0.013480392156862746, 'CCONJ': 0.007352941176470588}
Nilai Likelihood (L): 1.81323411893921e-25
Iteration 1: Likelihood = 0.000000011, Change in Likeliho

In [19]:
# Menghitung rata-rata akurasi di luar looping fold
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Rata-rata Akurasi POS Tagging: {average_accuracy:.2f}%")

Rata-rata Akurasi POS Tagging: 74.92%


# K = 10 (Tanpa Menghapus PUNCT & SYM Pada Data Training)

In [None]:
data = pd.read_csv('output_with_pos.txt', delimiter='\t', header=None, names=['kalimat'])
# Fungsi untuk memisahkan setiap kalimat menjadi kata dan tag
def split_words_tags(sentence):
    words_tags = sentence.split()
    return [tuple(word_tag.rsplit('/', 1)) for word_tag in words_tags]

data['kata_tag'] = data['kalimat'].apply(split_words_tags)

# Case Folding (Lowercase)
def case_folding(word_tag_list):
    return [(word.lower(), tag) for word, tag in word_tag_list]

data['kata_tag'] = data['kata_tag'].apply(case_folding)

data['kata_tag'] = data['kata_tag'].apply(lambda kalimat: [(kata, tag) for kata, tag in kalimat if kata != '_' and tag != '_'])
underscore = data['kata_tag'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if kata == '_' or tag == '_')).sum()

# Fungsi untuk memisahkan kalimat berdasarkan kata PUNCT
def split_after_punct(kalimat):
    result = []
    temp = []
    for kata, tag in kalimat:
        temp.append((kata, tag))
        if tag == 'PUNCT' and kata == '.':
            result.append(temp)
            temp = []
    if temp:  # Menambahkan kalimat terakhir jika ada
        result.append(temp)
    return result

# Menerapkan fungsi split_after_punct
data['kalimat_split'] = data['kata_tag'].apply(split_after_punct)

# Membuat DataFrame baru dengan setiap kalimat terpisah
split_rows = []

for index, row in data.iterrows():
    for kalimat in row['kalimat_split']:
        split_rows.append({'kalimat': ' '.join(kata for kata, tag in kalimat), 'kata_tag': kalimat})

# Membuat DataFrame baru dari hasil split
split_df = pd.DataFrame(split_rows)

# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=10, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['kata_tag']
    test_sentences = split_df.iloc[test_index]['kata_tag']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     for kata, tag in kalimat:
    #         for pos in pos_tags:
    #             print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     for pos in pos_tags:
        #         if pos in alpha_t:
        #             print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'ADJ' in alpha_t:
        #         print(f"α{t+1}(ADJ): {alpha_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     for pos in pos_tags:
        #         if pos in beta_t:
        #             print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'ADJ' in beta_t:
        #         print(f"β{len(beta) - t}(ADJ): {beta_t['ADJ']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        # print("Nilai Gamma Untuk:")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk ADJ:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'ADJ' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(ADJ) = {gamma_t['ADJ']:.9f}")
        
        # print("Ksi values:")
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk ADJ:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t:
        #         for pos2 in ksi_t['ADJ']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> {pos2}) = {ksi_t['ADJ'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")

        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)

        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

        # Cetak nilai probabilitas emisi baru
        # print("Probabilitas Emisi Baru:")
        # for pos, words in probabilitas_emisi_baru.items():
        #     for word, prob in words.items():
        #         print(f"Probabilitas Emisi Baru untuk {word} dengan tag {pos}: {prob:.9f}")

        # # Cetak nilai probabilitas transisi baru
        # print("\nProbabilitas Transisi Baru:")
        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # # Cetak nilai probabilitas awal baru
        # print("\nProbabilitas Awal Baru:")
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru untuk {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # Menampilkan hasil Forward dengan Maximization Step
    # print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    # for t in range(len(sentence)-1, -1, -1):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # print("\nGamma (γ) setelah Maximization:")
    # for t in range(len(gamma_max)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

    # # Menampilkan hasil Ksi setelah Maximization
    # print("\nKsi (ξ) setelah Maximization:")
    # for t in range(len(ksi_max)):
    #     print(f"(t={t+1})")
    #     for pos1 in pos_tags:
    #         for pos2 in pos_tags:
    #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-3
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

Fold 1 Vocabulary Size:  17
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
Counter({'NOUN': 2604, 'PUNCT': 2044, 'VERB': 1764, 'PROPN': 1430, 'PRON': 867, 'ADV': 708, 'ADP': 683, 'ADJ': 650, 'DET': 633, 'NUM': 334, 'AUX': 311, 'SCONJ': 276, 'CCONJ': 270, 'PART': 218, 'X': 164, 'INTJ': 30, 'SYM': 10})
Probabilitas Awal untuk Fold 1 :  {'NOUN': 0.28431372549019607, 'ADP': 0.0784313725490196, 'VERB': 0.0664488017429194, 'SCONJ': 0.04030501089324619, 'PRON': 0.07952069716775599, 'ADV': 0.11655773420479303, 'AUX': 0.018518518518518517, 'PROPN': 0.11220043572984749, 'DET': 0.03376906318082789, 'INTJ': 0.015250544662309368, 'NUM': 0.013071895424836602, 'X': 0.004357298474945534, 'PUNCT': 0.09803921568627451, 'PART': 0.0196078431372549, 'ADJ': 0.013071895424836602, 'CCONJ': 0.006535947712418301}
Nilai Likelihood (L): 1.339321159446543e-50
Iteration 1: Likelihood = 0.000000000, Change in Likeli

In [21]:
# Menghitung rata-rata akurasi di luar looping fold
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Rata-rata Akurasi POS Tagging: {average_accuracy:.2f}%")

Rata-rata Akurasi POS Tagging: 63.96%


# Code untuk membuktikan error ketika terdapat kalimat yang panjang

In [23]:
data['kalimat_split'] = data['kata_tag']

# Data yang akan digunakan untuk training, tanpa 'PUNCT' dan 'SYM'
def remove_punct_sym(kalimat):
    return [(kata, tag) for kata, tag in kalimat if tag not in ['PUNCT', 'SYM']]

# Menerapkan fungsi remove_punct_sym
data['train_data'] = data['kata_tag'].apply(remove_punct_sym)
print(data['train_data'])

# Menghitung jumlah tag 'PUNCT' dan 'SYM' dari train data
punct_count = data['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'PUNCT')).sum()
sym_count = data['train_data'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if tag == 'SYM')).sum()

print(f"Jumlah tag 'PUNCT' dari train data: {punct_count}")
print(f"Jumlah tag 'SYM' dari train data: {sym_count}")

# Testing data tetap mempertahankan semua kata dan tag untuk prediksi otomatis
data['test_data'] = data['kata_tag']
print(data['test_data'])

# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=5, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(data)):
    train_sentences = data.iloc[train_index]['train_data']
    test_sentences = data.iloc[test_index]['test_data']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     for kata, tag in kalimat:
    #         for pos in pos_tags:
    #             print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        for t, alpha_t in enumerate(alpha):
            print(f"(t={t+1})")
            for pos in pos_tags:
                if pos in alpha_t:
                    print(f"α{t+1}({pos}): {alpha_t[pos]}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'ADJ' in alpha_t:
        #         print(f"α{t+1}(ADJ): {alpha_t['ADJ']}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        for t, beta_t in enumerate(reversed(beta)):
            print(f"(t={len(beta) - t})")
            for pos in pos_tags:
                if pos in beta_t:
                    print(f"β{len(beta) - t}({pos}): {beta_t[pos]}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'ADJ' in beta_t:
        #         print(f"β{len(beta) - t}(ADJ): {beta_t['ADJ']}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        
        # print("Nilai Gamma Untuk:")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk ADJ:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'ADJ' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(ADJ) = {gamma_t['ADJ']:.9f}")
        
        # print("Ksi values:")
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk ADJ:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t:
        #         for pos2 in ksi_t['ADJ']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> {pos2}) = {ksi_t['ADJ'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")


        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)


        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # Menampilkan hasil Forward dengan Maximization Step
    # print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    # for t in range(len(sentence)-1, -1, -1):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # print("\nGamma (γ) setelah Maximization:")
    # for t in range(len(gamma_max)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

    # # Menampilkan hasil Ksi setelah Maximization
    # print("\nKsi (ξ) setelah Maximization:")
    # for t in range(len(ksi_max)):
    #     print(f"(t={t+1})")
    #     for pos1 in pos_tags:
    #         for pos2 in pos_tags:
    #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-3
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
            predicted_tags.append('PUNCT')
        elif kata in ['$', '%', '@', '&', '#', '*']:
            predicted_tags.append('SYM')
        else:
            predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

0      [(bocah, NOUN), (kuwi, DET), (seneng, VERB), (...
1      [(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia...
2      [(mbakyu, NOUN), (e, PRON), (seneng, VERB), (n...
3      [(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB...
4      [(nonton, VERB), (tivi, NOUN), (bisa, AUX), (n...
                             ...                        
834    [(sesuk, ADV), (aku, PRON), (pengen, VERB), (n...
835    [(dhik, PROPN), (kok, ADV), (sajak, SCONJ), (s...
836    [(bocah, NOUN), (enom, ADJ), (saiki, ADV), (ra...
837    [(lha, INTJ), (ning, PART), (nek, SCONJ), (bap...
838    [(sampun, AUX), (damel, VERB), (ibu, NOUN), (k...
Name: train_data, Length: 839, dtype: object
Jumlah tag 'PUNCT' dari train data: 0
Jumlah tag 'SYM' dari train data: 0
0      [(bocah, NOUN), (kuwi, DET), (seneng, VERB), (...
1      [(ing, ADP), (wayah, NOUN), (sore, NOUN), (bia...
2      [(mbakyu, NOUN), (e, PRON), (seneng, VERB), (n...
3      [(ibu, NOUN), (kuwi, DET), (ngendikakake, VERB...
4      [(nonton, VERB), (t

ZeroDivisionError: float division by zero

# Kode untuk mencari tahu kenapa tanpa hapus tag PUNCT dan SYM lebih besar akurasinya daripada dihapus

In [None]:
# Hapus Tag 'PUNCT' dan 'SYM' dari data
# Menghitung akurasi untuk setiap fold
# accuracies = []
# kf = KFold(n_splits=5, random_state=42, shuffle=True)
# # Training dengan KFold
# for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
#     train_sentences = split_df.iloc[train_index]['train_data']
#     test_sentences = split_df.iloc[test_index]['test_data']
#     # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

#     # Menghitung frekuensi tag POS
#     pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

#     # Menghitung frekuensi pasangan kata-tag POS
#     kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

#     pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
#     vocab_size = len(pos_tags)  # Jumlah jenis kata

#     # for pos in pos_tags:
#     #     if pos not in pos_freq:
#     #         pos_freq[pos] = 0

#     print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
#     print(f"Fold {fold + 1} POS Tags: ", pos_tags)
#     print(pos_freq)
    
#     # Menghitung probabilitas transisi awal untuk fold ini
#     probabilitas_awal = hitung_probabilitas_awal(train_sentences)
#     # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

#     # Menghitung probabilitas emisi untuk fold ini
#     probabilitas_emisi = {}
#     for kalimat in test_sentences:
#         for kata, _ in kalimat:
#             for pos in pos_tags:
#                 probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

#     # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
#     for kalimat in test_sentences:
#         if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#             for kata, tag in kalimat:
#                 for pos in pos_tags:
#                     print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")
#         # for kata, tag in kalimat:
#         #     for pos in pos_tags:
#         #         print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

#     # Menghitung urutan POS dari data
#     pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

#     # Menghitung probabilitas transisi untuk setiap pasangan POS
#     probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

#     # Cetak hasil probabilitas transisi untuk semua pasangan POS
#     # for pos1 in pos_tags:
#     #     for pos2 in pos_tags:
#     #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
#     # Menghitung jumlah semua transisi antar POS
#     # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

#     # Cetak jumlah transisi antar POS
#     # for (pos1, pos2), count in transisi_counts.items():
#     #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

#     for kalimat in test_sentences:
#         sentence = [kata for kata, tag in kalimat]
#         # Menghitung alpha dengan algoritma forward
#         alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        
#         if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
#             for t, alpha_t in enumerate(alpha):
#                 print(f"(t={t+1})")
#                 for pos in pos_tags:
#                     if pos in alpha_t:
#                         print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
#         # for t, alpha_t in enumerate(alpha):
#         #     print(f"(t={t+1})")
#         #     if 'NOUN' in alpha_t:
#         #         print(f"α{t+1}(NOUN): {alpha_t['NOUN']:.30f}")
#         #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
#         # Menghitung beta dengan algoritma backward
#         beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
#         if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#             for t, beta_t in enumerate(reversed(beta)):
#                 print(f"(t={len(beta) - t})")
#                 for pos in pos_tags:
#                     if pos in beta_t:
#                         print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

#         # for t, beta_t in enumerate(reversed(beta)):
#         #     print(f"(t={len(beta) - t})")
#         #     if 'NOUN' in beta_t:
#         #         print(f"β{len(beta) - t}(NOUN): {beta_t['NOUN']:.30f}")
#         #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

#         # Expectation Step: Menghitung gamma dan ksi
#         gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags, pos_freq, vocab_size)
        
        
#         if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#             print("Nilai Gamma Untuk:")
#             for t, gamma_t in enumerate(gamma):
#                 print(f"t={t+1}: {gamma_t}")
#         # for t, gamma_t in enumerate(gamma):
#         #     print(f"t={t+1}: {gamma_t}")

#         # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
#         # print("Nilai Gamma Untuk NOUN:")
#         # for t, gamma_t in enumerate(gamma):
#         #     if 'NOUN' in gamma_t:
#         #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(NOUN) = {gamma_t['NOUN']:.9f}")
        
#         if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#             print("Ksi values:")
#             for t, ksi_t in enumerate(ksi):
#                 for pos1 in ksi_t:
#                     for pos2 in ksi_t[pos1]:
#                         print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}, kata: {sentence[t]}")
        
#         # for t, ksi_t in enumerate(ksi):
#         #     for pos1 in ksi_t:
#         #         for pos2 in ksi_t[pos1]:
#         #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

#         # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
#         # print("Nilai Ksi Untuk NOUN:")
#         # for t, ksi_t in enumerate(ksi):
#         #     if 'NOUN' in ksi_t:
#         #         for pos2 in ksi_t['NOUN']:
#         #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(NOUN -> {pos2}) = {ksi_t['NOUN'][pos2]:.9f}")
        
#         # print("Nilai Ksi Untuk ADJ ke NOUN:")
#         # for t, ksi_t in enumerate(ksi):
#         #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
#         #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")


#         # Hitung probabilitas transisi dan emisi yang baru``
#         probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)


#         # Menampilkan hasil
#         # for pos, prob in probabilitas_awal_baru.items():
#         #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

#         # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
#         #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

#         # for pos in probabilitas_emisi_baru:
#         #     for word, prob in probabilitas_emisi_baru[pos].items():
#         #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

#     # Hitung forward dengan Maximization Step
#     alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

#     # # Menampilkan hasil Forward dengan Maximization Step
#     print("Forward Algorithm (Alpha) dengan Maximization Step:")
#     if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#         for t in range(len(sentence)):
#             print(f"(t={t+1})")
#             for pos in pos_tags:
#                 print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")
    
#     # for t in range(len(sentence)):
#     #     print(f"(t={t+1})")
#     #     for pos in pos_tags:
#     #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

#     # Hitung backward dengan Maximization Step
#     beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

#     # # Menampilkan hasil Backward dengan Maximization Step
#     if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#         print("\nBackward Algorithm (Beta) dengan Maximization Step:")
#         for t in range(len(sentence)-1, -1, -1):
#             print(f"(t={t+1})")
#             for pos in pos_tags:
#                 print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

#     # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
#     likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

#     print("Nilai Likelihood (L):", likelihood)

#     # Menghitung gamma dan ksi setelah Maximization
#     gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

#     # # Menampilkan hasil Gamma setelah Maximization
#     if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
#         print("\nGamma (γ) setelah Maximization:")
#         for t in range(len(gamma_max)):
#             print(f"(t={t+1})")
#             for pos in pos_tags:
#                 print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

#         # Menampilkan hasil Ksi setelah Maximization
#         print("\nKsi (ξ) setelah Maximization:")
#         for t in range(len(ksi_max)):
#             print(f"(t={t+1})")
#             for pos1 in pos_tags:
#                 for pos2 in pos_tags:
#                     print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

#     # Threshold dan inisialisasi variabel
#     # Fungsi untuk menghitung likelihood

#     # def calculate_likelihood(alpha, beta):
#     #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
#     #     return likelihood
#     # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
#     threshold = 1e-3
#     likelihood_diff = float('inf')
#     prev_likelihood = 0

#     iteration = 0

#     # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
#     while likelihood_diff > threshold:
#         iteration += 1
        
#         # Forward dan Backward menggunakan probabilitas yang telah di-update
#         alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        
#         if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
#             print("Forward Algorithm (Alpha) dengan Maximization Step (iterasi):")
#             for t in range(len(sentence)):
#                 print(f"(t={t+1})")
#                 for pos in pos_tags:
#                     print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")


#         beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

#         print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
#         if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
#             print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
#             for t in range(len(sentence)-1, -1, -1):
#                 print(f"(t={t+1})")
#                 for pos in pos_tags:
#                     print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")


#         # Expectation Step setelah Maximization: Menghitung gamma dan ksi
#         gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

#         if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
#             print("\nGamma (γ) setelah Maximization (iterasi):")
#             for t in range(len(gamma_max)):
#                 print(f"(t={t+1})")
#                 for pos in pos_tags:
#                     print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

#             print("\nKsi (ξ) setelah Maximization (iterasi):")
#             for t in range(len(ksi_max)):
#                 print(f"(t={t+1})")
#                 for pos1 in pos_tags:
#                     for pos2 in pos_tags:
#                         print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}, kata: {sentence[t]}")

#         # Maximization Step: Update probabilitas transisi dan emisi
#         probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

#         # Menghitung likelihood pada iterasi ini
#         likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
#         # Hitung likelihood baru
#         current_likelihood = likelihood
#         if iteration >= 2:
#             likelihood_diff = current_likelihood - prev_likelihood
#             prev_likelihood = current_likelihood
#         else:
#             prev_likelihood = current_likelihood

#         print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
#     # Menampilkan hasil akhir
#     print("\nFinal Likelihood:", likelihood)

#     # Menentukan tag yang diprediksi berdasarkan gamma terbesar
#     predicted_tags = []
#     for t in range(len(sentence)):
#         kata = sentence[t]
#         if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
#             predicted_tags.append('PUNCT')
#         elif kata in ['$', '%', '@', '&', '#', '*']:
#             predicted_tags.append('SYM')
#         else:
#             predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

#     # Tag yang benar dari data kalimat
#     true_tags = [tag for word, tag in kalimat]

#     # Hitung jumlah prediksi yang benar
#     correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

#     # Hitung akurasi
#     akurasi = correct_predictions / len(true_tags)

#     # Konversi akurasi ke persen
#     akurasi_persen = akurasi * 100

#     print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")
    
#     # Cetak list seluruh kata yang tag prediksinya salah dan dari kalimat apa
#     for i, (pred_tag, true_tag) in enumerate(zip(predicted_tags, true_tags)):
#         if pred_tag != true_tag:
#             print(f"Kata: {sentence[i]}, Prediksi: {pred_tag}, Sebenarnya: {true_tag}, Dari Kalimat: {' '.join([word for word, tag in kalimat])}")

#     # Rata-rata akurasi
#     # Menambahkan akurasi ke dalam list accuracies
#     accuracies.append(akurasi_persen)

#======================================================================================================================
#======================================================================================================================
#======================================================================================================================
# # Tanpa hapus tag
data = pd.read_csv('output_with_pos.txt', delimiter='\t', header=None, names=['kalimat'])
# Fungsi untuk memisahkan setiap kalimat menjadi kata dan tag
def split_words_tags(sentence):
    words_tags = sentence.split()
    return [tuple(word_tag.rsplit('/', 1)) for word_tag in words_tags]

data['kata_tag'] = data['kalimat'].apply(split_words_tags)

# Case Folding (Lowercase)
def case_folding(word_tag_list):
    return [(word.lower(), tag) for word, tag in word_tag_list]

data['kata_tag'] = data['kata_tag'].apply(case_folding)

data['kata_tag'] = data['kata_tag'].apply(lambda kalimat: [(kata, tag) for kata, tag in kalimat if kata != '_' and tag != '_'])
underscore = data['kata_tag'].apply(lambda kalimat: sum(1 for kata, tag in kalimat if kata == '_' or tag == '_')).sum()

# Fungsi untuk memisahkan kalimat berdasarkan kata PUNCT
def split_after_punct(kalimat):
    result = []
    temp = []
    for kata, tag in kalimat:
        temp.append((kata, tag))
        if tag == 'PUNCT' and kata == '.':
            result.append(temp)
            temp = []
    if temp:  # Menambahkan kalimat terakhir jika ada
        result.append(temp)
    return result

# Menerapkan fungsi split_after_punct
data['kalimat_split'] = data['kata_tag'].apply(split_after_punct)

# Membuat DataFrame baru dengan setiap kalimat terpisah
split_rows = []

for index, row in data.iterrows():
    for kalimat in row['kalimat_split']:
        split_rows.append({'kalimat': ' '.join(kata for kata, tag in kalimat), 'kata_tag': kalimat})

# Membuat DataFrame baru dari hasil split
split_df = pd.DataFrame(split_rows)

# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=5, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['kata_tag']
    test_sentences = split_df.iloc[test_index]['kata_tag']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # # Menghitung jumlah total kata yang memiliki tag NUM dan ADJ
    # num_adj_counts = Counter([(tag1, tag2) for sentence in train_sentences for (word1, tag1), (word2, tag2) in zip(sentence, sentence[1:]) if tag1 in ['NUM', 'ADJ']])

    # # Cetak jumlah total kata yang memiliki tag NUM dan ADJ
    # for (tag1, tag2), count in num_adj_counts.items():
    #     print(f"{tag1} -> {tag2}: {count}")

    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    for kalimat in test_sentences:
        if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
            for kata, tag in kalimat:
                for pos in pos_tags:
                    print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")
        # for kata, tag in kalimat:
        #     for pos in pos_tags:
        #         print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        
        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            for t, alpha_t in enumerate(alpha):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    if pos in alpha_t:
                        print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'NOUN' in alpha_t:
        #         print(f"α{t+1}(NOUN): {alpha_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
            for t, beta_t in enumerate(reversed(beta)):
                print(f"(t={len(beta) - t})")
                for pos in pos_tags:
                    if pos in beta_t:
                        print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'NOUN' in beta_t:
        #         print(f"β{len(beta) - t}(NOUN): {beta_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        
        if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
            print("Nilai Gamma Untuk:")
            for t, gamma_t in enumerate(gamma):
                print(f"t={t+1}: {gamma_t}")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk NOUN:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'NOUN' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(NOUN) = {gamma_t['NOUN']:.9f}")
        
        if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
            print("Ksi values:")
            for t, ksi_t in enumerate(ksi):
                for pos1 in ksi_t:
                    for pos2 in ksi_t[pos1]:
                        print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}, kata: {sentence[t]}")
        
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'NOUN' in ksi_t:
        #         for pos2 in ksi_t['NOUN']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(NOUN -> {pos2}) = {ksi_t['NOUN'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")


        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)


        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # # Menampilkan hasil Forward dengan Maximization Step
    print("Forward Algorithm (Alpha) dengan Maximization Step:")
    if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
        for t in range(len(sentence)):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")
    
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
        print("\nBackward Algorithm (Beta) dengan Maximization Step:")
        for t in range(len(sentence)-1, -1, -1):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
        print("\nGamma (γ) setelah Maximization:")
        for t in range(len(gamma_max)):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

        # Menampilkan hasil Ksi setelah Maximization
        print("\nKsi (ξ) setelah Maximization:")
        for t in range(len(ksi_max)):
            print(f"(t={t+1})")
            for pos1 in pos_tags:
                for pos2 in pos_tags:
                    print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-3
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        
        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("Forward Algorithm (Alpha) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")


        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)-1, -1, -1):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")


        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("\nGamma (γ) setelah Maximization (iterasi):")
            for t in range(len(gamma_max)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

            print("\nKsi (ξ) setelah Maximization (iterasi):")
            for t in range(len(ksi_max)):
                print(f"(t={t+1})")
                for pos1 in pos_tags:
                    for pos2 in pos_tags:
                        print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}, kata: {sentence[t]}")

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")
    
    # Cetak list seluruh kata yang tag prediksinya salah dan dari kalimat apa
    for i, (pred_tag, true_tag) in enumerate(zip(predicted_tags, true_tags)):
        if pred_tag != true_tag:
            print(f"Kata: {sentence[i]}, Prediksi: {pred_tag}, Sebenarnya: {true_tag}, Dari Kalimat: {' '.join([word for word, tag in kalimat])}")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

Fold 1 Vocabulary Size:  17
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X', 'PUNCT', 'SYM']
Counter({'NOUN': 2266, 'PUNCT': 1808, 'VERB': 1552, 'PROPN': 1270, 'PRON': 771, 'ADV': 637, 'ADP': 592, 'ADJ': 575, 'DET': 553, 'NUM': 296, 'AUX': 279, 'SCONJ': 248, 'CCONJ': 230, 'PART': 194, 'X': 149, 'INTJ': 23, 'SYM': 10})
NOUN -> DET: 319
NOUN -> PRON: 294
NOUN -> NOUN: 448
NOUN -> ADV: 74
NOUN -> PUNCT: 351
NOUN -> AUX: 34
NOUN -> ADJ: 158
NOUN -> PROPN: 166
NOUN -> VERB: 114
NOUN -> PART: 12
NOUN -> NUM: 85
NOUN -> CCONJ: 51
NOUN -> ADP: 87
NOUN -> X: 43
NOUN -> SCONJ: 30
Probabilitas Awal untuk Fold 1 :  {'NOUN': 0.2916666666666667, 'ADP': 0.07720588235294118, 'VERB': 0.06740196078431372, 'SCONJ': 0.0428921568627451, 'PRON': 0.07598039215686274, 'ADV': 0.11887254901960784, 'AUX': 0.01838235294117647, 'PROPN': 0.1053921568627451, 'DET': 0.031862745098039214, 'INTJ': 0.013480392156862746, 'NUM': 0.01470588

KeyboardInterrupt: 

In [119]:
test_sentence = [('Kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), 
                 ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), 
                 ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]

for word, actual_tag in test_sentence:
    print(f"\nKata: {word}")
    for pos in pos_tags:
        emisi_prob = probabilitas_emisi.get((word, pos), 0)
        print(f"  Probabilitas {word} sebagai {pos}: {emisi_prob}")



Kata: Kanthi
  Probabilitas Kanthi sebagai ADJ: 0
  Probabilitas Kanthi sebagai ADP: 0
  Probabilitas Kanthi sebagai ADV: 0
  Probabilitas Kanthi sebagai AUX: 0
  Probabilitas Kanthi sebagai CCONJ: 0
  Probabilitas Kanthi sebagai DET: 0
  Probabilitas Kanthi sebagai INTJ: 0
  Probabilitas Kanthi sebagai NOUN: 0
  Probabilitas Kanthi sebagai NUM: 0
  Probabilitas Kanthi sebagai PART: 0
  Probabilitas Kanthi sebagai PRON: 0
  Probabilitas Kanthi sebagai PROPN: 0
  Probabilitas Kanthi sebagai SCONJ: 0
  Probabilitas Kanthi sebagai VERB: 0
  Probabilitas Kanthi sebagai X: 0

Kata: rasa
  Probabilitas rasa sebagai ADJ: 0.0016260162601626016
  Probabilitas rasa sebagai ADP: 0.001644736842105263
  Probabilitas rasa sebagai ADV: 0.0015698587127158557
  Probabilitas rasa sebagai AUX: 0.0035587188612099642
  Probabilitas rasa sebagai CCONJ: 0.0036363636363636364
  Probabilitas rasa sebagai DET: 0.0016863406408094434
  Probabilitas rasa sebagai INTJ: 0.024390243902439025
  Probabilitas rasa seba

# Kode untuk mencari tahu kenapa likelihood yang tinggi lebih besar akurasinya daripada likelihood yang rendah

In [None]:
# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=10, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['train_data']
    test_sentences = split_df.iloc[test_index]['test_data']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    # for kalimat in test_sentences:
    #     if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
    #         for kata, tag in kalimat:
    #             for pos in pos_tags:
    #                 print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")
        # for kata, tag in kalimat:
        #     for pos in pos_tags:
        #         print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        
        # if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
        #     for t, alpha_t in enumerate(alpha):
        #         print(f"(t={t+1})")
        #         for pos in pos_tags:
        #             if pos in alpha_t:
        #                 print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'NOUN' in alpha_t:
        #         print(f"α{t+1}(NOUN): {alpha_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        # if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
        #     for t, beta_t in enumerate(reversed(beta)):
        #         print(f"(t={len(beta) - t})")
        #         for pos in pos_tags:
        #             if pos in beta_t:
        #                 print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'NOUN' in beta_t:
        #         print(f"β{len(beta) - t}(NOUN): {beta_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags, pos_freq, vocab_size)
        
        
        if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
            print("Nilai Gamma Untuk:")
            for t, gamma_t in enumerate(gamma):
                print(f"t={t+1}: {gamma_t}")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk NOUN:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'NOUN' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(NOUN) = {gamma_t['NOUN']:.9f}")
        
        # if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
        #     print("Ksi values:")
        #     for t, ksi_t in enumerate(ksi):
        #         for pos1 in ksi_t:
        #             for pos2 in ksi_t[pos1]:
        #                 print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}, kata: {sentence[t]}")
        
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'NOUN' in ksi_t:
        #         for pos2 in ksi_t['NOUN']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(NOUN -> {pos2}) = {ksi_t['NOUN'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")


        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)


        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # # Menampilkan hasil Forward dengan Maximization Step
    print("Forward Algorithm (Alpha) dengan Maximization Step:")
    # if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
    #     for t in range(len(sentence)):
    #         print(f"(t={t+1})")
    #         for pos in pos_tags:
    #             print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")
    
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    # if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
    #     print("\nBackward Algorithm (Beta) dengan Maximization Step:")
    #     for t in range(len(sentence)-1, -1, -1):
    #         print(f"(t={t+1})")
    #         for pos in pos_tags:
    #             print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    # if kalimat == [('kanthi', 'ADP'), ('rasa', 'NOUN'), ('bungah', 'ADJ'), (',', 'PUNCT'), ('dak', 'PRON'), ('rangkul', 'VERB'), ('wong', 'NOUN'), ('tuwa', 'ADJ'), ('ku', 'PRON'), ('sakloron', 'NUM'), ('.', 'PUNCT')]:
    #     print("\nGamma (γ) setelah Maximization:")
    #     for t in range(len(gamma_max)):
    #         print(f"(t={t+1})")
    #         for pos in pos_tags:
    #             print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

        # # Menampilkan hasil Ksi setelah Maximization
        # print("\nKsi (ξ) setelah Maximization:")
        # for t in range(len(ksi_max)):
        #     print(f"(t={t+1})")
        #     for pos1 in pos_tags:
        #         for pos2 in pos_tags:
        #             print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-10
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        
        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("Forward Algorithm (Alpha) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")


        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)-1, -1, -1):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")


        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        if sentence == ['kanthi', 'rasa', 'bungah', ',', 'dak', 'rangkul', 'wong', 'tuwa', 'ku', 'sakloron', '.']:
            print("\nGamma (γ) setelah Maximization (iterasi):")
            for t in range(len(gamma_max)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.30f}")

            print("\nKsi (ξ) setelah Maximization (iterasi):")
            for t in range(len(ksi_max)):
                print(f"(t={t+1})")
                for pos1 in pos_tags:
                    for pos2 in pos_tags:
                        print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}, kata: {sentence[t]}")

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
            predicted_tags.append('PUNCT')
        elif kata in ['$', '%', '@', '&', '#', '*']:
            predicted_tags.append('SYM')
        else:
            predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")
    
    # Cetak list seluruh kata yang tag prediksinya salah dan dari kalimat apa
    for i, (pred_tag, true_tag) in enumerate(zip(predicted_tags, true_tags)):
        if pred_tag != true_tag:
            print(f"Kata: {sentence[i]}, Prediksi: {pred_tag}, Sebenarnya: {true_tag}, Dari Kalimat: {' '.join([word for word, tag in kalimat])}")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

Fold 1 Vocabulary Size:  15
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2604, 'VERB': 1764, 'PROPN': 1430, 'PRON': 867, 'ADV': 708, 'ADP': 683, 'ADJ': 650, 'DET': 633, 'NUM': 334, 'AUX': 311, 'SCONJ': 276, 'CCONJ': 270, 'PART': 218, 'X': 164, 'INTJ': 30})
Forward Algorithm (Alpha) dengan Maximization Step:
Nilai Likelihood (L): 1.382075377595717e-54

Backward Algorithm (Beta) dengan Maximization Step (iterasi):
Iteration 1: Likelihood = 0.000000000, Change in Likelihood = inf

Backward Algorithm (Beta) dengan Maximization Step (iterasi):
Iteration 2: Likelihood = 0.000000000, Change in Likelihood = 0.000000000

Final Likelihood: 1.4684438872652638e-20
Akurasi POS Tagging: 61.90%
Kata: di-phk, Prediksi: INTJ, Sebenarnya: VERB, Dari Kalimat: bocah sakloron iku dadi conto liya e , yen di-phk ra usah wedi anggere sregep maca lan usaha ngupaya upa .
Kata: usah, Prediksi: AUX, Sebenarnya

# Cek kenapa K = 5 lebih besar daripada K = 10

In [None]:
# Menghitung akurasi untuk setiap fold
accuracies = []
kf = KFold(n_splits=10, random_state=42, shuffle=True)
# Training dengan KFold
for fold, (train_index, test_index) in enumerate(kf.split(split_df)):
    train_sentences = split_df.iloc[train_index]['train_data']
    test_sentences = split_df.iloc[test_index]['test_data']
    # kata_freq = Counter([kata for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi tag POS
    pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

    # Menghitung frekuensi pasangan kata-tag POS
    kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

    pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
    vocab_size = len(pos_tags)  # Jumlah jenis kata

    # for pos in pos_tags:
    #     if pos not in pos_freq:
    #         pos_freq[pos] = 0

    print(f"Fold {fold + 1} Vocabulary Size: ", vocab_size)
    print(f"Fold {fold + 1} POS Tags: ", pos_tags)
    print(pos_freq)
    
    # Menghitung probabilitas transisi awal untuk fold ini
    probabilitas_awal = hitung_probabilitas_awal(train_sentences)
    # print(f"Probabilitas Awal untuk Fold {fold + 1} : ", probabilitas_awal)

    # Menghitung probabilitas emisi untuk fold ini
    probabilitas_emisi = {}
    for kalimat in test_sentences:
        for kata, _ in kalimat:
            for pos in pos_tags:
                probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

    # Cetak hasil probabilitas emisi untuk semua kata dalam data testing
    for kalimat in test_sentences:
        if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            for kata, tag in kalimat:
                for pos in pos_tags:
                    print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")
        # for kata, tag in kalimat:
        #     for pos in pos_tags:
        #         print(f"Probabilitas Emisi untuk {kata} sebagai {pos}: {probabilitas_emisi.get((kata, pos), 0)}")

    # Menghitung urutan POS dari data
    pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

    # Menghitung probabilitas transisi untuk setiap pasangan POS
    probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

    # Cetak hasil probabilitas transisi untuk semua pasangan POS
    # for pos1 in pos_tags:
    #     for pos2 in pos_tags:
    #         print(f"Probabilitas Transisi dari {pos1} ke {pos2}: {probabilitas_transisi.get((pos1, pos2), 0)}")
    
    # Menghitung jumlah semua transisi antar POS
    # transisi_counts = Counter(zip(pos_sequence, pos_sequence[1:]))

    # Cetak jumlah transisi antar POS
    # for (pos1, pos2), count in transisi_counts.items():
    #     print(f"Jumlah transisi dari {pos1} ke {pos2}: {count}")

    for kalimat in test_sentences:
        sentence = [kata for kata, tag in kalimat]
        # Menghitung alpha dengan algoritma forward
        alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)
        
        if sentence == ['bocah', 'sakloron', 'iku', 'dadi', 'conto', 'liya', 'e', ',', 'yen', 'di-phk', 'ra', 'usah', 'wedi', 'anggere', 'sregep', 'maca', 'lan', 'usaha', 'ngupaya', 'upa', '.']:
            for t, alpha_t in enumerate(alpha):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    if pos in alpha_t:
                        print(f"α{t+1}({pos}): {alpha_t[pos]:.9f}")
        
        # for t, alpha_t in enumerate(alpha):
        #     print(f"(t={t+1})")
        #     if 'NOUN' in alpha_t:
        #         print(f"α{t+1}(NOUN): {alpha_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={t+1}: {sentence[t]}")
         
        # Menghitung beta dengan algoritma backward
        beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)
        
        if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            for t, beta_t in enumerate(reversed(beta)):
                print(f"(t={len(beta) - t})")
                for pos in pos_tags:
                    if pos in beta_t:
                        print(f"β{len(beta) - t}({pos}): {beta_t[pos]:.9f}")

        # for t, beta_t in enumerate(reversed(beta)):
        #     print(f"(t={len(beta) - t})")
        #     if 'NOUN' in beta_t:
        #         print(f"β{len(beta) - t}(NOUN): {beta_t['NOUN']:.30f}")
        #         print(f"Kata pada waktu t={len(beta) - t}: {sentence[len(beta) - t - 1]}")

        # Expectation Step: Menghitung gamma dan ksi
        gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags, pos_freq, vocab_size)
        
        
        if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            print("Nilai Gamma Untuk:")
            for t, gamma_t in enumerate(gamma):
                print(f"t={t+1}: {gamma_t}")
        # for t, gamma_t in enumerate(gamma):
        #     print(f"t={t+1}: {gamma_t}")

        # menampilkan nilai gamma untuk ADJ dan kata pada waktu t
        # print("Nilai Gamma Untuk NOUN:")
        # for t, gamma_t in enumerate(gamma):
        #     if 'NOUN' in gamma_t:
        #         print(f"t={t+1}, kata={sentence[t]}: γ{t+1}(NOUN) = {gamma_t['NOUN']:.9f}")
        
        if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            print("Ksi values:")
            for t, ksi_t in enumerate(ksi):
                for pos1 in ksi_t:
                    for pos2 in ksi_t[pos1]:
                        print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}, kata: {sentence[t]}")
        
        # for t, ksi_t in enumerate(ksi):
        #     for pos1 in ksi_t:
        #         for pos2 in ksi_t[pos1]:
        #             print(f"ksi[{t+1}]({pos1} -> {pos2}): {ksi_t[pos1][pos2]:.9f}")

        # menampilkan nilai ksi untuk ADJ dan kata pada waktu t
        # print("Nilai Ksi Untuk NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'NOUN' in ksi_t:
        #         for pos2 in ksi_t['NOUN']:
        #             print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(NOUN -> {pos2}) = {ksi_t['NOUN'][pos2]:.9f}")
        
        # print("Nilai Ksi Untuk ADJ ke NOUN:")
        # for t, ksi_t in enumerate(ksi):
        #     if 'ADJ' in ksi_t and 'NOUN' in ksi_t['ADJ']:
        #         print(f"t={t+1}, kata1={sentence[t]}, kata2={sentence[t+1]}: ξ{t+1}(ADJ -> NOUN) = {ksi_t['ADJ']['NOUN']:.9f}")


        # Hitung probabilitas transisi dan emisi yang baru``
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)


        # Menampilkan hasil
        # for pos, prob in probabilitas_awal_baru.items():
        #     print(f"Probabilitas Awal Baru Untuk {pos}: {prob:.9f}")

        # for (pos1, pos2), prob in probabilitas_transisi_baru.items():
        #     print(f"Probabilitas Transisi Baru dari {pos1} ke {pos2}: {prob:.9f}")

        # for pos in probabilitas_emisi_baru:
        #     for word, prob in probabilitas_emisi_baru[pos].items():
        #         print(f"Probabilitas Emisi Baru Untuk {word} Dengan Tag {pos}: {prob:.9f}")

    # Hitung forward dengan Maximization Step
    alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

    # # Menampilkan hasil Forward dengan Maximization Step
    print("Forward Algorithm (Alpha) dengan Maximization Step:")
    if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
        for t in range(len(sentence)):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")
    
    # for t in range(len(sentence)):
    #     print(f"(t={t+1})")
    #     for pos in pos_tags:
    #         print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")

    # Hitung backward dengan Maximization Step
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Backward dengan Maximization Step
    if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
        print("\nBackward Algorithm (Beta) dengan Maximization Step:")
        for t in range(len(sentence)-1, -1, -1):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")

    # Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
    likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    print("Nilai Likelihood (L):", likelihood)

    # Menghitung gamma dan ksi setelah Maximization
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # # Menampilkan hasil Gamma setelah Maximization
    if kalimat == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
        print("\nGamma (γ) setelah Maximization:")
        for t in range(len(gamma_max)):
            print(f"(t={t+1})")
            for pos in pos_tags:
                print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

        # Menampilkan hasil Ksi setelah Maximization
        print("\nKsi (ξ) setelah Maximization:")
        for t in range(len(ksi_max)):
            print(f"(t={t+1})")
            for pos1 in pos_tags:
                for pos2 in pos_tags:
                    print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}")

    # Threshold dan inisialisasi variabel
    # Fungsi untuk menghitung likelihood

    # def calculate_likelihood(alpha, beta):
    #     likelihood = sum(alpha[t][pos] * beta[t][pos] for t in range(len(alpha)) for pos in pos_tags)
    #     return likelihood
    # Threshold untuk menghentikan iterasi (bisa diganti -10, -3, -8, terserah hehe)
    threshold = 1e-3
    likelihood_diff = float('inf')
    prev_likelihood = 0

    iteration = 0

    # Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
    while likelihood_diff > threshold:
        iteration += 1
        
        # Forward dan Backward menggunakan probabilitas yang telah di-update
        alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
        
        if sentence == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            print("Forward Algorithm (Alpha) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"α{t+1}({pos}): {alpha_max[t][pos]:.9f}")


        beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
        if sentence == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            print("\nBackward Algorithm (Beta) dengan Maximization Step (iterasi):")
            for t in range(len(sentence)-1, -1, -1):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"β{t+1}({pos}): {beta_max[t][pos]:.9f}")


        # Expectation Step setelah Maximization: Menghitung gamma dan ksi
        gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

        if sentence == [('bocah', 'NOUN'), ('sakloron', 'NUM'), ('iku', 'DET'), ('dadi', 'VERB'), ('conto', 'NOUN'), ('liya', 'ADJ'), ('e', 'DET'), (',', 'PUNCT'), ('yen', 'SCONJ'), ('di-phk', 'VERB'), ('ra', 'PART'), ('usah', 'VERB'), ('wedi', 'ADJ'), ('anggere', 'SCONJ'), ('sregep', 'ADJ'), ('maca', 'VERB'), ('lan', 'CCONJ'), ('usaha', 'NOUN'), ('ngupaya', 'VERB'), ('upa', 'PRON'), ('.', 'PUNCT')]:
            print("\nGamma (γ) setelah Maximization (iterasi):")
            for t in range(len(gamma_max)):
                print(f"(t={t+1})")
                for pos in pos_tags:
                    print(f"γ{t+1}({pos}): {gamma_max[t][pos]:.9f}")

            print("\nKsi (ξ) setelah Maximization (iterasi):")
            for t in range(len(ksi_max)):
                print(f"(t={t+1})")
                for pos1 in pos_tags:
                    for pos2 in pos_tags:
                        print(f"ξ{t+1}({pos1},{pos2}): {ksi_max[t][pos1][pos2]:.9f}, kata: {sentence[t]}")

        # Maximization Step: Update probabilitas transisi dan emisi
        probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

        # Menghitung likelihood pada iterasi ini
        likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)
        
        # Hitung likelihood baru
        current_likelihood = likelihood
        if iteration >= 2:
            likelihood_diff = current_likelihood - prev_likelihood
            prev_likelihood = current_likelihood
        else:
            prev_likelihood = current_likelihood

        print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")
        
    # Menampilkan hasil akhir
    print("\nFinal Likelihood:", likelihood)

    # Menentukan tag yang diprediksi berdasarkan gamma terbesar
    predicted_tags = []
    for t in range(len(sentence)):
        kata = sentence[t]
        if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
            predicted_tags.append('PUNCT')
        elif kata in ['$', '%', '@', '&', '#', '*']:
            predicted_tags.append('SYM')
        else:
            predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))
    

    # Tag yang benar dari data kalimat
    true_tags = [tag for word, tag in kalimat]

    # Hitung jumlah prediksi yang benar
    correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

    # Hitung akurasi
    akurasi = correct_predictions / len(true_tags)

    # Konversi akurasi ke persen
    akurasi_persen = akurasi * 100

    print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")
    
    # Cetak list seluruh kata yang tag prediksinya salah dan dari kalimat apa
    for i, (pred_tag, true_tag) in enumerate(zip(predicted_tags, true_tags)):
        if pred_tag != true_tag:
            print(f"Kata: {sentence[i]}, Prediksi: {pred_tag}, Sebenarnya: {true_tag}, Dari Kalimat: {' '.join([word for word, tag in kalimat])}")

    # Rata-rata akurasi
    # Menambahkan akurasi ke dalam list accuracies
    accuracies.append(akurasi_persen)

Fold 1 Vocabulary Size:  15
Fold 1 POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2604, 'VERB': 1764, 'PROPN': 1430, 'PRON': 867, 'ADV': 708, 'ADP': 683, 'ADJ': 650, 'DET': 633, 'NUM': 334, 'AUX': 311, 'SCONJ': 276, 'CCONJ': 270, 'PART': 218, 'X': 164, 'INTJ': 30})
Probabilitas Emisi untuk bocah sebagai ADJ: 0.0015037593984962407
Probabilitas Emisi untuk bocah sebagai ADP: 0.0014326647564469914
Probabilitas Emisi untuk bocah sebagai ADV: 0.0013831258644536654
Probabilitas Emisi untuk bocah sebagai AUX: 0.003067484662576687
Probabilitas Emisi untuk bocah sebagai CCONJ: 0.0035087719298245615
Probabilitas Emisi untuk bocah sebagai DET: 0.0015432098765432098
Probabilitas Emisi untuk bocah sebagai INTJ: 0.022222222222222223
Probabilitas Emisi untuk bocah sebagai NOUN: 0.009163802978235968
Probabilitas Emisi untuk bocah sebagai NUM: 0.0028653295128939827
Probabilitas Emisi untuk bocah sebagai PART

# Kode dibawah untuk test aplikasi apakah sama

In [30]:
# Menghitung akurasi untuk setiap fold
accuracies = []

# Kalimat testing yang akan digunakan
test_sentence = [('Ibu', 'NOUN'), ('Bapak', 'NOUN'), ('lan', 'CCONJ'), ('kula', 'PRON')]

# Training dengan seluruh data kecuali kalimat testing
train_sentences = split_df[split_df['kalimat'] != 'Ibu Bapak lan kula']['train_data']

# Menghitung frekuensi tag POS
pos_freq = Counter([tag for kalimat in train_sentences for kata, tag in kalimat])

# Menghitung frekuensi pasangan kata-tag POS
kata_pos_freq = Counter([(kata, tag) for kalimat in train_sentences for kata, tag in kalimat])

pos_tags = ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
vocab_size = len(pos_tags)  # Jumlah jenis kata

print("Vocabulary Size: ", vocab_size)
print("POS Tags: ", pos_tags)
print(pos_freq)

# Menghitung probabilitas transisi awal
probabilitas_awal = hitung_probabilitas_awal(train_sentences)

# Menghitung probabilitas emisi
probabilitas_emisi = {}
for kata, _ in test_sentence:
    for pos in pos_tags:
        probabilitas_emisi[(kata, pos)] = hitung_probabilitas_emisi(kata, pos, kata_pos_freq, pos_freq, vocab_size)

# Menghitung urutan POS dari data
pos_sequence = [tag for sentence in train_sentences for word, tag in sentence]

# Menghitung probabilitas transisi untuk setiap pasangan POS
probabilitas_transisi = {(pos1, pos2): hitung_probabilitas_transisi(pos1, pos2, pos_sequence, pos_freq, vocab_size) for pos1 in pos_tags for pos2 in pos_tags}

sentence = [kata for kata, tag in test_sentence]

# Menghitung alpha dengan algoritma forward
alpha = algoritma_forward(sentence, probabilitas_emisi, probabilitas_transisi, probabilitas_awal, pos_tags)

# Menghitung beta dengan algoritma backward
beta = algoritma_backward(sentence, probabilitas_emisi, probabilitas_transisi, pos_tags)

# Expectation Step: Menghitung gamma dan ksi
gamma, ksi = expectation_step(sentence, alpha, beta, probabilitas_emisi, probabilitas_transisi, pos_tags)

# Hitung probabilitas transisi dan emisi yang baru
probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma, ksi, sentence, pos_tags)

# Forward Algorithm dengan Maximization Step
alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)

# Backward Algorithm dengan Maximization Step
beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

# Menghitung likelihood dengan forward dan backward probabilities pada langkah waktu terakhir
likelihood = sum(alpha[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

print("Nilai Likelihood (L):", likelihood)

# Expectation Step setelah Maximization: Menghitung gamma dan ksi
gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

# Threshold dan inisialisasi variabel
threshold = 1e-10
likelihood_diff = float('inf')
prev_likelihood = 0

iteration = 0

# Lakukan iterasi sampai perbedaan likelihood kurang dari threshold
while likelihood_diff > threshold:
    iteration += 1

    # Forward dan Backward menggunakan probabilitas yang telah di-update
    alpha_max = alpha_max = algoritma_forward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, probabilitas_awal_baru, pos_tags)
    beta_max = algoritma_backward(sentence, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # Expectation Step setelah Maximization: Menghitung gamma dan ksi
    gamma_max, ksi_max = expectation_step(sentence, alpha_max, beta_max, probabilitas_emisi_baru, probabilitas_transisi_baru, pos_tags)

    # Maximization Step: Update probabilitas transisi dan emisi
    probabilitas_awal_baru, probabilitas_transisi_baru, probabilitas_emisi_baru = maximization_step(gamma_max, ksi_max, sentence, pos_tags)

    # Menghitung likelihood pada iterasi ini
    likelihood = sum(alpha_max[-1][pos] * beta_max[-1][pos] for pos in pos_tags)

    # Hitung likelihood baru
    current_likelihood = likelihood
    if iteration >= 2:
        likelihood_diff = current_likelihood - prev_likelihood
        prev_likelihood = current_likelihood
    else:
        prev_likelihood = current_likelihood

    print(f"Iteration {iteration}: Likelihood = {current_likelihood:.9f}, Change in Likelihood = {likelihood_diff:.9f}")

# Menampilkan hasil akhir
print("\nFinal Likelihood:", likelihood)

# Menentukan tag yang diprediksi berdasarkan gamma terbesar
predicted_tags = []
for t in range(len(sentence)):
    kata = sentence[t]
    if kata in ['.', ',', '!', '?', ':', ';', '(', ')', '[', ']', '{', '}', '"', "'", '-']:
        predicted_tags.append('PUNCT')
    elif kata in ['$', '%', '@', '&', '#', '*']:
        predicted_tags.append('SYM')
    else:
        predicted_tags.append(max(gamma_max[t], key=gamma_max[t].get))

# Tag yang benar dari data kalimat
true_tags = [tag for word, tag in test_sentence]

# Hitung jumlah prediksi yang benar
correct_predictions = sum(predicted_tags[i] == true_tags[i] for i in range(len(true_tags)))

# Hitung akurasi
akurasi = correct_predictions / len(true_tags)

# Konversi akurasi ke persen
akurasi_persen = akurasi * 100

print(f"Akurasi POS Tagging: {akurasi_persen:.2f}%")

# Menambahkan akurasi ke dalam list accuracies
accuracies.append(akurasi_persen)
# Cetak hasil prediksi
print("Kalimat:", sentence)
print("Prediksi Tags:", predicted_tags)
print("Tags Asli:", true_tags)

print(f"Jumlah kalimat dalam training: {len(train_sentences)}")


Vocabulary Size:  15
POS Tags:  ['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'SCONJ', 'VERB', 'X']
Counter({'NOUN': 2867, 'VERB': 1952, 'PROPN': 1573, 'PRON': 961, 'ADV': 798, 'ADP': 748, 'ADJ': 736, 'DET': 701, 'NUM': 362, 'AUX': 340, 'SCONJ': 314, 'CCONJ': 306, 'PART': 234, 'X': 175, 'INTJ': 32})
Nilai Likelihood (L): 5.262422495156606e-11
Iteration 1: Likelihood = 0.023711004, Change in Likelihood = inf
Iteration 2: Likelihood = 0.289356570, Change in Likelihood = 0.265645566
Iteration 3: Likelihood = 0.776408544, Change in Likelihood = 0.487051974
Iteration 4: Likelihood = 0.954598977, Change in Likelihood = 0.178190434
Iteration 5: Likelihood = 0.994800731, Change in Likelihood = 0.040201753
Iteration 6: Likelihood = 0.999365332, Change in Likelihood = 0.004564602
Iteration 7: Likelihood = 0.999981309, Change in Likelihood = 0.000615976
Iteration 8: Likelihood = 0.999999984, Change in Likelihood = 0.000018675
Iteration 9: Likelihood 

In [None]:
## Alasan Penghapusan Kata dengan Tag "SYM" dan "PUNCT"

Proses terakhir adalah penghapusan kata-kata yang memiliki tag "SYM" dan "PUNCT", yang umumnya merujuk pada simbol atau tanda baca. Berikut adalah beberapa alasan mengapa kata-kata dengan tag "SYM" dan "PUNCT" dihapus dari data:

1. **Tidak Perlu Diprediksi Secara Manual atau Masuk ke Training Model**: Kata-kata dengan tag "SYM" dan "PUNCT" tidak perlu diprediksi secara manual atau dimasukkan ke dalam model pelatihan karena kita dapat membuat kamus atau dictionary khusus untuk simbol dan tanda baca. Dengan demikian, kita dapat mengidentifikasi dan menandai kata-kata ini tanpa perlu melibatkan model pelatihan.

2. **Tagging "PUNCT" dan "SYM" Tidak Memiliki Makna**: Tagging untuk simbol dan tanda baca tidak memiliki makna yang signifikan dalam konteks analisis teks. Tanda baca dan simbol tidak mempengaruhi tagging kata-kata lain dalam kalimat, sehingga tidak perlu dilibatkan dalam proses pelatihan model.

3. **Mengurangi Beban Model**: Jumlah kata dengan tag "PUNCT" dan "SYM" tergolong sedikit, sehingga menghapusnya akan mengurangi beban model dalam melatih data. Dengan mengurangi jumlah kata yang tidak relevan, model dapat lebih fokus pada kata-kata yang memiliki makna dan pengaruh dalam analisis teks.

4. **Ketidakpastian Kata Selanjutnya**: Misalnya, kata "," (koma) tidak memberikan informasi yang spesifik atau pasti tentang kata selanjutnya. Oleh karena itu, tanda baca seperti koma tidak memberikan kontribusi yang berarti dalam proses tagging dan dapat diabaikan dalam pelatihan model.

Dengan menghapus kata-kata yang memiliki tag "SYM" dan "PUNCT", kita dapat meningkatkan efisiensi dan akurasi model dalam melakukan tagging pada kata-kata yang lebih relevan dan bermakna dalam analisis teks.