<a href="https://colab.research.google.com/github/elangbijak4/NLP-AI-Algorithm/blob/main/Kombinasi%20N_Gram_dan_Levenshtein_Distance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from collections import defaultdict, Counter

In [2]:
# Contoh korpus sederhana dalam bahasa Indonesia
korpus = """
anak api buku bawa cantik dan dari dia dengan gajah gunung hutan ibu ingin itu jalan
jauh karena kerja kembali laut makan minum naik panas rumah sangat suka sudah tidak
"""

# Fungsi untuk membangun model bigram dari korpus
def build_bigram_model(corpus):
    words = corpus.split()
    bigrams = [(words[i], words[i+1]) for i in range(len(words)-1)]
    model = defaultdict(Counter)
    for w1, w2 in bigrams:
        model[w1][w2] += 1
    return model

# Membangun model bigram
bigram_model = build_bigram_model(korpus)

# Fungsi untuk memperbaiki ejaan dengan menggunakan kombinasi N-Gram dan Levenshtein Distance
def correct_with_ngram_and_levenshtein(word, model):
    if word in model:
        return max(model[word], key=model[word].get)
    else:
        # Jika kata tidak ditemukan dalam model N-Gram, cari kata yang paling mirip menggunakan Levenshtein Distance
        candidates = model.keys()
        closest_word = min(candidates, key=lambda x: levenshtein_distance(word, x))
        return closest_word

# Fungsi untuk menghitung Levenshtein Distance
def levenshtein_distance(s1, s2):
    m = len(s1)
    n = len(s2)

    # Inisialisasi matriks DP dengan ukuran (m+1) x (n+1)
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    # Inisialisasi kolom pertama
    for i in range(1, m + 1):
        dp[i][0] = i

    # Inisialisasi baris pertama
    for j in range(1, n + 1):
        dp[0][j] = j

    # Mengisi matriks DP
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s1[i - 1] == s2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = 1 + min(dp[i - 1][j],      # Hapus karakter dari s1
                                  dp[i][j - 1],      # Sisipkan karakter ke s1
                                  dp[i - 1][j - 1])  # Ganti karakter di s1

    return dp[m][n]

# Contoh penggunaan
word = "bukuu"
correction = correct_with_ngram_and_levenshtein(word, bigram_model)
print(f"Kata asli: {word}")
print(f"Koreksi: {correction}")

Kata asli: bukuu
Koreksi: buku
