# n-gram 언어 모델

In [15]:
import nltk
from nltk.util import ngrams
from collections import  Counter

In [16]:
text = "오늘은 날씨가 좋다. 오늘은 기분이 좋다. 오늘은 일이 많다. 오늘은 사람이 많다. 오늘은 날씨가 맑다"

tokens = nltk.word_tokenize(text)

# 1-gram, 2-gram 생성 -> 빈도수 계산
unigrams = tokens
bigram = list(ngrams(tokens, 2))

unigrams_freq = Counter(unigrams)
bigram_freq = Counter(bigram)

# 조건부 확률 계산
for (w1, w2), freq in bigram_freq.items():
    prob = freq / unigrams_freq[w1]
    print(f"P({w1}|{w2}) = {prob:.3f}")

P(오늘은|날씨가) = 0.400
P(날씨가|좋다) = 0.500
P(좋다|.) = 1.000
P(.|오늘은) = 1.000
P(오늘은|기분이) = 0.200
P(기분이|좋다) = 1.000
P(오늘은|일이) = 0.200
P(일이|많다) = 1.000
P(많다|.) = 1.000
P(오늘은|사람이) = 0.200
P(사람이|많다) = 1.000
P(날씨가|맑다) = 0.500


### Perplexity 계산

In [27]:
import math

def compute_bigram_perplexity(test_text, unigrams_freq, bigram_freq):
    test_tokens = nltk.word_tokenize(test_text)
    test_bigrams = list(ngrams(test_tokens, 2))
    
    log_prob_sum = 0
    N = len(test_bigrams)
    
    for bigram in test_bigrams:
        w1, w2 = bigram
        prob = bigram_freq.get(bigram, 0) / unigrams_freq.get(w1, 1)
        if prob == 0:
            prob = 1e-10
        log_prob_sum += math.log2(prob)
        
    cross_entropy = -log_prob_sum / N
    perplexity = math.pow(2, cross_entropy)
    return perplexity

In [28]:
train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다"
# 단어 토큰화
train_tokens = nltk.word_tokenize(train_text)
# 유니그램
unigrams = train_tokens
# 바이그램
bigram = list(ngrams(train_tokens, 2))
# 카운트로 빈도수 계산(유니그램)
unigrams_freq = Counter(unigrams)
# 카운트로 빈도수 계산(바이그램)
bigram_freq = Counter(bigram)

In [30]:
test_sentences = [
    "자연어 처리는 재미있다.",
    "자연어 처리는 어렵지만 도전하고 싶다.",
    "오늘은 날씨가 좋다.",
    "기계 번역은 어렵다.",
    "자연어 처리에 도전하고 싶다.",
    "오늘 날씨가 흐리다."
]

for sentence in test_sentences:
    pp = compute_bigram_perplexity(sentence, unigrams_freq, bigram_freq)
    print(f'문장 : {sentence} | perplexity : {pp:.3f}')

문장 : 자연어 처리는 재미있다. | perplexity : 1.260
문장 : 자연어 처리는 어렵지만 도전하고 싶다. | perplexity : 1.149
문장 : 오늘은 날씨가 좋다. | perplexity : 2154.435
문장 : 기계 번역은 어렵다. | perplexity : 10000000000.000
문장 : 자연어 처리에 도전하고 싶다. | perplexity : 100000.000
문장 : 오늘 날씨가 흐리다. | perplexity : 10000000000.000
