# ngram 기반의 간단한 텍스트 생성기

In [8]:
import nltk
from nltk.util import ngrams
from collections import Counter
import random

In [9]:
def generate_text_bigram(seed, unigram_freq, bigram_freq, max_len=10):
    current_word = seed     # seed: 가장 처음에 올 단어
    generated = [current_word]

    for _ in range(max_len - 1):        # -1을 하는 이유: seed를 추가했기 때문
        candidates = [(bigram, freq) for bigram, freq in bigram_freq.items() if bigram[0] == current_word]
        if not candidates:              # 빈 배열인 경우 == 뒤에 올 단어가 없다는 것을 의미
            break

        words, freqs = zip(*[(bigram[1], freq) for bigram, freq in candidates])
        total = sum(freqs)
        probs = [f / total for f in freqs]

        next_word = random.choices(words, weights=probs)[0]      # 확률이 높은게 하나가 아닐 수 있어서 확률(probs)로 가중치를 줘서 확률이 높은 걸 더 많이 선택하도록 함 # random.choices니까 words 중에서 0번째꺼 하나만 가져오게 작성해줌
        generated.append(next_word)
        current_word = next_word
    
    return ' '.join(generated)


In [10]:
train_text = '자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다.'

train_tokens = nltk.word_tokenize(train_text)
unigrams = train_tokens
bigrams = list(ngrams(train_tokens, 2))
unigram_freq = Counter(unigrams)
bigram_freq = Counter(bigrams)

In [11]:
generate_text_bigram('자연어', unigram_freq, bigram_freq, max_len=5)

'자연어 처리는 어렵지만 도전하고 싶다'