# ngram 기반의 간단한 텍스트 생성기

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter
import random

def generate_text_bigram(seed, unigram_freq, bigram_freq, max_len=10):
    current_word = seed
    generated = [current_word]

    for _ in range(max_len - 1):
        candidates = [(bigram, freq) for bigram, freq in bigram_freq.items()
                                      if bigram[0] == current_word]
        if not candidates:
            break

        words, freqs = zip(*[(bigram[1], freq) for bigram, freq in candidates])
        total = sum(freqs)
        probs = [f / total for f in freqs]

        next_word = random.choices(words, weights=probs)[0]
        generated.append(next_word)
        current_word = next_word

    return " ".join(generated)

In [2]:
train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다."

train_tokens = nltk.word_tokenize(train_text)

unigram = train_tokens
bigrams = list(ngrams(train_tokens, 2))

unigram_freq = Counter(unigram)
bigrams_freq = Counter(bigrams)

In [42]:
generate_text_bigram("자연어", unigram_freq, bigrams_freq, max_len=100)

'자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 .'