# ngram 기반의 간단한 텍스트 생성기

In [2]:
import nltk
from nltk.util import ngrams
from collections import Counter
import random

In [4]:
def generate_text_bigram(seed, unigram_freq, bigram_freq, max_len=10):
    current_word = seed # 함수에 넘길 첫 단어
    generated = [current_word]
    
    for _ in range(max_len -1):
        # candidates : current_word 다음에 올 수 있는 후보들을 담은 리스트
        candidates = [(bigram,freq) for bigram,freq in bigram_freq.items() if bigram[0] == current_word]
        
        if not candidates:
            break
        
        # 후보들의 두번째 단어와 그 빈도수를 각각 words, freqs 리스트에 담음
        words, freqs = zip(*[(bigram[1],freq) for bigram,freq in candidates])
        total = sum(freqs)
        probs = [f / total for f in freqs]

        # 다음 단어를 랜덤하게 선택, weights는 각 단어의 확률로 가중치 조정
        next_word = random.choices(words, weights=probs)[0]
        generated.append(next_word)
        current_word = next_word

    return ' '.join(generated)  # 토큰이 10개인 하나의 문자열로 반환


In [5]:
train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다."
train_tokens = nltk.word_tokenize(train_text)
unigrams = train_tokens
bigrams = list(ngrams(train_tokens,2))
unigram_freq = Counter(unigrams)
bigrams_freq = Counter(bigrams)

In [11]:
generate_text_bigram('자연어', unigram_freq, bigrams_freq, max_len=5)

'자연어 처리는 재미있다 . 자연어'