## ngram 기반의 간단한 텍스트 생성기

In [2]:
import nltk
from nltk.util import ngrams   
from collections import Counter
import random

In [7]:
def generate_text_bigram(seed, unigram_freq, bigram_freq, max_length=10):
    current_word = seed # 시드 단어로 시작 (초기 단어 설정)
    generated = [current_word]  # 생성된 단어들을 저장할 리스트
    
    for _ in range(max_length - 1):
        # 현재 단어로 시작하는 모든 bigram 후보 찾기 (첫 단어가 current_word인 bigram)
        candidates = [(bigram, freq) for (bigram, freq) in bigram_freq.items() if bigram[0] == current_word]

        if not candidates:
            break  # 더 이상 이어갈 단어가 없으면 종료
        
        # 후보 단어와 그 빈도수 분리 (단어와 빈도수 리스트 생성)
        words, freqs = zip(*[(bigram[1], freq) for bigram, freq in candidates])  
        total = sum(freqs)
        probs = [freq / total for freq in freqs]  # 확률 계산
        current_word = random.choices(words, weights=probs)[0]  # 확률에 따라 다음 단어 선택
        generated.append(current_word)  # 생성된 단어 리스트에 추가
        
    return ' '.join(generated) # 생성된 문장을 문자열로 반환

In [8]:
train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다."

train_tokens = nltk.word_tokenize(train_text)

unigram = train_tokens
bigram = list(ngrams(train_tokens, 2))

unigram_freq = Counter(unigram)
bigram_freq = Counter(bigram)

In [9]:
generate_text_bigram("자연어", unigram_freq, bigram_freq) 

'자연어 처리는 재미있다 . 자연어 처리는 재미있다 . 자연어 처리는'