# ngram 기반의 간단한 텍스트 생성기

In [1]:
import nltk
from nltk.util import ngrams
from collections import Counter
import random

In [None]:
def generate_text_bigram(seed, unigram_freq, bigram_freq, max_len=10):  # 빈도수를 인자로 넣어줄 함수
    current_word = seed
    generated = [current_word]

    for _ in range(max_len - 1):    # max_len에서 이미 current_word 하나가 들어가있기 때문에 -1 
        candidates = [(bigram, freq) for bigram, freq in bigram_freq.items() if bigram[0] == current_word]  # 현시점에 bigram의 0번째 인덱스와 같은 것에 대해 후보군을 셋팅
        if not candidates:  # 내가 학습한 내용이 그 문맥에 없을 경우
            break           # 반복문을 탈출 -> 더이상 생성하지 않고 멈춤
        words, freqs = zip(*[(bigram[1], freq) for bigram, freq in candidates]) # 다음에 이어질 단어, 빈도수를 받아 시퀀스로.
        total = sum(freqs)  # 빈도수 총합
        probs = [f / total for f in freqs]  # 각각의 확률에 대한 것을 probs에 저장

        next_word = random.choices(words, weights=probs)[0]  # 그 확률을 가중치로 줌 / choices로 나온 여러개의 words중 0번째 것을 next_word로 지정.
        generated.append(next_word)     # 그 것을 generated에 append
        current_word = next_word        # append해준 것이 새로운 seed ( current_word )
    
    return " ".join(generated)

In [3]:
train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다."

# 단어 토큰화
train_tokens =  nltk.word_tokenize(train_text)

# 유니그램
unigrams = train_tokens

# 바이그램(리스트로 변환)
bigrams = list(ngrams(train_tokens, 2))

# 카운터로 빈도수 카운트(유니그램)
unigram_freq = Counter(unigrams)

# 카운터로 빈도수 카운트(바이그램)
bigram_freq = Counter(bigrams)

In [4]:
generate_text_bigram("자연어", unigram_freq, bigram_freq, max_len=5)

'자연어 처리는 어렵지만 도전하고 싶다'