# ngram 기반의 간단한 텍스트 생성

In [7]:
import nltk                         # 토큰화/전처리용
from nltk.util import ngrams        # n-gram 생성함수
from collections import Counter     # 빈도 집계용
import random                       # 확률 샘플링 용도

# 시드 단어에서 시작해 bigram 빈도 기반으로 다음 단어를 확률적으로 뽑아 문장을 생성하는 함수
def generate_text_bigram(seed, unigram_freq, bigram_freq, max_len=10):
    current_word = seed             # 현재 단어가 최초단어
    gernerated = [current_word]     # 생성 결과 리스트 : 첫 단어는 seed
    
    for _ in range(max_len - 1):                                                # 이미 seed로 1개 포함되어 최대길이 -1
        candidates = [(bigram, freq) for bigram, freq in bigram_freq.items()    # 가능한 다음 후보 수집
                      if bigram[0] == current_word]                             # 현재 단어로 시작하는 bigram만 필터링
        if not candidates:                                                      
            break
        
        # 다음 단어와 빈도(freq)만 뽑아 두 리스트로 분리
        words, freqs = zip(*[(bigram[1], freq) for bigram, freq in candidates])  
        total = sum(freqs)                                                      
        probs = [f / total for f in freqs]                                      # 빈도를 확률로 변환
        
        next_word = random.choices(words, weights=probs)[0]                     # 확률에 따라 다음 단어 1개 샘플링
        gernerated.append(next_word)                                             
        current_word = next_word                                                
        
    return " ".join(gernerated)

In [8]:
import nltk
from collections import Counter

train_text = "자연어 처리는 재미있다. 자연어 처리는 어렵지만 도전하고 싶다. 오늘은 날씨가 좋다."

train_tokens = nltk.tokenize.word_tokenize(train_text)
unigram = train_tokens
bigram = list(nltk.bigrams(train_tokens))

unigram_freq = Counter(unigram)
bigram_freq = Counter(bigram)


In [9]:
# from itertools import pairwise

unigram = train_tokens
bigrams = list(ngrams(train_tokens, 2))   # 인접한 2개 토큰 묶음
# bigrams = list(pairwise(train_tokens))

print(unigram)
print(bigrams)

['자연어', '처리는', '재미있다', '.', '자연어', '처리는', '어렵지만', '도전하고', '싶다', '.', '오늘은', '날씨가', '좋다', '.']
[('자연어', '처리는'), ('처리는', '재미있다'), ('재미있다', '.'), ('.', '자연어'), ('자연어', '처리는'), ('처리는', '어렵지만'), ('어렵지만', '도전하고'), ('도전하고', '싶다'), ('싶다', '.'), ('.', '오늘은'), ('오늘은', '날씨가'), ('날씨가', '좋다'), ('좋다', '.')]


In [10]:
unigram_freq = Counter(unigram)         # 유니그램 빈도 집계
bigrams_freq = Counter(bigrams)          # 바이그램 빈도 집계

print(unigram_freq)
print(bigrams_freq)

Counter({'.': 3, '자연어': 2, '처리는': 2, '재미있다': 1, '어렵지만': 1, '도전하고': 1, '싶다': 1, '오늘은': 1, '날씨가': 1, '좋다': 1})
Counter({('자연어', '처리는'): 2, ('처리는', '재미있다'): 1, ('재미있다', '.'): 1, ('.', '자연어'): 1, ('처리는', '어렵지만'): 1, ('어렵지만', '도전하고'): 1, ('도전하고', '싶다'): 1, ('싶다', '.'): 1, ('.', '오늘은'): 1, ('오늘은', '날씨가'): 1, ('날씨가', '좋다'): 1, ('좋다', '.'): 1})


In [11]:
generate_text_bigram("자연어", unigram_freq, bigrams_freq, max_len=100)


'자연어 처리는 재미있다 . 자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가 좋다 . 자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 자연어 처리는 어렵지만 도전하고 싶다 . 자연어 처리는 재미있다 . 자연어 처리는 어렵지만 도전하고 싶다 . 자연어 처리는 재미있다 . 오늘은 날씨가 좋다 . 오늘은 날씨가 좋다 . 자연어 처리는 어렵지만 도전하고 싶다 . 자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가 좋다 . 자연어 처리는 어렵지만 도전하고 싶다 . 오늘은 날씨가'