## 실습 [9-1]  

### 1. 실습명 : N-gram 언어 모델로 문장 생성하기
### 2. 실습 목적 및 설명
 
*   파이썬의 NLTK 패키지를 이용하여 N-gram 언어 모델을 구축한다
*   네이버에서 오픈 소스로 제공하는 nsmc 영화 리뷰 데이터셋을 이용해 문장을 생성한다.

### 3. 관련 장(챕터) : 9.2.2 N-gram 언어 모델 (N-gram Language Model)
### 4. 코드

In [20]:
import nltk
from nltk.util import ngrams
from nltk import word_tokenize
from nltk import ConditionalFreqDist
from nltk.probability import ConditionalProbDist, MLEProbDist
import numpy as np
import codecs
from tqdm import tqdm
import random

In [21]:
# 한국어 처리에 필요한 konlpy 패키지를 설치하기 전에 선행 파일을 설치한다. 
!apt-get update

!apt-get install g++ openjdk-8-jdk python-dev python3-dev

!pip3 install JPype1-py3

!pip3 install konlpy

!JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

from konlpy.tag import Okt

0% [Working]            Ign:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
0% [Connecting to archive.ubuntu.com] [Connecting to security.ubuntu.com] [Conn                                                                               Ign:2 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
0% [Connecting to archive.ubuntu.com] [Connecting to security.ubuntu.com] [Conn                                                                               Hit:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release
0% [Connecting to archive.ubuntu.com] [Connecting to security.ubuntu.com] [Conn0% [Release.gpg gpgv 697 B] [Connecting to archive.ubuntu.com] [Connecting to s                                                                               Hit:4 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Hit:5 https://cloud.r-

In [22]:
# NLTK 패키지를 이용하여 입력 텍스트를 N-gram 형태로 변환한다.
sentence = "나는 일본에 취업 하여 블록 체인 기술을 배워보고 싶다"

In [23]:
# NLTK 사용을 위하여 선행 패키지를 설치한다.
nltk.download('punkt')

# 입력 텍스트를 띄어쓰기 기준으로 토큰화한다.
tokens = word_tokenize(sentence) 

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [24]:
print(tokens)

['나는', '일본에', '취업', '하여', '블록', '체인', '기술을', '배워보고', '싶다']


In [25]:
# 한국어의 단어는 띄어쓰기를 기준으로 하지 않기 때문에 konlpy를 이용해 형태소를 기준으로 토큰화한다.
tagger = Okt()

def tokenize(text):
  tokens = ['/'.join(t) for t in tagger.pos(text)]
  return tokens

tokens = tokenize(sentence)
print(tokens)

['나/Noun', '는/Josa', '일본/Noun', '에/Josa', '취업/Noun', '하여/Verb', '블록/Noun', '체인/Noun', '기술/Noun', '을/Josa', '배워/Verb', '보고/Noun', '싶다/Verb']


In [26]:
# 토큰을 N-gram의 형태로 바꾸어준다. 
# ngrams 함수의 두 번째 인자로 N값을 지정할 수 있다.
# ngrams 함수는 문자열을 공백으로 구분하여 단어 단위 N개로 출력합니다
bigram = ngrams(tokens, 4)
trigram = ngrams(tokens, 3)

In [27]:
# N-gram을 출력해본다.
print("bigram: ")
for b in bigram:
  print(b)

print("\ntrigram: ")
for t in trigram:
  print(t) 

bigram: 
('나/Noun', '는/Josa', '일본/Noun', '에/Josa')
('는/Josa', '일본/Noun', '에/Josa', '취업/Noun')
('일본/Noun', '에/Josa', '취업/Noun', '하여/Verb')
('에/Josa', '취업/Noun', '하여/Verb', '블록/Noun')
('취업/Noun', '하여/Verb', '블록/Noun', '체인/Noun')
('하여/Verb', '블록/Noun', '체인/Noun', '기술/Noun')
('블록/Noun', '체인/Noun', '기술/Noun', '을/Josa')
('체인/Noun', '기술/Noun', '을/Josa', '배워/Verb')
('기술/Noun', '을/Josa', '배워/Verb', '보고/Noun')
('을/Josa', '배워/Verb', '보고/Noun', '싶다/Verb')

trigram: 
('나/Noun', '는/Josa', '일본/Noun')
('는/Josa', '일본/Noun', '에/Josa')
('일본/Noun', '에/Josa', '취업/Noun')
('에/Josa', '취업/Noun', '하여/Verb')
('취업/Noun', '하여/Verb', '블록/Noun')
('하여/Verb', '블록/Noun', '체인/Noun')
('블록/Noun', '체인/Noun', '기술/Noun')
('체인/Noun', '기술/Noun', '을/Josa')
('기술/Noun', '을/Josa', '배워/Verb')
('을/Josa', '배워/Verb', '보고/Noun')
('배워/Verb', '보고/Noun', '싶다/Verb')


In [28]:
# padding을 통해 입력 데이터에 문장의 시작과 끝을 알리는 토큰을 추가한다. 
bigram = ngrams(tokens, 4, pad_left=True, pad_right=True, left_pad_symbol="<s>", right_pad_symbol="</s>")
print("bigrams with padding: ")
for b in bigram:
  print(b)

bigrams with padding: 
('<s>', '<s>', '<s>', '나/Noun')
('<s>', '<s>', '나/Noun', '는/Josa')
('<s>', '나/Noun', '는/Josa', '일본/Noun')
('나/Noun', '는/Josa', '일본/Noun', '에/Josa')
('는/Josa', '일본/Noun', '에/Josa', '취업/Noun')
('일본/Noun', '에/Josa', '취업/Noun', '하여/Verb')
('에/Josa', '취업/Noun', '하여/Verb', '블록/Noun')
('취업/Noun', '하여/Verb', '블록/Noun', '체인/Noun')
('하여/Verb', '블록/Noun', '체인/Noun', '기술/Noun')
('블록/Noun', '체인/Noun', '기술/Noun', '을/Josa')
('체인/Noun', '기술/Noun', '을/Josa', '배워/Verb')
('기술/Noun', '을/Josa', '배워/Verb', '보고/Noun')
('을/Josa', '배워/Verb', '보고/Noun', '싶다/Verb')
('배워/Verb', '보고/Noun', '싶다/Verb', '</s>')
('보고/Noun', '싶다/Verb', '</s>', '</s>')
('싶다/Verb', '</s>', '</s>', '</s>')


In [29]:
# 문장 생성을 위하여 네이버 영화 리뷰 데이터셋을 다운로드한다.
%%time
!wget -nc -q https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt

CPU times: user 10.6 ms, sys: 15 ms, total: 25.6 ms
Wall time: 143 ms


In [30]:
# 다운로드 받은 데이터셋을 읽고 인덱스와 라벨을 제외한 텍스트 부분만 가져온다.
# codecs 패키지는 대용량 파일을 조금씩 읽을 수 있게 해준다. 

with codecs.open("ratings_train.txt", encoding='utf-8') as f:
  data = [line.split('\t') for line in f.read().splitlines()] # \n 제외
  data = data[1:] # header 제외
print("데이터셋: ", data[:5])
docs = [row[1] for row in data] # 텍스트 부분만 가져옴
print("\n텍스트 데이터:", docs[:3])
print("\n문장 개수: ",len(docs)) # 총 15만개의 문장으로 이루어진 데이터셋임을 알 수 있다.

데이터셋:  [['9976970', '아 더빙.. 진짜 짜증나네요 목소리', '0'], ['3819312', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '1'], ['10265843', '너무재밓었다그래서보는것을추천한다', '0'], ['9045019', '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', '0'], ['6483659', '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다', '1']]

텍스트 데이터: ['아 더빙.. 진짜 짜증나네요 목소리', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '너무재밓었다그래서보는것을추천한다']

문장 개수:  150000


In [None]:
# 토큰화한 텍스트 데이터의 bigram을 모두 리스트에 추가한다.
sentences = []
for d in tqdm(docs):
  tokens = tokenize(d)
  bigram = ngrams(tokens, 4, pad_left=True, pad_right=True, left_pad_symbol="<s>", right_pad_symbol="</s>")
  sentences += [t for t in bigram]


  0%|          | 0/150000 [00:00<?, ?it/s][A
  0%|          | 43/150000 [00:00<05:52, 425.32it/s][A
  0%|          | 82/150000 [00:00<06:02, 413.91it/s][A
  0%|          | 143/150000 [00:00<05:34, 447.39it/s][A
  0%|          | 174/150000 [00:00<10:23, 240.43it/s][A
  0%|          | 221/150000 [00:00<08:52, 281.06it/s][A
  0%|          | 260/150000 [00:00<08:09, 305.79it/s][A
  0%|          | 294/150000 [00:01<11:36, 215.01it/s][A
  0%|          | 345/150000 [00:01<09:35, 259.93it/s][A
  0%|          | 390/150000 [00:01<08:24, 296.49it/s][A
  0%|          | 428/150000 [00:01<11:10, 223.13it/s][A
  0%|          | 474/150000 [00:01<09:27, 263.50it/s][A
  0%|          | 518/150000 [00:01<08:19, 299.49it/s][A
  0%|          | 556/150000 [00:01<11:01, 225.88it/s][A
  0%|          | 587/150000 [00:02<10:10, 244.86it/s][A
  0%|          | 634/150000 [00:02<08:42, 285.87it/s][A
  0%|          | 670/150000 [00:02<11:58, 207.76it/s][A
  0%|          | 713/150000 [00:02<10:09, 2

In [None]:
print(sentences[10:15])

[('<s>', '<s>', '흠/Noun', '.../Punctuation'), ('<s>', '흠/Noun', '.../Punctuation', '포스터/Noun'), ('흠/Noun', '.../Punctuation', '포스터/Noun', '보고/Noun'), ('.../Punctuation', '포스터/Noun', '보고/Noun', '초딩/Noun'), ('포스터/Noun', '보고/Noun', '초딩/Noun', '영화/Noun')]


In [None]:
cfd = ConditionalFreqDist(sentences)
print(cfd["<s>"].most_common(4))

ValueError: ignored

In [None]:
# 주어진 토큰(c) 다음에 가장 많이 등장하는 n개의 단어를 반환하는 함수를 만든다.
def most_common(c, n, pos=None):
  if pos is None:
    return cfd[tokenize(c)[0]].most_common(n)
  else:
    return cfd["/".join([c, pos])].most_common(n)

In [None]:
print(most_common("나", 10))

In [None]:
# 단어별 등장 빈도를 기반으로 조건부 확률을 추정한다.
cpd = ConditionalProbDist(cfd, MLEProbDist)

In [None]:
# “.” 다음에 “</s>”가 올 확률을 출력한다.
print(cpd[tokenize(".")[0]].prob("</s>"))

In [None]:
# 토큰 c 다음에 토큰 w가 bigram으로 함께 등장할 확률을 구한다.
def bigram_prob(c, w):
  context = tokenize(c)[0]
  word = tokenize(w)[0]
  return cpd[context].prob(word)

In [None]:
print(bigram_prob("이", "영화"))

In [None]:
print(bigram_prob("영화", "이"))

In [None]:
# 조건부 확률을 알게 되면 가장 확률이 높은 토큰열을 토대로 문장을 생성할 수 있다.
def generate_sentence(seed=None, debug=False):
  if seed is not None:
    import random
    random.seed(seed)
  c = "<s>"
  sentence = []
  while True:
    if c not in cpd:
      break
    w = cpd[c].generate()

    if w == "</s>":
      break
    
    word = w.split("/")[0]
    pos = w.split("/")[1]

    # 조사, 어미 등을 제외하고 각 토큰은 띄어쓰기로 구분하여 생성한다.
    if c == "<s>":
      sentence.append(word.title())
    elif c in ["`", "\"","'","("]:
      sentence.append(word)
    elif word in ["'", ".", ",", ")", ":", ";", "?"]:
      sentence.append(word)
    elif pos in ["Josa", "Punctuation", "Suffix"]:
        sentence.append(word)
    elif w in ["임/Noun", "것/Noun", "는걸/Noun", "릴때/Noun",
                "되다/Verb", "이다/Verb", "하다/Verb", "이다/Adjective"]:
        sentence.append(word)
    else:
        sentence.append(" " + word)
    c = w

    if debug:
      print(w)

  return "".join(sentence)

In [None]:
print(generate_sentence(2))

In [None]:
generate_sentence(2, debug=True)

<참고>

> https://datascienceschool.net/view-notebook/a0c848e1e2d343d685e6077c35c4203b/


