# Introduction

## NLP Input dataset
- NSMC(Naver sentiment movie corpus)/SQUAD/GLUE
- 한국 데이터 사이트 (https://sosomemo.tistory.com/21)

### NSMC
- Naver 영화 리뷰 중 영화 당 100개의 리뷰를 모아 총 200,0000개의 리뷰로 구성
- (train data: 15만, test data: 5만)
- 긍정(1-4점) / 부정(9-10점) 으로 동일한 비율로 데이터포함
<img src='img/nsmc_dataset.png'>

* 데이터의 구성은 id, document, label 세개의 열로 구성
    * id: 리뷰의 고유한 key 값
    * document: 리뷰의 내용
    * label: 긍정(0), 부정(1)
 

In [17]:
# Library

import numpy as np
import pandas as pd
from konlpy.utils import pprint
import matplotlib as plt
from matplotlib import font_manager, rc
# font_fname = 'c:/windows/fonts/gulim.ttc'     # A font of your choice
# font_name = font_manager.FontProperties(fname=font_fname).get_name()
# rc('font', family=font_name)


In [3]:
data_dir = './data/'
img_dir = './img/'

# Load NSMC data
def read_data(filename):
    with open(filename, 'r') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        # txt 파일의 헤더(id document label)는 제외하기
        data = data[1:]
    return data

train_data = read_data(data_dir+'ratings_train.txt')
test_data = read_data(data_dir+'ratings_test.txt')

print('[shape] train_data: '+ str(len(train_data)))
print('[shape] test_data: '+ str(len(test_data)))

print('/n [Example]')
pprint(train_data[0:5])

[shape] train_data: 150000
[shape] test_data: 50000
/nExample
[['9976970', '아 더빙.. 진짜 짜증나네요 목소리', '0'],
 ['3819312', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '1'],
 ['10265843', '너무재밓었다그래서보는것을추천한다', '0'],
 ['9045019', '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', '0'],
 ['6483659',
  '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다',
  '1']]


In [7]:
# Data preprocessing

from konlpy.tag import Okt
from konlpy.utils import pprint

pos_tagger = Okt()
def tokenize(doc):
    return['/'.join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]

train_docs = [(tokenize(row[1]), row[2]) for row in train_data]
test_docs = [(tokenize(row[1]), row[2]) for row in test_data]

pprint(train_docs[0])

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


(['아/Exclamation',
  '더빙/Noun',
  '../Punctuation',
  '진짜/Noun',
  '짜증나다/Adjective',
  '목소리/Noun'],
 '0')


In [9]:
tokens = [t for d in train_docs for t in d[0]]
print(tokens[0:10])

['아/Exclamation', '더빙/Noun', '../Punctuation', '진짜/Noun', '짜증나다/Adjective', '목소리/Noun', '흠/Noun', '.../Punctuation', '포스터/Noun', '보고/Noun']


In [13]:
import nltk
text = nltk.Text(tokens, name='NMSC')


In [14]:
print(text)

<Text: NMSC>


In [23]:
# Returns number of tokens
print(len(text.tokens))

# Returns number of unique tokens
print(len(set(text.tokens)))

# Returns frequency distribution
pprint(text.vocab().most_common(10))

2159921
49895
[('./Punctuation', 67778),
 ('영화/Noun', 50818),
 ('하다/Verb', 41209),
 ('이/Josa', 38540),
 ('보다/Verb', 38538),
 ('의/Josa', 30188),
 ('../Punctuation', 29055),
 ('가/Josa', 26627),
 ('에/Josa', 26468),
 ('을/Josa', 23118)]


In [22]:
# Collocations (연어): 인접하게 빈번하게 등장하는 단어 (ex: "text" + "mining")

text.collocation()

AttributeError: 'Text' object has no attribute 'collections'