## Bag of Words Meets Bags of Popcorn
- https://www.kaggle.com/c/word2vec-nlp-tutorial
- 튜토리얼을 제공하는 케글 경진대회 중의 하나

#### [자연 언어 처리 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0_%EC%96%B8%EC%96%B4_%EC%B2%98%EB%A6%AC)
- 자연 언어 처리(自然言語處理) 또는 자연어 처리(自然語處理)는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. (출처 : 위키피디아)

#### 자연어처리(NLP)와 관련된 캐글 경진대회
- [Sentiment Analysis on Movie Reviews | Kaggle](https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews)
- [Toxic Comment Classification Challenge | Kaggle](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge)
- [Spooky Author Identification | Kaggle](https://www.kaggle.com/c/spooky-author-identification)

## 튜토리얼 개요

### 파트1
- 입문자를 대상으로 기본 자연어 처리(Bag Of Words)를 다룬다.

### 파트2, 3
- Word2Vec을 사용하여(Word Vectors) 모델을 학습시키는 방법과 감정분석에 단어 벡터를 사용하는 방법을 본다.
- 파트3는 레시피를 제공하지 않고 Word2Vec을 사용하는 몇 가지 방법을 실험해 본다.
- 파트3에서는 K-means 알고리즘을 사용해 군집화를 해본다.
- 긍정과 부정 리뷰가 섞여있는 100,000만개의 IMDB 감정분석 데이터 세트를 통해 목표를 달성해 본다.

### 평가 - ROC 커브(Receiver-Operating Characteristic curve)
- **TPR**(True Positive Rate)과 **FPR**(False Positive Rate)을 각각 x, y 축으로 놓은 그래프
- **민감도 TPR**
    - **1인 케이스에 대해 1로 예측한 비율**
    - 암환자를 진찰해서 암이라고 진단함
- **특이도 FPR**
    - **0인 케이스에 대해 1로 잘못 예측한 비율**
    - 암환자가 아닌데 암이라고 진단함
- X, Y가 둘 다 [0, 1] 범위이고 (0, 0)에서 (1, 1)을 잇는 곡선이다.
<img src="img/01_roc.png" width="350">(출처 : 위키피디아)
- **ROC 커브의 및 면적이 1에 가까울 수록(왼쪽 꼭지점에 다가갈수록) 좋은 성능(정확도가 높은 평가 방법이다)**
- 참고 :
    - [New Sight :: Roc curve, AUR(AUCOC), 민감도, 특이도](http://newsight.tistory.com/53)
    - [ROC의 AUC 구하기 :: 진화하자 - 어디에도 소속되지 않기](http://adnoctum.tistory.com/121)
    - [Receiver operating characteristic - Wikipedia](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
    
### Use Google's Word2Vec for movie reviews
- 자연어 텍스트를 분석해서 특정단어를 얼마나 사용했는지, 얼마나 자주 사용했는지, 어떤 종류의 텍스트인지 분류하거나 긍정인지 부정인지에 대한 감정분석, 그리고 어떤 내용인지 요약하는 정보를 얻을 수 있다.
- 감정분석은 머신러닝(기계학습)에서 어려운 주제로 풍자, 애매모호한 말, 반어법, 언어 유희로 표현을 하는데 이는 사람과 컴퓨터에게 모두 오해의 소지가 있다. 여기에서는 Word2Vec을 통한 감정분석을 해보는 튜토리얼을 해본다.
- Google의 Word2Vec은 단어의 의미와 관계를 이해하는 데 도움
- 상당수의 NLP기능은 nltk모듈에 구현되어 있는데 이 모듈은 코퍼스, 함수와 알고리즘으로 구성되어 있다.
- 단어 임베딩 모형 테스트 : [Korean Word2Vec](http://w.elnn.kr/search/)

### BOW(bag of words)
- 가장 간단하지만 효과적이라 널리쓰이는 방법
- 장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아린다.
- 구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를 담는 가방(bag)으로 생각할 수 있다.
- BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. 예를 들어 의미가 완전히 반대인 두 문장이 있다고 하다.
    - `it's bad, not good at all.`
    - `it's good, not bad at all.`
- 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다.
- **이를 보완하기 위해 n-gram을 사용**하는 데 BOW는 하나의 토큰을 사용하지만 n-gram은 n개의 토큰을 사용할 수 있도록 한다.

* [Bag-of-words model - Wikipedia](https://en.wikipedia.org/wiki/Bag-of-words_model)

----
## 파트 1

- **NLP는?**<br>
NLP(자연어처리)는 텍스트 문제에 접근하기 위한 기술집합이다.
<br>
<br>
- 이 튜토리얼에서는 IMDB 영화 리뷰를 로딩하고 정제하고 간단한 BOW(Bag of Words) 모델을 적용하여 리뷰가 추천인지 아닌지에 대한 정확도를 예측한다.

In [1]:
import nltk
# nltk.download()

```
"""
header = 0 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며 
delimiter = \t 는 필드가 탭으로 구분되는 것을 의미한다.
quoting = 3은 쌍따옴표를 무시하도록 한다.
"""
```

In [2]:
sentence = """At eight o'clock on Thursday morning Arthur didn't feel very good."""

In [3]:
tokens = nltk.word_tokenize(sentence)
tokens 

['At',
 'eight',
 "o'clock",
 'on',
 'Thursday',
 'morning',
 'Arthur',
 'did',
 "n't",
 'feel',
 'very',
 'good',
 '.']

In [4]:
tagged = nltk.pos_tag(tokens)
tagged

[('At', 'IN'),
 ('eight', 'CD'),
 ("o'clock", 'NN'),
 ('on', 'IN'),
 ('Thursday', 'NNP'),
 ('morning', 'NN'),
 ('Arthur', 'NNP'),
 ('did', 'VBD'),
 ("n't", 'RB'),
 ('feel', 'VB'),
 ('very', 'RB'),
 ('good', 'JJ'),
 ('.', '.')]

In [5]:
import pandas as pd

# %ls data

In [6]:
train = pd.read_csv('data/labeledTrainData.tsv',
                   header=0, delimiter='\t', quoting=3)
train.shape

test = pd.read_csv('data/testData.tsv',
                   header=0, delimiter='\t', quoting=3)
test.shape

(25000, 2)

In [7]:
train.tail()

Unnamed: 0,id,sentiment,review
24995,"""3453_3""",0,"""It seems like more consideration has gone int..."
24996,"""5064_1""",0,"""I don't believe they made this film. Complete..."
24997,"""10905_3""",0,"""Guy is a loser. Can't get girls, needs to bui..."
24998,"""10194_3""",0,"""This 30 minute documentary Buñuel made in the..."
24999,"""8478_8""",1,"""I saw this movie as a child and it broke my h..."


In [8]:
test.tail()

Unnamed: 0,id,review
24995,"""2155_10""","""Sony Pictures Classics, I'm looking at you! S..."
24996,"""59_10""","""I always felt that Ms. Merkerson had never go..."
24997,"""2531_1""","""I was so disappointed in this movie. I am ver..."
24998,"""7772_8""","""From the opening sequence, filled with black ..."
24999,"""11465_10""","""This is a great horror film for people who do..."


In [9]:
train.columns.values

array(['id', 'sentiment', 'review'], dtype=object)

* 레이블인 'sentiment'가 없다. 이 데이터를 기계학습을 통해 예측한다.

In [10]:
test.columns.values

array(['id', 'review'], dtype=object)