## Bag of Words Meets Bags of Popcorn
- https://www.kaggle.com/c/word2vec-nlp-tutorial
- 튜토리얼을 제공하는 케글 경진대회 중의 하나

#### [자연 언어 처리 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0_%EC%96%B8%EC%96%B4_%EC%B2%98%EB%A6%AC)
- 자연 언어 처리(自然言語處理) 또는 자연어 처리(自然語處理)는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. (출처 : 위키피디아)

#### 자연어처리(NLP)와 관련된 캐글 경진대회
- [Sentiment Analysis on Movie Reviews | Kaggle](https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews)
- [Toxic Comment Classification Challenge | Kaggle](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge)
- [Spooky Author Identification | Kaggle](https://www.kaggle.com/c/spooky-author-identification)

## 튜토리얼 개요

### 파트1
- 입문자를 대상으로 기본 자연어 처리(Bag Of Words)를 다룬다.

### 파트2, 3
- Word2Vec을 사용하여(Word Vectors) 모델을 학습시키는 방법과 감정분석에 단어 벡터를 사용하는 방법을 본다.
- 파트3는 레시피를 제공하지 않고 Word2Vec을 사용하는 몇 가지 방법을 실험해 본다.
- 파트3에서는 K-means 알고리즘을 사용해 군집화를 해본다.
- 긍정과 부정 리뷰가 섞여있는 100,000만개의 IMDB 감정분석 데이터 세트를 통해 목표를 달성해 본다.

### 평가 - ROC 커브(Receiver-Operating Characteristic curve)
- **TPR**(True Positive Rate)과 **FPR**(False Positive Rate)을 각각 x, y 축으로 놓은 그래프
- **민감도 TPR**
    - **1인 케이스에 대해 1로 예측한 비율**
    - 암환자를 진찰해서 암이라고 진단함
- **특이도 FPR**
    - **0인 케이스에 대해 1로 잘못 예측한 비율**
    - 암환자가 아닌데 암이라고 진단함
- X, Y가 둘 다 [0, 1] 범위이고 (0, 0)에서 (1, 1)을 잇는 곡선이다.
<img src="img/01_roc.png" width="350">(출처 : 위키피디아)
- **ROC 커브의 및 면적이 1에 가까울 수록(왼쪽 꼭지점에 다가갈수록) 좋은 성능(정확도가 높은 평가 방법이다)**
- 참고 :
    - [New Sight :: Roc curve, AUR(AUCOC), 민감도, 특이도](http://newsight.tistory.com/53)
    - [ROC의 AUC 구하기 :: 진화하자 - 어디에도 소속되지 않기](http://adnoctum.tistory.com/121)
    - [Receiver operating characteristic - Wikipedia](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
    
### Use Google's Word2Vec for movie reviews
- 자연어 텍스트를 분석해서 특정단어를 얼마나 사용했는지, 얼마나 자주 사용했는지, 어떤 종류의 텍스트인지 분류하거나 긍정인지 부정인지에 대한 감정분석, 그리고 어떤 내용인지 요약하는 정보를 얻을 수 있다.
- 감정분석은 머신러닝(기계학습)에서 어려운 주제로 풍자, 애매모호한 말, 반어법, 언어 유희로 표현을 하는데 이는 사람과 컴퓨터에게 모두 오해의 소지가 있다. 여기에서는 Word2Vec을 통한 감정분석을 해보는 튜토리얼을 해본다.
- Google의 Word2Vec은 단어의 의미와 관계를 이해하는 데 도움
- 상당수의 NLP기능은 nltk모듈에 구현되어 있는데 이 모듈은 코퍼스, 함수와 알고리즘으로 구성되어 있다.
- 단어 임베딩 모형 테스트 : [Korean Word2Vec](http://w.elnn.kr/search/)

### BOW(bag of words)
- 가장 간단하지만 효과적이라 널리쓰이는 방법
- 장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아린다.
- 구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를 담는 가방(bag)으로 생각할 수 있다.
- BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. 예를 들어 의미가 완전히 반대인 두 문장이 있다고 하다.
    - `it's bad, not good at all.`
    - `it's good, not bad at all.`
- 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다.
- **이를 보완하기 위해 n-gram을 사용**하는 데 BOW는 하나의 토큰을 사용하지만 n-gram은 n개의 토큰을 사용할 수 있도록 한다.

* [Bag-of-words model - Wikipedia](https://en.wikipedia.org/wiki/Bag-of-words_model)

----
## 파트 1

- **NLP는?**<br>
NLP(자연어처리)는 텍스트 문제에 접근하기 위한 기술집합이다.
<br>
<br>
- 이 튜토리얼에서는 IMDB 영화 리뷰를 로딩하고 정제하고 간단한 BOW(Bag of Words) 모델을 적용하여 리뷰가 추천인지 아닌지에 대한 정확도를 예측한다.

In [1]:
import nltk
# nltk.download()

In [2]:
sentence = """At eight o'clock on Thursday morning Arthur didn't feel very good."""

In [3]:
tokens = nltk.word_tokenize(sentence)
tokens 

['At',
 'eight',
 "o'clock",
 'on',
 'Thursday',
 'morning',
 'Arthur',
 'did',
 "n't",
 'feel',
 'very',
 'good',
 '.']

In [4]:
tagged = nltk.pos_tag(tokens)
tagged

[('At', 'IN'),
 ('eight', 'CD'),
 ("o'clock", 'NN'),
 ('on', 'IN'),
 ('Thursday', 'NNP'),
 ('morning', 'NN'),
 ('Arthur', 'NNP'),
 ('did', 'VBD'),
 ("n't", 'RB'),
 ('feel', 'VB'),
 ('very', 'RB'),
 ('good', 'JJ'),
 ('.', '.')]

In [5]:
import pandas as pd

# %ls data

`header = 0` 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며<br>
`delimiter = \t` 는 필드가 탭으로 구분되는 것을 의미한다.<br>
`quoting = 3` 은 쌍따옴표를 무시하도록 한다.

In [6]:
train = pd.read_csv('data/labeledTrainData.tsv',
                   header=0, delimiter='\t', quoting=3)
train.shape

test = pd.read_csv('data/testData.tsv',
                   header=0, delimiter='\t', quoting=3)
test.shape

(25000, 2)

In [13]:
train.tail()

Unnamed: 0,id,sentiment,review
24995,"""3453_3""",0,"""It seems like more consideration has gone int..."
24996,"""5064_1""",0,"""I don't believe they made this film. Complete..."
24997,"""10905_3""",0,"""Guy is a loser. Can't get girls, needs to bui..."
24998,"""10194_3""",0,"""This 30 minute documentary Buñuel made in the..."
24999,"""8478_8""",1,"""I saw this movie as a child and it broke my h..."


In [8]:
test.tail()

Unnamed: 0,id,review
24995,"""2155_10""","""Sony Pictures Classics, I'm looking at you! S..."
24996,"""59_10""","""I always felt that Ms. Merkerson had never go..."
24997,"""2531_1""","""I was so disappointed in this movie. I am ver..."
24998,"""7772_8""","""From the opening sequence, filled with black ..."
24999,"""11465_10""","""This is a great horror film for people who do..."


In [9]:
train.columns.values

array(['id', 'sentiment', 'review'], dtype=object)

- 튜토리얼01 에서는, <br>
test dataset에 'sentiment'레이블이 없다. <br>
train data의 'sentiment'를 바탕으로 test 데이터를 기계학습을 통해 예측한다.

In [10]:
test.columns.values

array(['id', 'review'], dtype=object)

In [14]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000 entries, 0 to 24999
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         25000 non-null  object
 1   sentiment  25000 non-null  int64 
 2   review     25000 non-null  object
dtypes: int64(1), object(2)
memory usage: 586.1+ KB


In [15]:
train.describe()

Unnamed: 0,sentiment
count,25000.0
mean,0.5
std,0.50001
min,0.0
25%,0.0
50%,0.5
75%,1.0
max,1.0


In [17]:
train['sentiment'].value_counts()

1    12500
0    12500
Name: sentiment, dtype: int64

In [20]:
# 첫번째 데이터 불러와서 보기 

train['review'][0][:700]  # [0]첫번째 모두 불러오면 너무 많아서 -> [:700]자 까지만 불러오기 ***
# <br> 등의 html 태그가 섞여있기 때문에 => 이를 정제해줄 필요가 있음

'"With all this stuff going down at the moment with MJ i\'ve started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ\'s feeling towards the press and also the obvious message of drugs are bad m\'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely lik'

여기까지 <br>
- pandas 로 데이터 불러오기
- 데이터 정제하기 

### 데이터 정제 Data Cleaning and Text Preprocessing(전처리 과정)
- 데이터 정제가 필요한 이유 : <br>
기계가 텍스트를 이해할 수 있도록 텍스트를 정제해 준다.<br>
신호와 소음을 구분한다. 아웃라이어데이터로 인한 오버피팅을 방지한다.<br>
<br>
- 정제할 4가지 과정 :
    1. BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거
    2. 정규표현식으로 알파벳 이외의 문자를 공백으로 치환
    3. NLTK 데이터를 사용해 불용어(Stopword)를 제거
    4. 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출
    (불용어 : ex) I, me, my 같이 자주 등장하지만 문장의 의미가 많지 않은 단어들)


### 텍스트 데이터 전처리 이해하기
- 한국어 데이터 텍스트 전처리의 경우, KoNLPy 를 사용한다.
- KoNLPy 는 트위터 형태소 분석기를 통해 만들어졌다. 
(출처 : [트위터 한국어 형태소 분석기](https://github.com/twitter/twitter-korean-text))

**정규화 normalization (입니닼ㅋㅋ -> 입니다 ㅋㅋ, 샤릉해 -> 사랑해)**

* 한국어를 처리하는 예시입니닼ㅋㅋㅋㅋㅋ -> 한국어를 처리하는 예시입니다 ㅋㅋ

**토큰화 tokenization**

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하는Verb, 예시Noun, 입Adjective, 니다Eomi ㅋㅋKoreanParticle

**어근화 stemming (입니다 -> 이다)**

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하다Verb, 예시Noun, 이다Adjective, ㅋㅋKoreanParticle

**어구 추출 phrase extraction** 

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어, 처리, 예시, 처리하는 예시

Introductory Presentation: [Google Slides](https://docs.google.com/presentation/d/10CZj8ry03oCk_Jqw879HFELzOLjJZ0EOi4KJbtRSIeU/)

* 뷰티풀숩이 설치되지 않았다면 우선 설치해 준다.<br>
`pip install BeautifulSoup4`

In [21]:
# 설치 및 버전확인
!pip show BeautifulSoup4

Name: beautifulsoup4
Version: 4.6.0
Summary: Screen-scraping library
Home-page: http://www.crummy.com/software/BeautifulSoup/bs4/
Author: Leonard Richardson
Author-email: leonardr@segfault.org
License: MIT
Location: c:\users\soomin\anaconda3\lib\site-packages
Requires: 
Required-by: konlpy, conda-build


In [22]:
# BeautifulSoup 불러와서, example1 에 담아주기 
from bs4 import BeautifulSoup

example1 = BeautifulSoup(train['review'][0], "html5lib")

# BeautifulSoup 으로 정제 전과 비교하기 
print(train['review'][0][:700])

# html 테그 등이 제거됨을 볼 수 있다
example1.get_text()[:700]

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely lik


'"With all this stuff going down at the moment with MJ i\'ve started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ\'s feeling towards the press and also the obvious message of drugs are bad m\'kay.Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyw'

In [23]:
# 첫번째 데이터를, 
# 정규표현식을 사용해서 특수문자를 제거하기 

import re
# 소문자와 대문자가 아닌 것은 공백으로 대체한다.
letters_only = re.sub('[^a-zA-Z]', ' ', example1.get_text())  
# ^ : Not 의미 
# a 부터 Z 의 문자가 아니라면, ' ' 공백으로 대체한다 

letters_only[:700]

' With all this stuff going down at the moment with MJ i ve started listening to his music  watching the odd documentary here and there  watched The Wiz and watched Moonwalker again  Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent  Moonwalker is part biography  part feature film which i remember going to see at the cinema when it was originally released  Some of it has subtle messages about MJ s feeling towards the press and also the obvious message of drugs are bad m kay Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyw'

In [24]:
# 모두 소문자로 변환한다.
lower_case = letters_only.lower()

# 문자를 나눈다. => 토큰화 : split 을 사용해서 소문자로 변경된 단어들을 토큰화 하기 
words = lower_case.split()
print(len(words))
words[:10]
# 437개의 토큰으로 이루어짐 
# 10개만 보기 

437


['with',
 'all',
 'this',
 'stuff',
 'going',
 'down',
 'at',
 'the',
 'moment',
 'with']

### 불용어 제거(Stopword Removal)

일반적으로 코퍼스에서 자주 나타나는 단어는 학습 모델로서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못한다. 예를들어 조사, 접미사, i, me, my, it, this, that, is, are 등 과 같은 단어는 **빈번하게 등장하지만 실제 의미를 찾는데 큰 기여를 하지 않는다. Stopwords는 "to"또는 "the"와 같은 용어를 포함하므로 사전 처리 단계에서 제거하는 것이 좋다.** NLTK에는 153 개의 영어 불용어가 미리 정의되어 있다. 17개의 언어에 대해 정의되어 있으며 한국어는 없다.


### NLTK data 설치 
* http://corazzon.github.io/nltk_data_install 

In [25]:
import nltk
from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [27]:
# stopwords 를 제거한 뒤의 변화된 토큰의 개수  437 -> 219 개가 됨 
words = [w for w in words if not w in stopwords.words('english')]
print(len(words))
words[:10]

219


['stuff',
 'going',
 'moment',
 'mj',
 'started',
 'listening',
 'music',
 'watching',
 'odd',
 'documentary']

### 스테밍(어간추출, 형태소 분석)
출처 : [어간 추출 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%96%B4%EA%B0%84_%EC%B6%94%EC%B6%9C)


* 어간 추출(語幹 抽出, 영어: stemming)은 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것
* "message", "messages", "messaging" 과 같이 복수형, 진행형 등의 문자를 같은 의미의 단어로 다룰 수 있도록 도와준다.
* stemming(형태소 분석): 여기에서는 NLTK에서 제공하는 형태소 분석기를 사용한다. 
    - **포터 형태소 분석기는 보수적이고, 랭커스터 형태소 분석기는 좀 더 적극적이다.** 
    - 형태소 분석 규칙의 적극성 때문에 랭커스터 형태소 분석기는 더 많은 동음이의어 형태소를 생산한다.
    - [참고 : 모두의 데이터 과학 with 파이썬(길벗)](http://www.gilbut.co.kr/book/bookView.aspx?bookcode=BN001787)

#### 포터 스태머의 사용 예

In [28]:
# 포터 스태머
stemmer = nltk.stem.PorterStemmer()
print(stemmer.stem('maximum'))
print("The stemmed form of running is: {}".format(stemmer.stem("running")))
print("The stemmed form of runs is: {}".format(stemmer.stem("runs")))
print("The stemmed form of run is: {}".format(stemmer.stem("run")))

maximum
The stemmed form of running is: run
The stemmed form of runs is: run
The stemmed form of run is: run


#### 랭커스터 스태머의 사용 예

In [29]:
# 랭커스터 스태머
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
print(lancaster_stemmer.stem('maximum'))
print("The stemmed form of running is: {}".format(lancaster_stemmer.stem("running")))
print("The stemmed form of runs is: {}".format(lancaster_stemmer.stem("runs")))
print("The stemmed form of run is: {}".format(lancaster_stemmer.stem("run")))

maxim
The stemmed form of running is: run
The stemmed form of runs is: run
The stemmed form of run is: run


=> running, runs, run 의 경우에는, <br>
포터스태머 와 랭커스태머의 차이가 없음을 알 수 있다.