# Text Classification
* 적용사례 : 감정분석(긍부정) , 스팸필터링

### 파트1 
* 초보자를 대상으로 기본 자연어 처리를 다룬다.

### 파트2, 3
* Word2Vec을 사용하여 모델을 학습시키는 방법과 감정분석에 단어 벡터를 사용하는 방법을 본다.

* 파트3는 레시피를 제공하지 않고 Word2Vec을 사용하는 몇 가지 방법을 실험해 본다.

* 파트3에서는 K-means 알고리즘을 사용해 군집화를 해본다.

* 긍정과 부정 리뷰가 섞여있는 100,000만개의 IMDB  감정분석 데이터 세트를 통해 목표를 달성해 본다.


### 평가 - ROC 커브(Receiver-Operating Characteristic curve)
* TPR(True Positive Rate)과 FPR(False Positive Rate)을 각각 x, y 축으로 놓은 그래프
* 민감도 TPR 
    - 1인 케이스에 대해 1로 예측한 비율
    - 암환자를 진찰해서 암이라고 진단함
* 특이도 FPR
    - 0인 케이스에 대해 1로 잘못 예측한 비율
    - 암환자가 아닌데 암이라고 진단함
    
* X, Y가 둘 다 [0, 1] 범위이고 (0, 0)에서 (1, 1)을 잇는 곡선이다.
* ROC 커브의 및 면적이 1에 가까울 수록(왼쪽 꼭지점에 다가갈수록) 좋은 성능

* 참고 : 
    * [New Sight :: Roc curve, AUR(AUCOC), 민감도, 특이도](http://newsight.tistory.com/53)
    * [ROC의 AUC 구하기 :: 진화하자 - 어디에도 소속되지 않기](http://adnoctum.tistory.com/121)
    * [Receiver operating characteristic - Wikipedia](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
    
### Use Google's Word2Vec for movie reviews
* 자연어 텍스트를 분석해서 특정단어를 얼마나 사용했는지, 얼마나 자주 사용했는지, 어떤 종류의 텍스트인지 분류하거나 긍정인지 부정인지에 대한 감정분석, 그리고 어떤 내용인지 요약하는 정보를 얻을 수 있다.
* 감정분석은 머신러닝(기계학습)에서 어려운 주제로 풍자, 애매모호한 말, 반어법, 언어 유희로 표현을 하는데 이는 사람과 컴퓨터에게 모두 오해의 소지가 있다. 여기에서는 Word2Vec을 통한 감정분석을 해보는 튜토리얼을 해본다.
* Google의 Word2Vec은 단어의 의미와 관계를 이해하는 데 도움
* 상당수의 NLP기능은 nltk모듈에 구현되어 있는데 이 모듈은 코퍼스, 함수와 알고리즘으로 구성되어 있다.
* 단어 임베딩 모형 테스트 : [Korean Word2Vec](http://w.elnn.kr/search/)

### BOW(bag of words)
* 가장 간단하지만 효과적이라 널리쓰이는 방법
* 장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아린다.
* 구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를 담는 가방(bag)으로 생각할 수 있다.
* BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. 예를 들어 의미가 완전히 반대인 두 문장이 있다고 하다.
    - `it's bad, not good at all.` 
    - `it's good, not bad at all.` 
* 위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다.
* 이를 보완하기 위해 n-gram을 사용하는 데 BOW는 하나의 토큰을 사용하지만 n-gram은 n개의 토큰을 사용할 수 있도록 한다.

* [Bag-of-words model - Wikipedia](https://en.wikipedia.org/wiki/Bag-of-words_model)

In [None]:
# microsoft visual c++ build tool 설치
# ! pip install jpype1
# ! pip install konlpy
# ! pip install customized_konlpy

In [None]:
# Warning Off

import warnings
warnings.filterwarnings('ignore')

In [None]:
import pandas as pd
import numpy as np
import re

In [2]:
from ckonlpy.tag import Twitter
from konlpy.tag import Okt, Kkma, Hannanum
t = Twitter()
twitter = Okt()
kkma = Kkma()
# mecab = Mecab() # mecab은 윈도우에서 사용 불가
hannanum = Hannanum()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


# 입력데이터

In [None]:
df = pd.read_csv('sample.csv', encoding='cp949')

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.shape

# 분류현황

In [None]:
category_count = df['대상'].value_counts()
category_count

# null 제거

In [None]:
df_bak = df.copy()

In [None]:
df = df.fillna('N') # null 값을 N으로 채움

# 전처리

In [None]:
# 예측값과 실제값 비교를 위해 컬럼 하나 추가 파생
df['target_origin'] = df['대상'].astype(str).copy() 

In [None]:
def preprocessing(text):
    text = str(text)
    text = re.sub('\\\\n', ' ', text) # 개행문자 제거
    text = re.sub('?.,;:|\)*~(_+=<>!@#$%^&*※', ' ', text) # 특수문자 제거
    text = re.sub('[가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z]', ' ', text) # 한글, 영문, 숫자 외에는 제거
    return text    

In [None]:
%time df['text'] = df['text'].apply(preprocessing)

# 학습데이터와 테스트셋 생성

In [None]:
test_split

In [None]:
df_train = df[:int(df.shape[0])*0.7].copy()
df_test = df[int(df.shape[0])*0.7:].copy()

# 단어 벡터화

In [None]:
from sklearn.feature_extraction.text import CountVectrizer

stop_words_list = ['kk','dd']
vectorizer = CountVectorizer(analyzer = 'word' # character 단위로도 벡터화 가능 
                            tokenizer = None # Tokenizer 지정 가능
                            stop_words = stop_words_list # 불용어 nltk등의 도구 사용가능 
                            min_df = 1, # 토큰이 나타날 최소 문서 개수로 오타나 자주 나오지 않는 특수한 전문용어 제거에 좋음
                            ngram_range = (1,3) # BOW 단위 지정 1~3개
                            max_features = 20000 # 만들 피처수(단어의 수) 
                            )
vectorizer

In [None]:
%%time
train_feature_vector = vectorizer.fit_transform(df_train['text'])
train_feature_vector.shape

In [None]:
%%time
test_feature_vector = vectorizer.fit_transform(df_test['text'])
test_feature_vector.shape

In [None]:
vocab = vectorizer.get_feature_names()
print(len(vocab))
vocab[:10]

In [None]:
dist = np.sum(train_feature_vector, axis=0)

pd.Dataframe(dist, columns=vocab)

# df-idf 가중치 적용

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer(smooth_idf=False)
transformer

In [None]:
$$time
train_feature_tfidf = transform(train_feature_vector)
test_feature_tfidf.shape

# 머신러닝 : 학습

In [None]:
from sklearn.ensemble import RandomForestClassifier

# 랜덤포레스트 분류기 사용
forest = RandomForestClassifier(
    n_estimators = 100, n_jobs = -1, random_state=2019)
forest

In [None]:
# 학습에 사용할 y_label을 넣어줌
# 어떤 카테고리에 대한 예측이므로 category를 넣어줍니다
y_label = df_train['target_pred']
%time forest = forest.fit(train_feature_tfidf, y_label)

# 모델평가

In [None]:
from sklearn.model_selection import KFold, cross_val_score

k_fold = KFold(n_splits=5, shuffle=True, random_state=2019)
scoring = 'accuracy'
score = cross_val_score(forest, train_feature_vector, y_label, cv=k_fold, n_jobs=-1, scoring=scoring)
score

In [None]:
round(np.mean(score)*100)

# 예측

In [None]:
# 테스트 데이터를 넣고 예측

y_pred = forest.predict(test_feture_vector)
y_pred[:3]

In [None]:
y_pred.shape

In [None]:
# 예측결과를 저장하기 위해 데이터프레임에 담아줌

output = pd.DataFrame(data={'category_pred':y_red})
output.head(2)

# 결과검증

In [None]:
df_test['pred_diff'] = 0
df_test['pred_diff'] = (df_test['대상 선정'] = df_test['category_pred']) == 1
df_test['pred_diff'] = df_test['pred_diff'].astype(int)
df_test.head(2)

In [None]:
df_test['pred_diff'].sum()

# 정확도

In [2]:
899/1000

0.899

### 자연어처리(NLP)와 관련 된 캐글 경진대회
* [Sentiment Analysis on Movie Reviews | Kaggle](https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews)
* [Toxic Comment Classification Challenge | Kaggle](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge)
* [Spooky Author Identification | Kaggle](https://www.kaggle.com/c/spooky-author-identification)