# 텍스트 전처리
- 전처리 기법 : 토큰화, 노이즈/불용어 제거, 통일화, 품사태깅, 벡터화
- 위의 전처리 기법이 실제 분석에서 어떻게 이루어지는지 파악하고 익혀보자

## konlpy 설치

In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m45.1 MB/s[0m eta [36m0:00:00[0m
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.6/465.6 KB[0m [31m24.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
# 이미 앞서 다뤄본 적이 있는 기본적인 라이브러리
import numpy as np
import pandas as pd

import json
import re

from tqdm.notebook import tqdm

In [None]:
from konlpy.tag import Okt # komoran, hannanum, kkma, mecab

#### 형태소 분석기별 메서드 정리 
출처 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/

---
1) Hannanum : KAIST에서 개발   
- analyze : 다양한 형태학적 후보를 반환
- morphs : 형태소 토큰화 
- nouns : 명사 토큰만 반환
- pos : 형태소에 품사 태깅하여 반환
---  
2) Kkma : 서울대에서 개발
- morphs : 형태소 토큰화 
- nouns : 명사 토큰만 반환
- pos : 형태소에 품사 태깅하여 반환 
- sentences : 문장 토큰화
---  
3) Komoran : Shineware팀에서 개발
- morphs : 형태소 토큰화 
- nouns : 명사 토큰만 반환
- pos : 형태소에 품사 태깅하여 반환
---
4) Mecab : 교토대에서 일본어용으로 개발된 분석기, 은전 프로젝트에 의해 한국어용 개발
- morphs : 형태소 토큰화 
- nouns : 명사 토큰만 반환
- pos : 형태소에 품사 태깅하여 반환
---
5) Okt(Twitter) : Will Hohyon Ryu가 개발
- morphs : 형태소 토큰화 
- nouns : 명사 토큰만 반환
- phrases : 다양한 형태학적 후보를 반환
- pos : 형태소에 품사 태깅하여 반환


In [None]:
import os
from datetime import datetime

## Download Dataset(github에서 NSMC 데이터셋 다운로드)

In [None]:
train = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', header=0, delimiter='\t' ,quoting=3)
test = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt', header=0, delimiter='\t' ,quoting=3)

In [None]:
train.shape, test.shape

((150000, 3), (50000, 3))

In [None]:
train.iloc[:15]

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
5,5403919,막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.,0
6,7797314,원작의 긴장감을 제대로 살려내지못했다.,0
7,9443947,별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...,0
8,7156791,액션이 없는데도 재미 있는 몇안되는 영화,1
9,5912145,왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?,1


In [None]:
train.isnull().sum()

id          0
document    5
label       0
dtype: int64

In [None]:
test.isnull().sum()

id          0
document    3
label       0
dtype: int64

In [None]:
train.dropna(inplace=True)
test.dropna(inplace=True)

In [None]:
X_train = train.document   
y_train = train.label 

X_test = test.document  
y_test = test.label 
X_train[0], y_train[0]

('아 더빙.. 진짜 짜증나네요 목소리', 0)

In [None]:
print('#Train set size:', len(X_train))
print('#Test set size:', len(X_test))

#Train set size: 149995
#Test set size: 49997


## 토큰화 + 노이즈/불용어제거 + 통일화 + 주요 품사 추출(품사태깅)

### 토큰화

In [None]:
review = X_train[0]
review

'아 더빙.. 진짜 짜증나네요 목소리'

In [None]:
okt = Okt()

In [None]:
result = okt.morphs(review) 
result

['아', '더빙', '..', '진짜', '짜증나네요', '목소리']

### 노이즈 제거

In [None]:
# 한글제외한 나머지 문자 제거 --> 정규표현식
sub_noise = lambda text : re.sub('[^가-힣]', '', text)
result = [sub_noise(text) for text in result]
result

['아', '더빙', '', '진짜', '짜증나네요', '목소리']

In [None]:
# 1글자짜리 제거 
result = [text for text in result if len(text) > 1]
result

['더빙', '진짜', '짜증나네요', '목소리']

### 불용어 제거

In [None]:
# 불용어 사전 - 리스트로 사용
stopwords = ['목소리']

with open('nsmc_stopwords.txt', 'wt') as f:
    f.write('\n'.join(stopwords))  # 리스트 -> 문자열

# f = open('nsmc_stopwords.txt', 'wt')
# f.write(stopwords_str)
# f.close()

In [None]:
f = open('nsmc_stopwords.txt')
stopwords = f.read().split()
stopwords

['목소리']

In [None]:
result = [token for token in result if not token in stopwords]
result

['더빙', '진짜', '짜증나네요']

### 품사태깅

In [None]:
# 품사 태깅의 이해
review = X_train[0]
review

'아 더빙.. 진짜 짜증나네요 목소리'

In [None]:
review_text = re.sub("[^가-힣\\s]", "", review)
review_text

'아 더빙 진짜 짜증나네요 목소리'

In [None]:
okt = Okt()
word_review = okt.pos(review_text, stem=True)
word_review

[('아', 'Exclamation'),
 ('더빙', 'Noun'),
 ('진짜', 'Noun'),
 ('짜증나다', 'Adjective'),
 ('목소리', 'Noun')]

In [None]:
for token, pos in word_review:
    print(token, pos)

아 Exclamation
더빙 Noun
진짜 Noun
짜증나다 Adjective
목소리 Noun


### 종합적인 구현

In [None]:
f = open('nsmc_stopwords.txt') # 경로 + 파일명
stop_words = f.read().split()
stop_words

['목소리']

In [None]:
# 1. 한글 및 공백을 제외한 문자 모두 제거.
import re
review_text = re.sub("[^가-힣\s]", "", '아.. 더빙 진짜 짜증나네')
review_text

'아 더빙 진짜 짜증나네'

In [None]:
okt = Okt()
word_review = okt.pos(review_text, stem=True)
word_review

[('아', 'Exclamation'), ('더빙', 'Noun'), ('진짜', 'Noun'), ('짜증나다', 'Adjective')]

In [None]:
# pos 결과 이해하기
## 1. word_review에서 '더빙'만 출력해보자.
word_review[1][0]

## 2. 품사들만 출력해보자.
for word in word_review:
    print(word[1])

## 3. 토큰은 tokens에, 품사는 pos에 리스트로 각각 담아보자.
tokens, pos = [], []

for word in word_review:
    tokens.append(word[0])
    pos.append(word[1])
tokens, pos

Exclamation
Noun
Noun
Adjective


(['아', '더빙', '진짜', '짜증나다'], ['Exclamation', 'Noun', 'Noun', 'Adjective'])

In [None]:
def preprocessing(review): 
    okt = Okt()
    
    f = open('nsmc_stopwords.txt')
    stop_words = f.read().split()
    
    # 1. 한글 및 공백을 제외한 문자 모두 제거.
    review_text = re.sub("[^가-힣\\s]", "", review)
    
    # 2. okt 객체를 활용해서 형태소 토큰화 + 품사 태깅
    word_review = okt.pos(review_text, stem=True)
    
    # 노이즈 & 불용어 제거
    word_review = [(token, pos) for token, pos in word_review if not token in stop_words and len(token) > 1]
    
    # 명사, 동사, 형용사 추출
    word_review = [token for token, pos in word_review if pos in ['Noun', 'Verb', 'Adjective']]

    return word_review

In [None]:
for x in X_train[:100]:
    print(preprocessing(x))

['더빙', '진짜', '짜증나다']
['포스터', '보고', '초딩', '영화', '오버', '연기', '가볍다', '않다']
['무재', '밓었', '다그', '래서', '보다', '추천']
['교도소', '이야기', '구먼', '솔직하다', '재미', '없다', '평점', '조정']
['몬페', '익살스럽다', '연기', '돋보이다', '영화', '스파이더맨', '늙다', '보이다', '하다', '커스틴', '던스트', '이쁘다', '보이다']
['걸음', '떼다', '초등학교', '학년', '생인', '살다', '영화', '반개', '아깝다']
['원작', '긴장감', '제대로', '살리다', '하다']
['반개', '아깝다', '나오다', '이응경', '길용우', '생활', '정말', '해도', '그것', '낫다', '납치', '감금', '반복', '반복', '드라마', '가족', '없다', '연기', '하다', '사람']
['액션', '없다', '재미', '있다', '안되다', '영화']
['왜케', '평점', '낮다', '헐리우드', '화려하다', '길들이다', '있다']
['인피니트', '진짜']
['볼때', '눈물나다', '죽다', '년대', '향수', '허진호', '감성', '절제', '멜로', '달인']
['울면', '횡단보도', '건너다', '뛰다', '치다', '이범수', '연기', '드럽다', '하다']
['담백하다', '깔끔하다', '좋다', '로만', '보다', '보다', '자꾸', '잊어버리다', '사람', '이다']
['취향', '존중', '다지', '진짜', '내생', '극장', '보다', '영화', '가장', '노잼', '감동', '스토리', '어거지', '감동', '어거지']
['매번', '긴장', '되다', '재밋음']
['차다', '사람', '웃기다', '바스코', '이기', '락스', '끄다', '바비', '이기', '아이돌', '깔다', '다그', '끄다', '안달', '보이다']
['굿바이', '레닌', '표절',

### 벡터화 
1. BoW : CountVectorizer
2. TF-IDF : TfidfVectorizer

In [None]:
CountVectorizer?

Object `CountVectorizer` not found.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression

bow = CountVectorizer(tokenizer=preprocessing, min_df=5, max_df=0.5, max_features = 2000) 

# X_train_bow = bow.fit(X_train)
X_train_bow = bow.fit_transform(X_train)
X_test_bow = bow.transform(X_test)

In [None]:
len(bow.get_feature_names())
print(bow.get_feature_names())

['가가', '가감', '가게', '가격', '가관', '가구', '가기', '가까워지다', '가까이', '가깝다', '가끔', '가나', '가나다', '가난', '가난하다', '가내', '가누다', '가늘다', '가늠', '가능', '가능성', '가능하다', '가다', '가다가', '가닥', '가도', '가두다', '가드', '가득', '가득하다', '가든', '가라', '가라앉다', '가량', '가레스', '가려지다', '가려진', '가련하다', '가로', '가루지기', '가르다', '가르시아', '가르치다', '가르침', '가리다', '가만있다', '가면', '가모', '가문', '가물', '가뭄', '가미', '가발', '가방', '가버리다', '가볍다', '가보', '가보다', '가비', '가사', '가상', '가상하다', '가상현실', '가선', '가세', '가수', '가스', '가스펠', '가슴', '가슴속', '가시', '가시다', '가식', '가십', '가안', '가야', '가업', '가연', '가엾다', '가오', '가왜', '가요', '가운', '가운데', '가원', '가위', '가위바위보', '가위손', '가을', '가을동화', '가의', '가이거', '가인', '가입', '가장', '가장이', '가재', '가점', '가정', '가정부', '가정폭력', '가제', '가젤', '가져가다', '가져다주다', '가져오다', '가족', '가족사', '가족영화', '가주', '가죽', '가중', '가증', '가지', '가지가지', '가지다', '가짜', '가차', '가출', '가치', '가치관', '가타', '가타카', '가톨릭', '가트', '가필드', '가하다', '가해', '가해자', '가혹하다', '각각', '각국', '각기', '각도', '각본', '각본가', '각색', '각선미', '각성', '각시탈', '각심', '각오', '각인', '각자', '각종', '간간이', '간결하다', '간과', '간극', '간나', '간다', '간단하다'

In [None]:
X_train_bow.shape

(149995, 12407)

In [None]:
tfidf = TfidfVectorizer(tokenizer=preprocessing, max_features=2000, min_df=5, max_df=0.5) 

X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

X_train_tfidf.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [None]:
print(tfidf.get_feature_names_out())
print(len(tfidf.get_feature_names_out()))

['가깝다' '가끔' '가능성' ... '힘내다' '힘드다' '힘들다']
2000


In [None]:
X_train.iloc[0]

'아 더빙.. 진짜 짜증나네요 목소리'

In [None]:
X_train_tfidf[0].toarray()

array([[0., 0., 0., ..., 0., 0., 0.]])

In [None]:
X_train_tfidf.shape

(149995, 2000)

## 모델 학습 및 검증

In [None]:
# 모델 1 : Logistic Regression 모형
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression()
log_clf.fit(X_train_bow, y_train)
print('Train set score: {:.3f}'.format(log_clf.score(X_train_bow, y_train)))
print('Test set score: {:.3f}'.format(log_clf.score(X_test_bow, y_test)))

Train set score: 0.850
Test set score: 0.819


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# 모델 2 : 트리 앙상블 모형
from sklearn.ensemble import RandomForestClassifier

model_rf = RandomForestClassifier(n_estimators = 100, max_depth=30, random_state = 0)
model_rf.fit(X_train_bow, y_train)
print('Train set score: {:.3f}'.format(model_rf.score(X_train_bow, y_train)))
print('Test set score: {:.3f}'.format(model_rf.score(X_test_bow, y_test)))

Train set score: 0.791
Test set score: 0.770


In [None]:
# # 모델 3 : lightgbm Model
# import lightgbm as lgb

# model_lgbm = lgb.LGBMClassifier()
# model_lgbm.fit(X_train_bow, y_train)
# print('Train set score: {:.3f}'.format(model_lgbm.score(X_train_bow, y_train)))
# print('Test set score: {:.3f}'.format(model_lgbm.score(X_test_bow, y_test)))

In [None]:
# clf = model_lgbm

# for content in zip(y_test[:10], clf.predict(X_test_tfidf[:10]), X_test[:10]):
#     print(content)

In [None]:
from sklearn.naive_bayes import MultinomialNB 

multi_naive = MultinomialNB()
multi_naive.fit(X_train_bow, y_train)

print('train score : {}'.format(multi_naive.score(X_train_bow, y_train)))
print('test score : {}'.format(multi_naive.score(X_test_bow, y_test)))

## 모델 학습 및 검증

In [None]:
# 모델 1 : Logistic Regression 모형
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression()
log_clf.fit(X_train_tfidf, y_train)
print('Train set score: {:.3f}'.format(log_clf.score(X_train_tfidf, y_train)))
print('Test set score: {:.3f}'.format(log_clf.score(X_test_tfidf, y_test)))

Train set score: 0.816
Test set score: 0.809


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# 모델 2 : 트리 앙상블 모형
from sklearn.ensemble import RandomForestClassifier

model_rf = RandomForestClassifier(n_estimators = 100, max_depth=30, random_state = 0)
model_rf.fit(X_train_tfidf, y_train)
print('Train set score: {:.3f}'.format(model_rf.score(X_train_tfidf, y_train)))
print('Test set score: {:.3f}'.format(model_rf.score(X_test_tfidf, y_test)))

Train set score: 0.780
Test set score: 0.756


In [None]:
# 모델 3 : lightgbm Model
import lightgbm as lgb

model_lgbm = lgb.LGBMClassifier()
model_lgbm.fit(X_train_tfidf, y_train)
print('Train set score: {:.3f}'.format(model_lgbm.score(X_train_tfidf, y_train)))
print('Test set score: {:.3f}'.format(model_lgbm.score(X_test_tfidf, y_test)))

Train set score: 0.792
Test set score: 0.784


In [None]:
clf = model_lgbm

for content in zip(y_test[:10], clf.predict(X_test_tfidf[:10]), X_test[:10]):
    print(content)

(1, 1, '굳 ㅋ')
(0, 0, 'GDNTOPCLASSINTHECLUB')
(0, 0, '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아')
(0, 0, '지루하지는 않은데 완전 막장임... 돈주고 보기에는....')
(0, 0, '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??')
(1, 1, '음악이 주가 된, 최고의 음악영화')
(0, 0, '진정한 쓰레기')
(0, 0, '마치 미국애니에서 튀어나온듯한 창의력없는 로봇디자인부터가,고개를 젖게한다')
(0, 0, '갈수록 개판되가는 중국영화 유치하고 내용없음 폼잡다 끝남 말도안되는 무기에 유치한cg남무 아 그립다 동사서독같은 영화가 이건 3류아류작이다')
(1, 1, '이별의 아픔뒤에 찾아오는 새로운 인연의 기쁨 But, 모든 사람이 그렇지는 않네..')
