# 네이버 영화평 감성분석
- Tokenizer 함수
- TfidfVectorizer + LogisticRegression

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.1 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 43.8 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [2]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [None]:
# from google.colab import files
# up= files.upload()
# up.keys()

In [3]:
train_df = pd.read_csv("naver_movie_train_전처리완료.tsv", sep='\t')
test_df = pd.read_csv("naver_movie_test_전처리완료.tsv", sep='\t')

In [5]:
train_df.shape, test_df.shape

((145393, 3), (48852, 3))

- Tokenizer 함수 정의

In [6]:
from konlpy.tag import Okt
okt = Okt()

In [7]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다','을','ㅋㅋ','ㅠㅠ','ㅎㅎ']
# a = '은 는 이 가'.split()

In [8]:
def okt_tokenizer(text):
  morphs= okt.morphs(text,stem=True)
  tokens = [word for word in morphs if word not in stopwords]
  return tokens

In [9]:
okt_tokenizer('열심히 일한 당신 주말엔 여행을 떠나봐요.')

['열심히', '일', '당신', '주말', '엔', '여행', '떠나다', '보다', '.']

-Pipeline으로 피쳐 변환과 분류를 동시에 

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

In [11]:
train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠 포스터보고 초딩영화줄 오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다 평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [13]:
pipeline = Pipeline([
    ('TFIDF', TfidfVectorizer(tokenizer=okt_tokenizer)),
    ('LR',LogisticRegression(random_state=2022))
])
pipeline.fit(train_df.document,train_df.label)

Pipeline(steps=[('TFIDF',
                 TfidfVectorizer(tokenizer=<function okt_tokenizer at 0x7f7c2944bd40>)),
                ('LR', LogisticRegression(random_state=2022))])

In [15]:
pipeline.score(test_df.document,test_df.label)

0.8425038892982887

- 실제 데이터 테스트

In [25]:
import re
reviews = ['모든 국민이 봤으면 하는 영화입니다.',
           '생각보다 지루하고 별로였네요... 보면서 좀 졸았습니다.'    ]
reviews = map(lambda x: re.sub('[^가-힣]',' ',x), reviews)

In [26]:
pipeline.predict(reviews)

array([1, 0])

- 최적 파라메터 찾기
  - 매 시행시마다 한글 형태소 분석을 하느라 시간이 너무 오래 걸림
  - 최적 파라메터를 찾으려고 하면 한글 형태소 분석을 한 데이터로 할 것 

In [28]:
from sklearn.model_selection import GridSearchCV
params = {
    'TFIDF__ngram_range':[(1,1),(1,2)],
    'TFIDF__max_df':[0.95,0.98],
    'LR__C':[1,5]
}

In [30]:
grid_pipe = GridSearchCV(pipeline,params,scoring='accuracy',cv=3)
# %time grid_pipe.fit(train_df.document,train_df.label)

KeyboardInterrupt: ignored

- CountVectorizer 사례에서 찾은 최적의 파라메터로 평가

In [31]:
pipeline = Pipeline([
    ('TFIDF', TfidfVectorizer(tokenizer=okt_tokenizer, max_df = 0.95, ngram_range=(1,2))),
    ('LR',LogisticRegression(random_state=2022))
])
pipeline.fit(train_df.document,train_df.label)

Pipeline(steps=[('TFIDF',
                 TfidfVectorizer(max_df=0.95, ngram_range=(1, 2),
                                 tokenizer=<function okt_tokenizer at 0x7f7c2944bd40>)),
                ('LR', LogisticRegression(random_state=2022))])

In [33]:
pipeline.score(test_df.document,test_df.label)

0.8583067223450421