# LIME 모델을 이용한 네이버 영화 리뷰 감정분석 


![title](img/pic1.png)

### 설치

In [6]:
pip install lime

Collecting lime
  Downloading https://files.pythonhosted.org/packages/f5/86/91a13127d83d793ecb50eb75e716f76e6eda809b6803c5a4ff462339789e/lime-0.2.0.1.tar.gz (275kB)
Building wheels for collected packages: lime
  Building wheel for lime (setup.py): started
  Building wheel for lime (setup.py): finished with status 'done'
  Stored in directory: C:\Users\KIMMINKYU\AppData\Local\pip\Cache\wheels\4c\4f\a5\0bc765457bd41378bf3ce8d17d7495369d6e7ca3b712c60c89
Successfully built lime
Installing collected packages: lime
Successfully installed lime-0.2.0.1
Note: you may need to restart the kernel to use updated packages.


In [9]:
import os
#os.chdir('C:\\Users\\KIMMINKYU\\Desktop\\20Summer-Data-Scientist-Program\\project')
# 사실 모듈 import뿐만 아니라, 경로 설정 등은 한 번만 해줘도 되는 작업이지만, 
# 특정 셀만 실행하는 것이 가능하도록 모든 셀에 경로 설정, 데이터 불러오기 등을 포함시킴 
os.getcwd()

'C:\\Users\\KIMMINKYU\\Desktop\\20Summer-Data-Scientist-Program\\project'

In [1]:
import pandas as pd

rating_train_model = pd.read_excel('ratings_train.xlsx', encoding = 'cp949')

rating_train_model.columns

Index(['id', 'document', 'label', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'], dtype='object')

In [2]:
X_train = rating_train_model.document
Y_train = rating_train_model.label

In [3]:
print(X_train.head(), Y_train.head())

0                                  아 더빙.. 진짜 짜증나네요 목소리
1                    흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
2                                    너무재밓었다그래서보는것을추천한다
3                        교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
4    사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...
Name: document, dtype: object 0    0
1    1
2    0
3    0
4    1
Name: label, dtype: object


###  전처리 과정

In [4]:
# 문자열을 숫자형으로 str -> int, 결측값
Y_train = Y_train.apply(pd.to_numeric, errors = 0).fillna(0)

In [5]:
# null 처리된 것 갯수 
X_train.isnull().sum()

36

In [6]:
# null 전처리한 후 갯수
X_train = X_train.fillna(0)
X_train = X_train.dropna(axis=0)
X_train.isnull().sum()

0

In [7]:
# text 전처리같은 경우 강제 형변환
def text_process(text):
    if type(text) != str:
        text = str(text)
        return text
    else:
        return text
    
def star_process(text):
    if type(text) != int:
        text = int(text)
        return text

In [8]:
X_train = X_train.apply(text_process)
Y_train = Y_train.apply(star_process)

In [None]:
X_train

0                                       아 더빙.. 진짜 짜증나네요 목소리
1                         흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
2                                         너무재밓었다그래서보는것을추천한다
3                             교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
4         사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...
5             막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.
6                                     원작의 긴장감을 제대로 살려내지못했다.
7         별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...
8                                    액션이 없는데도 재미 있는 몇안되는 영화
9             왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?
10                                         걍인피니트가짱이다.진짜짱이다♥
11              볼때마다 눈물나서 죽겠다90년대의 향수자극!!허진호는 감성절제멜로의 달인이다~
12                      울면서 손들고 횡단보도 건널때 뛰쳐나올뻔 이범수 연기 드럽게못해
13        담백하고 깔끔해서 좋다. 신문기사로만 보다 보면 자꾸 잊어버린다. 그들도 사람이었다...
14        취향은 존중한다지만 진짜 내생에 극장에서 본 영화중 가장 노잼 노감동임 스토리도 어...
15                                         ㄱ냥 매번 긴장되고 재밋음ㅠㅠ
16        참 사람들 웃긴게 바스코가 이기면 락스코라고 까고바비가

In [None]:
Y_train

0         0
1         1
2         0
3         0
4         1
5         0
6         0
7         0
8         1
9         1
10        1
11        1
12        0
13        1
14        0
15        1
16        1
17        0
18        1
19        1
20        1
21        1
22        0
23        1
24        0
25        0
26        1
27        0
28        1
29        1
         ..
199970    1
199971    1
199972    0
199973    0
199974    0
199975    0
199976    0
199977    0
199978    1
199979    0
199980    1
199981    1
199982    1
199983    0
199984    0
199985    1
199986    1
199987    1
199988    0
199989    0
199990    0
199991    1
199992    1
199993    1
199994    1
199995    1
199996    0
199997    0
199998    0
199999    0
Name: label, Length: 200000, dtype: int64

### Labeling 분포

In [None]:
from matplotlib import pyplot as plt

plt.hist(Y_train, bins = 4)

(array([100005.,      0.,      0.,  99995.]),
 array([0.  , 0.25, 0.5 , 0.75, 1.  ]),
 <a list of 4 Patch objects>)

### Explainer 생성

In [100]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


### 기존 TfidVector화 과정

In [None]:
from lime.lime_text import LimeTextExplainer
import sklearn
import sklearn.metrics
import sklearn.ensemble
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
vectorizer = TfidfVectorizer()
train_vectors = vectorizer.fit_transform(X_train)

In [164]:
train_vectors[0]

<1x293334 sparse matrix of type '<class 'numpy.float64'>'
	with 4 stored elements in Compressed Sparse Row format>

## 말뭉치를 이용한 한국어 용언 분석기 (Korean Lemmatizer) KoNLPy

#### 네이버 영화 데이터에는 맞춤법이나 띄어쓰기가 제대로 되어있지 않은 경우가 있기 때문에 정확한 분류를 위해서 KoNLPy를 이용하였습니다.

#### KoNLPy는 띄어쓰기 알고리즘과 정규화를 이용해서 맞춤법이 틀린 문장도 어느 정도 고쳐주면서 형태소 분석과 품사를 태깅해주는 여러 클래스를 제공합니다.


In [None]:
import konlpy
from konlpy.tag import *

#형태소분석
#okt= open korean text, morphs도 형태소를 분석할 수 있게 하는 함수

def tokenizer(text):
    okt = Okt()
    return okt.morphs(text)

In [None]:
vectorizer = TfidfVectorizer(min_df=10,tokenizer = tokenizer,lowercase=False)
train_vectors = vectorizer.fit_transform(X_train)

In [None]:
train_vectors[0]

In [None]:
from sklearn.naive_bayes import MultinomialNB

#학습모델
clf = MultinomialNB()
clf.fit(train_vectors,Y_train)

### 학습 정확도 확인

In [None]:
pred = clf.predict(train_vectors)

print("정확도 :" , sklearn.metrics.accuracy_score(Y_train, pred))
print("혼돈 매트릭스: \n", sklearn.metrics.confusion_matrix(Y_train, pred, normalize='pred'))

In [None]:
def get_text_by_y_pred(y, p):
  return [i for i in range(train_vectors.shape[0]) if Y_train[i] == y and pred[i] == p]

# 혼돈 매트릭스에 각 원소에 해당하는 훈련값들의 인덱스를 가져옵니다.
#긍정적 문장인데 긍정적 문장으로 분류(tp), 부정적 문장인데 긍정적 문장으로 분류(fn)
#부정적 문장인데 긍정적 문장으로 분류(fp), 부정적 문장인데 부정적 문장으로 분류(tn)

tp = get_text_by_y_pred(0, 0)
fn = get_text_by_y_pred(0, 1)
fp = get_text_by_y_pred(1, 0)
tn = get_text_by_y_pred(1, 1)

In [None]:
from sklearn.pipeline import make_pipeline
from lime.lime_text import LimeTextExplainer

def predict_pipe(x):
  x = vectorizer.transform(x)
  x = clf.predict(x)
  return x

# i 번째 훈련 데이터를 Lime으로 분석해서 노트북에 표시합니다.
def explain(i, text=None, cls=None):
  if not text and not cls:
    text, cls = X_train[i], Y_train[i]

  class_names=["Normal", "Minus"]
  
  # Lime 분석
  pipe = make_pipeline(vectorizer, clf)
  explainer = LimeTextExplainer(class_names=class_names)
  exp = explainer.explain_instance(text, pipe.predict_proba)

  # 분류기로 예측한 결과 표시
  pred = clf.predict(vectorizer.transform([text])[0])
  pred = "Minus" if(pred == 1) else "Normal"
  cls = "Minus" if(cls == 1) else "Normal"
  
  print()
  print(f"#{i} Predict: {pred} Real: {cls}")
  
  # 노트북에 표시
  exp.show_in_notebook(text=text)
  print()

# 학습된 결과

In [None]:
import numpy as np
for i in np.random.choice(fn, 10):
# for i in [51115, 152131, 155475, 90658, 114588]:
  explain(i)

In [None]:
import numpy as np
for i in np.random.choice(fn, 10):
# for i in [51115, 152131, 155475, 90658, 114588]:
  explain(i)

##

In [None]:
fp_len = [min(len(X_train[i]), 500) for i in fp]
plt.hist(fp_len)

## 실험

In [32]:
import pickle

In [33]:
with open('pipe_1.dat', 'wb') as fp :
    pipe = make_pipeline(vectorizer, clf)
    pickle.dump(pipe, fp)
        
print('저장완료')

저장완료


In [2]:
import numpy as np

In [34]:
def using_model() :
    # 객체를 복원한다.
    
    with open('pipe_1.dat', 'rb') as fp:
        pipe = pickle.load(fp)

    while True :
        text = input('리뷰를 작성해주세요 :')

        str = [text]
        # 예측 정확도
        r1 = np.max(pipe.predict_proba(str) * 100)
        # 예측 결과
        r2 = pipe.predict(str)[0]

        if r2 == '1' :
            print('긍정적인 리뷰')
        else :
            print('부정적인 리뷰')

        print('정확도 : %.3f' % r1)

In [35]:
def using() :
    using_model()

In [None]:
using()

리뷰를 작성해주세요 :asdf
부정적인 리뷰
정확도 : 50.002


진행방향
