# KoNLPy를 사용한 영화리뷰분석

- 한글의 경우 KoNLPy와 CountVectorizer를 함께 사용하여 감성분석을 할 수 있음
- 사용할 데이터셋은 한글로 된 영화리뷰를 모은 <Naver sentiment movie corpus v1.0> http://github.com/e9t/nsmc/ 
- 이 말뭉치는 네이버 영화사이트의 리뷰 20만개를 묶은 데이터
- KoNLPy설치: 파이썬3의 경우에 JPype1-py3를 설치해야함. 
- konlpy.org/ko/latest/install 참조
- 트위터에서 만든 한국어처리기 twitter-korean-text 를 사용

In [3]:
import platform
platform.python_version

<function platform.python_version>

In [4]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/e5/3d/4e983cd98d87b50b2ab0387d73fa946f745aa8164e8888a714d5129f9765/konlpy-0.5.1-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 2.8MB/s 
[?25hCollecting JPype1>=0.5.7 (from konlpy)
[?25l  Downloading https://files.pythonhosted.org/packages/07/09/e19ce27d41d4f66d73ac5b6c6a188c51b506f56c7bfbe6c1491db2d15995/JPype1-0.7.0-cp36-cp36m-manylinux2010_x86_64.whl (2.7MB)
[K     |████████████████████████████████| 2.7MB 34.9MB/s 
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-0.7.0 konlpy-0.5.1


In [5]:
# Twitter Tag
from konlpy.tag import Twitter
twitter = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')
-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [6]:
# norm은 오타 수정
# stem은 어근 탐색

list = twitter.pos("빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.", norm = True, stem = True)
print(list)

[('빅', 'Noun'), ('데이터', 'Noun'), ('(', 'Punctuation'), ('영어', 'Noun'), (':', 'Punctuation'), ('big', 'Alpha'), ('data', 'Alpha'), (')', 'Punctuation'), ('란', 'Noun'), ('기존', 'Noun'), ('데이터베이스', 'Noun'), ('관리', 'Noun'), ('도구', 'Noun'), ('의', 'Josa'), ('능력', 'Noun'), ('을', 'Josa'), ('넘어서다', 'Verb'), ('대량', 'Noun'), ('(', 'Punctuation'), ('수십', 'Noun'), ('테라바이트', 'Noun'), (')', 'Punctuation'), ('의', 'Noun'), ('정형', 'Noun'), ('또는', 'Adverb'), ('심지어', 'Noun'), ('데이터베이스', 'Noun'), ('형태', 'Noun'), ('가', 'Josa'), ('아니다', 'Adjective'), ('비정', 'Noun'), ('형', 'Suffix'), ('의', 'Josa'), ('데이터', 'Noun'), ('집합', 'Noun'), ('조차', 'Josa'), ('포함', 'Noun'), ('한', 'Determiner'), ('데이터', 'Noun'), ('로부터', 'Noun'), ('가치', 'Noun'), ('를', 'Josa'), ('추출', 'Noun'), ('하고', 'Josa'), ('결과', 'Noun'), ('를', 'Josa'), ('분석', 'Noun'), ('하다', 'Verb'), ('기술', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation')]


In [7]:
print(twitter.nouns('빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 데이터'))

['빅', '데이터', '영어', '란', '기존', '데이터베이스', '관리', '도구', '능력', '대량', '수십', '테라바이트', '의', '데이터']


In [0]:
data = ["빅 데이터(영어: big data)란",
        "기존 데이터베이스 관리도구의 능력을 넘어서는",
        "대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌",
        "비정형의 데이터 집합조차 포함한데이터로부터 가치를 추출하고 결과를 분석하는 기술이다."]

results = []
for line in data:
    word_list = twitter.pos(line, norm=True, stem=True)
    words = []
    for word in word_list:
        # 문장에서 특정 품사 제거
        if not word[1] in ["Josa", "eomi", "Punctuation", "Verb"]:
            words.append(word[0])
    words = (" ".join(words)).strip()
    results.append(words)

In [9]:
results

['빅 데이터 영어 big data 란',
 '기존 데이터베이스 관리 도구 능력',
 '대량 수십 테라바이트 의 정형 또는 심지어 데이터베이스 형태 아니다',
 '비정 형 데이터 집합 포함 한 데이터 로부터 가치 추출 결과 분석 기술']

In [10]:
# KKoma Tag
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.morphs('빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한데이터로부터 가치를 추출하고 결과를 분석하는 기술이다'))

['빅', '데이터', '(', '영어', ':', 'big', 'data', ')', '이', '란', '기존', '데이터', '베이스', '관리', '도구', '의', '능력', '을', '넘어서', '는', '대량', '(', '수십', '테라', '바이트', ')', '의', '정형', '또는', '심지어', '데이터베이스', '형태', '가', '아니', 'ㄴ', '비정형', '의', '데이터', '집합', '조차', '포함', '하', 'ㄴ', '데이터', '로', '부터', '가치', '를', '추출', '하', '고', '결과', '를', '분석', '하', '는', '기술', '이', '다']


In [11]:
print(kkma.pos('빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 데이터'))

[('빅', 'NNG'), ('데이터', 'NNG'), ('(', 'SS'), ('영어', 'NNG'), (':', 'SP'), ('big', 'OL'), ('data', 'OL'), (')', 'SS'), ('이', 'VCP'), ('란', 'ETD'), ('기존', 'NNG'), ('데이터', 'NNG'), ('베이스', 'NNG'), ('관리', 'NNG'), ('도구', 'NNG'), ('의', 'JKG'), ('능력', 'NNG'), ('을', 'JKO'), ('넘어서', 'VV'), ('는', 'ETD'), ('대량', 'NNG'), ('(', 'SS'), ('수십', 'NR'), ('테라', 'NNG'), ('바이트', 'NNG'), (')', 'SS'), ('의', 'NNG'), ('데이터', 'NNG')]


In [13]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=email%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdocs.test%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.photos.readonly%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/drive


In [16]:
!pip install preamble

Collecting preamble
[31m  ERROR: Could not find a version that satisfies the requirement preamble (from versions: none)[0m
[31mERROR: No matching distribution found for preamble[0m


In [17]:
import pandas as pd
import numpy as np
from preamble import *

ModuleNotFoundError: ignored

- 데이터항목은 세개이고 탭으로 구분되어 있으므로 read_csv메서드를 사용할때 구분자를 탭으로 지정함. 
- 데이터에 빈 문자열이 있어도 nan으로 저장되지 않도록 keep_default_na = True로 지정하여 빈 문자열이 그대로 저장되도록 했다

In [19]:
train = pd.read_csv('/content/drive/My Drive/data/ratings_train.txt', delimiter='\t', keep_default_na=False)
train.head(20)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
5,5403919,막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.,0
6,7797314,원작의 긴장감을 제대로 살려내지못했다.,0
7,9443947,별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...,0
8,7156791,액션이 없는데도 재미 있는 몇안되는 영화,1
9,5912145,왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?,1


- 우리가 사용할 데이터는 'document'와 'label'열임. 레이블이 0이면 부정적인 리뷰, 1이면 긍정적인 리뷰임. 이제 pandas의 데이터프레임을 NumPy배열로 바꾼다

In [20]:
text_train = train['document'].as_matrix()
y_train = train["label"].as_matrix()
text_train.shape

  """Entry point for launching an IPython kernel.
  


(150000,)

In [22]:
#테스트데이터도 데이터프레임으로 읽은후 NumPy배열로 변환
test = pd.read_csv('/content/drive/My Drive/data/ratings_test.txt', delimiter='\t', keep_default_na=False)
text_test = test['document'].as_matrix()
y_test = test['label'].as_matrix()
text_test.shape

  
  This is separate from the ipykernel package so we can avoid doing imports until


(50000,)

In [23]:
#훈련데이터와 테스트 데이터의 크기와 클래스 비율 확인. 
# 양성과 음성 데이터수가 비슷함. 
len(text_train), np.bincount(y_train)

(150000, array([75173, 74827]))

In [24]:
len(text_test), np.bincount(y_test)

(50000, array([24827, 25173]))

In [25]:
#분류작업을 시작하기 전에 KoNLPy의 Twitter클래스의 객체를 만든다
from konlpy.tag import Twitter
twitter_tag = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [0]:
# TfidVectorizer의 tokenizer 매개변수에 주입할 함수를 만듬. 
# 이 함수는 텍스트 하나를 입력받아서 Twitter의 형태소분석 메서드인 morphs에서 받은
# 문자열의 리스트를 그대로 반환함. 
def twitter_tokenizer(text):
    return twitter_tag.morphs(text)

In [27]:
# TfidVectorizer의 min_df와 ngram_range, LogisticRegression의 규제 매개변수 C의 그리드서치
# make_pipeline을 사용하여 파이프라인 객체를 만들때 TfidVectorizer에 
# tokenizer=twitter_tokenizer를 지정하고 작동되는 것을 보기위해 훈련데이터 1000개사용
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import GridSearchCV

twit_param_grid = {'tfidfvectorizer__min_df': [5],
                   'tfidfvectorizer__ngram_range':[(1,1), (1,2)],
                   'logisticregression__C': [0.1]}
twit_pipe = make_pipeline(TfidfVectorizer(tokenizer=twitter_tokenizer),
                          LogisticRegression())
twit_grid = GridSearchCV(twit_pipe, twit_param_grid)

#그리드서치를 수행
twit_grid.fit(text_train[0:1000], y_train[0:1000])
print("최상의 교차검증점수 : {:.3f}".format(twit_grid.best_score_))
print("최적의 교차 검증 매개변수 : ", twit_grid.best_params_)



최상의 교차검증점수 : 0.685
최적의 교차 검증 매개변수 :  {'logisticregression__C': 0.1, 'tfidfvectorizer__min_df': 5, 'tfidfvectorizer__ngram_range': (1, 2)}




- 데이터를 1000개만 사용해도 73%에 가까운 교차검증점수임
- 테스트세트를 적용할때는 파이프라인의 tfidfvectorizer단계에서 transform 메소드를 호출한뒤 변환된 데이터를 이용해 logisticregression단계의 score함수를 호출해야함

In [0]:
X_test_konlpy = twit_grid.best_estimator_.named_steps["tfidfvectorizer"].transform(text_test)
score= twit_grid.best_estimator_.named_steps["logisticregression"].score(X_test_konlpy, y_test)
print("테스트 세트 점수: {:.3f}".format(score))

- 전체 훈련데이터를 사용해 그리드서치를 진행하면 테스트할 매개변수 조합이 많이 매우 오래걸림
- n_jobs 매개변수를 조정하여 병렬로 처리할수 있지만, C++기반의 Mecab이 필요함. 윈도우를 지원하지 않음. 
- 전체데이터를 이용하여 학습한 모델의 테스트점수는 87.5%로 분류정확도가 꽤 높음

### 토픽 모델링과 문서 군집화

- 비지도학습으로 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업
- '정치', '스포츠' '금융'등의 토픽으로 묶을수 있는 뉴스데이터가 좋은 예
- 학습된 각 성분은 하나의 토픽에 해당하며, 문서를 표현한 성분의 계수는 문서가 어떤 토픽에 얼마만큼 연관되어 잇는지 알려줌
- 사람들이 토픽모델링에 대해 이야기할때 LDA이라고 하는 특정한 성분 분해방법을 말함. 
- LDA(Latent Dirichlet Allocation), 잠재 디리클레 할당

### LDA
- LDA 모델은 함께 자주 나타나는 단어들을 기준으로 문서의 그룹(토픽)을 찾는것
- 영화 리뷰에 대해서 적용
- 비지도 학습 모델에서 분석의 결과가 왜곡되지 않으려면 자주 나타나는 단어을 제거해야 함
- 적어도 15% 문서에서 나타나는 단어를 삭제한 후 가장 많이 등장하는 단어 10,000개에 대해 BOW모델을 만들것임.

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

In [40]:
from sklearn.datasets import load_files
#reviews_train = pd.read_csv('/content/drive/My Drive/data/ratings_train.txt', delimiter='\t', keep_default_na=False)
#reviews_train = reviews_train.text()
reviews_train = load_files("/content/drive/My Drive/data/ratings_train.txt")
# 텍스트와 레이블을 포함하고 있는 Bunch 오브젝트를 반환합니다.
text_train, y_train = reviews_train.data, reviews_train.target

NotADirectoryError: ignored

In [0]:
# reviews_test = load_files("data/aclImdb/test/")
# text_test, y_test = reviews_test.data, reviews_test.target

In [0]:
vect = CountVectorizer(max_features=10000, max_df=.15)
X = vect.fit_transform(text_train)

In [0]:
# 10개의 토픽으로 구분한다. 토픽은 순서를 가지고 있지 않으며, 
# 토픽의 수를 바꾸면 모든 토픽의 내용이 달라짐
# 기본학습방법("online")에 비해 조금 속도는 느리지만 성능이 더 나은 "batch"방법을 사용하겠다
# 모델성능을 위해 "max_iter(기본 10) 값을 증가시킴

from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_topics=10, learning_method="batch",
                                max_iter=25, random_state=0)
# 모델 생성과 변환을 한 번에 합니다 (시간절약)
# 변환 시간이 좀 걸리므로 시간을 절약하기 위해 동시에 처리합니다
document_topics = lda.fit_transform(X)

In [0]:
# 토픽마다 각 단어의 중요도를 저장한 components_ 속성이 있음
# componenets의 크기는 (n_topics, n_words) 이다
print("lda.components_.shape: {}".format(lda.components_.shape))

In [0]:
# 각 토픽이 의미하는 것이 무엇인지 이해하기 위해 토픽에서 가장 중요한 단어를 확인
# 토픽마다(components_의 행) 특성을 오름차순으로 정렬합니다
# 내림차순이 되도록 [:, ::-1] 사용해 행의 정렬을 반대로 바꿉니다
sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
# CountVectorizer 객체에서 특성 이름을 구합니다.
feature_names = np.array(vect.get_feature_names())

In [0]:
arr = np.arange(0,12).reshape(3,4)
arr

In [0]:
arr[:, ::-1]

In [0]:
feature_names.shape

In [0]:
# 10개의 토픽을 출력합니다. print_topics는 특성들을 정돈하여 출력하는 함수임
mglearn.tools.print_topics(topics=range(10), feature_names=feature_names,
                           sorting=sorting, topics_per_chunk=5, n_words=10)
#토픽1은 역사와 전쟁영화, 토픽2는 코미디물, 토픽3:TV시리즈, 토픽4:매우일반적인단어
#토픽6:어린이영화, 토픽8:영화제와 관련한 리뷰

In [0]:
# # 100개의 토픽으로 새로운 모델을 학습
# # 많은 토픽을 사용하면 분석은 더 어려워지지만 데이터에서 특이한 부분을 잘 잡아냄
# lda100 = LatentDirichletAllocation(n_topics=100, learning_method="batch",
#                                    max_iter=25, random_state=0, n_jobs=-1)
# document_topics100 = lda100.fit_transform(X)

In [0]:
# # 100개의 토픽을 모두 나열하면 너무 길어지므로 재미있는 대표 토픽만 보겠다
# topics = np.array(10)
topics

In [0]:
sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
feature_names = np.array(vect.get_feature_names())
mglearn.tools.print_topics(topics=[0,1,2,3,4,5,6,7,8,9], feature_names=feature_names,
                           sorting=sorting, topics_per_chunk=5, n_words=20)

#토픽7:공포영화스릴러, 16,54:부정적인리뷰, 63:코미디에관한 긍정적인리뷰
#토픽을 이용해 추론을 잘 하려면 토픽에 할당된 문서를 보고 가장 높은 순위에 있는
#단어의 의미를 확인해야함
#토픽 36은 음악에 관한것. 

In [0]:
# # 음악에 관한 토픽 36과 관련된 리뷰를 찾아보겠다.
# music = np.argsort(document_topics[:, 5])[::-1]
# # 이 토픽의 가장 비중이 큰 문서 10개를 출력합니다
# for i in music[:10]:
#     # 첫 두 문장을 출력합니다
#     print(b".".join(text_train[i].split(b".")[:2]) + b".\n")

In [0]:
fig, ax = plt.subplots(1, 2, figsize=(1, 10))
topic_names = ["{:>2} ".format(i) + " ".join(words)
               for i, words in enumerate(feature_names[sorting[:, :2]])]
# 두개의 열이 있는 막대 그래프
for col in [0, 1]:
    start = col * 5
    end = (col + 1) * 5
    ax[col].barh(np.arange(5), np.sum(document_topics, axis=0)[start:end])
    ax[col].set_yticks(np.arange(5))
    ax[col].set_yticklabels(topic_names[start:end], ha="left", va="top")
    ax[col].invert_yaxis()
    ax[col].set_xlim(0, 200)
    yax = ax[col].get_yaxis()
    yax.set_tick_params(pad=13)
plt.tight_layout()