# 이번에 배울 내용
감성분석!! -> 네이버 영화 리뷰나 IMDb 리뷰 텍스트에 담긴 감성이 긍정인지 부정인지 분류하는 모델 만들기

쇼셜미디어가 나타나면서 온라인에서 본인의 자발적으로 표현을 한다. 소셜미디어에 적힌 텍스트는 소비자의 날것 그대로의 정보에 가까워서 소비자의 욕구를 정확히 파악할 수 있다. 이것을 마케터는 소비자를 파악하는데 사용할 수 있다.     

### 감성분석이란?
텍스트에 나타난 긍정적 감정과 부정적 감정을 판별하고, 이것을 시각화, 수치화하는 작업이다.    
단순히 긍정과 부정을 판별하는 것 이상으로 감성을 표현하는 사람들의 감정, 감성, 태도, 입장 등을 분석한다.    
감성분석은 '추출-범주화 및 분류-예측'의 단계로 정량화해 의사결정에 도움이 되는 정보를 생성한다.(감성분석 = Opinion Mining)    
분석 대상의 범위는 매우 광범위하다. 상품이 될 수도 있고, 기업이 될 수도 있고, 사건이 될 수도 있고... 등등 많다.    
단순히 긍정/부정 이분법으로 분류할 수 있지만 degree를 부여할 수도 있고, 중립이 포함될 수도 있다.    

감성 분석에서 중요한 요소는 반드시 특정 대상을 전제로 하고 있어 '대상'과 '감성 표현'은 Opinion을 구성하는 기본적인 요소이다. 이런 감성 표현의 대상을 개체(Entity)라고 부른다.

### 어떻게 분석하는가?
총 3단계로 이루어진다.
1. 데이터 수집
2. 텍스트 작성자의 주관이 드러난 부분만 걸러내는 '주관성 탐지'
3. 주관성의 극성을 미리 정의된 극성(긍정, 중립, 부정) 또는 정도로 분류    

방법은 크게 기계학습 기반 접근법과 감성사전 기반 접근법 두가지가 존재한다.
* 기계학습 기반 분석 방법 : 주어진 문자 데이터의 패턴을 학습해 감성을 분류하는 모델을 만들어 분석
    -> 라벨링된 데이터가 많이 있어야 학습이 가능하다.
* 감성사전 기반 분석 방법 : 문자 데이터를 전처리해 저장 후 미리 구축된 감성사전과 매칭해 어느 쪽 극성 감성어가 많이 나오는지 정량화해 분석.
    -> 감성사전은 극성 범주와 감성 점수로 이루어져있다.
    -> 미리 구축된 감성사전의 품질이 중요하다.
    
* 속성 기반 감성분석 : 많은 문서에서 나타나는 속성별 감정, 또는 평가를 속성별로 취합 후 분석한다.
    -> 의견의 대상이 어떤 속성으로 구성돼 있는지 속성을 설정해야 한다.

### 감성 분석과 딥러닝
감성 분석에서는 CNN과 LSTM등의 딥러닝 모델이 많이 활용된다.


### 감성 분석 구축 사례(에뛰드 하우스)
1. 데이터 수집
2. 데이터 전처리: 자연어로 표현된 텍스트 데이터를 컴퓨터가 이해할 수 있도록 단어들을 식별, 의미 정보로 변환해 텍스트 분석에 이용되는 대표적인 단어들을 추출
3. 형태소 사전의 구축: 해당 산업에 특화된 형태소 사전이 필요.
4. 속성어 사전 구축: 속성 기반 감성 분석을 위해서는 해당 감성어가 어느 속성에 관해 서술하고 있는지 파악이 중요하다. 속성어 사전은 화자가 어느 속성에 대해 서술하고 있는지 자동으로 찾기 위한 작업이다.
5. 감성어 사전 구축: 감성어와 감성어별 극성 및 강도로 구성. 속성 기반 감성 분석을 적용할 경우 감성어 리스트는 속성별로 분류돼 도출된다.
6. 감성 분석 모형의 구축 및 결과 도출

### 중요 포인트!!
1. 적용 분야별 특성을 살린 사전을 잘 구축해야 한다.
2. 데이터 수집 전략을 세울 필요가 있다.
3. 다른 데이터와 연계해 다양한 분석을 수행해야 한다.
    
참고: https://dbr.donga.com/article/view/1202/article_no/8891/ac/magazine

## Embedding Layer
* 단어에 의미를 숫자로 부여하는 레이어.
* Embedding Layer의 특징은 input의 길이를 일정하게 맞춰줘야 한다.
* Tensorflow에서는 pad_sequences를 이용한다.

## RNN

pad_sequences의 padding 방식을 pre를 하는 것이 좋다.    
-> 마지막 입력이 최종 state에 영향을 많이 미친다.

In [1]:
from tensorflow import keras
import tensorflow as tf
import numpy as np

vocab_size = 10
word_vector_dim = 4

model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, word_vector_dim, input_shape=(None,)))
model.add(keras.layers.LSTM(8))
model.add(keras.layers.Dense(8, activation='relu'))
model.add(keras.layers.Dense(1, activation='sigmoid'))

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 4)           40        
_________________________________________________________________
lstm (LSTM)                  (None, 8)                 416       
_________________________________________________________________
dense (Dense)                (None, 8)                 72        
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 9         
Total params: 537
Trainable params: 537
Non-trainable params: 0
_________________________________________________________________


### gensim
워드벡터를 다루는데 유용한 모듈

In [24]:
import pandas as pd
import urllib.request
%matplotlib inline
import matplotlib.pyplot as plt
import re
from konlpy.tag import Okt
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
import numpy as np
from tensorflow.keras.preprocessing.sequence import pad_sequences
from collections import Counter
from konlpy.tag import Mecab
import math
import os


# 데이터를 읽어봅시다. 
train_data = pd.read_table('~/aiffel/sentiment_classification/data/ratings_train.txt')
test_data = pd.read_table('~/aiffel/sentiment_classification/data/ratings_test.txt')

train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [38]:

def sentence_preprocessing(sentence_df):    
    sentence_df = sentence_df.str.replace("([^\u3131-\u314e|\u314f-\u3163|\uac00-\ud7a3])","", regex = True)
    sentence_df = sentence_df.str.replace("([\u3131-\u314e]+)",r"${0}", regex = True)
    sentence_df = sentence_df.str.replace("^ +","", regex = True)
    sentence_df.replace('', np.nan, inplace=True)
    return sentence_df


In [39]:
train_data['document'] = sentence_preprocessing(train_data['document'])

In [41]:
train_data[100:200]

Unnamed: 0,id,document,label
100,10044377,신카이마코토의작화와미유와하나카나가연기를잘해줘서더대박이였다,1
101,6158844,재미없음진심이훨나캐스팅두못한듯,0
102,1723799,잔잔한게생각보다볼만한영화인거같습니다,1
103,10273782,감독님들고은님쓰면영화안봅니다,0
104,1666795,무섭지도않았고스토리도ㅡㅡ,0
...,...,...,...
195,9295404,나름추억에젖어들고좋았음아무생각없이가볍게보고오기추천요,1
196,9603725,단순한싸이코물을벗어난,1
197,9163009,이게년도에만들어진건가요아니면예전에만든거다시개봉한건가요ㅠ너무허접해요ㅠ,0
198,9418231,넘사랑스러운영화다ㅠㅠ보고연이어봤다넘귀여워ㅠㅠ,1


In [48]:
import pandas as pd
stopwords = pd.read_csv('~/aiffel/sentiment_classification/data/Korean_Stopwords.txt').values.tolist()
stopwords = [word for x in stopwords for word in x]
test

['아',
 '휴',
 '아이구',
 '아이쿠',
 '아이고',
 '어',
 '나',
 '우리',
 '저희',
 '따라',
 '의해',
 '을',
 '를',
 '에',
 '의',
 '가',
 '으로',
 '로',
 '에게',
 '뿐이다',
 '의거하여',
 '근거하여',
 '입각하여',
 '기준으로',
 '예하면',
 '예를 들면',
 '예를 들자면',
 '저',
 '소인',
 '소생',
 '저희',
 '지말고',
 '하지마',
 '하지마라',
 '다른',
 '물론',
 '또한',
 '그리고',
 '비길수 없다',
 '해서는 안된다',
 '뿐만 아니라',
 '만이 아니다',
 '만은 아니다',
 '막론하고',
 '관계없이',
 '그치지 않다',
 '그러나',
 '그런데',
 '하지만',
 '든간에',
 '논하지 않다',
 '따지지 않다',
 '설사',
 '비록',
 '더라도',
 '아니면',
 '만 못하다',
 '하는 편이 낫다',
 '불문하고',
 '향하여',
 '향해서',
 '향하다',
 '쪽으로',
 '틈타',
 '이용하여',
 '타다',
 '오르다',
 '제외하고',
 '이 외에',
 '이 밖에',
 '하여야',
 '비로소',
 '한다면 몰라도',
 '외에도',
 '이곳',
 '여기',
 '부터',
 '기점으로',
 '따라서',
 '할 생각이다',
 '하려고하다',
 '이리하여',
 '그리하여',
 '그렇게 함으로써',
 '하지만',
 '일때',
 '할때',
 '앞에서',
 '중에서',
 '보는데서',
 '으로써',
 '로써',
 '까지',
 '해야한다',
 '일것이다',
 '반드시',
 '할줄알다',
 '할수있다',
 '할수있어',
 '임에 틀림없다',
 '한다면',
 '등',
 '등등',
 '제',
 '겨우',
 '단지',
 '다만',
 '할뿐',
 '딩동',
 '댕그',
 '대해서',
 '대하여',
 '대하면',
 '훨씬',
 '얼마나',
 '얼마만큼',
 '얼마큼',
 '남짓',
 '여',
 '얼마간',
 '약간',
 '다소',
 '좀',
 '조