## 감정분석
- 감정 또는 감성(sentiment)
- 텍스트에 나타난 긍정/부정의 태도
- 기계학습 방식과 사전 방식

### 감정사전
- 긍정 표현, 부정 표현의 사전
- 해당 분야 전문가가 있으면 데이터 없이도 만들 수 있음
- 기계학습으로도 개발 가능

## 네이버 영화평

- 네이버 영화에서 분석하고 싶은 영화 페이지로 들어감
- 네티즌 별점 클릭
- 페이지 번호 우클릭 후 주소 복사

In [1]:
url = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=150689&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page={}'

리뷰 수집

In [2]:
import requests
import lxml.html

# 리뷰와 별점을 모을 빈 리스트를 만든다
reviews = []
scores = []

for page in range(1, 30):  # 1~29페이지까지 반복
    res = requests.get(url.format(page))  # 각 페이지에 접속한다
    root = lxml.html.fromstring(res.text)  # html을 처리한다

    # 리뷰를 가져와 reviews에 추가한다
    for review in root.cssselect('.score_reple p'):
        reviews.append(review.text_content())

    # 별점을 가져와 scores에 추가한다
    for score in root.cssselect('.score_result .star_score em'):
        scores.append(int(score.text_content()))



표 만들기

In [3]:
import pandas as pd

df = pd.DataFrame({
    'score': scores, 
    'review': reviews
})

In [4]:
df.head()

Unnamed: 0,score,review
0,6,영화는 괜찮음 생각보다. 근데 얘네는 왜 핵얘기 나올때마다 지들이 진주만 공격한건 ...
1,10,관람객이시하라 사토미 예쁘다
2,1,이래서 일본은 애니를 보나보다.
3,3,호불호 소리는 많이 들었지만 난 불호다. 고질라가 때려부수는거 보러갔더니 일본애들이...
4,1,야 진짜 무슨 구연동화냐 겁나 허접한게 느껴짐


긍/부정 표시

In [5]:
import numpy as np

In [6]:
df['sentiment'] = np.where(df['score'] > 5, 1, 0)
df.head()

Unnamed: 0,score,review,sentiment
0,6,영화는 괜찮음 생각보다. 근데 얘네는 왜 핵얘기 나올때마다 지들이 진주만 공격한건 ...,1
1,10,관람객이시하라 사토미 예쁘다,1
2,1,이래서 일본은 애니를 보나보다.,0
3,3,호불호 소리는 많이 들었지만 난 불호다. 고질라가 때려부수는거 보러갔더니 일본애들이...,0
4,1,야 진짜 무슨 구연동화냐 겁나 허접한게 느껴짐,0


In [7]:
# 저장
df.to_csv('movie_review.csv', encoding='utf8', index=False)

In [8]:
# 불러오기
df = pd.read_csv('movie_review.csv', encoding='utf8')

한글, 알파벳, 숫자 제외한 문자 제거

In [9]:
import re

In [10]:
def remove_non_word(text):
    """한글, 알파벳, 숫자를 제외한 문자를 제거"""
    return re.sub(r'[^가-힣A-z0-9]+', ' ', text)

In [11]:
remove_non_word('Wow, 정말 1도 재미 없다!')

'Wow 정말 1도 재미 없다 '

WPM(Word Piece Model) 학습
 - 구글의 WPM에는 BPE(Byte Pair Encoding) 알고리즘
    - 자연어 처리를 위한 주요 전처리 방법으로 사용

In [12]:
from subword_nmt.learn_bpe import learn_bpe
import io

with open('영화평BPE.txt', 'w', encoding='utf8') as outfile:
    infile = io.StringIO(remove_non_word(' '.join(df['review'])))
    learn_bpe(infile, outfile, 1000)

In [13]:
from subword_nmt.apply_bpe import BPE

with open('영화평BPE.txt', encoding='utf8') as f:
    bpe = BPE(f, separator='~')

TDM 만들기

- BoW(Bag of Words)란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
<img src="TDM.jpg">

In [14]:
def tokenizer_wpm(text):
    text = remove_non_word(text)
    tokens = bpe.process_line(text)
    tokens = tokens.split()
    return [t for t in tokens
            if (not t.endswith('~') and len(t) > 1) or len(t) > 2]

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

In [16]:
cv_wpm = CountVectorizer(max_features=1000, tokenizer=tokenizer_wpm)

In [17]:
tdm = cv_wpm.fit_transform(df['review'])

토큰 빈도

In [18]:
freq = pd.DataFrame({
    'word': cv_wpm.get_feature_names(),
    'n': tdm.sum(axis=0).flat
})

  if string == 'category':


In [19]:
freq.sort_values('n').tail(10)

Unnamed: 0,word,n
816,하고,20
45,고질라가,20
577,일본~,22
54,관람객~,24
498,으로,25
825,하는,30
447,영화~,35
576,일본,40
446,영화,49
43,고질라,60


데이터 분할

In [20]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    tdm, df['sentiment'], test_size=.2, random_state=1234)

학습

In [21]:
from sklearn.linear_model import LogisticRegressionCV
model = LogisticRegressionCV(random_state=1234)
model.fit(x_train, y_train)



LogisticRegressionCV(Cs=10, class_weight=None, cv='warn', dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='warn', n_jobs=None, penalty='l2',
           random_state=1234, refit=True, scoring=None, solver='lbfgs',
           tol=0.0001, verbose=0)

성능 평가

In [22]:
from sklearn.metrics import accuracy_score
y_pred = model.predict(x_test)
accuracy_score(y_test, y_pred)

0.6896551724137931

계수 분석

In [23]:
word_coef = pd.DataFrame({
    'word': cv_wpm.get_feature_names(),
    'coef': model.coef_.flat
})

  if string == 'category':


In [24]:
word_coef.head()

Unnamed: 0,word,coef
0,00~,0.69101
1,0년~,-2.530828
2,0년대,-1.114568
3,10~,0.001511
4,10점~,0.238677


In [25]:
word_coef.sort_values('coef', ascending=False).head(10)

Unnamed: 0,word,coef
278,생각보다,5.959145
54,관람객~,4.895393
43,고질라,4.465663
250,보여~,4.453082
283,성과,4.330754
854,할순,4.272476
416,에바,3.923351
46,고질라는,3.831955
820,하나,3.729643
418,에반게리온,3.6035


In [26]:
word_coef.sort_values('coef').tail(10)

Unnamed: 0,word,coef
418,에반게리온,3.6035
820,하나,3.729643
46,고질라는,3.831955
416,에바,3.923351
854,할순,4.272476
283,성과,4.330754
250,보여~,4.453082
43,고질라,4.465663
54,관람객~,4.895393
278,생각보다,5.959145


In [None]:
f = open('dump.txt', 'w', -1,'utf-8')
print(dump, file=f)
f.close()