# 정서 분석

## 이번장 다룰 주제
    * 연구문제 진술
    * 데이터셋 이해
    * 기준 모델에 대한 훈련 및 테스트 데이터셋 작성
    * 기준 모델의 특징 공학
    * 머신러닝 알고리즘 선택
    * 기준 모델 훈련
    * 테스트 계량 이해
    * 기준 모델 테스트
    * 기존 접근법의 문제점
    * 기존 접근법을 최적화하는 방법
        * 접근법 최적화를 위한 주요 개념 이해
    * 개선 접근법 구현
        * 개선 접근법 테스트
        * 개선 접근법의 문제점 이해
    * 최선 접근법
        * 최선 접근법 구현

## 연구문제 진술
    - 평판(reviews)이나 견해(opinions)를 분석
    - 영화 감상평(movie reviews)을 위한 정서 분석 애플리케이션 개발
    - 훈련 과정에서 각 영화 감상평과 관련된 레이블을 고려해 주어진 레이블 기반으로 머신러닝 학습
    - 새로운 감상평 속에 담긴 정서를 예측해 제공된 영화 감상평이 긍정인지 부정인지 여부를 가려낸다.
    - IMDB(Internet Movie DataBase) 영화 감상평 데이터 셋 고려

## 데이터셋 이해
    - http://ai.stanford.edu/~amaas/data/sentiment/
    1. train 폴더
        - 훈련을 위한 데이터가 들어 있다.
        - pos 폴더: 긍정적인 영화 감상평, 12,500개 데이터
        - neg 폴더: 부정적인 영화 감상평, 12,500개 데이터
        - unsup 폴더: 테스트 목적으로 사용
        - 이 영화 감상평에는 레이블이 없다
    2. test 폴더
        - pos 폴더: 긍정적인 영화 감상평, 12,500개 데이터
        - neg 폴더: 부정적인 영화 감상평, 12,500개 데이터
    3. imdb.vocab 파일
        - 모든 영화 감상평에 사용된 고유한 단어가 들어 있는 IMDB 데이터셋의 어휘집 파일
    4. imdbEr.txt
        - imdb.vocabfile의 각 토큰에 대한 예측평가(expected rating)
        - imdb.vocabfile에 제공된 각 단어의 점수
        - 긍정적인 단어이면 양의 부동소수점 숫자
        - 부정적인 단어이면 음의 부동소수점 숫자
    5. REANME
        - 데이터셋 관련 문서

### 영화 감상평 파일의 내용 이해
    - pos폴더와 neg 폴더 안에는 영화 감상평이 포함된 .txt파일 존재
    - 영화 감상평은 간단한 일반 텍스트로 제공
    - 폴더 이름을 각각 positiveReviews 및 negativeReviews로 변경
    - 데이터셋은 이미 전처리되어있으므로 광범위한 전처리를 수행하지 않는다.

### 정서 분석 애플리케이션을 위한 머신러닝 모델 작성
    * 훈련 및 테스트 데이터셋 작성
    * 기준 모델의 특징 공학
    * 머신러닝 알고리즘 선택
    * 기준 모델 훈련
    * 테스트 계량 이해
    * 기준 모델 테스트

## 기준 모델에 대한 훈련 및 테스트 데이터셋 작성
    - 데이터셋의 파일을 반복해서 살피고 이름이 숫자 12로 시작하는 모든 파일을 테스트 데이터셋으로 간주
    - 데이터셋의 약 90%가 훈련 데이터셋으로 간주되며 데이터셋 10%는 테스트 데이터셋으로 간주

***Import dependencies***

In [1]:
import os
import time

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

***Build training dataset and testing dataset***

In [3]:
data_dir = './data'
classes = ['positiveReviews', 'negativeReviews']

# Read the data
train_data = []
train_labels = []
test_data = []
test_labels = []
for curr_class in classes:
    dirname = data_dir+'/'+curr_class
    print('dir 경로: {}'.format(dirname))
    for fname in os.listdir(dirname):
        with open((dirname+'/'+fname), 'r', encoding='utf-8') as f:
            content = f.read()
            if fname.startswith('12'):
                test_data.append(content)
                test_labels.append(curr_class)
            else:
                train_data.append(content)
                train_labels.append(curr_class)

dir 경로: ./data/positiveReviews
dir 경로: ./data/negativeReviews


## 기준 모델의 특징 공학
    - 자연어 처리 분야에서 원시 텍스트를 숫자 형식으로 변환해야 머신러닝 알고리즘을 해당 숫자 데이터에 적용 가능
    - 기법
        - 인덱싱, 카운트 기반 벡터화, 용어빈도-역문서빈도 등

***Generate feature vector by using TfidfVectorizer***

In [4]:
# Create feature vectors
vectorizer = TfidfVectorizer(min_df=5, 
                            max_df = 0.8,
                            sublinear_tf=True,
                            use_idf=True)
train_vectors = vectorizer.fit_transform(train_data)
test_vectors = vectorizer.transform(test_data)

## 머신러닝 알고리즘 선택
    - 사전 확률(prior probability) 및 사후 확률(posterior probability)값은 나이브 베이즈 알고리즘의 기본 기반
    - 다항 나이브 베이즈 알고리즘(multinomial naive Bayes algorithm) 사용
    - 서포트 벡터 머신(support vector machine, SVM)알고리즘 사용    

## 기준 모델 구현
    - 네가지 알고리즘 구현
        1. 다항 나이브 베이즈
        2. 커널 rbf를 사용한 C-서포트 벡터 분류
        3. 커널 선형을 사용한 C-서포트 벡터 분류
        4. 선형 서포트 벡터 분류

***Perform training using different ML algos***

In [5]:
# Perform classification with MultinomialNB
print('MultinomialNB')
clf = MultinomialNB()
clf.fit(train_vectors, train_labels)
prediction = clf.predict(test_vectors)

# Perform Classification with SVM, kernel=rbf
print('SVC, rbf')
classifier_rbf = svm.SVC()
classifier_rbf.fit(train_vectors, train_labels)
prediction_rbf = classifier_rbf.predict(test_vectors)

#Perform Classification with SVM, kernel=linear
print('SVC, linear')
classifier_linear = svm.SVC(kernel='linear')
classifier_linear.fit(train_vectors, train_labels)
prediction_linear = classifier_linear.predict(test_vectors)

#Perform classification with SVM, kernel
print('LinearSVC')
classifier_liblinear = svm.LinearSVC()
classifier_liblinear.fit(train_vectors, train_labels)
prediction_liblinear = classifier_liblinear.predict(test_vectors)

MultinomialNB
SVC, rbf
SVC, linear
LinearSVC


## 테스트 계량 이해
    1. 정밀도(precision)
        - TP / (TP+FP)
    2. 재현율(recall)
        - 모든 양성 표본(positive sample)을 찾는 능력
        - TP / (TP+FN)
    3. F1점수
        - 정밀도와 재현율의 조화평균
        - 2 * ((정밀도 * 재현율) / (정밀도 + 재현율))
    4. 지지도
        - 실제 표적 레이블에서 각 클래스의 발생 횟수
        - 정밀도, 재형율 및 F1 점수의 평균값 계산에 도움
        - 평균 정밀도 = (정밀도.1*지지도.1 + 정밀도.2*지지도.2 + ... + 정밀도.n*지지도.n) / 총 지지도 값
        - 평균 재현율 = (재현율.1*지지도.1 + 재현율.2*지지도.2 + ... + 재현율.n*지지도.n) / 총 지지도 값
        - 평균 F1-점수 =  = (F1-점수.1*지지도.1 + F1-점수.2*지지도.2 + ... + F1-점수.n*지지도.n) / 총 지지도 값
    5. 훈련 정확도

***Test th result of MultinomialNB***

In [6]:
# print results in a nice table for MultinomialNB
print('\nResults for NaiveBayes (MultinomialNB) ')
print(classification_report(test_labels, prediction))
print('\nAccuracy score of Multinomial nive bayes algorithm -----> '+str(accuracy_score(test_labels, prediction)))

print('\n\n\n')

print('Reviews Prediction')
print('\nPredicted label is -----> '+prediction[10])
print('\nMovie Review is ----->\n'+test_data[10])


Results for NaiveBayes (MultinomialNB) 
                 precision    recall  f1-score   support

negativeReviews       0.79      0.87      0.82       611
positiveReviews       0.85      0.77      0.81       611

       accuracy                           0.82      1222
      macro avg       0.82      0.82      0.82      1222
   weighted avg       0.82      0.82      0.82      1222


Accuracy score of Multinomial nive bayes algorithm -----> 0.8158756137479541




Reviews Prediction

Predicted label is -----> positiveReviews

Movie Review is ----->
Have no illusions, this IS a morality story. Granger is the troubled ex-buffalo hunter, tempted back to the plains one more time by kill-crazed Taylor. Granger can see the end is near, and feels deeply for the cost of the hunt-on the herds, the Indians and the land itself. Taylor, on the other hand admittedly equates killing buffalo, or Indians to 'being with a woman.' While Granger's role of the tortured hunter is superb, it's Taylor who ste

***Test the result of SVM with rbf kernel***

In [7]:
# print results in a nice table for SVM algorithm with rbf kernel
print('\nResults for SVM algorithm with rbf kernel')
print(classification_report(test_labels, prediction_rbf))
print('\nAccuracy score of SVM algorithm with rbf kernel -----> '+str(accuracy_score(test_labels, prediction_rbf)))

print('\n\n\n')

print('Reviews Prediction')
print('\nPredicted label is -----> '+prediction_rbf[10])
print('\nMovie Review is ----->\n'+test_data[10])


Results for SVM algorithm with rbf kernel
                 precision    recall  f1-score   support

negativeReviews       0.85      0.88      0.86       611
positiveReviews       0.87      0.84      0.86       611

       accuracy                           0.86      1222
      macro avg       0.86      0.86      0.86      1222
   weighted avg       0.86      0.86      0.86      1222


Accuracy score of SVM algorithm with rbf kernel -----> 0.8600654664484452




Reviews Prediction

Predicted label is -----> positiveReviews

Movie Review is ----->
Have no illusions, this IS a morality story. Granger is the troubled ex-buffalo hunter, tempted back to the plains one more time by kill-crazed Taylor. Granger can see the end is near, and feels deeply for the cost of the hunt-on the herds, the Indians and the land itself. Taylor, on the other hand admittedly equates killing buffalo, or Indians to 'being with a woman.' While Granger's role of the tortured hunter is superb, it's Taylor who stea

***Test the result of SVM linear kernel***

In [8]:
# print results in a nice table for SVM algorithm with linear kernel
print('\nResults for SVM algorithm with linear kernel')
print(classification_report(test_labels, prediction_linear))
print('\nAccuracy score of SVM algorithm with linear kernel -----> '+str(accuracy_score(test_labels, prediction_linear)))

print('\n\n\n')

print('Reviews Prediction')
print('\nPredicted label is -----> '+prediction_linear[10])
print('\nMovie Review is ----->\n'+test_data[10])


Results for SVM algorithm with linear kernel
                 precision    recall  f1-score   support

negativeReviews       0.82      0.86      0.84       611
positiveReviews       0.85      0.81      0.83       611

       accuracy                           0.84      1222
      macro avg       0.84      0.84      0.84      1222
   weighted avg       0.84      0.84      0.84      1222


Accuracy score of SVM algorithm with linear kernel -----> 0.8363338788870703




Reviews Prediction

Predicted label is -----> positiveReviews

Movie Review is ----->
Have no illusions, this IS a morality story. Granger is the troubled ex-buffalo hunter, tempted back to the plains one more time by kill-crazed Taylor. Granger can see the end is near, and feels deeply for the cost of the hunt-on the herds, the Indians and the land itself. Taylor, on the other hand admittedly equates killing buffalo, or Indians to 'being with a woman.' While Granger's role of the tortured hunter is superb, it's Taylor wh

***Test the result of SVM with linearSVC***

In [9]:
# print results in a nice table for SVM algorithm with liblinear kernel
print('\nResults for SVM algorithm with liblinear kernel')
print(classification_report(test_labels, prediction_liblinear))
print('\nAccuracy score of SVM algorithm with liblinear kernel -----> '+str(accuracy_score(test_labels, prediction_liblinear)))

print('\n\n\n')

print('Reviews Prediction')
print('\nPredicted label is -----> '+prediction_liblinear[10])
print('\nMovie Review is ----->\n'+test_data[10])


Results for SVM algorithm with liblinear kernel
                 precision    recall  f1-score   support

negativeReviews       0.82      0.86      0.84       611
positiveReviews       0.85      0.81      0.83       611

       accuracy                           0.84      1222
      macro avg       0.84      0.84      0.84      1222
   weighted avg       0.84      0.84      0.84      1222


Accuracy score of SVM algorithm with liblinear kernel -----> 0.8363338788870703




Reviews Prediction

Predicted label is -----> positiveReviews

Movie Review is ----->
Have no illusions, this IS a morality story. Granger is the troubled ex-buffalo hunter, tempted back to the plains one more time by kill-crazed Taylor. Granger can see the end is near, and feels deeply for the cost of the hunt-on the herds, the Indians and the land itself. Taylor, on the other hand admittedly equates killing buffalo, or Indians to 'being with a woman.' While Granger's role of the tortured hunter is superb, it's Tay

## 기존 접근법의 문제점
    - 워드 임베딩(word embeding) 기반 기술에 초점을 두지 않았다
        -> 워드 임베딩 기술은 텍스트의 의미 유지에 도움이 된다
    - CNN과 같은 딥러닝 알고리즘은 우리에게 도움이 될 수 있다

## 기존 접근법을 최적화하는 방법
    - Word2Vec. GloVe등과 같은 워드 임베딩 기반 기술을 사용
    - 딥러닝 알고리즘, 합성곱 신경망(Convolution neural networks, CNN) 구현