In [1]:
# 지도학습 기반 감성 분석
# 텍스트 마이닝에서의 지도 학습
#   - 인간 코더(Coder)가 판단한 긍정 및 부정 라벨이 포함된 텍스트 데이터 중 일부 문서가 학습 데이터로 사용됨
#   - 기계학습 기반 분류 모델을 구성한 후 해당 모델을 이용하여 새로운 평가 데이터가 입력 될 때 긍정 및 부정 여부를 판별

### 지도학습 기반 감성 분석
- 감성 분석에서 지도 학습을 적용하려면 훈련 및 평가 데이터의 성격이 동일해야 함
    > 텍스트의 주제, 성격에 따라 융사한 어구라도 긍정 및 부정 여부가 달라질 수 있음
- 지도 학습 모델을 구성하기 위해서는 라벨을 포함한 대량의 훈련 데이터가 필요함

# 로지스틱 회귀
- 회귀모델에서 종속변수가 연속형 값이 아닌 범주형 값의 경우를 다루기 위해 개발된 통계적 방법(Iris 데이터 셋에서 품종을 예측)
- 일반적으로 종속 변수가 두 가지 값만 가지는 경우에 적용
    - 참/거짓, 성공/실패, 환자/정상, 사망/생존, 승리/패배 등

# 로지스틱 회귀 모델 원리
- 독립변수를 x, 종속변수를 l로 표기
- 종속 변수 l의 범위는 [-무한, 무한]이므로 로지스틱 회귀 모델 원리

의사결정 나무 (Decision Tree) 또는 나무 모델(Tree Model)
- 의사 결정 규칙을 나무 구조로 나타내어 여러가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모델
- 분류(Classification)과 회귀(Regression) 문제에 모두 사용할 수 있으므로

# 서포트 벡터 머신(Support Vector Machine)
- SVM은 고차원 또는 무한 차원의 공간에서 초평면의 집합을 찾아 이를 이용하여 분류(SVC)와 회귀(SVR) 문제를 수행
- 비중첩(Non-Overlapping) 분할을 제공하며 모든 속정을 활용하는 전역적(Global) 모델
- 최대 마진을 가지는 선형 판별에 기반하며 속성들 간의 의존성을 고려하지 않음

In [None]:
import pandas as pd
import glob
from afinn import Afinn
from nltk.corpus import stopwords
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
pos_review = glob.glob("C:\\Users\student\Desktop\텍스트 마이닝\data\데이터\\aclImdb\\train\pos\*.txt")

lines_pos = []
for file_path in pos_review:
    try:
        with open(file_path, "r") as f:
            temp = f.readlines()[0]
            lines_pos.append(temp)
    except Exception as e:
        continue

In [None]:
len(lines_pos)

In [None]:
pos_review = glob.glob("C:\\Users\student\Desktop\텍스트 마이닝\data\데이터\\aclImdb\\train\\neg\*.txt")

lines_neg = []
for file_path in pos_review:
    try:
        with open(file_path, "r") as f:
            temp = f.readlines()[0]
            lines_neg.append(temp)
    except Exception as e:
        continue

In [None]:
len(lines_neg)

In [17]:
total_text = lines_pos + lines_neg
len(total_text)

24979

In [18]:
x = np.array(["pos", "neg"])
class_index = np.repeat(x, [len(lines_pos), len(lines_neg)], axis=0)
stop_words = stopwords.words("english")

In [19]:
vect = TfidfVectorizer(stop_words=stop_words).fit(total_text)
X_train_vectorized = vect.transform(total_text)
X_train_vectorized.index = class_index

In [20]:
from sklearn.linear_model import LogisticRegression, SGDClassifier
model = LogisticRegression()
model.fit(X_train_vectorized, class_index)

In [26]:
pos_review_test = glob.glob("C:\\Users\student\Desktop\텍스트 마이닝\data\데이터\\aclImdb\\test\\pos\*.txt")[10]

test1 = []
with open(pos_review_test, "r") as f:
    test1.append(f.readlines()[0])

predictions = model.predict(vect.transform(test1))
predictions

array(['pos'], dtype='<U3')

In [27]:
pos_review_test = glob.glob("C:\\Users\student\Desktop\텍스트 마이닝\data\데이터\\aclImdb\\test\\pos\*.txt")[20]

test2 = []
with open(pos_review_test, "r") as f:
    test2.append(f.readlines()[0])

predictions = model.predict(vect.transform(test2))
predictions

array(['neg'], dtype='<U3')

In [28]:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()
clf.fit(X_train_vectorized, class_index)

predictions = clf.predict(vect.transform(test1))
predictions

predictions = clf.predict(vect.transform(test2))
predictions

array(['neg'], dtype='<U3')

In [None]:
from sklearn.svm import SVC
clf = SVC()
clf.fit(X_train_vectorized, class_index)

predictions = clf.predict(vect.transform(test1))
predictions

predictions = clf.predict(vect.transform(test2))
predictions