### 1. 문제정의
- 영화리뷰데이터를 활용해서 긍정, 부정 감성분석 진행하자!
    - 감성분석이란?
    - 특정 주제에 대한 글의 감성 태도를 파악하는 것 (긍정/부정)
- 텍스트데이터를 다루는 방법에 대해서 이해해보자!

In [1]:
# 파일 불러오는 방법
import pandas as pd
import numpy as np
from sklearn.datasets import load_files

In [2]:
# 파일 불러오기
data_url = './deep/aclImdb/aclImdb/train/'
rv_train = load_files(data_url,shuffle=True)
rv_train

FileNotFoundError: [WinError 3] 지정된 경로를 찾을 수 없습니다: 'data/aclImdb/train/'

In [None]:
# bunch객체 : 머신러닝 자료 구조중 하나로 딕셔너리처럼 사용가능
# key : value
# 데이터 추출을 위해 key값을 활용하기!

# 리뷰데이터의 키값확인하기!
rv_train.keys()

In [None]:
# 문제 데이터 가져오기
txt_train = rv_train['data']
# 정답 데이터 가져오기
y_train = rv_train['target']

In [None]:
# 정답데이터의 이름 확인하기
rv_train['target_names']
# 0 == neg(부정)
# 1 == pos(긍정)

In [None]:
# 테스트용 데이터 불러오기
data_url2 ='./deep/aclImdb/test/'
rv_test = load_files(data_url2, shuffle=True)
rv_test

In [None]:
# 테스트용 데이터 분리하기
# txt_test : 문제 데이터
txt_test = rv_test['data']
# y_test : 정답 데이터
y_test = rv_test['target']

In [None]:
len(txt_test)

In [None]:
len(txt_train)

### 텍스트데이터 전처리
- 불용어(의미없는 단어) 제거
- 오탈자 띄어쓰기 교정
- 정제, 정규화 어간추출, 표제어 추출

In [None]:
# 불용어 처리
txt_train
# train데이터의 <br> 태그 삭제
# 리스트 내부에서 반복문작성하기
# 대입변수명 = [누적하고 싶은 결과값 for i in 대상의 범위]
txt_train = [i.replace(b'<br />', b'') for i in txt_train]

In [None]:
txt_test = [i.replace(b'<br />',b'') for i in txt_test]

### 토큰화

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# CountVectorizer : 빈도수 기반 벡터화도구
# 오직 띄어쓰기만을 기준으로 하여 단어를 자른 후에 BOW를 만듬!!

In [None]:
test_words = ['Hello my name is youghwa', 'I love you', 'you are a student','I love myself','Hello how are you']

In [None]:
# 카운트벡터라이저 객체 생성
vect = CountVectorizer()

In [None]:
# 단어사전 구축하기
vect.fit(test_words)

In [None]:
# 단어사전 확인
print(vect.vocabulary_)

In [None]:
# 우리의 문장들을 수치데이터로 변경
vect.transform(test_words)

In [None]:
vect1 = vect.transform(test_words).toarray()
vect1

- txt_train, txt_test 모두 수치화 진행

In [None]:
# 1. 카운트벡터라이저 객체 생성
rv_vect = CountVectorizer()

In [None]:
# 2. 단어사전 구축(train, test 둘 다 진행하기)
rv_vect.fit(txt_train)

In [None]:
rv_vect.fit(txt_test)

In [None]:
X_train = rv_vect.transform(txt_train)
X_test = rv_vect.transform(txt_test)

### 모델링

In [None]:
# 로지스틱회귀모델을 사용하여 긍,부정
from sklearn.linear_model import LogisticRegression

In [None]:
# 모델 객체 생성
logi = LogisticRegression()

In [None]:
# 모델 학습
logi.fit(X_train,y_train)

In [None]:
# 모델 평가
logi.score(X_test,y_test)

- 우리의 리뷰를 작성해서 잘 맞추는지 확인해보자!!!

In [None]:
data = ["This was a horrible movie. It's a waste of time and money. It was like watching Desperately Seeking Susan meets Boo from Monsters Inc."]

In [None]:
tf_data = rv_vect.transform(data)
tf_data

In [None]:
logi.predict(tf_data)

In [None]:
data2 = ["It seems fun,but it's not fun."]

In [None]:
tf_data2 = rv_vect.transform(data2)

In [None]:
logi.predict(tf_data2)

### TF-IDF
- TF-IDF(Term Frequency - Inverse Document Frequency)
- 단어의 중요도를 확인할 때 단순 카운트기반이 아닌 모든 문서를 확인 후에 특정 문서에만 자주 등장하는 단어들은 가중치를 부여하는 방식
- TF : 하나의 문서에 등장하는 횟수
- DF : 전체의 문서에 등장하는 횟수
- 결과값이 클수록 중요가 높은 단어, 결과값이 낮을 수록 중요도가 낮은 단어

![image.png](attachment:image.png)

In [None]:
# 도구 불러오기
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
corpus = ['I love you',
         'I hate you',
         'you know I want your love',
         'I miss you']

In [None]:
# 객체 생성
tfidf_vect = TfidfVectorizer()

In [None]:
# 단어사전 생성
tfidf_vect.fit(corpus)

In [None]:
print(tfidf_vect.vocabulary_)

In [None]:
tfidf_vect.transform(corpus).toarray()