# 과제 28

In [None]:
import pandas as pd
import os
print(os.getcwd())
train_df = pd.read_csv('/py_data/ratings_train.txt',sep='\t')
train_df.head(3)

### label의 분포 확인 - 1=긍정 0=부정

In [None]:
train_df['label'].value_counts()
# 분포가 비슷하다. 

## null확인 - document에 5개의 null존재

In [None]:
train_df.isnull().sum()

In [None]:
import re

train_df = train_df.fillna(' ') # null -> ' '으로 채우기
# 정규 표현식을 이용해 숫자를 공백으로 변경
train_df['document'] = train_df['document'].apply(lambda x: re.sub(r"\d+"," ", x)) 

# 테스트 데이터 세트를 로딩. Null 및 숫자를 공백으로 변환
test_df = pd.read_csv('/py_data/ratings_test.txt',sep='\t')
test_df = test_df.fillna(' ')
test_df['document'] = test_df['document'].apply(lambda x: re.sub(r"\d+"," ", x)) 

# id 칼럼 삭제 수행
#inplace 는 inplace = True 인 경우 DataFrame 이 제자리에서 수정되도록 지정하고, 그렇지 않으면 원래 DataFrame 이 수정되지 않은 상태로 새 DataFrame 을 반환합니다.
train_df.drop('id',axis=1, inplace=True)
test_df.drop('id',axis=1, inplace=True)

## TF-IDF 방식으로 단어를 벡터화

한글 형태소 엔진은 twitter 클래스 이용

In [None]:
from konlpy.tag import Twitter

twitter = Twitter()
def tw_tokenizer(text):
    # text를 형태소 단어로 토큰화 -> 리스트 형태로 반환
    tokens_ko = twitter.morphs(text)
    return tokens_ko

사이킷런의 TfidfVectorizer를 이용해 TF-IDF 피처 모델을 생성하자

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Twitter객체의 morphs() 객체를 이용한 tokenizer를 사용. ngram_range = (1,2)
# ngram_range = (1, 2)라고 한다면, 단어의 묶음을 1개부터 2개까지 설정하라는 뜻입니다.
# 단어사전에는 1개 단어묶음도 있고, 2개 단어묶음도 존재하게 되겠죠.
tfidf_vect = TfidfVectorizer(tokenizer=tw_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])

In [None]:
#로지스틱 회귀를 이용해 감성 분석 분류 수행.
#random_state =  데이터 섞을 때 사용하는 랜덤 번호 생성기의 시드값
lg_clf = LogisticRegression(random_state=0)

# 파라미터 C 최적화를 위해 GridSearchCV를 이용
params = {
    'C' : [1, 3.5, 4.5, 5.5, 10]
}

# GridSearchCV 란?
# 사이킷런에서는 분류 알고리즘이나 회귀 알고리즘에 사용되는 하이퍼파라미터를 순차적으로 입력해 학습을 하고 측정을 하면서 가장 좋은 파라미터를 알려준다.
grid_cv = GridSearchCV(lg_clf, param_grid=params, cv=3, scoring='accuracy',verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df['label'])
'''
- best_params_dict
Parameter setting that gave the best results on the hold out data.
For multi-metric evaluation, this is present only if refit is specified

- best_score_float
Mean cross-validated score of the best_estimator
For multi-metric evaluation, this is present only if refit is specified.
This attribute is not available if refit is a function.
'''

print(grid_cv.best_params_, round(grid_cv.best_score_, 4))


In [None]:
from sklearn.metrics import accuracy_score

# 학습 데이터를 적용한 TfidfVctorizer를 이용해 테스트 데이터를 TF-IDF 값으오 피처 변환함.
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])
# classifier는 GridSearchCV에서 최적 파라미터로 학습된 classifier를 그대로 이용
best_extimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도: {}'.format(accuracy_score(test_df['label'],preds)))