# 한글문서의 텍스트마이닝 : 감성분석
1. 데이터 준비 및 탐색
    1. 데이터 로딩
    1. 데이터 탐색 및 정제
1. 분석 모델 구축
    1. Feature Vector 생성
    1. 감성 분석 모델 구축
1. 분석 모델 평가
    1. 평가 데이터로 정확도 확인
    1. 새로운 텍스트에 대한 감성 예측

## 1. 데이터 준비 및 탐색
1. 데이터 로딩
1. 데이터 정보 확인 및 정제

### 1-1. 데이터 로딩
* 훈련용 데이터(ratings_train.txt)
* 평가용 데이터(ratings_test.txt)

In [2]:
import pandas as pd
train_df = pd.read_csv('ratings_train.txt', sep='\t', encoding='utf-8')
train_df

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [3]:
test_df = pd.read_csv('ratings_test.txt', sep='\t', encoding='utf-8')
test_df

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...,...
49995,4608761,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,5308387,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,9072549,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,5802125,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


## 1-2. 데이터의 정보 확인 및 정제
### 1-2-1. 결측치 확인 및 처리

In [4]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [5]:
train_df.dropna(inplace=True)
train_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 149995 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        149995 non-null  int64 
 1   document  149995 non-null  object
 2   label     149995 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [6]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


In [7]:
test_df.dropna(inplace=True)
test_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 49997 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49997 non-null  int64 
 1   document  49997 non-null  object
 2   label     49997 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


### 1-2-2. 타겟 컬럼 label 확인 (0: 부정감성,   1: 긍정감성)

In [8]:
train_df['label'].value_counts()

0    75170
1    74825
Name: label, dtype: int64

In [9]:
test_df['label'].value_counts()

1    25171
0    24826
Name: label, dtype: int64

### 1-2-3. 한글 이외의 문자는 공백으로 변환 (정규표현식 이용)

In [12]:
import re
sub_func = lambda x : re.sub(r'[^ㄱ-ㅎ|가-힣]+', ' ', x)
train_df['document'].apply(sub_func)

0                                         아 더빙 진짜 짜증나네요 목소리
1                              흠 포스터보고 초딩영화줄 오버연기조차 가볍지 않구나
2                                         너무재밓었다그래서보는것을추천한다
3                                교도소 이야기구먼 솔직히 재미는 없다 평점 조정
4         사이몬페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어보이기만 했던 커스틴 ...
                                ...                        
149995                                     인간이 문제지 소는 뭔죄인가 
149996                                          평점이 너무 낮아서 
149997                       이게 뭐요 한국인은 거들먹거리고 필리핀 혼혈은 착하다 
149998                          청춘 영화의 최고봉 방황과 우울했던 날들의 자화상
149999                             한국 영화 최초로 수간하는 내용이 담긴 영화
Name: document, Length: 149995, dtype: object

In [13]:
test_df['document'].apply(sub_func)

0                                                굳 ㅋ
1                                                   
2                   뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아
3                         지루하지는 않은데 완전 막장임 돈주고 보기에는 
4         만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠 
                            ...                     
49995      오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함
49996       의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 
49997                그림도 좋고 완성도도 높았지만 보는 내내 불안하게 만든다
49998     절대 봐서는 안 될 영화 재미도 없고 기분만 잡치고 한 세트장에서 다 해먹네
49999                                     마무리는 또 왜이래
Name: document, Length: 49997, dtype: object

# 2. 분석 모델 구축
1. Feature Vector 생성
1. 감성 분석 모델 구축

## 2-1. 피처 벡터화 : TF-IDF
1. 형태소를 분석하여 토근화 : konlpy.Okt 라이브러리 이용
1. TF-IDF 기반의 feature vector 생성

### 2-1-1. 형태소를 분석하여 토큰화 함수 구현
* koNLPy.Okt 이용 : *tokens* = *OktObject*.**morphs**(*text*)

In [14]:
from konlpy.tag import Okt
okt = Okt()

def okt_tokenizer(text):
    tokens = okt.morphs(text)
    return tokens

### 2-1-2. TF-IDF 기반 피처 벡터 생성 
* sklearn 라이브러리의 TfidfVectorizer로 학습하여 Feature Vectore 생성 모델 구축
   - from sklearn.feature_extraction.text import TfidfVectorizer
   - 모델 생성 : *model* = **TfidfVectorizer**(tokenizer=*tokenizer_func*, *optional parameters*)
   - 모델 학습 : *model*.**fit**(*train_text_data*)
   - Feature Vertor로 변환 : *feature_vector* = *model*.**transform**(*text_data*)
* 실행시간 10분 정도 걸림

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer
# 모델 생성
tfidf_model = TfidfVectorizer(tokenizer=okt_tokenizer)
# 모델 학습
tfidf_model.fit(train_df['document'])
# text -> feature vector
train_tfidf = tfidf_model.transform(train_df['document'])
X_train = train_tfidf
y_train = train_df['label']



## 2-2) 감성 분류(Sentiment Analysis) 모델 구축

* 로지스틱 회귀를 이용한 이진 분류

1. 로지스틱 회귀 기반 분석 모델 학습 (sklearn.linear_model.LogisticRegression)
1. 최적의 하이퍼파라미터 갖는 학습 모델 구축 (sklearn.model_selection.**GridSearchCV**)
1. 최적 학습 모델에 대한 평가

### 2-2-1. 로지스틱 회귀 기반 분석 모델 학습

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [17]:
from sklearn.linear_model import LogisticRegression
# 모델 생성
model = LogisticRegression()
# 모델 학습
model.fit(X_train, y_train)
# 모델 평가
train_score = round(model.score(X_train, y_train)*100, 2)
train_score

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


89.43

### 2-2-2. 로지스틱 회귀의  최적의 하이퍼파라미터 찾기

* 로지스틱 회귀의 하이퍼파라미터 C의 최적값 찾기

1. 최적의 하이퍼파라미터 찾는 객체 생성 : *gridSearchCVobject* = **GridSearchCV**(*estimater*, *param_grid*, *optional parameters*)
1. 학습 데이터로 최적의 하이퍼파라미터 도출 : *gridSearchCVobject*.**fit**(*train_data*)
1. 최적의 하이퍼파라미터를 적용한 학습 모델 저장 : *best_model* = *gridSearchCVobject*.**best_estimator_**

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

### 2-2-3. 최적 분석 모델 저장

# 3. 분석 모델 평가

## 3-1. 평가용 데이터를 이용하여 감성 분석 모델 정확도

In [18]:
# 평가용 데이터의 피처 벡터화 : 실행시간 6분 정도 걸립니다 ☺
test_tfidf = tfidf_model.transform(test_df['document'])

In [19]:
# 모델 평가
test_score = round(model.score(test_tfidf, test_df['label'])*100,2)
test_score

85.12

In [20]:
SA_LogR_model = model

## 3-2. 새로운 텍스트에 대한 감성 예측
1. 문장 입력 받기
2. 입력 문장 전처리
3. Feature Vector 생성
4. 감성 분석 모델 적용 -> 감성 분석
5. 예측값 출력

In [37]:
#문장 입력 받기
in_sent = input("감정 분석할 문장 입력 : ")
#입력 문장 전처리
cl_sent = sub_func(in_sent)
#Feature Vector 생성
in_list = []
in_list.append(cl_sent)
st_tfidf = tfidf_model.transform(in_list)
#감성 분석 모델 적용 -> 감성 분석
st_predict = SA_LogR_model.predict(st_tfidf)
#예측값 출력
print(in_sent, ':긍정 감성') if st_predict else print(in_sent, ':부정 감성')

감정 분석할 문장 입력 : 박빵미 존잘
박빵미 존잘 :긍정 감성


## 4. Crawling 데이터에 대한 SA

In [59]:
#  Crawling 데이터 로딩하기
filename="교통정보_news.json"
temp_df = pd.read_json(filename)
news_df = temp_df[['title', 'description']]
# 입력 문장 전처리
import re


sub_func = lambda x : re.sub(r'[^ㄱ-ㅎ|가-힣]+', ' ', x)
news_df['description'] = news_df['description'].apply(sub_func)
news_df['title'] = news_df['title'].apply(sub_func)
news_df




# Feature Vector 생성
title_tfidf = tfidf_model.transform(news_df['title'])
des_tfidf = tfidf_model.transform(news_df['description'])

# 감성 분석 모델 적용 -> 감성 분석
title_predict = SA_LogR_model.predict(title_tfidf)
des_predict = SA_LogR_model.predict(des_tfidf)

# 예측값 출력

# 해당 키워드에 대한 긍정 뉴스와 부정 뉴스의 비율 출력하기
news_df['title_SA'] = title_predict
news_df['des_SA'] = des_predict

news_df['title_SA'].value_counts()[0]


rate_e_title = round((news_df['title_SA'].value_counts()[0]/news_df['title_SA'].count())*100, 2)
rate_o_title = round((news_df['title_SA'].value_counts()[1]/news_df['title_SA'].count())*100, 2)

print(f'제목 부정 : {rate_e_title}%')
print(f'제목 긍정 : {rate_o_title}%')

rate_e_des = round((news_df['des_SA'].value_counts()[0]/news_df['des_SA'].count())*100, 2)
rate_o_des = round((news_df['des_SA'].value_counts()[1]/news_df['des_SA'].count())*100, 2)

print(f'내용 부정 : {rate_e_des}%')
print(f'내용 긍정 : {rate_o_des}%')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  news_df['description'] = news_df['description'].apply(sub_func)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  news_df['title'] = news_df['title'].apply(sub_func)


제목 부정 : 71.1%
제목 긍정 : 28.9%
내용 부정 : 48.4%
내용 긍정 : 51.6%


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  news_df['title_SA'] = title_predict
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  news_df['des_SA'] = des_predict


In [47]:
import joblib
joblib.dump(tfidf_model, 'tfidf_model.pkl')
joblib.dump(SA_LogR_model, 'SA_LogR_model.pkl')

['SA_LogR_model.pkl']