In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth

# ARIMA (시계열 예측)
from statsmodels.tsa.arima_model import ARIMA
import statsmodels.api as sm

# 시간 측정을 위한 시간 모듈
import datetime
# 주식 정보를 읽어오기 위한 라이브러리
from pandas_datareader import data

# 형태소 백터를 생성하기 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
# 형태소 백터를 학습 백터로 변환한다.
from sklearn.feature_extraction.text import TfidfTransformer

# 데이터 수집
import requests
from bs4 import BeautifulSoup
import re
import time
import os
import json

# 한국어 형태소 분석
from konlpy.tag import Okt, Hannanum, Kkma, Mecab, Komoran

# 워드 클라우드를 위한 라이브러리
from collections import Counter
import pytagcloud
from IPython.display import Image

# 저장
import pickle

pygame 2.0.1 (SDL 2.0.14, Python 3.8.5)
Hello from the pygame community. https://www.pygame.org/contribute.html


### 데이터를 읽어온다.

In [2]:
df = pd.read_csv('data/review_data.csv')
df

Unnamed: 0,score,review,y
0,5,친절하시고 깔끔하고 좋았습니다,1
1,5,조용하고 고기도 굿,1
2,4,"갈비탕과 냉면, 육회비빔밥이 맛있습니다.",1
3,4,대체적으로 만족하나\n와인의 구성이 살짝 아쉬움,1
4,5,고기도 맛있고 서비스는 더 최고입니다~,1
...,...,...,...
540,3,추웟어요 고기 외에는 별로에요..,0
541,1,고기질과 육전은 좋다.다만 한우손님 돼지고기 손님을 차별한다(돼지손님은 주차불가.네...,0
542,5,직접 구워주시고 진짜맛있음. 반찬도 맛있음. 직원분이 친절하게 잘해주시네요,1
543,4,친절하게 서빙해주시고 음식도 챙겨주셨어요 ㅎ,1


### 한글 외의 모든 글자를 제거한다.

In [3]:
def text_clearning(text) :
    # 한글 정규식(띄어쓰기, ㄱ ~ ㅣ, 가 ~ 힣)
    hangul = re.compile('[^ ㄱ-ㅣ가-힣]+')
    # 지정한 정규식에 해당하지 않는 것은 길이가 0인 문자열로 변환한다.
    result = hangul.sub('', text)
    return result

In [4]:
# 리뷰 내용을 정제한다.
df['ko_review'] = df['review'].apply(lambda x : text_clearning(x))
# review 컬럼은 제거한다.
df.drop('review', inplace=True, axis=1)
df

Unnamed: 0,score,y,ko_review
0,5,1,친절하시고 깔끔하고 좋았습니다
1,5,1,조용하고 고기도 굿
2,4,1,갈비탕과 냉면 육회비빔밥이 맛있습니다
3,4,1,대체적으로 만족하나와인의 구성이 살짝 아쉬움
4,5,1,고기도 맛있고 서비스는 더 최고입니다
...,...,...,...
540,3,0,추웟어요 고기 외에는 별로에요
541,1,0,고기질과 육전은 좋다다만 한우손님 돼지고기 손님을 차별한다돼지손님은 주차불가네이버예...
542,5,1,직접 구워주시고 진짜맛있음 반찬도 맛있음 직원분이 친절하게 잘해주시네요
543,4,1,친절하게 서빙해주시고 음식도 챙겨주셨어요 ㅎ


### 형태소 분석

In [5]:
# konlpy 라이브러리로 텍스트 데이터에서 형태소를 추출한다.
def get_pos(x) :
    tagger = Okt()
    pos = tagger.pos(x)
    
    # 단어와 품사를 합쳐서 하나의 단어로 만들어준다.
    result = []
    
    # 형태소의 수만큼 반복한다.
    for a1 in pos :
        result.append(f'{a1[0]}/{a1[1]}')
    
    return result

get_pos('동해물과 백두산이 마르고 닳도록')

['동/Modifier',
 '해물/Noun',
 '과/Josa',
 '백두산/Noun',
 '이/Josa',
 '마르고/Noun',
 '닳도록/Verb']

### 형태소 벡터 생성

In [6]:
index_vectorizer = CountVectorizer(tokenizer=lambda x : get_pos(x))
X = index_vectorizer.fit_transform(df['ko_review'].tolist())
X

<545x3030 sparse matrix of type '<class 'numpy.int64'>'
	with 9692 stored elements in Compressed Sparse Row format>

In [7]:
# index_vectorizer.vocabulary_

In [8]:
print(df['ko_review'][0])
print(X[0])

친절하시고 깔끔하고 좋았습니다
  (0, 2647)	1
  (0, 428)	1
  (0, 2403)	1


### 위에서 만든 형태소 백터를 TF-IDF 벡터로 생성한다.

In [9]:
tfidf_vectorizer = TfidfTransformer()
X = tfidf_vectorizer.fit_transform(X)
print(X[0])

  (0, 2647)	0.5548708693511647
  (0, 2403)	0.48955631270748484
  (0, 428)	0.6726462183300624


### 학습 데이터를 생성한다.

In [10]:
# 결과
y = df['y']

### 모델 평가

In [11]:
params = {
    # 'n_neighbors' : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    'n_neighbors' : list(range(1, 11))
}

# 사용할 모델 객체를 생성한다.
model1 = KNeighborsClassifier()

# 최적의 하이퍼 파라미터를 찾는다
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf1 = GridSearchCV(model1, param_grid=params, scoring='f1', cv=kfold)
grid_clf1.fit(X, y)

# 결과출력
print(f'최적의 하이퍼 파라미터 : {grid_clf1.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf1.best_score_}')

최적의 하이퍼 파라미터 : {'n_neighbors': 4}
최적의 모델 평균 성능 : 0.9561087805947686


In [12]:
# LogisticRegression 
# penalty : 규제의 종류(l1, l2, elasticnet, none)
# C : 규제의 강도 
params = {
    'penalty' : ['l1', 'l2', 'elasticnet', 'none'],
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model2 = LogisticRegression()
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf2 = GridSearchCV(model2, param_grid=params, scoring='f1', cv=kfold)
grid_clf2.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf2.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf2.best_score_}')

최적의 하이퍼 파라미터 : {'C': 0.0001, 'penalty': 'none'}
최적의 모델 평균 성능 : 0.9580627713400792


In [13]:
# SVM(SVC)
# SVM은 penalty가 l2로 고정되어 있다
# C : 규제의 강도 
params = {
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model3 = SVC()
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf3 = GridSearchCV(model3, param_grid=params, scoring='f1', cv=kfold)
grid_clf3.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf3.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf3.best_score_}')

최적의 하이퍼 파라미터 : {'C': 0.0001}
최적의 모델 평균 성능 : 0.9479277809113741


In [14]:
# n_estimators : 사용할 트리의 개수
# max_depth : 생성될 최대 질문 깊이, None은 무한대.
params = {
    'n_estimators' : [50, 100, 150, 200, 250, 300],
    'max_depth' : [None, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
}

model4 = RandomForestClassifier(random_state=1)
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf4 = GridSearchCV(model4, param_grid=params, scoring='f1', cv=kfold)
grid_clf4.fit(X, y)

print(f'최적의 하이퍼 파라미터 : {grid_clf4.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf4.best_score_}')

최적의 하이퍼 파라미터 : {'max_depth': None, 'n_estimators': 50}
최적의 모델 평균 성능 : 0.9479277809113741


In [15]:
# XGBoost
# booster : 내부에 사용할 알고리즘
# learning_rate : 학습률
# n_estimators : 사용할 트리의 개수
# max_depth : 생성될 최대 질문 깊이, None은 무한대.
params = {
    'booster' : ['gbtree', 'gblinear'],
    'learning_rate' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000],
    'n_estimators' : [50, 100, 150, 200, 250, 300],
    # 'max_depth' : [None, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
}

model5 = XGBClassifier(silent=True, verbosity=0)
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf5 = GridSearchCV(model5, param_grid=params, scoring='f1', cv=kfold)
grid_clf5.fit(X, y)

print(f'최적의 하이퍼 파라미터 : {grid_clf5.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf5.best_score_}')

최적의 하이퍼 파라미터 : {'booster': 'gbtree', 'learning_rate': 0.1, 'n_estimators': 50}
최적의 모델 평균 성능 : 0.9502356802632198


In [16]:
print(grid_clf1.best_score_)
print(grid_clf2.best_score_)
print(grid_clf3.best_score_)
print(grid_clf4.best_score_)
print(grid_clf5.best_score_)

0.9561087805947686
0.9580627713400792
0.9479277809113741
0.9479277809113741
0.9502356802632198


### 중요 단어 파악(중요 피처 파악)

In [20]:
# 회귀 모델의 계수(중요도, 상관관계)를 가져온다.
model = grid_clf2.best_estimator_

# 학습시 사용한 모든 컬럼과 결과 데이터와의 상관계수이다.
# 컬럼의 개수만큼 나오며 값이 클수록 1과 상관관계가 높고
# 값이 작을 수록 0과 상관관계가 높다.
model.coef_[0]


array([ 1.62588263,  5.9313457 ,  4.33385186, ...,  0.47754467,
       -9.27302276,  0.90485881])

In [25]:
# 단어의 번호를 붙히기 위해 enumerate 함수를 사용한다.
a2 = list(enumerate(a1))

#정렬을 위해 index, 계수 형태를 계수, index형태로 바꿔준다.
a3=[]

for idx, value in a2 :
    a3.append((value, idx))



In [26]:
# 상관계수 (첫번째 값)을 기준으로 정렬한다.
coef_pos_index = sorted(a3, reverse=True)
coef_pos_index


[(37.75290913932283, 1017),
 (26.887047222996166, 1001),
 (26.516040494415687, 2246),
 (21.61307929670443, 1030),
 (21.059252575513522, 1093),
 (18.889134518218953, 999),
 (16.953422188485778, 2376),
 (16.69560949705233, 721),
 (16.114930015875775, 1388),
 (15.367162571972406, 2613),
 (15.013308941501766, 2388),
 (14.840877126013913, 1029),
 (14.087713804328862, 2330),
 (13.069147688509027, 2647),
 (12.650446735202667, 608),
 (12.507299980214606, 2404),
 (12.418365819419938, 2247),
 (12.072419753407694, 2128),
 (11.837163425411958, 873),
 (11.366648285122398, 1006),
 (11.243437975398798, 1008),
 (11.152692131926177, 2502),
 (11.070654775944224, 961),
 (10.65722536162842, 1386),
 (10.26900040811188, 635),
 (10.065231520641055, 2125),
 (9.971587516023714, 897),
 (9.725824722474943, 2363),
 (9.668211340439697, 7),
 (9.384206523385417, 607),
 (9.324908071403076, 945),
 (9.239676181623507, 1007),
 (9.225130386916064, 428),
 (9.007354616753547, 1137),
 (8.875140191936802, 1467),
 (8.56757782

In [27]:
# 단어 번호를 담을 딕셔너리
text_data_dict = {}

# 단어 사전에 있는 단어의 수 만큼 반복한다.
for key in index_vectorizer.vocabulary_ :
    # 현재 key 해당하는 값을 가지고 온다.
    value = index_vectorizer.vocabulary_[key]
    
    # 딕셔너리에 담는다.
    text_data_dict[value] = key
    
text_data_dict


{2647: '친절하시고/Adjective',
 428: '깔끔하고/Adjective',
 2403: '좋았습니다/Adjective',
 2356: '조용하고/Adjective',
 233: '고기/Noun',
 721: '도/Josa',
 330: '굿/Noun',
 120: '갈비탕/Noun',
 260: '과/Josa',
 528: '냉면/Noun',
 2065: '육회/Noun',
 1419: '비빔밥/Noun',
 2082: '이/Josa',
 1013: '맛있습니다/Adjective',
 671: '대/Modifier',
 2604: '체적/Noun',
 2067: '으로/Josa',
 956: '만족하나/Adjective',
 1996: '와인/Noun',
 2077: '의/Josa',
 293: '구성/Noun',
 1476: '살짝/Noun',
 1705: '아쉬움/Noun',
 1001: '맛있고/Adjective',
 1508: '서비스/Noun',
 589: '는/Josa',
 701: '더/Noun',
 2613: '최고/Noun',
 2182: '입니다/Adjective',
 24: '가/Josa',
 2177: '입/Noun',
 1897: '에서/Josa',
 553: '녹아요/Verb',
 1935: '였습니다/Verb',
 1473: '살살/Noun',
 552: '녹는/Verb',
 2615: '최상급/Noun',
 1540: '소고기/Noun',
 901: '를/Josa',
 995: '맛/Noun',
 1316: '보고왔습니다/Verb',
 302: '구워주고/Verb',
 73: '가성/Noun',
 1408: '비/Noun',
 2528: '짱/Noun',
 2688: '콜키/Noun',
 2477: '지/Josa',
 2788: '프리/Noun',
 885: '라서/Josa',
 2070: '을/Josa',
 89: '가지/Noun',
 227: '고/Josa',
 61: '가면/Noun',
 2410: '좋은/Adj

In [28]:
# 상위 20개를 가져온다.
top20 = coef_pos_index[:20]
# 하위 20개를 가져온다.
bottom20 = coef_pos_index[-20:]

# print(top20)
# print(bottom20)


[(37.75290913932283, 1017), (26.887047222996166, 1001), (26.516040494415687, 2246), (21.61307929670443, 1030), (21.059252575513522, 1093), (18.889134518218953, 999), (16.953422188485778, 2376), (16.69560949705233, 721), (16.114930015875775, 1388), (15.367162571972406, 2613), (15.013308941501766, 2388), (14.840877126013913, 1029), (14.087713804328862, 2330), (13.069147688509027, 2647), (12.650446735202667, 608), (12.507299980214606, 2404), (12.418365819419938, 2247), (12.072419753407694, 2128), (11.837163425411958, 873), (11.366648285122398, 1006)]
[(-16.295589345172832, 2620), (-16.37018791700717, 2887), (-16.511318034690216, 2603), (-16.87775514641212, 16), (-17.170331441521395, 24), (-18.753641024386276, 2427), (-19.57099813454078, 589), (-19.723072299064416, 1384), (-21.158154875670036, 2371), (-21.237806863689137, 330), (-21.986753920706583, 2289), (-22.578268862677074, 901), (-23.953359513525008, 1608), (-23.953359513525008, 18), (-24.08191737713183, 2312), (-27.191194888319508, 2

In [29]:
# 단어와 조합한다.
for value, idx in top20 :
    print(text_data_dict[idx])


맛있어요/Adjective
맛있고/Adjective
잘/Verb
맛있었어요/Adjective
먹었습니다/Verb
맛있게/Adjective
좋고/Adjective
도/Josa
분위기/Noun
최고/Noun
좋아요/Adjective
맛있었습니다/Adjective
정말/Noun
친절하시고/Adjective
다/Adverb
좋았어요/Adjective
잘/VerbPrefix
이에요/Josa
또/Noun
맛있네요/Adjective


In [30]:
# 부정과 연관성이 높은 상위 20개 키워드
for value, idx in bottom20 :
    print(text_data_dict[idx])


추웟어/Noun
한참/Noun
체인점/Noun
ㅠㅠ/KoreanParticle
가/Josa
주문/Noun
는/Josa
분/Noun
종업원/Noun
굿/Noun
적어요/Verb
를/Josa
시끄러워요/Adjective
ㅠㅠㅠㅠ/KoreanParticle
점/Noun
을/Josa
은/Josa
기대이하였음/Verb
많이/Adverb
별로/Noun
