In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn-whitegrid') # sns에 흰색 그리드 유지
import missingno # 결측치 시각화

# KFold (교차 검증을 사용하기 위해)
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 교차검증 함수
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

# 학습 데이터와 검증 데이터로 나누는 함수
from sklearn.model_selection import train_test_split

# 데이터 전처리
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 평가 함수
from sklearn.metrics import accuracy_score

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import VotingClassifier
from xgboost import XGBClassifier


# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import  XGBRegressor

# 머신러닝 알고리즘 - 군집
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

# 머신러닝 알고리즘 - 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 딥러닝 알고리즘 
from keras.models import Sequential
from keras.layers import Dense
import tensorflow as tf

# 다중분류를 위한 원핫 인코더
from keras.utils import to_categorical

# 학습 자동 중단
from keras.callbacks import EarlyStopping

# 모델 저장
from keras.callbacks import ModelCheckpoint

# 저장된 딥러닝 모델 불러오기
from keras.models import load_model

# 이미지 처리
from keras.utils import np_utils
from keras.layers import Dropout
from keras.layers import Flatten
from keras.layers import Conv2D
from keras.layers import MaxPooling2D

# 자연어 처리
from keras.layers import Embedding
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.text import text_to_word_sequence
from keras.preprocessing.sequence import pad_sequences

# 저장
import pickle

# 시간 모듈
import time

# 그래프 설정
# plt.rcParams['font.family'] = 'Malgun Gothic'   # 윈도우용
plt.rcParams['font.family'] = 'AppleGothic'   # 맥용
plt.rcParams['font.size'] = 10                 # 폰트 크기
plt.rcParams['figure.figsize'] = 10,8          # 그래프 크기
plt.rcParams['axes.unicode_minus'] = False     # - 기호 깨짐 방지


# 경고 메시지가 안나오게 하기
import warnings
warnings.filterwarnings('ignore')

In [3]:
# 데이터를 읽어온다.
df1 = pd.read_csv('../dataset/naver_star_data.csv')
df1.head()

Unnamed: 0,평점,평가글,작성자,작성날짜,공감수,비공감수
0,1.0,"B급 이하전편보다 퇴보된 CG, 중구난방식 연출, 러닝타임 늘리기 위한 쓸모없는 컷...",코꾸뇨우옹(pott****),2020.12.24 09:08,873.0,289.0
1,3.0,이딴 영화가 평점 8점 후반대라는 게 믿기지 않는다. 역시 네이버 평점은 믿고 걸러...,juum****,2020.12.23 22:19,620.0,232.0
2,6.0,역시 원더우먼 영화는 주연배우 갤가돗과 크리스파인이 다 살리네.. 감독은 확실히 영...,없음(jymi****),2020.12.23 17:05,480.0,168.0
3,2.0,진짜 개노잼이다.. 1편이랑 같은 감독맞나?러닝타임도 길어서 개지루함 ㄹㅇ,민중의빠따(gkst****),2020.12.23 22:51,433.0,143.0
4,1.0,히어로물의 액션을 기대했음. 그러나 졸렬한 액션과 이상한 전개로 마지막 영화관을 나...,시리우스(sojh****),2020.12.23 13:34,412.0,198.0


In [4]:
# 평점과 평가글만 가져온다.
df2 = df1[['평점', '평가글']]
df2.head()

Unnamed: 0,평점,평가글
0,1.0,"B급 이하전편보다 퇴보된 CG, 중구난방식 연출, 러닝타임 늘리기 위한 쓸모없는 컷..."
1,3.0,이딴 영화가 평점 8점 후반대라는 게 믿기지 않는다. 역시 네이버 평점은 믿고 걸러...
2,6.0,역시 원더우먼 영화는 주연배우 갤가돗과 크리스파인이 다 살리네.. 감독은 확실히 영...
3,2.0,진짜 개노잼이다.. 1편이랑 같은 감독맞나?러닝타임도 길어서 개지루함 ㄹㅇ
4,1.0,히어로물의 액션을 기대했음. 그러나 졸렬한 액션과 이상한 전개로 마지막 영화관을 나...


In [8]:
df2.isnull().sum()

평점        0
평가글    6984
dtype: int64

In [9]:
# 결측치 제거
df2.dropna(inplace=True)
df2.isna().sum()

평점     0
평가글    0
dtype: int64

In [10]:
# 평점이 5점 이하는 0으로 바꿔준다.
a1 = df2.query('평점 <= 5').index
df2.loc[a1, '평점'] = 0

In [11]:
# 평점이 6점 이상은 1로 바꿔준다.
a1 = df2.query('평점 > 5').index
df2.loc[a1, '평점'] = 1

In [12]:
df2['평점'].value_counts()

1.0    217358
0.0     36333
Name: 평점, dtype: int64

In [13]:
# 평가글 추출
docs = df2['평가글'].values
docs

array(['B급 이하전편보다 퇴보된 CG, 중구난방식 연출, 러닝타임 늘리기 위한 쓸모없는 컷, 부족한 액션, 영화가 주는 시사점도 없고 보는 내내 오그라들고 나가고싶었음.',
       '이딴 영화가 평점 8점 후반대라는 게 믿기지 않는다. 역시 네이버 평점은 믿고 걸러야 한다.개연성 중요하게 생각하는 사람들은 보면서 토할 수도 있으니까 조심.중후반부터 느금마사급 전개가 계속 이어지기 때문에 정신잡기...',
       '역시 원더우먼 영화는 주연배우 갤가돗과 크리스파인이 다 살리네.. 감독은 확실히 영화 못 찍음.... 예전 샤를리즈 테론 영화 몬스터만해도 배우가 다 살림... 원더우먼 1도 악당 허술하고 매력없고 스토리도 전개가 ...',
       ..., '영화 시작후 1분만에 욕이 나왔다.발연기 발연출 초저질영화의 대가다.XX!!!',
       '먼가 오늘날의 뻔한 한국드라마로 보였다. 그리고 난 그것이 싫다.... 명작들은 세대가 넘어가도 언제나 명작소리를 듣지만 이건 머랄까 다 보고나면 저런 스토리 요즘에 차고넘쳐서 지루할 정도로 많은데....이런 느낌이...',
       '전혀 재미없음. 헛소리만 지껄임. 아무 의미도 내용도 없음. 정신나간 20대여자들이나 좋아할듯'],
      dtype=object)

In [15]:
# 결과 추출
classes = df2['평점'].values
classes

array([0., 0., 1., ..., 0., 0., 0.])

In [17]:
# 토큰화 
token = Tokenizer()
token.fit_on_texts(docs)
len(token.word_index)

383512

In [18]:
# 단어사전을 통해 문장의 각 단어를 숫자로 변환한다.
x = token.texts_to_sequences(docs)
len(x)

253691

In [19]:
# 한 문자의 최대 단어수를 가져온다.
max_len = 0

for x2 in x:
    # 현재 문장의 글자수
    len1 = len(x2)
    # 현재 문자의 글자수가 이전 최대 수치보다 많으면 덮어씌운다.
    if max_len < len1:
        max_len = len1
        
max_len

48

In [21]:
# 패딩, 서로 길이가 다른 리스트의 개수를 맞춰준다.
padded_x = pad_sequences(x, max_len)
padded_x

array([[     0,      0,      0, ...,     56,   9293,  17911],
       [     0,      0,      0, ...,  63776,    231, 101809],
       [     0,      0,      0, ...,  25328,     90,    422],
       ...,
       [     0,      0,      0, ..., 383505, 383506,  27644],
       [     0,      0,      0, ...,   1432,     37,    239],
       [     0,      0,      0, ...,  12420, 383512,   7694]], dtype=int32)

In [23]:
# 단어의 개수를 구한다.
word_size = len(token.word_index)+1
word_size

383513

In [24]:
# 모델 생성
model = Sequential()
model.add(Embedding(word_size, 8, input_length = max_len))
model.add(Flatten())
model.add(Dense(1, activation = 'sigmoid'))

In [25]:
# 모델 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])

In [26]:
# 모델 실행
model.fit(padded_x, classes, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<tensorflow.python.keras.callbacks.History at 0x7fc0bebb0460>

In [27]:
# 학습데이터에 대한 성능 평가
model.evaluate(padded_x, classes)[1]



0.9987307190895081

### 새로운 데이터 평가

In [30]:
docs1 = [
    '이 영화 재미있어요',
    '이 영화 재미없어요',
    '추천 드립니다',
    '추천 드리지 않습니다'
]

In [31]:
x = token.texts_to_sequences(docs1)
padded_x1 = pad_sequences(x, 48)
pred = (model.predict(padded_x1) > 0.5).astype('int32')
pred

array([[1],
       [0],
       [1],
       [0]], dtype=int32)