In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn-whitegrid') # sns에 흰색 그리드 유지
import missingno # 결측치 시각화

# KFold (교차 검증을 사용하기 위해)
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 교차검증 함수
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

# 학습 데이터와 검증 데이터로 나누는 함수
from sklearn.model_selection import train_test_split

# 데이터 전처리
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 평가 함수
from sklearn.metrics import accuracy_score

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import VotingClassifier
from xgboost import XGBClassifier


# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import  XGBRegressor

# 머신러닝 알고리즘 - 군집
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

# 머신러닝 알고리즘 - 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 딥러닝 알고리즘 
from keras.models import Sequential
from keras.layers import Dense
import tensorflow as tf

# 다중분류를 위한 원핫 인코더
from keras.utils import to_categorical

# 학습 자동 중단
from keras.callbacks import EarlyStopping

# 모델 저장
from keras.callbacks import ModelCheckpoint

# 저장된 딥러닝 모델 불러오기
from keras.models import load_model

# 딥러닝
from keras.models import Sequential
from keras.layers import Dense
import tensorflow as tf

from keras.utils import np_utils
from keras.layers import Dropout
from keras.layers import Flatten
from keras.layers import Conv2D
from keras.layers import MaxPooling2D
from keras.layers import Embedding
from keras.layers import LSTM
from keras.layers import Activation
from keras.layers import Conv1D
from keras.layers import MaxPooling1D

# 자연어 처리
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.text import text_to_word_sequence
from keras.preprocessing.sequence import pad_sequences

# 저장
import pickle

# 시간 모듈
import time

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'   # 윈도우용
# plt.rcParams['font.family'] = 'AppleGothic'   # 맥용
plt.rcParams['font.size'] = 10                 # 폰트 크기
plt.rcParams['figure.figsize'] = 10,8          # 그래프 크기
plt.rcParams['axes.unicode_minus'] = False     # - 기호 깨짐 방지


# 경고 메시지가 안나오게 하기
import warnings
warnings.filterwarnings('ignore')

# gpu 사용 초기화 및 할당
gpus= tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

In [2]:
# seed 설정
np.random.seed(3)
tf.random.set_seed(3)

In [3]:
# 데이터를 읽어온다.
df1 = pd.read_csv('../dataset/naver_star_data.csv')
df1.head()

Unnamed: 0,평점,평가글,작성자,작성날짜,공감수,비공감수
0,1.0,"B급 이하전편보다 퇴보된 CG, 중구난방식 연출, 러닝타임 늘리기 위한 쓸모없는 컷...",코꾸뇨우옹(pott****),2020.12.24 09:08,873.0,289.0
1,3.0,이딴 영화가 평점 8점 후반대라는 게 믿기지 않는다. 역시 네이버 평점은 믿고 걸러...,juum****,2020.12.23 22:19,620.0,232.0
2,6.0,역시 원더우먼 영화는 주연배우 갤가돗과 크리스파인이 다 살리네.. 감독은 확실히 영...,없음(jymi****),2020.12.23 17:05,480.0,168.0
3,2.0,진짜 개노잼이다.. 1편이랑 같은 감독맞나?러닝타임도 길어서 개지루함 ㄹㅇ,민중의빠따(gkst****),2020.12.23 22:51,433.0,143.0
4,1.0,히어로물의 액션을 기대했음. 그러나 졸렬한 액션과 이상한 전개로 마지막 영화관을 나...,시리우스(sojh****),2020.12.23 13:34,412.0,198.0


In [4]:
df2 = df1[['평점','평가글']]
df2.head()

Unnamed: 0,평점,평가글
0,1.0,"B급 이하전편보다 퇴보된 CG, 중구난방식 연출, 러닝타임 늘리기 위한 쓸모없는 컷..."
1,3.0,이딴 영화가 평점 8점 후반대라는 게 믿기지 않는다. 역시 네이버 평점은 믿고 걸러...
2,6.0,역시 원더우먼 영화는 주연배우 갤가돗과 크리스파인이 다 살리네.. 감독은 확실히 영...
3,2.0,진짜 개노잼이다.. 1편이랑 같은 감독맞나?러닝타임도 길어서 개지루함 ㄹㅇ
4,1.0,히어로물의 액션을 기대했음. 그러나 졸렬한 액션과 이상한 전개로 마지막 영화관을 나...


In [5]:
# 테스트용 코드 - 학습령이 너무 많기 때문에 랜덤하게 500개만 추출
df3 = df2.sample(n=500, random_state=2).reset_index(drop=True)
df3.head()

Unnamed: 0,평점,평가글
0,10.0,너무나 판타지스러우면서도 마지막은 현실적이라 좀 마음이 찜찜하다. 정말 재밌게 봤다...
1,10.0,씨지가 많이 발전햇네요후반부에 눈물 무쟈게 흘리고 나왓네요
2,4.0,그냥 거기서거기인듯 원작과는 정말 많이 다르고 CG는 생각보다 이상하진 않았지만 ...
3,10.0,감히 내사랑을!!!!! 그렇지. 누구라도 한눈에 반해버린 내사랑을 건드림 뚜껑 열린...
4,9.0,우는 장면에서는 왜 우는지 이해는 안되지만 그래도 예쁘고 여운이 남는 작품이었다!스...


In [6]:
# 결측치 확인
df3.isna().sum()

평점      0
평가글    15
dtype: int64

In [7]:
# 결측치 제거
df3.dropna(inplace=True)
df3.isna().sum()

평점     0
평가글    0
dtype: int64

In [8]:
# 글 인덱스를 평점을 기준으로 나눠서 추출한다.
a1 = df3.query('평점 <= 5').index
a2 = df3.query('평점 > 5').index

# 새로운 값을 세팅한다 (0:부정, 1:긍정)
df3.loc[a1, '평점'] = 0
df3.loc[a2, '평점'] = 1

In [9]:
df3['평점'].value_counts()

1.0    416
0.0     69
Name: 평점, dtype: int64

In [28]:
# 데이터를 분리한다.
docs = df3['평가글'].values
classes = df3['평점'].values

In [11]:
# 단어 사전을 생성한다.
token = Tokenizer()
token.fit_on_texts(docs)
token.word_index['영화']

1

In [12]:
# 생성한 단어사전을 기준으로 단어들을 숫자로 표현한다.
x = token.texts_to_sequences(docs)
x[0]

[149,
 547,
 548,
 549,
 9,
 93,
 550,
 4,
 17,
 150,
 551,
 151,
 552,
 243,
 553,
 42,
 554,
 555]

In [13]:
# 문장당 최대 단어 개수를 구한다.
max_length = 0

for str1 in x:
    # 현재 문장의 단어수를 가져온다.
    a1 = len(str1)
    
    # 현재 문장의 단어수가 이전 최대 단어수보다 크면 
    # 값을 덮어씌운다.
    if max_length < a1:
        max_length = a1
        
max_length

31

In [14]:
# 패딩, 서로 길이가 다른 리스트(단어수)의 개수를 맞춰준다.
# 부족한 부분을 0으로 채워준다.
padded_x = pad_sequences(x, max_length)
padded_x

array([[   0,    0,    0, ...,   42,  554,  555],
       [   0,    0,    0, ...,  558,  559,  560],
       [   0,    0,    0, ...,  246,  570,  247],
       ...,
       [   0,    0,    0, ...,   99, 3170, 3171],
       [   0,    0,    0, ..., 3176,   51, 3177],
       [   0,    0,    0, ..., 3182, 3183, 3184]])

In [29]:
# 단어의 개수에 1을 더한 값을 구한다.
word_size = len(token.word_index) + 1
word_size

3185

In [30]:
# 데이터를 나눈다.
X_train, X_test, y_train, y_test  = train_test_split(padded_x, classes, test_size=0.3, random_state=0)

In [31]:
# 모델 설정
model = Sequential()
model.add(Embedding(word_size, 100))
model.add(Dropout(0.5))
model.add(Conv1D(64,5,padding='valid', activation='relu', strides=1))
model.add(MaxPooling1D(pool_size=4))
model.add(LSTM(55))
model.add(Dense(1))
model.add(Activation('sigmoid'))

In [32]:
# 모델 정보
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 100)         318500    
_________________________________________________________________
dropout_1 (Dropout)          (None, None, 100)         0         
_________________________________________________________________
conv1d_1 (Conv1D)            (None, None, 64)          32064     
_________________________________________________________________
max_pooling1d_1 (MaxPooling1 (None, None, 64)          0         
_________________________________________________________________
lstm_1 (LSTM)                (None, 55)                26400     
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 56        
_________________________________________________________________
activation_1 (Activation)    (None, 1)                

In [38]:
# 모델 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [39]:
# 학습시작
model.fit(X_train, y_train, validation_data = (X_test, y_test), batch_size=100, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1fd4be62370>