In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

import pickle

In [None]:
# !pip install tensorflow

# 1. 데이터 이해 및 전처리

In [None]:
df = pd.read_csv('df_labeled.csv', index_col = 0).drop_duplicates()


In [None]:
df # = df.groupby(['Date', 'Press'])['Title', 'Change'].mean()

In [None]:
df.Change.value_counts()

In [None]:
df = df.drop(columns=['Press'])

In [None]:
df

In [None]:
df = df.groupby(['Date','Change']).sum()

날짜와 변동을 기준으로 groupby

In [None]:
df=df.iloc[7:,:]    # '1995-05.28'일자부터 설정

In [None]:
df = df.reset_index()#.drop(columns=['index'])
df

In [None]:
train_ratio = 0.8
train_range = int(len(df) * train_ratio)
train_range

In [None]:
train_data = df[:train_range]
test_data = df[train_range:]

In [None]:
print(len(train_data), len(test_data))

## 데이터 정제하기

In [None]:
train_data.Change.value_counts().plot(kind = 'bar')

In [None]:
# Null값 확인
train_data.isnull().sum()

In [None]:
# 한글과 공백을 제외하고 모두 제거
train_data['Title'] = train_data['Title'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
train_data[:5]

In [None]:
# 한글이 없던 제목은 빈값이 됐을 것, Null로 변경
train_data['Title'] = train_data['Title'].str.replace('^ +', "") # white space 데이터를 empty value로 변경
train_data['Title'].replace('', np.nan, inplace=True)
print(train_data.isnull().sum())

# Null값 없음
# test_data = test_data.dropna(how='any') # Null 값 제거


In [None]:
# 테스트 데이터도 같은 방식으로 전처리

test_data.drop_duplicates(subset = ['Title'], inplace=True) # document 열에서 중복인 내용이 있다면 중복 제거
test_data['Title'] = test_data['Title'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행
test_data['Title'] = test_data['Title'].str.replace('^ +', "") # 공백은 empty 값으로 변경
test_data['Title'].replace('', np.nan, inplace=True) # 공백은 Null 값으로 변경
test_data = test_data.dropna(how='any') # Null 값 제거
print('전처리 후 테스트용 샘플의 개수 :',len(test_data))

## 토큰화

In [None]:
# 불용어 설정
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']


In [None]:
okt = Okt()

In [None]:
# 토큰화를 위한 형태소 분석기, KoNLPy의 OKt 사용
okt = Okt()

X_train = []
for sentence in tqdm(train_data['Title']):
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    X_train.append(stopwords_removed_sentence)

In [None]:
# tokenizer 정보 저장
'''
with open('X_test.pickle','wb') as handle:
    pickle.dump(X_test, handle, protocol=pickle.HIGHEST_PROTOCOL)
'''

In [None]:
# tokenizer 저장 정보 불러오기
with open('X_test.pickle', 'rb') as handle:
    X_test = pickle.load(handle)

In [None]:
# 상위 3개 데이터 보기
print(X_train[:3])

In [None]:
X_train


In [None]:
# 테스트 데이터에 대해서도 동일하게 토큰화
X_test = []
for sentence in tqdm(test_data['Title']):
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    X_test.append(stopwords_removed_sentence)

In [None]:
X_test

## 정수 인코딩

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

In [None]:
# 단어 집합 생성과 함께 고유한 정수가 부여됨 / 등장 빈도수가 높은 순서대로 부여됨
print(tokenizer.word_index)

- 높은 점수 = 등장 빈도수 낮음

In [None]:
# 등장 빈도수가 3회 미만인 단어들의 비중을 확인해보자

threshold = 3
total_cnt = len(tokenizer.word_index) # 단어의 수
rare_cnt = 0 # 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_freq = 0 # 훈련 데이터의 전체 단어 빈도수 총 합
rare_freq = 0 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in tokenizer.word_counts.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('단어 집합(vocabulary)의 크기 :',total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold - 1, rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

In [None]:
# 전체 단어 개수 중 빈도수 2이하인 단어는 제거.
# 0번 패딩 토큰을 고려하여 + 1
vocab_size = total_cnt  - rare_cnt + 1
print('단어 집합의 크기 :',vocab_size)

In [None]:
tokenizer = Tokenizer(vocab_size) 
tokenizer.fit_on_texts(X_train)
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

- 정수 인코딩 잘 됐는지 확인

In [None]:
print(X_train[:3])

In [None]:
y_train = np.array(train_data['Change'])
y_test = np.array(test_data['Change'])

## 빈 샘플 제거

In [None]:
drop_train = [index for index, sentence in enumerate(X_train) if len(sentence) < 1]

In [None]:
# 빈 샘플들을 제거
X_train = np.delete(X_train, drop_train, axis=0)
y_train = np.delete(y_train, drop_train, axis=0)
print(len(X_train))
print(len(y_train))

## 패딩

In [None]:
print('Title의 최대 길이 :',max(len(review) for review in X_train))
print('Title의 평균 길이 :',sum(map(len, X_train))/len(X_train))
plt.hist([len(review) for review in X_train], bins=50)
plt.xlabel('length of samples')
plt.ylabel('number of samples')
plt.show()

In [None]:
def below_threshold_len(max_len, nested_list):
    count = 0
    for sentence in nested_list:
        if(len(sentence) <= max_len):
            count = count + 1
    print('전체 샘플 중 길이가 %s 이하인 샘플의 비율: %s'%(max_len, (count / len(nested_list))*100))
        

In [None]:
max_len = 10000
below_threshold_len(max_len, X_train)

In [None]:
X_train = pad_sequences(X_train, maxlen=max_len)
X_test = pad_sequences(X_test, maxlen=max_len)

# LSTM 활용

In [None]:
from tensorflow.keras.layers import Embedding, Dense, LSTM
from tensorflow.keras.models import Sequential
from tensorflow.keras.models import load_model
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

embedding_dim = 100
hidden_units = 128

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(LSTM(hidden_units))
model.add(Dense(1, activation='sigmoid'))

es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4)
mc = ModelCheckpoint('best_model.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
history = model.fit(X_train, y_train, epochs=30, callbacks=[es, mc], batch_size=64, validation_split=0.2)

In [None]:
loaded_model = load_model('best_model.h5')
print("\n 테스트 정확도: %.4f" % (loaded_model.evaluate(X_test, y_test)[1]))

# 예측

- 현재 학습한 model에, 새로운 입력에 대해서 예측값을 얻는 것은 model.predict()를 사용한다 
- model.fit()을 할 때와 마찬가지로 새로운 입력에 대해서도 동일한 전처리를 수행 후에 model.predict()를 사용해야 한다

In [None]:
def sentiment_predict(new_sentence):
      new_sentence = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣 ]','', new_sentence)
      new_sentence = okt.morphs(new_sentence, stem=True) # 토큰화
      new_sentence = [word for word in new_sentence if not word in stopwords] # 불용어 제거
      encoded = tokenizer.texts_to_sequences([new_sentence]) # 정수 인코딩
      pad_new = pad_sequences(encoded, maxlen = max_len) # 패딩
      score = float(loaded_model.predict(pad_new)) # 예측
      if(score > 0.5):
        print("{:.2f}% 확률로 긍정 리뷰입니다.\n".format(score * 100))
      else:
        print("{:.2f}% 확률로 부정 리뷰입니다.\n".format((1 - score) * 100))