In [1]:
import os
import numpy as np
import pandas as pd

data_path = "/Users/jonghyun/GitRepo/Personal/nsmc/"

train_df = pd.read_csv(os.path.join(data_path, "ratings_train.txt"), delimiter='\t')
test_df  = pd.read_csv(os.path.join(data_path, "ratings_test.txt"), delimiter='\t')

train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [2]:
print(f"train dataset: {train_df.shape}\ntest dataset: {test_df.shape}")

train dataset: (150000, 3)
test dataset: (50000, 3)


In [3]:
import re

def preprocessor(df, col_name='document'):
    df[col_name] = df[col_name].map(lambda x: re.sub(r'[^\w\s]', '', str(x)))
    
    return df
    
train_df = preprocessor(train_df)
test_df  = preprocessor(test_df)

train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


In [4]:
from khaiii import KhaiiiApi
api = KhaiiiApi()

my_test_str = u'이 밤 그날의 반딧불을 당신의 창 가까이 보낼게요'

for word in api.analyze(my_test_str):
    print(word)

이	이/MM
밤	밤/NNG
그날의	그날/NNG + 의/JKG
반딧불을	반딧불/NNG + 을/JKO
당신의	당신/NP + 의/JKG
창	창/NNG
가까이	가까이/MAG
보낼게요	보내/VV + ㄹ게/EC + 이/VCP + 요/EC


In [6]:
def analyze_morphs(sentence):
    morphs = []
    try:
        for word in api.analyze(sentence):
            for morph in word.morphs:
                morphs.append((morph.lex, morph.tag))
        return morphs
    except:
        return []
    

analyze_morphs(my_test_str)

[('이', 'MM'),
 ('밤', 'NNG'),
 ('그날', 'NNG'),
 ('의', 'JKG'),
 ('반딧불', 'NNG'),
 ('을', 'JKO'),
 ('당신', 'NP'),
 ('의', 'JKG'),
 ('창', 'NNG'),
 ('가까이', 'MAG'),
 ('보내', 'VV'),
 ('ㄹ게', 'EC'),
 ('이', 'VCP'),
 ('요', 'EC')]

In [8]:
from tqdm import tqdm
tqdm.pandas()

train_df['morphs'] = train_df['document'].progress_apply(lambda x: analyze_morphs(x))
test_df['morphs'] = test_df['document'].progress_apply(lambda x: analyze_morphs(x))
train_df.head()

  from pandas import Panel
100%|██████████| 150000/150000 [01:52<00:00, 1329.42it/s]
100%|██████████| 50000/50000 [00:37<00:00, 1321.26it/s]


Unnamed: 0,id,document,label,morphs
0,9976970,아 더빙 진짜 짜증나네요 목소리,0,"[(아, IC), (더빙, MAG), (진, NNG), (짜, MAG), (짜증, ..."
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1,"[(흠포스터, NNP), (보, VV), (고, EC), (초딩, NNG), (영화..."
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[(너무, MAG), (재, NNG), (밓, SH), (었, EP), (다, EC..."
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0,"[(교도소, NNG), (이야기구, NNG), (먼, EC), (솔직히, MAG),..."
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1,"[(사, NNG), (이몬페그, NNP), (의, JKG), (익살, NNG), (..."


In [14]:
# filtering logic을 추가해도 좋을 듯 

train_df['words'] = train_df['morphs'].progress_apply(lambda x: [word[0] for word in x])
test_df['words']  = test_df['morphs'].progress_apply(lambda x: [word[0] for word in x])

train_df.head()

100%|██████████| 150000/150000 [00:00<00:00, 233671.34it/s]
100%|██████████| 50000/50000 [00:00<00:00, 138198.65it/s]


Unnamed: 0,id,document,label,morphs,words
0,9976970,아 더빙 진짜 짜증나네요 목소리,0,"[(아, IC), (더빙, MAG), (진, NNG), (짜, MAG), (짜증, ...","[아, 더빙, 진, 짜, 짜증, 나네, 요, 목소리]"
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1,"[(흠포스터, NNP), (보, VV), (고, EC), (초딩, NNG), (영화...","[흠포스터, 보, 고, 초딩, 영화줄오버연기, 조차, 가볍, 지, 않, 구나]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[(너무, MAG), (재, NNG), (밓, SH), (었, EP), (다, EC...","[너무, 재, 밓, 었, 다, 그래, 서, 보, 는, 것, 을, 추천, 하, ㄴ다]"
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0,"[(교도소, NNG), (이야기구, NNG), (먼, EC), (솔직히, MAG),...","[교도소, 이야기구, 먼, 솔직히, 재미, 는, 없, 다, 평점, 조정]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1,"[(사, NNG), (이몬페그, NNP), (의, JKG), (익살, NNG), (...","[사, 이몬페그, 의, 익살, 스럽, ㄴ, 연기, 가, 돋보이, 었, 던, 영화스파..."


In [37]:
from tensorflow.python.keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.preprocessing.sequence import pad_sequences

# train_review = [word for doc in train_df.words.values for word in doc]
# test_review  = [word for doc in test_df.words.values for word in doc]

train_review = train_df.words.values.tolist()
test_review  = test_df.words.values.tolist()

tokenizer = Tokenizer()
tokenizer.fit_on_texts(train_review)

train_seq = tokenizer.texts_to_sequences(train_review)
test_seq  = tokenizer.texts_to_sequences(test_review)

In [60]:
word_vocab = tokenizer.word_index
max_length = 27

X_train = pad_sequences(train_seq, maxlen=max_length, padding='post')
X_test  = pad_sequences(test_seq, maxlen=max_length, padding='post')

y_train = train_df.label.values
y_test  = test_df.label.values

In [62]:
X_train = np.expand_dims(X_train, axis=-1)
X_test  = np.expand_dims(X_test, axis=-1)

In [63]:
X_train.shape

(150000, 27, 1)

In [65]:
from tensorflow.keras import models
from tensorflow.keras import layers
from tensorflow.keras import optimizers
from tensorflow.keras import losses
from tensorflow.keras import metrics

model = models.Sequential()
model.add(layers.LSTM(64, activation='relu', return_sequences=True, input_shape=(27, 1)))
model.add(layers.LSTM(64, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer=optimizers.RMSprop(lr=0.001),
             loss=losses.binary_crossentropy,
             metrics=[metrics.binary_accuracy])

model.fit(X_train, y_train, epochs=10, batch_size=512)
results = model.evaluate(X_test, y_test)

Epoch 1/10
Epoch 2/10
Epoch 3/10

KeyboardInterrupt: 