In [1]:
import tensorflow as tf 
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense,LSTM,Embedding,Bidirectional

vocab_size=15000

In [2]:
def create_model():
    model=Sequential([
        Embedding(vocab_size=32),
        Bidirectional(LSTM(32,return_sequences=True)),
        Dense(32,activation='relu'),
        Dense(1,activation='sigmoid')
    ])
    model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
    return model

In [4]:
import pandas as pd 
#테스트 데이터 로드하기
test_file=tf.keras.utils.get_file('ratings_text.txt',
                                 origin='https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt',
                                 extract=True)
test=pd.read_csv(test_file,sep='\t')
test.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [5]:
import konlpy
from konlpy.tag import Okt
okt=Okt()

In [6]:
train_file=tf.keras.utils.get_file('ratings_train.txt',
                                  origin='https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt',
                                  extract=True)
train=pd.read_csv(train_file,sep='\t')
train['document']=train['document'].str.replace("[^A-Za-z가-힣ㄱ-ㅎㅏ-ㅣ ]","")
train=train.dropna()

  train['document']=train['document'].str.replace("[^A-Za-z가-힣ㄱ-ㅎㅏ-ㅣ ]","")


In [7]:
def word_tokenization(text):
    stop_words=['는','을','를','이','가','의','던','고','하','다','은','에',
               '들','지','게','도']
    return [word for word in okt.morphs(text) if word not in stop_words]

In [9]:
data=train['document'].apply((lambda x:word_tokenization(x)))
data.head()

0                              [아, 더빙, 진짜, 짜증나네요, 목소리]
1        [흠, 포스터, 보고, 초딩, 영화, 줄, 오버, 연기, 조차, 가볍지, 않구나]
2                     [너, 무재, 밓었, 다그, 래서, 보는것을, 추천, 한]
3                  [교도소, 이야기, 구먼, 솔직히, 재미, 없다, 평점, 조정]
4    [사이, 몬페, 그, 익살스런, 연기, 돋보였던, 영화, 스파이더맨, 에서, 늙어,...
Name: document, dtype: object

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

oov_tok="<OOV>" #사전에 없는 단어 
vocab_size=15000
tokenizer=Tokenizer(oov_token=oov_tok, num_words=vocab_size)
tokenizer.fit_on_texts(data)

In [None]:
테스트 데이터 전처리
1. 한글,영문,공백 제외한 모든 문자 제거
2. 결측값 제거
3. 테스트할 데이터, 레이블 데이터 분리
4. 테스트할 데이터 불용어 부분 제거
5. tokenizer를 이용하여 분석할 수 있는 데이터로 변경
6. 패딩하기

In [12]:
import numpy as np

In [15]:
def preprocessing(df):
    df['document']=df['document'].str.replace("[^A-Za-z가-힣ㄱ-ㅎㅏ-ㅣ ]","") #1
    df=df.dropna() #2
    test_label=np.asarray(df['label']) #3. 레이블데이터 분리. 배열값
    #3. 테스트할 데이터 분리
    test_data=df['document'].apply((lambda x:word_tokenization(x))) #4
    test_data = tokenizer.texts_to_sequences(test_data) #5
    test_data=pad_sequences(test_data, padding='post', maxlen=69) #6
    return test_data, test_label

In [17]:
test_data,test_label=preprocessing(test)
test_data[2:3]
test_label[2:3]

  df['document']=df['document'].str.replace("[^A-Za-z가-힣ㄱ-ㅎㅏ-ㅣ ]","") #1


array([0], dtype=int64)

In [None]:
#테스트 데이터를 이용하여 평가하기
#학습되지 않은 기본 모델을 이용하여 평가
model2=create_model()
model2.evaluate(test_data, test_label)

In [None]:
#저장된 모델을 로드 후 평가하기
checkpoint_path='best_performed_model.ckpt'
model2.load_weights(checkpoint_path)
model2.evaluate(test_data,test_label)

print('감동 ==>>', tokenizer.word_index['감동'])
print('영화 ==>>', tokenizer.word_index['영화'])
print('나나 ==>>', tokenizer.word_index['나나'])