In [1]:
import urllib.request
import pandas as pd

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", 
                           filename="./data/ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", 
                           filename="./data/ratings_test.txt")

('./data/ratings_test.txt', <http.client.HTTPMessage at 0x2109fedb730>)

In [2]:
train_data = pd.read_table('./data/ratings_train.txt')
test_data = pd.read_table('./data/ratings_test.txt')

In [3]:
train_data.tail()

Unnamed: 0,id,document,label
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1
149999,9619869,한국 영화 최초로 수간하는 내용이 담긴 영화,0


In [4]:
print(len(train_data), len(test_data))

150000 50000


In [5]:
# 같은 리뷰 제거
train_data.drop_duplicates(subset=['document'], inplace=True)
len(train_data)

146183

In [6]:
train_data.isnull().sum()  # 1개의 null 자료 확인

train_data.loc[train_data.document.isnull()]  # id 확인
train_data = train_data.dropna(how='any')  # null 존재하는 행 제거
len(train_data)

146182

In [7]:
# 한글을 제외한 문자를 ''로 변경
import re
import numpy as np

train_data['document'] = train_data['document'].str.replace(r'[^ㄱ-ㅎㅏ-ㅣ가-힣 " "]','',regex=True)
# ''를 np.nan으로 변경 -> nan 을 제거
train_data['document'].replace('',np.nan, inplace=True)
train_data.dropna(inplace=True)

print(len(train_data))

145795


In [8]:
train_data.tail()

Unnamed: 0,id,document,label
149995,6222902,인간이 문제지 소는 뭔죄인가,0
149996,8549745,평점이 너무 낮아서,1
149997,9311800,이게 뭐요 한국인은 거들먹거리고 필리핀 혼혈은 착하다,0
149998,2376369,청춘 영화의 최고봉방황과 우울했던 날들의 자화상,1
149999,9619869,한국 영화 최초로 수간하는 내용이 담긴 영화,0


In [9]:
# train_data 중복값 제거
# 한글을 제외한 문자 ''로 대체 -> 정규 표현식 수행 str.replace(바꿀 문자, 바뀔 문자)
# 특수문자 -> null로
# '' -> np.nan으로 변경
# dropna() 실행

In [10]:
test_data['document'] = test_data['document'].str.replace(r'[^ㄱ-ㅎㅏ-ㅣ가-힣 " "]','',regex=True)
test_data['document'].replace('',np.nan, inplace=True)
test_data.dropna(inplace=True)
print(test_data['document'].isnull().sum())

0


In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical

In [12]:
token = Tokenizer()
token.fit_on_texts(train_data['document'])

In [13]:
x=token.texts_to_sequences(train_data['document'])

In [14]:
token.word_index

{'영화': 1,
 '너무': 2,
 '정말': 3,
 '진짜': 4,
 '이': 5,
 '왜': 6,
 '그냥': 7,
 '이런': 8,
 '더': 9,
 '수': 10,
 '영화를': 11,
 '점': 12,
 '다': 13,
 '잘': 14,
 '보고': 15,
 '좀': 16,
 '영화가': 17,
 '영화는': 18,
 '그': 19,
 '본': 20,
 '최고의': 21,
 '봤는데': 22,
 'ㅋㅋ': 23,
 '없는': 24,
 '내가': 25,
 '이건': 26,
 '없다': 27,
 '드라마': 28,
 '이렇게': 29,
 '완전': 30,
 '평점': 31,
 '이거': 32,
 '있는': 33,
 '좋은': 34,
 '이게': 35,
 '참': 36,
 '아': 37,
 '보는': 38,
 '평점이': 39,
 '연기': 40,
 '다시': 41,
 '내': 42,
 '그리고': 43,
 '역시': 44,
 '많이': 45,
 '것': 46,
 '난': 47,
 '스토리': 48,
 '쓰레기': 49,
 '한': 50,
 '재밌게': 51,
 '최고': 52,
 '없고': 53,
 '하는': 54,
 '또': 55,
 '꼭': 56,
 '보면': 57,
 '가장': 58,
 'ㅋㅋㅋ': 59,
 'ㅠㅠ': 60,
 '마지막': 61,
 '아깝다': 62,
 '영화다': 63,
 '뭐': 64,
 '무슨': 65,
 'ㅡㅡ': 66,
 '같은': 67,
 'ㅋ': 68,
 '하지만': 69,
 '볼': 70,
 '작품': 71,
 '끝까지': 72,
 '솔직히': 73,
 '대한': 74,
 '안': 75,
 '만든': 76,
 '봐도': 77,
 '넘': 78,
 '전혀': 79,
 '말이': 80,
 '영화의': 81,
 '별로': 82,
 '내내': 83,
 '아주': 84,
 '같다': 85,
 '지금': 86,
 'ㅎㅎ': 87,
 '하고': 88,
 '뭔가': 89,
 '할': 90,
 '시간': 91,
 '최악의': 92,


In [15]:
len(x[1])

4

In [16]:
length_x=[]
for i in range(len(x)):
    length_x.append(len(x[i]))
max(length_x)

40

In [17]:
padded_x=pad_sequences(x,40)

In [18]:
word_size=len(token.word_index)+1

In [19]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=40))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 40, 8)             2396144   
                                                                 
 flatten (Flatten)           (None, 320)               0         
                                                                 
 dense (Dense)               (None, 1)                 321       
                                                                 
Total params: 2,396,465
Trainable params: 2,396,465
Non-trainable params: 0
_________________________________________________________________


In [20]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, train_data['label'], epochs= 30)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
 897/4557 [====>.........................] - ETA: 1:30 - loss: 0.0716 - accuracy: 0.9778

KeyboardInterrupt: 

In [None]:
print("Accuracy :{:4f} ".format(model.evaluate(padded_x, train_data['label'])))