# 데이터 로드

In [106]:
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [107]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7a5a106631c0>)

In [108]:
train_data = pd.read_table('ratings_train.txt')
test_data = pd.read_table('ratings_test.txt')

In [109]:
train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


# 데이터 전처리

In [110]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


## 0, 결측치 제거

In [111]:
train_data = train_data.dropna().reset_index(drop=True)

## 1. 특수문자 제거

In [112]:
removal_list =  "‘, ’, ◇, ‘, ”,  ’, ', ·, \“, ·, △, ●,  , ■, (, ), \", >>, `, /, #, ∼, =,ㆍ<,>, .,?, !,【,】, …, ◆,%, ₩"
def remove_special(sentence: str = None):

    sentence = re.sub("[.,\'\"’‘”“!?]", "", sentence)
    sentence = re.sub("[^ㄱ-ㅎ가-힣a-zA-Z\\s]", " ", sentence)
    sentence = re.sub("\s+", " ", sentence)
    sentence = sentence.translate(str.maketrans(removal_list, ' '*len(removal_list)))
    sentence = sentence.strip()
    sentence = sentence.replace('\n', ' ')

    return sentence

In [113]:
train_data["특수문자제거"] = [remove_special(i) for i in train_data["document"]]

## 2. 단어 분리

In [114]:
train_data["단어분리"]= [i.split() for i in train_data["특수문자제거"]]
print(train_data["단어분리"][:2])

0            [아, 더빙, 진짜, 짜증나네요, 목소리]
1    [흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]
Name: 단어분리, dtype: object


## 3. 불용어제거

In [115]:
def remove_stopword(sent):
    stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','을','으로','자','에','와','한','이', '로', '에서', '하는', '하면', '하고', '요', '혹시', '합니다', '감사합니다', '안녕하세요']
    removed = [word for word in sent if not word in stopwords] # 불용어 제거
    return removed

In [116]:
train_data["불용어제거"] = [remove_stopword(i) for i in train_data["단어분리"]]
train_data["불용어제거"].head()

0                              [아, 더빙, 진짜, 짜증나네요, 목소리]
1                      [흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]
2                                  [너무재밓었다그래서보는것을추천한다]
3                     [교도소, 이야기구먼, 솔직히, 재미는, 없다평점, 조정]
4    [사이몬페그의, 익살스런, 연기가, 돋보였던, 영화스파이더맨에서, 늙어보이기만, 했...
Name: 불용어제거, dtype: object

## 4. 한글자 단어 제거

In [117]:
train_data["한글자제거"] = [[j for j in i if len(j) >=2 ] for i in train_data["불용어제거"]]
train_data["한글자제거"][:5]

0                                 [더빙, 진짜, 짜증나네요, 목소리]
1                      [흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]
2                                  [너무재밓었다그래서보는것을추천한다]
3                     [교도소, 이야기구먼, 솔직히, 재미는, 없다평점, 조정]
4    [사이몬페그의, 익살스런, 연기가, 돋보였던, 영화스파이더맨에서, 늙어보이기만, 했...
Name: 한글자제거, dtype: object

## 5. 문장 단어 개수 측정

In [118]:
cleansing_length =[len(i) for i in train_data["한글자제거"]]
train_data["cleansing_length"] = cleansing_length

In [119]:
train_data.cleansing_length.describe()

count    149995.000000
mean          6.995107
std           6.025118
min           0.000000
25%           3.000000
50%           5.000000
75%           9.000000
max          47.000000
Name: cleansing_length, dtype: float64

`-` 패딩을 위해 상한선 설정

In [120]:
max_length = train_data.cleansing_length.quantile(.9)
max_length

15.0

# 단어사전 만들기

## 단어 모으기

In [121]:
word_list  = [j for i in train_data["한글자제거"] for j in i]
word_list[:5]

['더빙', '진짜', '짜증나네요', '목소리', '흠포스터보고']

## 전체 단어 빈도 수

In [122]:
import collections

word_count = collections.Counter(word_list)
# word_count.most_common()

## 전체 단어 빈도수 및 합계 확인하기

In [123]:
word_frequency = word_count.values()
total_word = len(set(word_list))
total_frequency_sum = sum(word_count.values())

total_word, total_frequency_sum

(298569, 1049231)

## 회귀 단어 빈도수 및 합계 확인하기

In [124]:
rare_frequency = { i : j  for i,j in word_count.items() if j ==1}
rare_count = len(rare_frequency)
rare_frequency_sum = sum(rare_frequency.values())

rare_count, rare_frequency_sum

(230637, 230637)

In [125]:
rare_count_percent = rare_count/total_word
rare_frequency_percent = rare_frequency_sum/total_frequency_sum


print("클렌징 데이터의 전체 단어 수: ", total_word)
print("데이터 내 전체 희귀 단어수: ",  rare_count)
print("\n")
print("데이터의 전체 단어의 빈도 수 합: ",  total_frequency_sum )
print("데이터 내 전체 희귀 단어의 빈도 수 합: ",   rare_frequency_sum)
print("전체 단어에서 희귀 단어가 차지하는 비율: ",  rare_frequency_percent)

클렌징 데이터의 전체 단어 수:  298569
데이터 내 전체 희귀 단어수:  230637


데이터의 전체 단어의 빈도 수 합:  1049231
데이터 내 전체 희귀 단어의 빈도 수 합:  230637
전체 단어에서 희귀 단어가 차지하는 비율:  0.2198152742341772


## 단어사전 크기 정하기

In [126]:
vocab_size = total_word-rare_count
vocab_size

67932

## 단어사전 인덱스 생성(토큰화)

In [127]:
tokenizer = Tokenizer(num_words = vocab_size)
tokenizer.fit_on_texts(train_data["한글자제거"])

train_data["토큰화"] = tokenizer.texts_to_sequences(train_data["한글자제거"])
train_data.head()

Unnamed: 0,id,document,label,특수문자제거,단어분리,불용어제거,한글자제거,cleansing_length,토큰화
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0,아 더빙 진짜 짜증나네요 목소리,"[아, 더빙, 진짜, 짜증나네요, 목소리]","[아, 더빙, 진짜, 짜증나네요, 목소리]","[더빙, 진짜, 짜증나네요, 목소리]",4,"[816, 4, 6472, 983]"
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,"[흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]","[흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]","[흠포스터보고, 초딩영화줄오버연기조차, 가볍지, 않구나]",4,"[67876, 67877, 6473, 40413]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,너무재밓었다그래서보는것을추천한다,[너무재밓었다그래서보는것을추천한다],[너무재밓었다그래서보는것을추천한다],[너무재밓었다그래서보는것을추천한다],1,[67878]
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0,교도소 이야기구먼 솔직히 재미는 없다평점 조정,"[교도소, 이야기구먼, 솔직히, 재미는, 없다평점, 조정]","[교도소, 이야기구먼, 솔직히, 재미는, 없다평점, 조정]","[교도소, 이야기구먼, 솔직히, 재미는, 없다평점, 조정]",6,"[23198, 67879, 48, 304, 67880, 9568]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,"[사이몬페그의, 익살스런, 연기가, 돋보였던, 영화스파이더맨에서, 늙어보이기만, 했...","[사이몬페그의, 익살스런, 연기가, 돋보였던, 영화스파이더맨에서, 늙어보이기만, 했...","[사이몬페그의, 익살스런, 연기가, 돋보였던, 영화스파이더맨에서, 늙어보이기만, 했...",11,"[67881, 40414, 75, 4839, 67882, 67883, 735, 23..."


# 모델 생성

## input 데이터 준비

In [128]:
import tensorflow as tf

In [129]:
y = train_data["label"]
x =  tf.keras.utils.pad_sequences(train_data["토큰화"], maxlen = int(max_length))
x

array([[    0,     0,     0, ...,     4,  6472,   983],
       [    0,     0,     0, ..., 67877,  6473, 40413],
       [    0,     0,     0, ...,     0,     0, 67878],
       ...,
       [    0,     0,     0, ..., 21725, 38791, 23154],
       [    0,     0,     0, ..., 30887, 66417, 13093],
       [    0,     0,     0, ...,   104,  1877,     1]], dtype=int32)

In [130]:
from sklearn.model_selection import train_test_split

x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = 0.3, random_state = 2023)

## 모델 설계 1. transformer

In [131]:
embedding_dim = 100
hidden_unit = 128

In [132]:
import tensorflow as tf

X = tf.keras.Input(shape=[int(max_length)])

H = tf.keras.layers.Embedding(vocab_size, embedding_dim)(X)
H = tf.keras.layers.SimpleRNN(hidden_unit, return_sequences=True)(H)

# Transformer::self-attentions
H1 = tf.keras.layers.MultiHeadAttention(2, 16)(H, H)
H = tf.keras.layers.BatchNormalization()(H + H1)

# Transformer::feed-forward
H1 = tf.keras.layers.Dense(hidden_unit, activation='swish')(H)
H = tf.keras.layers.BatchNormalization()(H + H1)

H = tf.keras.layers.GlobalAveragePooling1D()(H)
Y = tf.keras.layers.Dense(1, activation="sigmoid")(H)

model = tf.keras.Model(X, Y)
model.compile(loss="binary_crossentropy", metrics="accuracy", optimizer = "adam")

#model.summary()

In [133]:
h1 = model.fit(x_train, y_train, epochs=10, batch_size=128, validation_split=0.2).history

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [134]:
pred1 = model.predict(x_val)



In [136]:
pred1 = np.where(pred1>0.5, 1, 0)

In [137]:
from sklearn.metrics import *

print(classification_report(y_val,pred1))

              precision    recall  f1-score   support

           0       0.80      0.74      0.77     22538
           1       0.75      0.81      0.78     22461

    accuracy                           0.77     44999
   macro avg       0.78      0.78      0.77     44999
weighted avg       0.78      0.77      0.77     44999



## 모델 설계2. lstm

In [139]:
from tensorflow.keras.layers import *
from tensorflow.keras.models import *
from tensorflow.keras.callbacks import *

embedding_dim = 100
hidden_units = 128

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(LSTM(hidden_unit))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss="binary_crossentropy", metrics="accuracy", optimizer = "adam")

In [140]:
h2 = model.fit(x_train, y_train, epochs=10, batch_size=128, validation_split=0.2).history

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [141]:
pred2 = np.where(model.predict(x_val)>0.5,1,0)



In [142]:
print(classification_report(y_val,pred2))

              precision    recall  f1-score   support

           0       0.79      0.75      0.77     22538
           1       0.76      0.80      0.78     22461

    accuracy                           0.77     44999
   macro avg       0.77      0.77      0.77     44999
weighted avg       0.77      0.77      0.77     44999



## summary

두 모델의 성능차이가 그렇게 크지않음.. 그때그때 선택해서 하면 되겠당