In [None]:
---
title : "04. 네이버 영화 리뷰 분류"
author : "gc"
date : "01/24/23"
categories : [python]
---

# 데이터 로드

In [1]:
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [49]:
train_data = pd.read_table('ratings_train.txt')
test_data = pd.read_table('ratings_test.txt')

In [50]:
print(train_data.sample(n  = 1500).label.value_counts())
print(test_data.sample(n = 500).label.value_counts())

label
0    752
1    748
Name: count, dtype: int64
label
1    255
0    245
Name: count, dtype: int64


In [51]:
train_data = train_data.sample(n  = 1500).reset_index(drop = True)
test_data = test_data.sample(n = 500).reset_index(drop = True)

In [52]:
train_data.head()

Unnamed: 0,id,document,label
0,9926134,결말이 너무 허무하다....,0
1,6001771,뭐라고 해야하지.. 영화가 답답하고 따로노니까 구경꾼 된 느낌,0
2,8765562,보지않으면 후회합니다 :-),1
3,10079684,어떤 내용인지 지금은 기억도 안나지만 10년전 내가 초딩일때 진짜 이거보고 한 며칠...,1
4,9114000,황진이 탈세 좋아욧 내가하는건 착한 탈세라고욧,0


# 데이터 전처리

## 1. 특수문자 제거

In [58]:
removal_list =  "‘, ’, ◇, ‘, ”,  ’, ', ·, \“, ·, △, ●,  , ■, (, ), \", >>, `, /, #, ∼, =,ㆍ<,>, .,?, !,【,】, …, ◆,%, ₩"
def remove_special(sentence: str = None):

    sentence = re.sub("[.,\'\"’‘”“!?]", "", sentence)
    sentence = re.sub("[^ㄱ-ㅎ가-힣a-zA-Z\\s]", " ", sentence)
    sentence = re.sub("\s+", " ", sentence)
    sentence = sentence.translate(str.maketrans(removal_list, ' '*len(removal_list)))
    sentence = sentence.strip()
    sentence = sentence.replace('\n', ' ')

    return sentence

In [59]:
train_data["특수문자제거"] = [remove_special(i) for i in train_data["document"]]

0                         결말이 너무 허무하다
1    뭐라고 해야하지 영화가 답답하고 따로노니까 구경꾼 된 느낌
2                         보지않으면 후회합니다
Name: 특수문자제거, dtype: object

## 2. 단어 분리

In [61]:
train_data["단어분리"]= [i.split() for i in train_data["특수문자제거"]]
print(train_data["단어분리"][:2])

0                              [결말이, 너무, 허무하다]
1    [뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 된, 느낌]
Name: 단어분리, dtype: object


## 3. 불용어제거

In [62]:
def remove_stopword(sent):
    stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','을','으로','자','에','와','한','이', '로', '에서', '하는', '하면', '하고', '요', '혹시', '합니다', '감사합니다', '안녕하세요']
    removed = [word for word in sent if not word in stopwords] # 불용어 제거
    return removed

In [63]:
train_data["불용어제거"] = [remove_stopword(i) for i in train_data["단어분리"]]
train_data["불용어제거"].head()

0                                      [결말이, 너무, 허무하다]
1            [뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 된, 느낌]
2                                       [보지않으면, 후회합니다]
3    [어떤, 내용인지, 지금은, 기억도, 안나지만, 년전, 내가, 초딩일때, 진짜, 이...
4                     [황진이, 탈세, 좋아욧, 내가하는건, 착한, 탈세라고욧]
Name: 불용어제거, dtype: object

## 4. 한글자 단어 제거

In [64]:
train_data["한글자제거"] = [[j for j in i if len(j) >=2 ] for i in train_data["불용어제거"]]
train_data["한글자제거"][:5]

0                                      [결말이, 너무, 허무하다]
1               [뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 느낌]
2                                       [보지않으면, 후회합니다]
3    [어떤, 내용인지, 지금은, 기억도, 안나지만, 년전, 내가, 초딩일때, 진짜, 이...
4                     [황진이, 탈세, 좋아욧, 내가하는건, 착한, 탈세라고욧]
Name: 한글자제거, dtype: object

## 5. 문장 단어 개수 측정

In [67]:
cleansing_length =[len(i) for i in train_data["한글자제거"]]
train_data["cleansing_length"] = cleansing_length

In [69]:
train_data.cleansing_length.describe()

count    1500.000000
mean        6.940000
std         6.013139
min         0.000000
25%         3.000000
50%         5.000000
75%         8.000000
max        33.000000
Name: cleansing_length, dtype: float64

`-` 패딩을 위해 상한선 설정

In [None]:
max_length = train_df.cleansing_length.quantile(.9)
max_length

# 단어사전 만들기

## 단어 모으기

In [71]:
word_list  = [j for i in train_data["한글자제거"] for j in i]
word_list[:5]

['결말이', '너무', '허무하다', '뭐라고', '해야하지']

## 전체 단어 빈도 수

In [73]:
import collections

word_count = collections.Counter(word_list)
# word_count.most_common()

## 전체 단어 빈도수 및 합계 확인하기

In [74]:
word_frequency = word_count.values()
total_word = len(set(word_list))
total_frequency_sum = sum(word_count.values())

total_word, total_frequency_sum

(7125, 10410)

## 회귀 단어 빈도수 및 합계 확인하기

In [76]:
rare_frequency = { i : j  for i,j in word_count.items() if j ==1}
rare_count = len(rare_frequency)
rare_frequency_sum = sum(rare_frequency.values())

rare_count, rare_frequency_sum

(6063, 6063)

In [77]:
rare_count_percent = rare_count/total_word
rare_frequency_percent = rare_frequency_sum/total_frequency_sum


print("클렌징 데이터의 전체 단어 수: ", total_word)
print("데이터 내 전체 희귀 단어수: ",  rare_count)
print("\n")
print("데이터의 전체 단어의 빈도 수 합: ",  total_frequency_sum )
print("데이터 내 전체 희귀 단어의 빈도 수 합: ",   rare_frequency_sum)
print("전체 단어에서 희귀 단어가 차지하는 비율: ",  rare_frequency_percent)

클렌징 데이터의 전체 단어 수:  7125
데이터 내 전체 희귀 단어수:  6063


데이터의 전체 단어의 빈도 수 합:  10410
데이터 내 전체 희귀 단어의 빈도 수 합:  6063
전체 단어에서 희귀 단어가 차지하는 비율:  0.5824207492795389


## 단어사전 크기 정하기

In [78]:
vocab_size = total_word-rare_count
vocab_size

1062

## 단어사전 인덱스 생성(토큰화)

In [83]:
tokenizer = Tokenizer(num_words = vocab_size)
tokenizer.fit_on_texts(train_data["한글자제거"])

train_data["토큰화"] = tokenizer.texts_to_sequences(train_data["한글자제거"])
train_data.head()

Unnamed: 0,id,document,label,특수문자제거,단어분리,불용어제거,한글자제거,cleansing_length,토큰화
0,9926134,결말이 너무 허무하다....,0,결말이 너무 허무하다,"[결말이, 너무, 허무하다]","[결말이, 너무, 허무하다]","[결말이, 너무, 허무하다]",3,"[301, 2]"
1,6001771,뭐라고 해야하지.. 영화가 답답하고 따로노니까 구경꾼 된 느낌,0,뭐라고 해야하지 영화가 답답하고 따로노니까 구경꾼 된 느낌,"[뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 된, 느낌]","[뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 된, 느낌]","[뭐라고, 해야하지, 영화가, 답답하고, 따로노니까, 구경꾼, 느낌]",7,"[12, 514, 149]"
2,8765562,보지않으면 후회합니다 :-),1,보지않으면 후회합니다,"[보지않으면, 후회합니다]","[보지않으면, 후회합니다]","[보지않으면, 후회합니다]",2,[515]
3,10079684,어떤 내용인지 지금은 기억도 안나지만 10년전 내가 초딩일때 진짜 이거보고 한 며칠...,1,어떤 내용인지 지금은 기억도 안나지만 년전 내가 초딩일때 진짜 이거보고 한 며칠간 ...,"[어떤, 내용인지, 지금은, 기억도, 안나지만, 년전, 내가, 초딩일때, 진짜, 이...","[어떤, 내용인지, 지금은, 기억도, 안나지만, 년전, 내가, 초딩일때, 진짜, 이...","[어떤, 내용인지, 지금은, 기억도, 안나지만, 년전, 내가, 초딩일때, 진짜, 이...",23,"[150, 302, 303, 13, 4, 516, 151, 207, 208, 4]"
4,9114000,황진이 탈세 좋아욧 내가하는건 착한 탈세라고욧,0,황진이 탈세 좋아욧 내가하는건 착한 탈세라고욧,"[황진이, 탈세, 좋아욧, 내가하는건, 착한, 탈세라고욧]","[황진이, 탈세, 좋아욧, 내가하는건, 착한, 탈세라고욧]","[황진이, 탈세, 좋아욧, 내가하는건, 착한, 탈세라고욧]",6,[]


# 모델 생성

In [None]:
y_train = train_data["label"]
x_train = x_data = tf.keras.utils.pad_sequences(train_df["토큰화"], maxlen = int(max_length))
x_data  