# Sentence Piece

아마 여러분들은 네이버 영화리뷰 감정분석 태스크를 한 번쯤은 다루어 보았을 것입니다. 한국어로 된 corpus를 다루어야 하므로 주로 KoNLPy에서 제공하는 형태소 분석기를 사용하여 텍스트를 전처리해서 RNN 모델을 분류기로 사용했을 것입니다.

만약 이 문제에서 tokenizer를 sentencepiece로 바꾸어 다시 풀어본다면 더 성능이 좋아질까요? 비교해 보는 것도 흥미로울 것입니다.

    네이버 영화리뷰 감정분석 코퍼스에 sentencepiece를 적용시킨 모델 학습하기

    학습된 모델로 sp_tokenize() 메소드 구현하기

    구현된 토크나이저를 적용하여 네이버 영화리뷰 감정분석 모델을 재학습하기

    KoNLPy 형태소 분석기를 사용한 모델과 성능 비교하기

    (보너스) SentencePiece 모델의 model_type, vocab_size 등을 변경해 가면서 성능 개선 여부 확인하기

    Word Vector는 활용할 필요가 없습니다. 활용이 가능하지도 않을 것입니다.

    머지않아 SentencePiece와 BERT 등의 pretrained 모델을 함께 활용하는 태스크를 다루게 될 것입니다.


# 데이터 불러오기

In [1]:
import pandas as pd
import urllib.request
%matplotlib inline
import matplotlib.pyplot as plt
import re
from konlpy.tag import Okt
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
import numpy as np
from tensorflow.keras.preprocessing.sequence import pad_sequences
from collections import Counter
import konlpy

# 데이터를 읽어봅시다. 
train_data = pd.read_table('~/aiffel/sentencepiece/ratings_train.txt')
test_data = pd.read_table('~/aiffel/sentencepiece/ratings_test.txt')

train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [2]:
train_raw = train_data['document']

In [18]:
for i in train_raw:
    print(i)

았어야..4편은?
크리스토퍼리가 없는 드라큐라는 도저히 드라큐라라고 말할수 없다.
카드 뭐 였음?
상당히 재밌게 봤는데.
마크 월버그 주연의 영화는 소재는 나쁘지 않은데 뭔가 항상 부족함.
병맛.............
ㄱㄱㄱ개좋으뮤ㅠㅠ Yui
불체자 감싸주는.안산 편의점 망치로 네이버ㄱ이런사건이 주요사이트 메인에 안뜨다니
인터넷수능보고온사람 손ㅋㅋ
재밌게본드라마였지
둘다 옳고 둘다 틀렸다...
그런대로 봤어요.... 영상미 괜찮았어요
원작을 잘살리려는 의도는 이해한다만 이렇게까지 지루하게 만들어야했을까
일본 영화는 ㅉㅉ
엑소시스트는 반드시 잼 바른 토스트를 들고 다녀야...
마음속깊이남는영화, 오래동안기억될 로렌스애니웨이
시즌7이 악몽이 될수도 있었다는것을 처음으로 느끼게해준 철없는 '된장' 시나리오
인생과 사랑에 대한 이정표라할까. 가십거리 드라마가 아니라 정말 전하는바 많아요 주변에도 추천하고싶네요주연들도 빛나지만 조연들또한 다른 드라마와 다르게 더욱 빛이 나는드라마
재미없다..시간아깝다..
엣세이적 아름다운 영화네요~
내 지금껏 국내외 수많은 영화를 봐왔지만 실제 어린아기앞에서 담배피는 장면은 처음본다 그것도 두번씩이나.. 그아기는 고아인가? 아기의 주위사람들은 아무항의 없었나? 꼭 그럴필요까지있었는지 감독에게 묻고싶다.. 그것만빼면 좋은영화라 생각된다.
별생각없이 봤는데 보고나서 여운이 큰 영화
차분하니 좋은 영화네요... 우리네 인생 길이... 참 거시기 합니다!!!
일단 7년전 영화치고 너무 촌스럽다..한20년도 더 되어보임...그리고 귀신에 놀란게 아니라 같이 일하던애가 더 깜짝 ㅋㅋ내가 이걸 왜봤을까나,,,
ㅊㄹㅊㄹㅊㄹㅊㄹㅊㄹㅊㄹㅊㄹㅊㄹ
재미도없고 감동도없고 웬 일본새;끼들이나와
삼류영화 시간때우고싶은사람 보는영화
깨물어주고싶은 잉마르 ㅋㅋ 웃을때 너무 귀여워
말도안되는 스토리. 그나마 좀 이어맞출려고 과거이야기를 넣은거같은데... 억지스럽다. 포스터도 2명의 살인마가 서로 상호관계 또는 대립관계를 이어나갈것같으나 그냥 살인마한명이고 나머지는 주

In [3]:
min_len = 999
max_len = 0
sum_len = 0

for sen in train_raw:
    length = len(sen)
    if min_len > length:
        min_len = length
    if max_len < length:
        max_len = length
    sum_len += length


print("문장의 최단 길이:", min_len)
print("문장의 최장 길이:", max_len)
print("문장의 평균 길이:", sum_len // len(raw))

sentence_length = np.zeros((max_len), dtype=np.int)

for sen in train_raw:
    sentence_length[len(sen)-1] += 1

plt.bar(range(max_len), sentence_length, width=1.0)
plt.title("Sentence Length Distribution")
plt.show()

TypeError: object of type 'float' has no len()

In [15]:
for sen in train_raw:
    print(sen[1])

 
.
무
도
이
 
작
 
션
케
인
때
면
백
향
냥
 
바
건
탈
름
면
미
대
제
 
l
밀
밋
스
포
쓰
밌
%
직
션
이
허
스
 
순
다
게
말
제
점
얼
이
 
너
화
 
렇
또
미
 
고
무
심
봉
는
알
범
던
랑
은
전
남
밌
래
 
틀
작
밋
설
패
용
우
국
햏
냐
연
독
건
말
정
루
일
데
ㅋ
룡
때
기
전
상
내
미
라
짜
정
카
미
잔
독
섭
화
링
리
미
악
어
짜
직
박
청
용
스
용
재
대
국
냥
년
점
로
지
니
0
레
무
 
댓
주
화
몸
말
시
이
르
군
구
석
직
만
미
가
 
가
작
~
만


IndexError: string index out of range