# IMDB리뷰 tensorflow의 subwordTextEncoder로 토큰화

In [1]:
import tensorflow_datasets as tfds
import urllib.request
import pandas as pd

In [2]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv")

('IMDb_Reviews.csv', <http.client.HTTPMessage at 0x7f5550975250>)

In [3]:
train_df = pd.read_csv('IMDb_Reviews.csv')

In [4]:
train_df["review"]

0        My family and I normally do not watch local mo...
1        Believe it or not, this was at one time the wo...
2        After some internet surfing, I found the "Home...
3        One of the most unheralded great works of anim...
4        It was the Sixties, and anyone with long hair ...
                               ...                        
49995    the people who came up with this are SICK AND ...
49996    The script is so so laughable... this in turn,...
49997    "So there's this bride, you see, and she gets ...
49998    Your mind will not be satisfied by this nobud...
49999    The chaser's war on everything is a weekly sho...
Name: review, Length: 50000, dtype: object

In [5]:
# train_df에서 sentiment 컬럼만 출력하기
train_df["sentiment"]

0        1
1        0
2        0
3        1
4        0
        ..
49995    0
49996    0
49997    0
49998    0
49999    1
Name: sentiment, Length: 50000, dtype: int64

In [6]:
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(train_df["review"], target_vocab_size=2**13)

In [10]:
# q1 tokenizer의 subword를 100까지 출력하세요.
tokenizer.subwords[0:100]

['the_',
 ', ',
 '. ',
 'a_',
 'and_',
 'of_',
 'to_',
 's_',
 'is_',
 'br',
 'in_',
 'I_',
 'that_',
 'this_',
 'it_',
 ' /><',
 ' />',
 'was_',
 'The_',
 't_',
 'as_',
 'with_',
 'for_',
 '.<',
 'on_',
 'but_',
 'movie_',
 'are_',
 ' (',
 'have_',
 'his_',
 'film_',
 'not_',
 'be_',
 'you_',
 'ing_',
 ' "',
 'ed_',
 'it',
 'd_',
 'an_',
 'at_',
 'by_',
 'he_',
 'one_',
 'who_',
 'from_',
 'y_',
 'or_',
 'e_',
 'like_',
 'all_',
 '" ',
 'they_',
 'so_',
 'just_',
 'has_',
 ') ',
 'about_',
 'her_',
 'out_',
 'This_',
 'some_',
 'movie',
 'ly_',
 'film',
 'very_',
 'more_',
 'It_',
 'what_',
 'would_',
 'when_',
 'if_',
 'good_',
 'up_',
 'which_',
 'their_',
 'only_',
 'even_',
 'my_',
 'really_',
 'had_',
 'can_',
 'no_',
 'were_',
 'see_',
 '? ',
 'she_',
 'than_',
 '! ',
 'there_',
 'been_',
 'get_',
 'into_',
 'will_',
 ' - ',
 'much_',
 'n_',
 'because_',
 'ing']

In [8]:
# q2 train_df의 "review" 컬럼에서 20번째 문장을 출력하세요.
train_df["review"].iloc[19]

"The SF premise isn't unique (although it pretty much was back then), but the focus is a completely different one than in other artificial reality films. Especially during the first part it is an elaborate crime picture, that uses the SF premise to tell an unusual crime story in which the forced detective tries to solve a mystery with the obstacle of vanishing characters and unhelpful witnesses who don't have to lie to be unhelpful. Instead of an unreliable narrator we have an unreliable world.<br /><br />In part two we follow the main character's struggle for sanity and it turns more into a psychological examination of a character in an extreme situation. He knows his very existence is nothing more than electrical impulses, how does he deal with this knowledge? He knows that there is a world that is more real than his, but he is trapped in an artificial world, a world where nobody can understand him. The problem of thinking of knowing something essential about the world that nobody el

In [None]:
# tokenizer.encode를 활용하여 train_df_의 20번째 문장을 텍스트 -> 숫자로 바꾸세요.
tokenizer.encode(train_df["review"].iloc[19])

# 샘플 문장으로 인코딩 디코딩 해보기

In [23]:
# 리뷰 데이터가 아닌 샘플 문장으로 인코딩하고 디코딩
sample_string = "It's mind-blowing to me that this film was even made"

# q1) 인코딩해서 저장
# h1) 변수명.encode
tokenized_string = tokenizer.encode(sample_string)
print("정수 인코딩 후의 문장 {}".format(tokenized_string))

# q2) 디코딩해서 저장
# h2) 변수명.decode
original_string = tokenizer.decode(tokenized_string)
print("기존 문장 : {}".format(original_string))

# q3) vocab_size 구하기
# h3) 변수명.vocab_size
print("단어 집합의 크기(vocab size) :", tokenizer.vocab_size)

정수 인코딩 후의 문장 [137, 8051, 8, 910, 8057, 2169, 36, 7, 103, 13, 14, 32, 18, 79, 681]
기존 문장 : It's mind-blowing to me that this film was even made
단어 집합의 크기(vocab size) : 8268


In [25]:
for ts in tokenized_string:
  print("{} --> {}".format(ts, tokenizer.decode([ts])))

137 --> It
8051 --> '
8 --> s 
910 --> mind
8057 --> -
2169 --> blow
36 --> ing 
7 --> to 
103 --> me 
13 --> that 
14 --> this 
32 --> film 
18 --> was 
79 --> even 
681 --> made


#2. 샘플 문장으로 인코딩 디코딩해보기

In [27]:
# 리뷰데이터가 아닌 샘플 문장으로 인코딩하고 디코딩
sample_string = "It's mind-blowing to me that this film was evenxyz made"

tokenized_string = tokenizer.encode(sample_string)
print("정수 인코딩 후의 문장 {}".format(tokenized_string))

original_string = tokenizer.decode(tokenized_string)
print("기존 문장 : {}".format(original_string))

for ts in tokenized_string:
  print("{} --> {}".format(ts, tokenizer.decode([ts])))

정수 인코딩 후의 문장 [137, 8051, 8, 910, 8057, 2169, 36, 7, 103, 13, 14, 32, 18, 7974, 8132, 8133, 997, 681]
기존 문장 : It's mind-blowing to me that this film was evenxyz made
137 --> It
8051 --> '
8 --> s 
910 --> mind
8057 --> -
2169 --> blow
36 --> ing 
7 --> to 
103 --> me 
13 --> that 
14 --> this 
32 --> film 
18 --> was 
7974 --> even
8132 --> x
8133 --> y
997 --> z 
681 --> made


네이버 영화리뷰로 서브워드 토크나이저

In [28]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7f554c8a9b10>)

In [35]:
# train_data의 상위 5개를 출력
train_data = pd.read_table("ratings_train.txt")
test_data = pd.read_table("ratings_test.txt")
train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [38]:
# null값이 존재하는지 확인
print(train_data.isnull().values.any())

True


In [40]:
# null값이 존재하는 행 제거
train_data = train_data.dropna(how = "any")

In [41]:
# null 값이 존재하는지 확인
print(train_data.isnull().values.any())

False


In [42]:
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(train_data['document'], target_vocab_size=2**13)

In [44]:
# Quiz 1) 토크나이저의 subwords를 100까지 출력
print(tokenizer.subwords[0:100])

['. ', '..', '영화', '이_', '...', '의_', '는_', '도_', '다', ', ', '을_', '고_', '은_', '가_', '에_', '.. ', '한_', '너무_', '정말_', '를_', '고', '게_', '영화_', '지', '... ', '진짜_', '이', '다_', '요', '만_', '? ', '과_', '나', '가', '서_', '지_', '로_', '으로_', '아', '어', '....', '음', '한', '수_', '와_', '도', '네', '그냥_', '나_', '더_', '왜_', '이런_', '면_', '기', '하고_', '보고_', '하는_', '서', '좀_', '리', '자', '스', '안', '! ', '에서_', '영화를_', '미', 'ㅋㅋ', '네요', '시', '주', '라', '는', '오', '없는_', '에', '해', '사', '!!', '영화는_', '마', '잘_', '수', '영화가_', '만', '본_', '로', '그_', '지만_', '대', '은', '비', '의', '일', '개', '있는_', '없다', '함', '구', '하']


In [62]:
# Quiz2) 21번째 문장 인코딩
print(tokenizer.encode(train_data["document"].iloc[20]))

[146, 26, 219, 1554, 16, 3149, 3438, 8030, 272, 1317, 1713, 8030, 955, 4385, 893, 2887, 523, 3, 1, 81, 513, 2810, 3244, 410, 436, 110, 3930, 8030, 493, 79]


In [70]:
# Quiz3) 21번째 문장
sample_string = train_data["document"].iloc[20]

# Quiz4) encode
tokenized_string = tokenizer.encode(sample_string)
print("정수 인코딩 후의 문장 {}".format(tokenized_string))

# Quiz5) decode
original_string = tokenizer.decode(tokenized_string)
print("기존 문장 : {}".format(original_string))

정수 인코딩 후의 문장 [27, 8235, 8148, 8142, 2, 139, 695, 8088, 229, 6828, 8030, 771, 574, 8044, 451, 18, 234, 739, 47, 8124]
기존 문장 : 이햐..전격Z작전도 있었구나.ㅋㅋㅋ 너무 반갑네~


In [64]:
for ts in tokenized_string:
    print('{} ----> {}'.format(ts, tokenizer.decode([ts])))

146 ----> 난 
26 ----> 진짜 
219 ----> 재밌게 
1554 ----> 봤음
16 ----> .. 
3149 ----> 나에게 
3438 ----> 샘
8030 ---->  
272 ----> 워
1317 ----> 싱
1713 ----> 턴
8030 ---->  
955 ----> 이라는 
4385 ----> 배우를 
893 ----> 처음 
2887 ----> 알려
523 ----> 준 
3 ----> 영화
1 ----> . 
81 ----> 마
513 ----> 커
2810 ----> 스가 
3244 ----> 존 
410 ----> 코
436 ----> 너
110 ----> 보다 
3930 ----> 카리스마
8030 ---->  
493 ----> 대박
79 ----> !!


In [65]:
sample_string = '이 영화 굉장히 재밌다 킄핫핫ㅎ'

# encode
tokenized_string = tokenizer.encode(sample_string)
print("정수 인코딩 {}".format(tokenized_string))

original_string = tokenizer.decode(tokenized_string)
print("기존 문장 {}".format(original_string))

assert original_string == sample_string

정수 인코딩 [4, 23, 1364, 2157, 8235, 8128, 8130, 8235, 8147, 8169, 8235, 8147, 8169, 393]
기존 문장 이 영화 굉장히 재밌다 킄핫핫ㅎ


In [267]:
import numpy as np
# np.random.seed(1)
r = np.random.randint(len(train_data))

# Quiz2) 21번째 문장 인코딩
print(tokenizer.encode(train_data["document"].iloc[r]))
# Quiz3) 21번째 문장
sample_string = train_data["document"].iloc[r]

# Quiz4) encode
tokenized_string = tokenizer.encode(sample_string)
print("정수 인코딩 후의 문장 {}".format(tokenized_string))

# Quiz5) decode
original_string = tokenizer.decode(tokenized_string)
print("기존 문장 : {}".format(original_string))

[74, 64, 4672, 770, 3421, 201]
정수 인코딩 후의 문장 [74, 64, 4672, 770, 3421, 201]
기존 문장 : 오! 기대이상!!! 특이하다
