<a href="https://colab.research.google.com/github/2pterons/NLP/blob/main/%EC%84%9C%EB%B8%8C%EC%9B%8C%EB%93%9C%ED%85%8D%EC%8A%A4%ED%8A%B8%EC%9D%B8%EC%BD%94%EB%8D%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IMDB 리뷰 토큰화 하기

SubwordTextEncoder는 텐서플로우를 통해 사용할 수 있는 서브워드 토크나이저입니다. BPE와 유사한 알고리즘인 Wordpiece Model을 채택하였으며, 패키지를 통해 쉽게 단어들을 서브워드들로 분리할 수 있습니다. SubwordTextEncoder를 통해서 IMDB 영화 리뷰 데이터와 네이버 영화 리뷰 데이터에 대해서 토큰화 작업을 수행해봅시다.

In [None]:
import tensorflow_datasets as tfds
import urllib.request
import pandas as pd

깃허브에서 IMDB 파일을 받아옵니다.
기본적으로 현재 디렉토리에 저장됩니다.

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv")

('IMDb_Reviews.csv', <http.client.HTTPMessage at 0x7f43850fb750>)

다운로드한 데이터를 데이터프레임에 저장

In [None]:
train_df = pd.read_csv('IMDb_Reviews.csv')

토큰화를 수행할 review 데이터 확인

In [None]:
train_df['review']

0        My family and I normally do not watch local mo...
1        Believe it or not, this was at one time the wo...
2        After some internet surfing, I found the "Home...
3        One of the most unheralded great works of anim...
4        It was the Sixties, and anyone with long hair ...
                               ...                        
49995    the people who came up with this are SICK AND ...
49996    The script is so so laughable... this in turn,...
49997    "So there's this bride, you see, and she gets ...
49998    Your mind will not be satisfied by this nobud...
49999    The chaser's war on everything is a weekly sho...
Name: review, Length: 50000, dtype: object

서브워드들로 이루어진 단어 집합(Vocabulary)를 생성하고, 각 서브워드에 고유한 정수를 부여

+ 텐서플로우 버전에 따라 코드가 다릅니다.
  Tensorflow 2.3+ 버전에서는 tfds.features.text 대신 tfds.deprecated.text라고 작성해야 합니다.

+ target_vocab_size 를 2**13으로 한 이유?
:너무 적으면 한 글자 단위로 쪼개지는 경향이 있고, 너무 많으면 쓸데없는 단어들이 만들어진다. 주로 3,2000이 가장 좋다고 알려져 있다.

In [None]:
'''  
  tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
    train_data['document'], target_vocab_size=2**13)
'''

In [None]:
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    train_df['review'], target_vocab_size=2**12)

.subwords를 통해서 토큰화 된 서브워드들을 확인

In [None]:
print(tokenizer.subwords[:100])

['the_', ', ', '. ', 'a_', 'and_', 's_', 'of_', 'to_', 'is_', 'br', 'in_', 'I_', 'that_', 'this_', 'it_', ' /><', ' />', 't_', 'was_', 'The_', 'as_', 'with_', 'for_', 'd_', 'on_', 'ing_', '.<', 'but_', 'y_', 'ed_', 'movie_', ' (', 'are_', 'e_', 'have_', 'his_', 'film_', 'not_', 'be_', ' "', 'you_', 'ly_', 'an_', 'it', 'at_', 'by_', 'one_', 'he_', 'who_', 'or_', 'from_', 'like_', '" ', 'all_', 'they_', 'so_', 'just_', ') ', 'has_', 'about_', 'her_', 'out_', 'This_', 'some_', 'film', 'movie', 'n_', 'very_', 'more_', 'It_', 'what_', 'would_', 'es_', 'when_', 'up_', 'if_', 'good_', 'my_', 'r_', 'which_', 'ing', 'their_', 'only_', '? ', 'even_', 'really_', 'can_', 'had_', 'er_', 'no_', 'ed', 'see_', 'were_', '! ', 've_', 'she_', 'than_', 'm_', 'ng_', 'on']


임의로 선택한 21번째 샘플을 출력해보고, 정수 인코딩을 수행한 결과와 비교

In [None]:
print(train_df['review'][20])

Pretty bad PRC cheapie which I rarely bother to watch over again, and it's no wonder -- it's slow and creaky and dull as a butter knife. Mad doctor George Zucco is at it again, turning a dimwitted farmhand in overalls (Glenn Strange) into a wolf-man. Unfortunately, the makeup is virtually non-existent, consisting only of a beard and dimestore fangs for the most part. If it were not for Zucco and Strange's presence, along with the cute Anne Nagel, this would be completely unwatchable. Strange, who would go on to play Frankenstein's monster for Unuiversal in two years, does a Lenny impression from "Of Mice and Men", it seems.<br /><br />*1/2 (of Four)


In [None]:
print('Tokenized sample question: {}'.format(tokenizer.encode(train_df['review'][20])))

Tokenized sample question: [1584, 2349, 3853, 143, 3901, 3903, 2353, 2863, 562, 34, 80, 12, 2628, 42, 2500, 3853, 8, 178, 192, 553, 2, 5, 44, 3860, 6, 90, 2560, 861, 44, 3860, 6, 2667, 5, 3224, 2248, 5, 2084, 3853, 21, 4, 741, 427, 1549, 736, 3922, 3, 2694, 3853, 3235, 3853, 2445, 3911, 821, 314, 3853, 9, 45, 15, 553, 2, 2825, 26, 4, 3052, 942, 265, 1145, 3930, 2973, 11, 285, 199, 3936, 32, 2608, 275, 67, 1191, 2127, 58, 106, 4, 2056, 1556, 3866, 190, 3, 2155, 2, 1, 2658, 75, 9, 1604, 488, 324, 718, 3866, 3190, 358, 2, 543, 1072, 26, 83, 7, 4, 3722, 24, 5, 3052, 506, 1996, 3853, 1051, 2371, 23, 1, 118, 575, 3, 173, 15, 93, 38, 23, 3911, 821, 314, 3853, 5, 1191, 2127, 3860, 6, 952, 1953, 2, 934, 22, 1, 2953, 3853, 1585, 34, 789, 368, 3929, 2, 14, 72, 39, 710, 310, 597, 738, 3, 1191, 2127, 2, 49, 72, 216, 25, 8, 677, 2104, 1290, 292, 138, 3860, 6, 1734, 3853, 23, 1186, 3938, 621, 474, 107, 11, 159, 1349, 2, 180, 4, 338, 2845, 3853, 1610, 25, 2412, 40, 1130, 2378, 34, 5, 304, 3931, 350, 1

임의로 선택한 짧은 문장에 대해서 정수 인코딩 결과를 확인하고, 이를 다시 역으로 디코딩

In [None]:
# train_df에 존재하는 문장 중 일부를 발췌
sample_string = "It's mind-blowing to me that this film was even made."

# 인코딩한 결과를 tokenized_string에 저장
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# 이를 다시 디코딩
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

정수 인코딩 후의 문장 [146, 3860, 6, 1020, 3866, 2599, 26, 8, 103, 13, 14, 37, 19, 85, 1222, 3867]
기존 문장: It's mind-blowing to me that this film was even made.


In [None]:
print('단어 집합의 크기(Vocab size) :', tokenizer.vocab_size)

단어 집합의 크기(Vocab size) : 4077


디코딩 결과를 병렬적으로 나열하여 각 단어와 맵핑된 정수를 확인

In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

146 ----> It
3860 ----> '
6 ----> s 
1020 ----> mind
3866 ----> -
2599 ----> blow
26 ----> ing 
8 ----> to 
103 ----> me 
13 ----> that 
14 ----> this 
37 ----> film 
19 ----> was 
2098 ----> eve
3931 ----> n
3941 ----> x
3942 ----> y
1565 ----> z 
1222 ----> made
3867 ----> .


In [None]:
# 앞서 실습한 문장에 even 뒤에 임의로 xyz 추가
sample_string = "It's mind-blowing to me that this film was evenxyz made."

# 인코딩한 결과를 tokenized_string에 저장
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# 이를 다시 디코딩
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

정수 인코딩 후의 문장 [146, 3860, 6, 1020, 3866, 2599, 26, 8, 103, 13, 14, 37, 19, 2098, 3931, 3941, 3942, 1565, 1222, 3867]
기존 문장: It's mind-blowing to me that this film was evenxyz made.


evenxyz에서 even을 독립적으로 분리하고 xyz는 훈련 데이터에서 하나의 단어로서 등장한 적이 없으므로 각각 전부 분리

하지만 vocab size를 줄인 결과 eve, n 으로 분리


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

146 ----> It
3860 ----> '
6 ----> s 
1020 ----> mind
3866 ----> -
2599 ----> blow
26 ----> ing 
8 ----> to 
103 ----> me 
13 ----> that 
14 ----> this 
37 ----> film 
19 ----> was 
2098 ----> eve
3931 ----> n
3941 ----> x
3942 ----> y
1565 ----> z 
1222 ----> made
3867 ----> .


In [None]:
import tensorflow_datasets as tfds
import urllib.request

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")

('ratings_train.txt', <http.client.HTTPMessage at 0x7f437b4fb3d0>)

다운로드한 데이터를 데이터프레임에 저장

In [None]:
train_data = pd.read_table('ratings_train.txt')

이 데이터에는 Null 값이 존재하므로 제거해 줘야 함.


In [None]:
print(train_data.isnull().sum())

id          0
document    5
label       0
dtype: int64


In [None]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

False


서브워드들로 이루어진 단어 집합(Vocabulary)를 생성하고, 각 서브워드에 고유한 정수를 부여합니다.

In [None]:
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    train_data['document'], target_vocab_size=2**14)

토큰화 된 100개 서브워드 출력

In [None]:
print(tokenizer.subwords[:100])

['. ', '..', '영화', '...', '이_', ', ', '의_', '는_', '도_', '다', '.. ', '을_', '고_', '너무_', '정말_', '은_', '가_', '에_', '영화_', '... ', '진짜_', '한_', '를_', '게_', '? ', '다_', '만_', '고', '과_', '지', '....', '요', '로_', '서_', '지_', '그냥_', '더_', '수_', '이런_', '왜_', '으로_', '이', '보고_', '와_', '아', '좀_', '! ', '가', '영화를_', '나_', '하는_', 'ㅋㅋ', '음', '잘_', '나', '면_', '영화는_', '본_', '영화가_', '그_', '!!', '네', '도', '하고_', '없는_', '에서_', '네요', '어', '최고의_', 'ㅋ', '있는_', '한', '내가_', '없다', '는', '드라마', '이건_', '지만_', '봤는데_', '보다_', '라', '기', '완전_', '서', '이렇게_', '듯', '그리고_', '평점_', '만', '내_', '자', '할_', '최고', '이거_', '아_', '좋은_', '~ ', '이게_', '의', '오']


In [None]:
print('Tokenized sample question: {}'.format(tokenizer.encode(train_data['document'][20])))

Tokenized sample question: [480, 14709, 1535, 9, 71, 86, 1, 36, 3909, 5, 5154, 29, 16173, 296, 57, 551, 878]


In [None]:
sample_string = train_data['document'][21]

# 인코딩한 결과를 tokenized_string에 저장
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# 이를 다시 디코딩
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

정수 인코딩 후의 문장 [407, 9934, 16351, 412, 133, 9260, 214]
기존 문장: 보면서 웃지 않는 건 불가능하다


In [None]:
sample_string = '이 영화 굉장히 재밌다 킄핫핫ㅎ'

# 인코딩한 결과를 tokenized_string에 저장
tokenized_string = tokenizer.encode(sample_string)
print ('정수 인코딩 후의 문장 {}'.format(tokenized_string))

# 이를 다시 디코딩
original_string = tokenizer.decode(tokenized_string)
print ('기존 문장: {}'.format(original_string))

정수 인코딩 후의 문장 [5, 19, 951, 1546, 16556, 16449, 16451, 7721, 7721, 280]
기존 문장: 이 영화 굉장히 재밌다 킄핫핫ㅎ


In [None]:
for ts in tokenized_string:
  print ('{} ----> {}'.format(ts, tokenizer.decode([ts])))

5 ----> 이 
19 ----> 영화 
951 ----> 굉장히 
1546 ----> 재밌다 
16556 ----> �
16449 ----> �
16451 ----> �
7721 ----> 핫
7721 ----> 핫
280 ----> ㅎ


vocab size? 
: vocab size를 크게하면 많이 쓰이지 않는 단어도 사전에 들어가게 된다.
 킄 이나 핫 같은 단어도 분석 대상으로 들어간다.
 그렇다면 데이터 크기가 크면 vocab size를 크게하고 작으면 vocab size를 작게 만들어 주는게 좋은 걸까?
