In [1]:
!pip install sentencepiece



## IMDM 리뷰 토큰화

In [2]:
import sentencepiece as spm
import pandas as pd
import urllib.request
import csv

In [3]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv")

('IMDb_Reviews.csv', <http.client.HTTPMessage at 0x2cdf715fe08>)

In [6]:
train_df = pd.read_csv('IMDb_Reviews.csv')
train_df['review'].head()

0    My family and I normally do not watch local mo...
1    Believe it or not, this was at one time the wo...
2    After some internet surfing, I found the "Home...
3    One of the most unheralded great works of anim...
4    It was the Sixties, and anyone with long hair ...
Name: review, dtype: object

In [7]:
print('리뷰 개수 :',len(train_df)) # 리뷰 개수 출력

리뷰 개수 : 50000


In [8]:
## 센텐스피스의 입력으로 사용하기 위해 txt파일로 저장
with open('imdb_review.txt', 'w', encoding='utf8') as f:
    f.write('\n'.join(train_df['review']))

In [9]:
spm.SentencePieceTrainer.Train('--input=imdb_review.txt --model_prefix=imdb --vocab_size=5000 --model_type=bpe --max_sentence_length=9999')

In [10]:
vocab_list = pd.read_csv('imdb.vocab', sep='\t', header=None, quoting=csv.QUOTE_NONE)
vocab_list.sample(10)

Unnamed: 0,0,1
959,▁poor,-956
137,ers,-134
4128,▁shocking,-4125
3549,▁charm,-3546
3954,▁zombies,-3951
1444,▁relations,-1441
164,very,-161
3455,▁utterly,-3452
1548,▁deal,-1545
3043,▁Jane,-3040


In [11]:
len(vocab_list)

5000

In [12]:
#model 파일을 로드하여 단어 시퀀스를 정수 시퀀스로 바꾸는 인코딩 작업이나 반대로 변환하는 디코딩 작업을 할 수 있습니다.
sp = spm.SentencePieceProcessor()
vocab_file = "imdb.model"
sp.load(vocab_file)

True

In [13]:
lines = [
  "I didn't at all think of it this way.",
  "I have waited a long time for someone to film"
]
for line in lines:
  print(line)
  print(sp.encode_as_pieces(line))
  print(sp.encode_as_ids(line))
  print()

I didn't at all think of it this way.
['▁I', '▁didn', "'", 't', '▁at', '▁all', '▁think', '▁of', '▁it', '▁this', '▁way', '.']
[41, 623, 4950, 4926, 138, 169, 378, 30, 58, 73, 413, 4945]

I have waited a long time for someone to film
['▁I', '▁have', '▁wa', 'ited', '▁a', '▁long', '▁time', '▁for', '▁someone', '▁to', '▁film']
[41, 141, 1364, 1120, 4, 666, 285, 92, 1078, 33, 91]



- idToPiece : 정수로부터 맵핑되는 서브 워드로 변환합니다.
- PieceToId : 서브워드로부터 맵핑되는 정수로 변환합니다.
- GetPieceSize() : 단어 집합의 크기를 확인합니다.
- DecodeIds : 정수 시퀀스로부터 문장으로 변환합니다.
- DecodePieces : 서브워드 시퀀스로부터 문장으로 변환합니다.

In [14]:
sp.GetPieceSize()

5000

## 네이버 영화 리뷰 토큰화