## 내부 단어 분리를 위한 패키지 SentencePiece

* BPE 알고리즘과 Unigram Language Model Tokenizer를 이용한 센텐스피스

In [None]:
! pip install sentencepiece

In [None]:
import sentencepiece as spm
import pandas as pd
import urllib.request
import csv

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv")

In [None]:
train_df = pd.read_csv("IMDb_Reviews.csv")
train_df['review']

In [None]:
with open('imdb_review.txt', 'w', encoding = 'utf8') as f:
    f.write('\n'.join(train_df['review']))

#### 각 Train 메소드 input Argument

* input : 학습시킬 파일
* model_prefix : 만들어질 모델 이름
* vocab_size : 단어 집합의 크기
* model_type : 사용할 모델 (unigram(default), bpe, char, word)
* max_sentence_length: 문장의 최대 길이
* pad_id, pad_piece: pad token id, 값
* unk_id, unk_piece: unknown token id, 값
* bos_id, bos_piece: begin of sentence token id, 값
* eos_id, eos_piece: end of sequence token id, 값
* user_defined_symbols: 사용자 정의 토큰

#### 학습 완료 이후 완성 파일

* imdb.model
* imdb.vocab 

In [None]:
spm.SentencePieceTrainer.Train('--input=imdb_review.txt --model_prefix=imdb --vocab_size=5000 --model_type=bpe --max_sentence_length=9999')

In [None]:
vocab_list = pd.read_csv('imdb.vocab', sep='\t', header=None, quoting=csv.QUOTE_NONE)
vocab_list.sample(10)

In [None]:
len(vocab_list)


In [None]:
sp = spm.SentencePieceProcessor()
vocab_file = "imdb.model"
sp.load(vocab_file)

In [None]:
lines = [
  "I didn't at all think of it this way.",
  "I have waited a long time for someone to film"
]

In [None]:
for line in lines:
  print(line)
  print(sp.encode_as_pieces(line))
  print(sp.encode_as_ids(line))
  print()

## 네이버 영화 리뷰 데이터를 이용한 예제 케이스 추가

In [None]:
import pandas as pd
import sentencepiece as spm
import urllib.request
import csv

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

In [None]:
naver_df = pd.read_table('ratings.txt')
naver_df[:5]

In [None]:
print('리뷰 개수 :',len(naver_df)) # 리뷰 개수 출력

In [None]:
print(naver_df.isnull().values.any())

In [None]:
naver_df = naver_df.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(naver_df.isnull().values.any()) # Null 값이 존재하는지 확인

In [None]:
print('리뷰 개수 :',len(naver_df)) # 리뷰 개수 출력

In [None]:
with open('naver_review.txt', 'w', encoding = 'utf8') as f:
    f.write('\n'.join(naver_df['document']))

In [None]:
with open('naver_review.txt', 'r', encoding = 'utf8') as f:
    for line in f.readlines():
        print(line)

In [None]:
spm.SentencePieceTrainer.Train('--input=naver_review.txt --model_prefix=naver --vocab_size=5000 --model_type=bpe --max_sentence_length=9999')

In [None]:
vocab_list = pd.read_csv('naver.vocab', sep = '\t', header = None, quoting = csv.QUOTE_NONE)
vocab_list[:10]

In [None]:
len(vocab_list)

In [None]:
sp = spm.SentencePieceProcessor()
vocab_file = 'naver.model'
sp.load(vocab_file)

In [None]:
lines = [
  "뭐 이딴 것도 영화냐.",
  "진짜 최고의 영화예유 ㅋㅋ",
]

for line in lines:
  print(line)
  print(sp.encode_as_pieces(line))
  print(sp.encode_as_ids(line))
  print()

In [None]:
sp.DecodeIds([54, 200, 821, 85])


In [None]:
print(sp.encode('진짜 최고의 영화입니다 ㅋㅋ', out_type=str))
print(sp.encode('진짜 최고의 영화입니다 ㅋㅋ', out_type=int))