---
# Sentencepiece : NSMC 데이터로 tokenizer 구성해보기
: https://github.com/google/sentencepiece  

내부 단어 분리를 위한 유용한 패키지: 구글의 센텐스피스(Sentencepiece)
- 이 때는 하루에 너무 많은 패키지를 사용해서 휙휙 지나갔는데, 음성인식에서 한번 더 만났다
- 정말 유명한 패키지인가보다
- 자연어 처리는 다소 간단했으나, 음성인식때는 꽤 고생했다
- tokenizing을 하는게 쉽지 않았는데 sentencepiece는 이렇게나 간단하다니......
- 그래도 재미있었다 !
- ---

In [1]:
! pip install sentencepiece

Defaulting to user installation because normal site-packages is not writeable
Collecting sentencepiece
  Obtaining dependency information for sentencepiece from https://files.pythonhosted.org/packages/a2/f6/587c62fd21fc988555b85351f50bbde43a51524caafd63bc69240ded14fd/sentencepiece-0.2.0-cp311-cp311-win_amd64.whl.metadata
  Downloading sentencepiece-0.2.0-cp311-cp311-win_amd64.whl.metadata (8.3 kB)
Downloading sentencepiece-0.2.0-cp311-cp311-win_amd64.whl (991 kB)
   ---------------------------------------- 0.0/991.5 kB ? eta -:--:--
   ---------------------------------------- 10.2/991.5 kB ? eta -:--:--
   --- ------------------------------------ 92.2/991.5 kB 1.7 MB/s eta 0:00:01
   --------------------------------------- 991.5/991.5 kB 10.4 MB/s eta 0:00:00
Installing collected packages: sentencepiece
Successfully installed sentencepiece-0.2.0


In [2]:
import pandas as pd
import sentencepiece as spm
import csv

In [11]:
# 데이터 읽어오기 : ratings_train.txt
naver_df = pd.read_table('./data/ratings_train.txt')

In [16]:
# Null 값 제거 / 확인
print(naver_df['document'].isnull().sum())
naver_df = naver_df.dropna(how='any')
print(naver_df.isnull().values.any())

0
False


In [None]:
# 최종적으로 전처리된 텍스트를 'naver_review.txt'에 저장 (문장 \n 구분)
with open('./data/naver_review.txt', 'w', encoding='utf-8') as f:
    f.write('\n'.join(naver_df['document']))
f.close()

In [None]:
# 학습하기: 2개 파일 생성 .vocab (subword), .model
spm.SentencePieceTrainer.Train('--input=./data/naver_review.txt --model_prefix=naver --vocab_size=5000 --model_type=bpe --max_sentence_lengh = 9999')

In [17]:
# vocab 파일 확인해보기
vocab_list = pd.read_csv('./data/naver.vocab', sep='\t', header=None, quoting=csv.QUOTE_NONE)
vocab_list.sample(10)

Unnamed: 0,0,1
734,치는,-731
4701,낰,-4698
4190,탑,-4187
4714,힝,-4711
272,▁초,-269
3438,람,-3435
1333,▁잘봤,-1330
1077,▁더빙,-1074
2287,해주는,-2284
2370,▁좋았는데,-2367


In [18]:
# 모델 로드
sp = spm.SentencePieceProcessor()
sp.load('./data/naver.model')

True

In [20]:
# 모델을 통해 tokenizing
lines = [
    "집에 가고 싶다",
    "하지만 오늘은 즐거운 금요일",
    "흐엉엉....",
    "이럴수가.... 이렇게 간단하게 할 수 있다니"
]

for line in lines:
    print(line)
    print(sp.encode_as_pieces(line))
    print(sp.encode_as_ids(line))
    print()

집에 가고 싶다
['▁집', '에', '▁가', '고', '▁싶다']
[467, 3301, 46, 3293, 763]

하지만 오늘은 즐거운 금요일
['▁하지만', '▁오늘', '은', '▁즐거', '운', '▁금', '요', '일']
[509, 960, 3310, 1566, 3405, 1715, 3318, 3379]

흐엉엉....
['▁흐', '엉', '엉', '....']
[953, 3731, 3731, 30]

이럴수가.... 이렇게 간단하게 할 수 있다니
['▁이', '럴', '수가', '....', '▁이렇게', '▁간', '단', '하게', '▁할', '▁수', '▁있다', '니']
[6, 3954, 622, 30, 249, 486, 3477, 104, 218, 60, 449, 3319]



In [21]:
# 모델로 voca size 확인하기
sp.GetPieceSize()

5000

In [24]:
# id to subword
sp.IdToPiece(4444)

'듦'

In [26]:
# subword to id
print(sp.PieceToId('▁흐')) # 언더바 아님!
print(sp.PieceToId('_흐'))

953
0


In [27]:
# ids to subwords
sp.DecodeIds([509, 960, 3310, 1566, 3405, 1715, 3318, 3379])

'하지만 오늘은 즐거운 금요일'

In [29]:
# subwords to 원형
sp.DecodePieces(['▁이', '럴', '수가', '....', '▁이렇게', '▁간', '단', '하게', '▁할', '▁수', '▁있다', '니'])

'이럴수가.... 이렇게 간단하게 할 수 있다니'

In [30]:
# encode 메소드 중 out_type 인자를 통해: subwords, ids로 변환
print(sp.Encode("집에 가고 싶다...zzzzzzzㅋㅋㅋㅋ", out_type=str))
print(sp.Encode("집에 가고 싶다...zzzzzzzㅋㅋㅋㅋ", out_type=int))

['▁집', '에', '▁가', '고', '▁싶다', '...', 'z', 'z', 'z', 'z', 'z', 'z', 'z', 'ᄏᄏᄏᄏ']
[467, 3301, 46, 3293, 763, 8, 4138, 4138, 4138, 4138, 4138, 4138, 4138, 71]
