In [20]:
import wget
import pandas as pd
import sentencepiece as spm

In [10]:
data = pd.read_csv("./Datasets/IMDb/imdb.zip")

In [11]:
data.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",0
1,Not sure who was more lost - the flat characte...,0
2,Attempting artiness with black & white and cle...,0
3,Very little music or anything to speak of.,0
4,The best scene in the movie was when Gerardo i...,1


In [18]:
with open("./review.txt", "w", encoding="utf8") as f:
    f.write("\n".join(data["review"]))

In [19]:
sp.SentencePieceTrainer.Train("--input=review.txt --model_prefix=imdb --vocab_size=1000")

- `input` : 학습시킬 파일
- `model_prefix` : 만들어질 모델 이름
- `vocab_size` : 단어 집합의 크기
- `model_type` : 사용할 모델 (unigram(default), bpe, char, word)
- `max_sentence_length`: 문장의 최대 길이
- `pad_id`, `pad_piece`: pad token id, 값
- `unk_id`, `unk_piece`: unknown token id, 값
- `bos_id`, `bos_piece`: begin of sentence token id, 값
- `eos_id`, `eos_piece`: end of sequence token id, 값
- `user_defined_symbols`: 사용자 정의 토큰

In [None]:
tokens = pd.read_csv("imdb.vocab", sep="\t", header=None, quoting=csv.QUOTE_NONE)

In [None]:
tokens.sample(10)

Unnamed: 0,0,1
52,an,-5.77179
143,se,-6.69717
130,▁some,-6.59937
508,ial,-8.14767
302,ies,-7.46211
16,a,-4.47403
280,O,-7.35558
299,▁pro,-7.45394
15,e,-4.47045
56,▁you,-5.85125


In [None]:
spp = sp.SentencePieceProcessor()
spp.load("imdb.model")

True

In [None]:
text = df.loc[0, "review"]
print(text)
print(spp.encode_as_pieces(text))

A very, very, very slow-moving, aimless movie about a distressed, drifting young man.
['▁A', '▁very', ',', '▁very', ',', '▁very', '▁slow', '-', 'moving', ',', '▁a', 'im', 'less', '▁movie', '▁about', '▁a', '▁dist', 're', 's', 's', 'ed', ',', '▁dri', 'ft', 'ing', '▁you', 'ng', '▁man', '.']


### 3-2. 네이버 영화 리뷰

In [None]:
# wget https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt

In [None]:
ratings_df = pd.read_table("ratings.txt")
ratings_df = ratings_df.dropna(subset=["document"])

In [None]:
ratings_df[:5]

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
with open("naver_review.txt", "w", encoding="utf8") as f:
    f.write("\n".join(ratings_df["document"]))

입력이 반드시 txt 파일이어야 하므로 txt 파일에 저장해줍니다.

In [None]:
sp.SentencePieceTrainer.Train("--input=naver_review.txt --model_prefix=naver --vocab_size=5000 --model_type=bpe")

- `.model`, `.vocab` 파일 두개가 생성 됩니다.  
- `.vocab` 에서 학습된 subwords를 확인할 수 있습니다.

In [None]:
subws = pd.read_csv("naver.vocab", sep="\t", header=None, quoting=csv.QUOTE_NONE)

In [None]:
subws.sample(10)

Unnamed: 0,0,1
4165,톤,-4162
3403,공,-3400
939,부분,-936
646,▁어디,-643
707,▁천,-704
2688,원이,-2685
3998,엘,-3995
1918,▁좋았어요,-1915
527,스터,-524
181,▁눈,-178


In [None]:
spp = sp.SentencePieceProcessor()
spp.load("naver.model")

True

In [None]:
print(spp.DecodePieces(['▁뭐', '▁이딴', '▁것도', '▁영화냐', '.']))
print(spp.IdToPiece(4))
print(spp.PieceToId("영화"))
print(spp.DecodeIds([54, 200, 821, 85]))

뭐 이딴 것도 영화냐.
영화
4
진짜 최고의 영화입니다 ᄏᄏ


enable_sampling=True 일 때 Drop-out이 적용되며 alpha=0.1은 10% 확률로 dropout 한다는 의미이다.

In [None]:
for _ in range(5):
    print(spp.encode("진짜 최고의 영화입니다 ㅋㅋ", out_type=str, enable_sampling=True, alpha=0.5, nbest_size=-1))

['▁', '진', '짜', '▁최고의', '▁', '영화', '입니다', '▁', 'ᄏ', 'ᄏ']
['▁진짜', '▁', '최', '고', '의', '▁', '영화', '입', '니', '다', '▁', 'ᄏ', 'ᄏ']
['▁', '진짜', '▁', '최고', '의', '▁', '영화', '입', '니', '다', '▁ᄏᄏ']
['▁진', '짜', '▁', '최', '고', '의', '▁영화', '입니다', '▁', 'ᄏ', 'ᄏ']
['▁진짜', '▁', '최', '고', '의', '▁영화입니다', '▁', 'ᄏ', 'ᄏ']


In [None]:
print(spp.encode("진짜 최고의 영화입니다 ㅋㅋ", out_type=str))
print(spp.encode("진짜 최고의 영화입니다 ㅋㅋ", out_type=int))

['▁진짜', '▁최고의', '▁영화입니다', '▁ᄏᄏ']
[54, 200, 821, 85]
