In [None]:
import pandas as pd

in_file = "kowiki/kowiki_20210822.csv"
out_file = "kowiki/kowiki.txt"
SEPARATOR = u"\u241D"
df = pd.read_csv(in_file, sep=SEPARATOR, engine="python", error_bad_lines=False)

with open(out_file, "w") as f:
  for index, row in df.iterrows():
    try:
      f.write(row["text"]) # title 과 text를 중복 되므로 text만 저장 함
      f.write("\n\n\n\n") # 구분자
    except:
      continue

In [None]:
import sentencepiece as spm

corpus = "kowiki/kowiki.txt"
prefix = "kowiki"
vocab_size = 8000
spm.SentencePieceTrainer.train(
    f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size + 7}" + 
    " --model_type=bpe" +
    " --max_sentence_length=999999" + # 문장 최대 길이
    " --pad_id=0 --pad_piece=[PAD]" + # pad (0)
    " --unk_id=1 --unk_piece=[UNK]" + # unknown (1)
    " --bos_id=2 --bos_piece=[BOS]" + # begin of sequence (2)
    " --eos_id=3 --eos_piece=[EOS]" + # end of sequence (3)
    " --user_defined_symbols=[SEP],[CLS],[MASK]") # 사용자 정의 토큰

In [None]:
import sentencepiece as spm

vocab_file = "kowiki.model"
vocab = spm.SentencePieceProcessor()
vocab.load(vocab_file)

lines = [
  "가서일은 어느 나라에 화가일까요.",
  "이번 성탄절은 화이트 크리스마스가 될까요?",
  "겨울에 감기 조심하시고 행복한 연말 되세요."
]
for line in lines:
  pieces = vocab.encode_as_pieces(line)
  ids = vocab.encode_as_ids(line)
  print(line)
  print(pieces)
  print(ids)
  print()

In [46]:
special_tokens = ['<s>', '</s>', '<usr>', '<pad>', '<sys>', '<unk>']

for i in range(98):
    unk = '<unused' + (str)(i) + '>'
    special_tokens.append(unk)

In [45]:
print(special_tokens)

['<s>', '</s>', '<usr>', '<pad>', '<sys>', '<unk>', '<unused0>', '<unused1>', '<unused2>', '<unused3>', '<unused4>', '<unused5>', '<unused6>', '<unused7>', '<unused8>', '<unused9>', '<unused10>', '<unused11>', '<unused12>', '<unused13>', '<unused14>', '<unused15>', '<unused16>', '<unused17>', '<unused18>', '<unused19>', '<unused20>', '<unused21>', '<unused22>', '<unused23>', '<unused24>', '<unused25>', '<unused26>', '<unused27>', '<unused28>', '<unused29>', '<unused30>', '<unused31>', '<unused32>', '<unused33>', '<unused34>', '<unused35>', '<unused36>', '<unused37>', '<unused38>', '<unused39>', '<unused40>', '<unused41>', '<unused42>', '<unused43>', '<unused44>', '<unused45>', '<unused46>', '<unused47>', '<unused48>', '<unused49>', '<unused50>', '<unused51>', '<unused52>', '<unused53>', '<unused54>', '<unused55>', '<unused56>', '<unused57>', '<unused58>', '<unused59>', '<unused60>', '<unused61>', '<unused62>', '<unused63>', '<unused64>', '<unused65>', '<unused66>', '<unused67>', '<unus

In [47]:
from tokenizers import SentencePieceBPETokenizer

corpus = "kowiki/kowiki.txt"

sentencepiece_tokenizer = SentencePieceBPETokenizer(
    add_prefix_space = False,
    replacement = '▁'
)
sentencepiece_tokenizer.train(
    files = [corpus],
    vocab_size = 40000,
    min_frequency = 1,
    special_tokens = special_tokens,
)






In [48]:
vocab = sentencepiece_tokenizer.get_vocab()
sorted(vocab, key=lambda x: vocab[x])

['<s>',
 '</s>',
 '<usr>',
 '<pad>',
 '<sys>',
 '<unk>',
 '<unused0>',
 '<unused1>',
 '<unused2>',
 '<unused3>',
 '<unused4>',
 '<unused5>',
 '<unused6>',
 '<unused7>',
 '<unused8>',
 '<unused9>',
 '<unused10>',
 '<unused11>',
 '<unused12>',
 '<unused13>',
 '<unused14>',
 '<unused15>',
 '<unused16>',
 '<unused17>',
 '<unused18>',
 '<unused19>',
 '<unused20>',
 '<unused21>',
 '<unused22>',
 '<unused23>',
 '<unused24>',
 '<unused25>',
 '<unused26>',
 '<unused27>',
 '<unused28>',
 '<unused29>',
 '<unused30>',
 '<unused31>',
 '<unused32>',
 '<unused33>',
 '<unused34>',
 '<unused35>',
 '<unused36>',
 '<unused37>',
 '<unused38>',
 '<unused39>',
 '<unused40>',
 '<unused41>',
 '<unused42>',
 '<unused43>',
 '<unused44>',
 '<unused45>',
 '<unused46>',
 '<unused47>',
 '<unused48>',
 '<unused49>',
 '<unused50>',
 '<unused51>',
 '<unused52>',
 '<unused53>',
 '<unused54>',
 '<unused55>',
 '<unused56>',
 '<unused57>',
 '<unused58>',
 '<unused59>',
 '<unused60>',
 '<unused61>',
 '<unused62>',
 '<unuse

In [49]:
sentencepiece_tokenizer.save_model('sentencepieceBPE/', 'test_sentencepiece')
# ['sentencepieceBPE/test_sentencepiece-vocab.json',
#  'sentencepieceBPE/test_sentencepiece-merges.txt']

['sentencepieceBPE/test_sentencepiece-vocab.json',
 'sentencepieceBPE/test_sentencepiece-merges.txt']

In [53]:
tokenizer = SentencePieceBPETokenizer.from_file(
        vocab_filename="sentencepieceBPE/test_sentencepiece-vocab.json", merges_filename="sentencepieceBPE/test_sentencepiece-merges.txt", add_prefix_space=False
    )

Exception: Error while initializing BPE: Token `` out of vocabulary

In [50]:
file = open("sentencepieceBPE/test_sentencepiece-merges.txt", 'r',  encoding="UTF-8")
lines = file.readlines()
file.close()

In [51]:
file = open("sentencepieceBPE/test_sentencepiece-merges.txt", 'w')
for idx, data in enumerate(lines):
    if not lines[idx].isspace():
        file.write(data)
file.close()