# train_sentencepiece

正規化したスレッドタイトルからsentencepieceを学習する。

|パラメータ名|内容|
|:--|:--|
| `MAX_VOCAB` | ボキャブラリサイズ |

## 入力ファイル

* `normalized_titles.txt`

## 出力ファイル

* `sentencepiece.model`: sentencepieceのモデルファイル
* `sentencepiece.vocab`: sentencepieceの語彙ファイル

In [1]:
import pickle
import sentencepiece as spm

In [2]:
MAX_VOCAB=20000

In [3]:
# 入力ファイルの正規化に用いたnormalizerをロード
with open("normalizer.pickle", "rb") as f:
    normalizer = pickle.load(f)

In [4]:
# normalizerのspecial_tokenをuser_defined_symbolsとして学習する
special_token_set = set(list(normalizer.special_token_map.values()) + list(normalizer.special_token_regex_map.values()))
user_defined_symbols = ','.join(list(special_token_set))
user_defined_symbols

'<kenmoukun>,<nakigenjumin>,<kusa>,<pojihamekun>,<genjumin>,<kao1>,<nanjmin>,<nikojmin>,<nakijmin>'

In [5]:
options = [
    "--input=normalized_titles.txt",
    "--model_prefix=sentencepiece",
    f"--vocab_size={MAX_VOCAB}",
    f"--user_defined_symbols={user_defined_symbols}",
    "--pad_id=0",
    "--unk_id=3",
    "--bos_id=1",
    "--eos_id=2",
    "--add_dummy_prefix=false"
]
spm.SentencePieceTrainer.train(" ".join(options))

In [6]:
# 学習したsentencepieceをロード
sp = spm.SentencePieceProcessor()
sp.load('sentencepiece.model')

True

In [7]:
# 動作確認
text = "彡(゚)(゚)「円周率は3ｗｗｗ」ワイ「🤔」 [無断転載禁止]©2ch.net"
normalized = normalizer.normalize(text)
print(sp.encode_as_pieces(normalized))
print(sp.encode_as_ids(normalized))

['<nanjmin>', '「', '円周率', 'は', '3', '<kusa>', '」', 'ワイ', '「', '🤔', '」']
[10, 14, 18592, 26, 42, 6, 17, 23, 14, 2828, 17]
