# Tokenizer

- [tokenizer - hugging face](https://huggingface.co/docs/transformers/main_classes/tokenizer)
- [日本語トークナイザの違いは下流タスク性能に影響を与えるか](https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/Q6-1.pdf)
  - 実験の結果、形態素解析器ありの方がなしよりも、全タスクの性能の平均値において 2.0 ポイント向上することが確認されたが、形態素解析器の違いや単語分かち書き辞書の違いによる性能の向上は見られなかった。
  - また、サブワード分割手法にWordPiece を用いた場合、BPE および Unigram と比較して、性能が 1.0 ポイント低下することが確認された。
  - 最後に、トークナイザ辞書の類似性が下流タスクの性能の差と相関があることを示した。

In [3]:
text = """吾輩は猫である。名前はまだない。

どこで生れたか頓と見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ち付いて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛を以て装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にも大分逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中が余りに突起している。そうしてその穴の中から時々ぷうぷうと烟を吹く。どうも咽せぽくて実に弱った。これが人間の飲む烟草というものである事は漸くこの頃知った。"""

In [9]:
from transformers import BertTokenizer, BertJapaneseTokenizer

tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-v3')
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:15])

330
['吾', '##輩', 'は', '猫', 'で', 'ある', '。', '名前', 'は', 'まだ', 'ない', '。', 'どこ', 'で', '生']


In [8]:

tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-large-japanese-v2')
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:])

330
['吾', '##輩', 'は', '猫', 'で', 'ある', '。', '名前', 'は', 'まだ', 'ない', '。', 'どこ', 'で', '生']


In [11]:
from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:])

627
['åĲ', '¾', 'è', '¼', '©', 'ãģ¯', 'ç', 'Į', '«', 'ãģ§', 'ãģĤ', 'ãĤĭ', 'ãĢĤ', 'åĲ', 'į', 'åī', 'į', 'ãģ¯', 'ãģ¾', 'ãģł', 'ãģª', 'ãģĦ', 'ãĢĤ', 'Ċ', 'Ċ', 'ãģ', '©', 'ãģĵ', 'ãģ§', 'çĶŁ', 'ãĤĮ', 'ãģŁ', 'ãģĭ', 'é', 'ł', 'ĵ', 'ãģ¨', 'è¦', 'ĭ', 'å½', 'ĵ', 'ãģĮ', 'ãģ', '¤', 'ãģĭ', 'ãģ', '¬', 'ãĢĤ', 'ä½', 'ķ', 'ãģ§', 'ãĤĤ', 'è', 'ĸ', 'Ħ', 'æ', 'ļ', 'Ĺ', 'ãģĦ', 'ãģ', 'ĺ', 'ãĤ', 'ģ', 'ãģ', 'ĺ', 'ãĤ', 'ģ', 'ãģĹ', 'ãģŁ', 'æī', 'Ģ', 'ãģ§', 'ãĥĭ', 'ãĥ£', 'ãĥ¼ãĥ', 'ĭ', 'ãĥ£', 'ãĥ¼', 'æ³', '£', 'ãģĦ', 'ãģ¦', 'ãģĦ', 'ãģŁ', 'äº', 'ĭ', 'ãģł', 'ãģ', 'ĳ', 'ãģ¯', 'è', '¨', 'ĺ', 'æ', 'Ĩ', '¶', 'ãģĹ', 'ãģ¦', 'ãģĦ', 'ãĤĭ', 'ãĢĤ', 'åĲ', '¾', 'è', '¼', '©', 'ãģ¯', 'ãģĵ', 'ãģĵ', 'ãģ§', 'å§', 'ĭ', 'ãĤ', 'ģ', 'ãģ¦', 'äºº', 'éĸ', 'ĵ', 'ãģ¨', 'ãģĦ', 'ãģĨ', 'ãĤĤ', 'ãģ®', 'ãĤĴ', 'è¦', 'ĭ', 'ãģŁ', 'ãĢĤ', 'ãģĹ', 'ãģĭ', 'ãĤĤ', 'ãģĤ', 'ãģ¨', 'ãģ§', 'è', 'ģ', 'ŀ', 'ãģı', 'ãģ¨', 'ãģ', 'Ŀ', 'ãĤĮ', 'ãģ¯', 'æ', 'Ľ', '¸', 'çĶŁ', 'ãģ¨', 'ãģĦ', 'ãģĨ', 'äºº', 'éĸ', 'ĵ', 'ä¸Ń', 'ãģ§', 'ä¸Ģ', 'çķ', 'ª', 'ç', 'į', '°', 'æ', 'Ĥª', 'ã

In [4]:
from transformers import T5Tokenizer, AutoModelForCausalLM

tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt-1b")
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:])

222
['▁', '吾', '輩', 'は', '猫', 'である', '。', '名前', 'はまだ', 'ない', '。', '▁', 'どこで', '生', 'れた', 'か', '頓', 'と見', '当', 'がつか', 'ぬ', '。', '何でも', '薄', '暗い', 'じめ', 'じめ', 'した', '所で', 'ニャ', 'ー', 'ニャ', 'ー', '泣', 'いていた', '事', 'だけは', '記憶', 'している', '。', '吾', '輩', 'は', 'ここで', '始めて', '人間', 'というもの', 'を見た', '。', 'しかも', 'あとで', '聞くと', 'それは', '書', '生', 'という', '人間', '中で', '一番', '獰', '悪な', '種族', 'であった', 'そうだ', '。', 'この', '書', '生', 'というのは', '時々', '我々', 'を捕', 'えて', '煮', 'て', '食', 'う', 'という話', 'である', '。', 'しかし', 'その', '当時は', '何', 'という', '考', 'もなかった', 'から', '別', '段', '恐', 'しい', 'とも思', 'わなかった', '。', 'ただ', '彼の', '掌', 'に', '載せ', 'られて', 'スー', 'と', '持ち', '上げられた', '時', '何だか', 'フ', 'ワ', 'フ', 'ワ', 'した', '感じ', 'があった', 'ばかり', 'である', '。', '掌', 'の上で', '少し', '落ち', '付いて', '書', '生の', '顔', 'を見た', 'のが', 'いわゆる', '人間', 'という', 'ものの', '見', '始', 'であろう', '。', 'この時', '妙', 'なもの', 'だと思った', '感じが', '今でも', '残っている', '。', '第一', '毛', 'を', '以て', '装飾', 'され', 'べき', 'はずの', '顔', 'がつ', 'る', 'つる', 'して', 'まるで', '薬', '缶', 'だ', '。', 'その後', '猫', 'にも', '大分', '

In [8]:
tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small")
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:])

245
['▁', '吾', '輩', 'は', '猫', 'である', '。', '名前', 'はまだ', 'ない', '。', '▁', 'どこ', 'で', '生', 'れた', 'か', '頓', 'と', '見', '当', 'が', 'つか', 'ぬ', '。', '何', 'でも', '薄', '暗', 'いじめ', 'じ', 'め', 'した', '所で', 'ニャー', 'ニャー', '泣', 'いていた', '事', 'だけは', '記憶', 'している', '。', '吾', '輩', 'は', 'ここで', '始め', 'て', '人間', 'というもの', 'を見た', '。', 'しかも', 'あと', 'で', '聞く', 'と', 'それは', '書', '生', 'という', '人間', '中で', '一番', '獰', '悪', 'な', '種族', 'であった', 'そう', 'だ', '。', 'この', '書', '生', 'というのは', '時々', '我々', 'を', '捕', 'えて', '煮', 'て', '食', 'う', 'という話', 'である', '。', 'しかし', 'その', '当時は', '何', 'という', '考', 'も', 'なかった', 'から', '別', '段', '恐', 'しい', 'とも', '思', 'わなかった', '。', 'ただ', '彼の', '掌', 'に', '載せ', 'られて', 'スー', 'と', '持ち上げ', 'られた', '時', '何', 'だ', 'か', 'フ', 'ワ', 'フ', 'ワ', 'した', '感じ', 'があった', 'ばかり', 'である', '。', '掌', 'の上で', '少し', '落ち', '付いて', '書', '生', 'の顔', 'を見た', 'の', 'が', 'いわゆる', '人間', 'というもの', 'の', '見', '始', 'であろう', '。', 'この時', '妙', 'な', 'ものだ', 'と思った', '感じ', 'が', '今でも', '残っている', '。', '第一', '毛', 'を以て', '装飾', 'され', 'べき', 'はずの', '顔', 'が', 'つる', 'つる'

In [None]:
tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium")
tokenized_text = tokenizer.tokenize(text)
print(len(tokenized_text))
print(tokenized_text[:])