# Check trained tokenizer

Check trained SentencePiece tokenizer.

In [1]:
import sys
sys.path.append("../src/")

In [2]:
import tokenization_sentencepiece as tokenization

In [3]:
text1 = "信じられているから走るのだ。間に合う、間に合わぬは問題でないのだ。"
text2 = "新たな時代のMarxよこれらの盲目な衝動から動く世界を素晴しく美しい構成に変へよ"

## `do_lower_case = True`  case (expected)

In [4]:
tokenizer = tokenization.FullTokenizer(
    model_file="../model/wiki-ja.model",
    vocab_file="../model/wiki-ja.vocab",
    do_lower_case=True)

Loaded a trained SentencePiece model.


In [5]:
tokenizer.tokenize(text1)

['▁',
 '信じられ',
 'ている',
 'から',
 '走る',
 'のだ',
 '。',
 '間に',
 '合う',
 '、',
 '間に合わ',
 'ぬ',
 'は',
 '問題',
 'でない',
 'のだ',
 '。']

In [6]:
tokenizer.convert_tokens_to_ids( tokenizer.tokenize(text1) )

[9,
 25435,
 68,
 28,
 8956,
 6312,
 8,
 3637,
 4277,
 7,
 23144,
 2777,
 11,
 451,
 4772,
 6312,
 8]

In [7]:
tokenizer.tokenize(text2)

['▁',
 '新たな',
 '時代の',
 'mar',
 'x',
 'よ',
 'これらの',
 '盲',
 '目',
 'な',
 '衝動',
 'から',
 '動く',
 '世界',
 'を',
 '素',
 '晴',
 'しく',
 '美しい',
 '構成',
 'に',
 '変',
 'へ',
 'よ']

In [8]:
tokenizer.convert_tokens_to_ids( tokenizer.tokenize(text2) )

[9,
 1379,
 1097,
 6459,
 282,
 842,
 1432,
 12428,
 303,
 57,
 30802,
 28,
 11612,
 301,
 18,
 1407,
 3606,
 3526,
 5797,
 1171,
 17,
 1987,
 90,
 842]

In [9]:
tokenizer.convert_ids_to_tokens( tokenizer.convert_tokens_to_ids( tokenizer.tokenize(text2) ) )

['▁',
 '新たな',
 '時代の',
 'mar',
 'x',
 'よ',
 'これらの',
 '盲',
 '目',
 'な',
 '衝動',
 'から',
 '動く',
 '世界',
 'を',
 '素',
 '晴',
 'しく',
 '美しい',
 '構成',
 'に',
 '変',
 'へ',
 'よ']

## `do_lower_case = False`  case (Unexpected)

Note that English uppercase characters are NOT converted into lowercase ones.

In [10]:
tokenizer = tokenization.FullTokenizer(
    model_file="../model/wiki-ja.model",
    vocab_file="../model/wiki-ja.vocab",
    do_lower_case=False)

Loaded a trained SentencePiece model.


In [11]:
tokenizer.tokenize(text1)

['▁',
 '信じられ',
 'ている',
 'から',
 '走る',
 'のだ',
 '。',
 '間に',
 '合う',
 '、',
 '間に合わ',
 'ぬ',
 'は',
 '問題',
 'でない',
 'のだ',
 '。']

In [13]:
tokenizer.tokenize(text2)

['▁',
 '新たな',
 '時代の',
 'M',
 'ar',
 'x',
 'よ',
 'これらの',
 '盲',
 '目',
 'な',
 '衝動',
 'から',
 '動く',
 '世界',
 'を',
 '素',
 '晴',
 'しく',
 '美しい',
 '構成',
 'に',
 '変',
 'へ',
 'よ']

In [14]:
tokenizer.convert_tokens_to_ids( tokenizer.tokenize(text2) )

[9,
 1379,
 1097,
 0,
 2381,
 282,
 842,
 1432,
 12428,
 303,
 57,
 30802,
 28,
 11612,
 301,
 18,
 1407,
 3606,
 3526,
 5797,
 1171,
 17,
 1987,
 90,
 842]

In [15]:
tokenizer.convert_ids_to_tokens( tokenizer.convert_tokens_to_ids( tokenizer.tokenize(text2) ) )

['▁',
 '新たな',
 '時代の',
 '<unk>',
 'ar',
 'x',
 'よ',
 'これらの',
 '盲',
 '目',
 'な',
 '衝動',
 'から',
 '動く',
 '世界',
 'を',
 '素',
 '晴',
 'しく',
 '美しい',
 '構成',
 'に',
 '変',
 'へ',
 'よ']