In [4]:
from tokenizers import (
    decoders,
    models,
    normalizers,
    pre_tokenizers,
    processors,
    trainers,
    Tokenizer,
)
import json

In [5]:
tokenizer = Tokenizer(models.WordPiece(unk_token="[UNK]"))

In [6]:
tokenizer.normalizer = normalizers.Sequence(
    [normalizers.Lowercase(), normalizers.StripAccents()]
)

In [7]:
tokenizer.normalizer.normalize_str('Türkiye çok güzel bir ülke.')

'türkiye çok güzel bir ülke.'

In [8]:
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()

In [9]:
tokenizer.pre_tokenizer.pre_tokenize_str("Türkiye çok güzel bir ülke.")

[('Türkiye', (0, 7)),
 ('çok', (8, 11)),
 ('güzel', (12, 17)),
 ('bir', (18, 21)),
 ('ülke', (22, 26)),
 ('.', (26, 27))]

In [10]:
special_tokens = ["[PAD]", "[UNK]"]
v5 = 18812
v3 = 24323
v1=39275
trainer = trainers.WordPieceTrainer(vocab_size=v1, special_tokens=special_tokens)

In [11]:
tokenizer.model = models.WordPiece(unk_token="[UNK]")
tokenizer.train(["data/ms_coco_tokenizer_train_corpus.txt"], trainer=trainer)






In [12]:
tokenizer.save("data/wordpiece_tokenizer_1.json")

####  Wrapper

In [90]:
from transformers import PreTrainedTokenizerFast

wrapped_tokenizer = PreTrainedTokenizerFast(
    tokenizer_object=tokenizer,
    tokenizer_file="tokenizer.json",
    unk_token="[UNK]",
    pad_token="[PAD]",
)

In [92]:
wrapped_tokenizer.tokenize('Türkiyede çok güzel bir ülke.')

['türkiye', '##de', 'çok', 'güzel', 'bir', 'ülke', '.']

In [96]:
wrapped_tokenizer.batch_encode_plus()

{'input_ids': [[29662, 216], [9002, 132, 121, 8731, 1375]], 'token_type_ids': [[0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1], [1, 1, 1, 1, 1]]}

In [99]:
wrapped_tokenizer.batch_encode_plus(['thisis ', 'wowo his is '], padding='max_length', max_length=16, 
                            truncation=True, add_special_tokens=True)['input_ids']

[[29662, 216, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [9002, 132, 121, 8731, 1375, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [93]:
wrapped_tokenizer.encode('Türkiyede çok güzel bir ülke.', padding='max_length', max_length=30, truncation=True,
                           add_special_tokens=False)

[9420,
 190,
 502,
 996,
 179,
 4413,
 14,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0]

In [109]:
 tokenizer = PreTrainedTokenizerFast(
    tokenizer_file="data/wordpiece_tokenizer.json",
    unk_token="[UNK]",
    pad_token="[PAD]",
)


In [110]:
tokenizer.decode(tokenizer.encode('turkye cok guzel'))

'turkye cok guzel'

In [113]:
rev = {val:key for key, val in tokenizer.vocab.items()}

In [114]:
rev[0]

'[PAD]'

In [117]:
rev[23]

'7'

In [119]:
tokenizer.vocab['.']

14

In [121]:
i = [179, 633,  12, 633, 197, 633, 334, 179, 431,  14,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0]

In [122]:
tokenizer.decode(i)

'bir lavabo, lavabo ve lavabo bulunan bir banyo. [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]'