# Researching the construction and influence of different tokenizer pipeline nodes

In [1]:
from transformers import AutoTokenizer
from tokenizers import (
    decoders,
    models,
    normalizers,
    pre_tokenizers,
    processors,
    trainers,
    Tokenizer,
    Regex,
)

## Other Models

### HerBERT

In [2]:
tokenizer = AutoTokenizer.from_pretrained('allegro/herbert-base-cased')

In [3]:
tokenizer_obj = tokenizer._tokenizer

#### Normalizer

In [7]:
norm = tokenizer_obj.normalizer
print(norm)
print(dir(norm))
print(f'{norm.clean_text=}')
print(f'{norm.handle_chinese_chars=}')
print(f'{norm.strip_accents=}')
print(f'{norm.lowercase=}')

<tokenizers.normalizers.BertNormalizer object at 0x7f38778749f0>
['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', 'clean_text', 'custom', 'handle_chinese_chars', 'lowercase', 'normalize', 'normalize_str', 'strip_accents']
norm.clean_text=True
norm.handle_chinese_chars=True
norm.strip_accents=False
norm.lowercase=False


#### PreTokenizer

In [30]:
pre_tokenizer = tokenizer_obj.pre_tokenizer
print(pre_tokenizer)
print(dir(pre_tokenizer))

<tokenizers.pre_tokenizers.BertPreTokenizer object at 0x7f3878559db0>
['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', 'custom', 'pre_tokenize', 'pre_tokenize_str']


#### Model

In [38]:
model = tokenizer_obj.model
print(model)
print(dir(model))
print(f'{model.continuing_subword_prefix=}')
print(f'{model.dropout=}')
print(f'{model.end_of_word_suffix=}')
print(f'{model.fuse_unk=}')
print(f'{model.unk_token=}')

<tokenizers.models.BPE object at 0x7f38789b3cd0>
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', 'continuing_subword_prefix', 'dropout', 'end_of_word_suffix', 'from_file', 'fuse_unk', 'get_trainer', 'id_to_token', 'read_file', 'save', 'token_to_id', 'tokenize', 'unk_token']
model.continuing_subword_prefix=None
model.dropout=None
model.end_of_word_suffix='</w>'
model.fuse_unk=False
model.unk_token='<unk>'


#### PostProcessor

In [37]:
post_processor = tokenizer_obj.post_processor
print(post_processor)
print(dir(post_processor))

<tokenizers.processors.BertProcessing object at 0x7f3878def810>
['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getnewargs__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', 'num_special_tokens_to_add', 'process']


## RoBERTa

In [66]:
tokenizer = AutoTokenizer.from_pretrained('roberta-base')

In [62]:
tokenizer_obj = tokenizer._tokenizer

### Normalizer

In [65]:
tokenizer

In [63]:
print(tokenizer_obj.normalizer)
print(dir(tokenizer_obj.normalizer))
print(f'{tokenizer_obj.normalizer.clean_text=}')

## Ukrainian and different pipeline nodes

In [42]:
normalizer_test_strings = [
    'Це тестовий текст',
    'Я пишуся з Великої Букви',
    'А а, Б б, В в, Г г, Ґ ґ, Д д, Е е, Є є, Ж ж, З з, И и, І і, Ї ї, Й й, К к, Л л, М м, Н н, О о, П п, Р р, С с, Т т, У у, Ф ф, Х х, Ц ц, Ч ч, Ш ш, Щ щ, ь, Ю ю, Я я',
    '0, 1, 2, 3, 4, 5, 6, 7, 8, 9',
    'Але є ще такі символи: ! " # $ % & \' ( ) * + , - . / : ; < = > ? @ [ \\ ] ^ _ ` { | } ~',
    'Грім-2',
    'ы ъ ё',
    'прислів\'я'
]

In [58]:
pre_tokenizer_test_strings = [
    'Це тестовий текст',
    'Я пишуся з Великої Букви',
    'Грім-2',
    'Грім2',
    'прислів\'я',
    'синьо-жовтий'
]

In [43]:
def print_normalizer(normalizer, test_strings):
    for test_string in test_strings:
        print(f'Original:    {test_string}')
        print(f'Normalized:  {normalizer.normalize_str(test_string)}')
        print()

In [44]:
def print_pre_tokenizer(pre_tokenizer, test_strings):
    for test_string in test_strings:
        print(f'Original:       {test_string}')
        print(f'Pre-tokenized:  {pre_tokenizer.pre_tokenize_str(test_string)}')
        print()

### BertNormalizer

In [45]:
norm = normalizers.BertNormalizer(lowercase=False, strip_accents=True)
print_normalizer(norm, normalizer_test_strings)

Original:    Це тестовий текст
Normalized:  Це тестовии текст

Original:    Я пишуся з Великої Букви
Normalized:  Я пишуся з Великоі Букви

Original:    А а, Б б, В в, Г г, Ґ ґ, Д д, Е е, Є є, Ж ж, З з, И и, І і, Ї ї, Й й, К к, Л л, М м, Н н, О о, П п, Р р, С с, Т т, У у, Ф ф, Х х, Ц ц, Ч ч, Ш ш, Щ щ, ь, Ю ю, Я я
Normalized:  А а, Б б, В в, Г г, Ґ ґ, Д д, Е е, Є є, Ж ж, З з, И и, І і, І і, И и, К к, Л л, М м, Н н, О о, П п, Р р, С с, Т т, У у, Ф ф, Х х, Ц ц, Ч ч, Ш ш, Щ щ, ь, Ю ю, Я я

Original:    0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Normalized:  0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Original:    Але є ще такі символи: ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~
Normalized:  Але є ще такі символи: ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~

Original:    Грім-2
Normalized:  Грім-2

Original:    ы ъ ё
Normalized:  ы ъ е

Original:    прислів'я
Normalized:  прислів'я


We cannot allow ourselves to strip accents, because we need to preserve the difference between 'ї' and 'і', as well as 'й' and 'и'.

In [46]:
norm = normalizers.BertNormalizer(lowercase=False, strip_accents=False)
print_normalizer(norm, normalizer_test_strings)

Original:    Це тестовий текст
Normalized:  Це тестовий текст

Original:    Я пишуся з Великої Букви
Normalized:  Я пишуся з Великої Букви

Original:    А а, Б б, В в, Г г, Ґ ґ, Д д, Е е, Є є, Ж ж, З з, И и, І і, Ї ї, Й й, К к, Л л, М м, Н н, О о, П п, Р р, С с, Т т, У у, Ф ф, Х х, Ц ц, Ч ч, Ш ш, Щ щ, ь, Ю ю, Я я
Normalized:  А а, Б б, В в, Г г, Ґ ґ, Д д, Е е, Є є, Ж ж, З з, И и, І і, Ї ї, Й й, К к, Л л, М м, Н н, О о, П п, Р р, С с, Т т, У у, Ф ф, Х х, Ц ц, Ч ч, Ш ш, Щ щ, ь, Ю ю, Я я

Original:    0, 1, 2, 3, 4, 5, 6, 7, 8, 9
Normalized:  0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Original:    Але є ще такі символи: ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~
Normalized:  Але є ще такі символи: ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~

Original:    Грім-2
Normalized:  Грім-2

Original:    ы ъ ё
Normalized:  ы ъ ё

Original:    прислів'я
Normalized:  прислів'я


### BertPreTokenizer

In [59]:
pre_tokenizer = pre_tokenizers.BertPreTokenizer()
print_pre_tokenizer(pre_tokenizer, pre_tokenizer_test_strings)

Original:       Це тестовий текст
Pre-tokenized:  [('Це', (0, 2)), ('тестовий', (3, 11)), ('текст', (12, 17))]

Original:       Я пишуся з Великої Букви
Pre-tokenized:  [('Я', (0, 1)), ('пишуся', (2, 8)), ('з', (9, 10)), ('Великої', (11, 18)), ('Букви', (19, 24))]

Original:       Грім-2
Pre-tokenized:  [('Грім', (0, 4)), ('-', (4, 5)), ('2', (5, 6))]

Original:       Грім2
Pre-tokenized:  [('Грім2', (0, 5))]

Original:       прислів'я
Pre-tokenized:  [('прислів', (0, 7)), ("'", (7, 8)), ('я', (8, 9))]

Original:       синьо-жовтий
Pre-tokenized:  [('синьо', (0, 5)), ('-', (5, 6)), ('жовтий', (6, 12))]


### ByteLevel

In [60]:
pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
print_pre_tokenizer(pre_tokenizer, pre_tokenizer_test_strings)

Original:       Це тестовий текст
Pre-tokenized:  [('Ð¦Ðµ', (0, 2)), ('ĠÑĤÐµÑģÑĤÐ¾Ð²Ð¸Ð¹', (2, 11)), ('ĠÑĤÐµÐºÑģÑĤ', (11, 17))]

Original:       Я пишуся з Великої Букви
Pre-tokenized:  [('Ð¯', (0, 1)), ('ĠÐ¿Ð¸ÑĪÑĥÑģÑı', (1, 8)), ('ĠÐ·', (8, 10)), ('ĠÐĴÐµÐ»Ð¸ÐºÐ¾ÑĹ', (10, 18)), ('ĠÐĳÑĥÐºÐ²Ð¸', (18, 24))]

Original:       Грім-2
Pre-tokenized:  [('ÐĵÑĢÑĸÐ¼', (0, 4)), ('-', (4, 5)), ('2', (5, 6))]

Original:       Грім2
Pre-tokenized:  [('ÐĵÑĢÑĸÐ¼', (0, 4)), ('2', (4, 5))]

Original:       прислів'я
Pre-tokenized:  [('Ð¿ÑĢÐ¸ÑģÐ»ÑĸÐ²', (0, 7)), ("'", (7, 8)), ('Ñı', (8, 9))]

Original:       синьо-жовтий
Pre-tokenized:  [('ÑģÐ¸Ð½ÑĮÐ¾', (0, 5)), ('-', (5, 6)), ('Ð¶Ð¾Ð²ÑĤÐ¸Ð¹', (6, 12))]
