<h1 style="text-align: center;">Tokenizers for Armenia Language: Testing</h1>
<h2 style="text-align: center;" >Authors: Naira Maria Barseghyan and Anna Shaljyan</h2>

# Imports

In [1]:
#Importing neccessary libraries

import sentencepiece as spm
import pandas as pd
import os
from BPE_tokenizer import BpeTokenizer
from WordPiece_tokenizer import WordPieceTokenizer
from pathlib import Path

# Byte-Pair Encoding Tokenizer

In [2]:
#BPE model path 

BPE_path = Path('./models/armenian_bpe_tokenizer.pkl')

In [3]:
# Initializing BPE tokenizer with trained model.

BPE_tokenizer = BpeTokenizer.load(BPE_path)

In [4]:
# Testing Loaded BPE tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids, encoded_tokens = BPE_tokenizer.encode_text(sample_text)
print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = BPE_tokenizer.decode(encoded_ids)
print(f"Decoded Text: {decoded_text}")

Encoded IDs: [5, 6767, 7359, 7, 27975, 6731, 7, 8025, 6757, 12, 7, 8661, 6714, 102, 7, 5, 7399, 6880, 6719, 7, 8927, 7, 5, 7202, 6903, 6718, 19593, 35, 7, 5, 7075, 42, 7, 6736, 27, 7, 13, 151, 19, 64, 7, 6778, 8176, 7, 7086, 13, 151, 9, 32, 35]
Encoded Tokens: ['<maj>', 'հայ', 'երեն', ' ', 'լեզվ', 'ով', ' ', 'հոդ', 'ված', 'ի', ' ', 'օրին', 'ակ', ':', ' ', '<maj>', 'փորձ', 'արկ', 'ում', ' ', 'ենք', ' ', '<maj>', 'տո', 'կեն', 'այ', 'զերը', '։', ' ', '<maj>', 'բար', 'և', ' ', 'ոն', 'ց', ' ', 'ե', '՞', 'ս', '՝', ' ', 'կո', 'ֆե', ' ', 'խմ', 'ե', '՞', 'ն', 'ք', '։']
Decoded Text: Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։


### Vocab of BPE tokenzier

In [5]:
BPE_tokenizer.vocab_itos[10000: 15000]

['ազդեցությունը',
 'իտալական',
 'բյուզ',
 'այսպիսով',
 'բնութագր',
 'փոխարեն',
 'ընտանիք',
 'ներկայիս',
 'թեկնածու',
 'հեշտ',
 'շախ',
 'գիրք',
 'ենա',
 'օդանավ',
 'թռիչ',
 'լաբ',
 'առանձնահատկ',
 'փոխարինե',
 'աշտարակ',
 'պրոց',
 'ծառայել',
 'ալու',
 'հանել',
 'արժե',
 'ժողովրդի',
 'ճանաչում',
 'դադարեց',
 'եկտիվ',
 'ուժի',
 'բացվել',
 'քրե',
 'ավորել',
 'երտ',
 'պագ',
 'նկարիչներ',
 'կուն',
 'տված',
 'երկաթուղ',
 'մեդ',
 'հաստատել',
 'էկոլոգի',
 'շրջապատ',
 'թանգարանը',
 'պատվավոր',
 'ջեյմս',
 'բոս',
 'հանդեպ',
 'դատապարտ',
 'թռչուն',
 'բելառ',
 'հուշարձ',
 'սկսեցին',
 'պատմում',
 'պաշտոնը',
 'տրո',
 'համայնքներ',
 'ուղղակի',
 'երկիր',
 'բարձրության',
 'կատարվում',
 'հավել',
 'ցուցանիշը',
 'տեղակալ',
 'կտավ',
 'սկզբնական',
 'քրո',
 'հխսհ',
 'ստեղծված',
 'աթի',
 'պակա',
 'տեսակներ',
 'լինելով',
 'աշի',
 'դիմանկար',
 'դյու',
 'բարի',
 'անքի',
 'մեզ',
 'քերով',
 'արամ',
 'հաշվի',
 'նշված',
 'զու',
 'դիմաց',
 'բնության',
 'որդը',
 'պաշտոնապես',
 'տեսության',
 'բացակայ',
 'ուիլյամ',
 'թվով

In [7]:
# Save vocab if you want to inspect it
vocab_df_BPE = pd.DataFrame(BPE_tokenizer.vocab_itos)
vocab_df_BPE.to_csv("./reports/csv/inspecting_vocab_BPE.csv", index= False)

# WordPiece Tokenizer

In [8]:
# WordPiece model path 

WordPiece_path = Path('./models/armenian_wordpiece_tokenizer.pkl')

In [9]:
# Initializing WordPiece tokenizer with trained model.

WordPiece_tokenizer = WordPieceTokenizer.load(WordPiece_path)

In [10]:
# Testing Loaded WordPiece tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids, encoded_tokens = WordPiece_tokenizer.encode_text(sample_text)
print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = WordPiece_tokenizer.decode(encoded_ids)
print(f"Decoded Text: {decoded_text}")

Encoded IDs: [0, 16135, 6773, 16672, 12, 10041, 102, 0, 9042, 0, 0, 10386, 13, 151, 18587, 6768, 8303, 8157, 13, 151, 6870, 35]
Encoded Tokens: ['<unk>', 'լեզվ', '##ով', 'հոդված', '##ի', 'օրինակ', '##:', '<unk>', 'ենք', '<unk>', '<unk>', 'ոնց', 'ե', '##՞', '##ս՝', 'կո', '##ֆե', 'խմ', '##ե', '##՞', '##նք', '##։']
Decoded Text: <unk> լեզվ ով հոդված ի օրինակ : <unk> ենք <unk> <unk> ոնց ե ՞ ս՝ կո ֆե խմ ե ՞ նք ։


### Vocab of WordPiece tokenzier

In [11]:
WordPiece_tokenizer.vocab_itos[10000: 15000]

['ծառ',
 'ւսումնա',
 'ուսումնա',
 'կացի',
 'վրո',
 'ակչությա',
 'ընտր',
 'նձնա',
 '70',
 'անձնա',
 'tr',
 '31',
 'անը,',
 'կրոր',
 'ուրի',
 'չակ',
 'կոլ',
 'ատես',
 'րկրոր',
 'բրի',
 'երկրոր',
 'կրորդ',
 'իքի',
 'ենսա',
 'րկրորդ',
 'լակ',
 'երկրորդ',
 'տկե',
 'աղթ',
 'ոտու',
 'ww',
 'ստոս',
 'արությա',
 'փոք',
 'գիտակ',
 'րինակ',
 'նակնե',
 'նակներ',
 'փոքր',
 'սլ',
 'յան,',
 'օրինակ',
 'մյա',
 'թնե',
 'կենս',
 'ասիր',
 'րելո',
 'ւնքն',
 'ունքն',
 '87',
 'ակչության',
 'չափ',
 'րքե',
 'տվո',
 'սեն',
 'ղեկա',
 'ավարու',
 'յրը',
 'սովո',
 'բոլոր',
 'կերու',
 'թներ',
 'ղաքակ',
 'աղաքակ',
 'քաղաքակ',
 'խս',
 'hi',
 'նապա',
 'ոգի',
 '-ո',
 'միր',
 'րիլ',
 'սերի',
 'ամակար',
 'vi',
 'ատկե',
 'երում։',
 'քում։',
 'երջին',
 'անիայ',
 'թիվ',
 'իրական',
 'rt',
 'վերջին',
 'կզբ',
 'ռավա',
 'յման',
 'ականա',
 'երթ',
 'սկզ',
 'պրի',
 'կանից',
 'իկն',
 'ինու',
 'ad',
 'նկերո',
 'տրվա',
 'սկզբ',
 'կվու',
 'նակչությա',
 'բնակչությա',
 'ամբ։',
 'վորվ',
 'ազդ',
 'գոս',
 'ավագ',
 'համակա',
 '010',
 'կոչ',

In [12]:
# Save vocab if you want to inspect it
vocab_df_WordPiece = pd.DataFrame(WordPiece_tokenizer.vocab_itos)
vocab_df_WordPiece.to_csv("./reports/csv/inspecting_vocab_WordPiece.csv", index= False)

# SentencePiece BPE Tokenizer

In [13]:
# SentencePiece model path 

SentencePiece_path = './models/armenian_sentencepiece_tokenizer.model'

In [14]:
# Initializing SentencePiece tokenizer with trained model.

sp = spm.SentencePieceProcessor()
sp.load(SentencePiece_path)

True

In [15]:
# Testing Loaded SentencePiece tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids = sp.encode(sample_text)
encoded_tokens = [sp.id_to_piece(idx) for idx in encoded_ids]

print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = sp.decode(encoded_tokens).replace('▁', ' ')
print(f"Decoded Text: {decoded_text}")

Encoded IDs: [14745, 6400, 12723, 1448, 29079, 10245, 5304, 3859, 13488, 23, 16516, 176, 28989, 1874, 28995, 28962, 44, 28980, 1263, 23231, 29019, 22, 1230, 28968, 1411, 27554, 28964, 28985, 28989]
Encoded Tokens: ['▁Հայերեն', '▁լեզվով', '▁հոդվածի', '▁օրինակ', ':', '▁Փորձ', 'արկում', '▁ենք', '▁Տոկ', 'են', 'այզ', 'երը', '։', '▁Բար', 'և', '▁', 'ոն', 'ց', '▁ե', '՞ս', '՝', '▁կ', 'ոֆ', 'ե', '▁խմ', 'ե՞', 'ն', 'ք', '։']
Decoded Text: Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։


### Vocab of SentencePiece tokenzier

In [16]:
vocab_SentencePiece = [sp.id_to_piece(idx) for idx in range(sp.get_piece_size())]
vocab_SentencePiece

['<unk>',
 '<s>',
 '</s>',
 'ու',
 'ան',
 'եր',
 'ար',
 'ակ',
 'ին',
 'այ',
 'ում',
 '▁հ',
 'ներ',
 'որ',
 '▁է',
 'ել',
 'ութ',
 'ական',
 'ուն',
 'ությ',
 '▁մ',
 'ամ',
 '▁կ',
 'են',
 'ատ',
 'ավ',
 'աս',
 '▁▁',
 'ություն',
 'ագ',
 'ով',
 '▁թ',
 '▁գ',
 '▁ն',
 '▁և',
 '▁տ',
 '▁Ա',
 'ետ',
 'աց',
 '▁|',
 '▁ա',
 '▁(',
 'ած',
 '▁դ',
 'ոն',
 'ալ',
 'իր',
 '▁բ',
 'ստ',
 'ների',
 'ող',
 '▁պ',
 '▁որ',
 'անի',
 'ես',
 'եղ',
 'ության',
 '▁թվ',
 'ահ',
 '▁վ',
 'ային',
 'ից',
 '▁թվական',
 '▁ս',
 'ազ',
 'այի',
 '▁Հ',
 'րա',
 '▁են',
 '▁||',
 'աղ',
 'առ',
 '▁Մ',
 '▁Ս',
 'երի',
 'ված',
 'ման',
 'եց',
 'իս',
 '▁«',
 '▁շ',
 'աստ',
 '▁ան',
 '▁համ',
 'ուս',
 'վել',
 'եկ',
 '▁Կ',
 'իկ',
 'ադ',
 'աք',
 '▁եր',
 '▁Բ',
 'եմ',
 '▁ք',
 'ոլ',
 'ուր',
 '▁ար',
 '▁այ',
 '▁խ',
 'ները',
 'ույ',
 '▁մի',
 'ախ',
 'ագր',
 'ապ',
 'աշ',
 'բեր',
 'ավոր',
 '▁հետ',
 'իտ',
 'յան',
 '▁ծ',
 'իլ',
 'վում',
 '▁առ',
 'ըն',
 'ոս',
 'նակ',
 'րան',
 'ությունը',
 'անակ',
 'իմ',
 '▁լ',
 '▁Ն',
 'արդ',
 'ործ',
 '▁Լ',
 'արի',
 '▁Պ',
 '▁Գ',
 'ազմ

In [17]:
# Save vocab if you want to inspect it
vocab_df_SentencePiece = pd.DataFrame(vocab_SentencePiece)
vocab_df_SentencePiece.to_csv("./reports/csv/inspecting_vocab_SentencePiece.csv", index= False)

# End