<h1 style="text-align: center;">Tokenizers for Armenia Language: Testing</h1>
<h2 style="text-align: center;" >Authors: Naira Maria Barseghyan and Anna Shaljyan</h2>

### Imports

In [2]:
#Importing neccessary libraries

import sentencepiece as spm
import pandas as pd
import os
from BPE_tokenizer import BpeTokenizer
from WordPiece_tokenizer import WordPieceTokenizer
from pathlib import Path

# Byte-Pair Encoding Tokenizer

In [2]:
#BPE model path 

BPE_path = Path('./armenian_bpe_tokenizer.pkl')

In [3]:
# Initializing BPE tokenizer with trained model.

BPE_tokenizer = BpeTokenizer.load(BPE_path)

In [6]:
# Testing Loaded BPE tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids, encoded_tokens = BPE_tokenizer.encode_text(sample_text)
print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = BPE_tokenizer.decode(encoded_ids)
print(f"Decoded Text: {decoded_text}")

Encoded IDs: [5, 6767, 7359, 7, 27975, 6731, 7, 8025, 6757, 12, 7, 8661, 6714, 102, 7, 5, 7399, 6880, 6719, 7, 8927, 7, 5, 7202, 6903, 6718, 19593, 35, 7, 5, 7075, 42, 7, 6736, 27, 7, 13, 151, 19, 64, 7, 6778, 8176, 7, 7086, 13, 151, 9, 32, 35]
Encoded Tokens: ['<maj>', 'հայ', 'երեն', ' ', 'լեզվ', 'ով', ' ', 'հոդ', 'ված', 'ի', ' ', 'օրին', 'ակ', ':', ' ', '<maj>', 'փորձ', 'արկ', 'ում', ' ', 'ենք', ' ', '<maj>', 'տո', 'կեն', 'այ', 'զերը', '։', ' ', '<maj>', 'բար', 'և', ' ', 'ոն', 'ց', ' ', 'ե', '՞', 'ս', '՝', ' ', 'կո', 'ֆե', ' ', 'խմ', 'ե', '՞', 'ն', 'ք', '։']
Decoded Text: Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։


### Vocab of BPE tokenzier

In [8]:
BPE_tokenizer.vocab_itos[10000: 15000]

['ազդեցությունը',
 'իտալական',
 'բյուզ',
 'այսպիսով',
 'բնութագր',
 'փոխարեն',
 'ընտանիք',
 'ներկայիս',
 'թեկնածու',
 'հեշտ',
 'շախ',
 'գիրք',
 'ենա',
 'օդանավ',
 'թռիչ',
 'լաբ',
 'առանձնահատկ',
 'փոխարինե',
 'աշտարակ',
 'պրոց',
 'ծառայել',
 'ալու',
 'հանել',
 'արժե',
 'ժողովրդի',
 'ճանաչում',
 'դադարեց',
 'եկտիվ',
 'ուժի',
 'բացվել',
 'քրե',
 'ավորել',
 'երտ',
 'պագ',
 'նկարիչներ',
 'կուն',
 'տված',
 'երկաթուղ',
 'մեդ',
 'հաստատել',
 'էկոլոգի',
 'շրջապատ',
 'թանգարանը',
 'պատվավոր',
 'ջեյմս',
 'բոս',
 'հանդեպ',
 'դատապարտ',
 'թռչուն',
 'բելառ',
 'հուշարձ',
 'սկսեցին',
 'պատմում',
 'պաշտոնը',
 'տրո',
 'համայնքներ',
 'ուղղակի',
 'երկիր',
 'բարձրության',
 'կատարվում',
 'հավել',
 'ցուցանիշը',
 'տեղակալ',
 'կտավ',
 'սկզբնական',
 'քրո',
 'հխսհ',
 'ստեղծված',
 'աթի',
 'պակա',
 'տեսակներ',
 'լինելով',
 'աշի',
 'դիմանկար',
 'դյու',
 'բարի',
 'անքի',
 'մեզ',
 'քերով',
 'արամ',
 'հաշվի',
 'նշված',
 'զու',
 'դիմաց',
 'բնության',
 'որդը',
 'պաշտոնապես',
 'տեսության',
 'բացակայ',
 'ուիլյամ',
 'թվով

In [18]:
# Save vocab if you want to inspect it
vocab_df_BPE = pd.DataFrame(BPE_tokenizer.vocab_itos)
vocab_df_BPE.to_csv("inspecting_vocab_BPE.csv", index= False)

# WordPiece Tokenizer

In [11]:
# WordPiece model path 

WordPiece_path = Path('./armenian_wordpiece_tokenizer.pkl')

In [None]:
# Initializing WordPiece tokenizer with trained model.

WordPiece_tokenizer = WordPieceTokenizer.load(WordPiece_path)

In [None]:
# Testing Loaded WordPiece tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids, encoded_tokens = WordPiece_tokenizer.encode_text(sample_text)
print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = WordPiece_tokenizer.decode(encoded_ids)
print(f"Decoded Text: {decoded_text}")

### Vocab of WordPiece tokenzier

In [None]:
WordPiece_tokenizer.vocab_itos[10000: 15000]

In [None]:
# Save vocab if you want to inspect it
vocab_df_WordPiece = pd.DataFrame(WordPiece_tokenizer.vocab_itos)
vocab_df_WordPiece.to_csv("inspecting_vocab_WordPiece.csv", index= False)

# SentencePiece BPE Tokenizer

In [14]:
# SentencePiece model path 

SentencePiece_path = './armenian_sentencepiece_tokenizer.model'

In [15]:
# Initializing SentencePiece tokenizer with trained model.

sp = spm.SentencePieceProcessor()
sp.load(SentencePiece_path)

True

In [16]:
# Testing Loaded SentencePiece tokenizer


sample_text = "Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։"

encoded_ids = sp.encode(sample_text)
encoded_tokens = [sp.id_to_piece(idx) for idx in encoded_ids]

print(f"Encoded IDs: {encoded_ids}")
print(f"Encoded Tokens: {encoded_tokens}")

# Decode the encoded IDs back to text
decoded_text = sp.decode(encoded_tokens).replace('▁', ' ')
print(f"Decoded Text: {decoded_text}")

Encoded IDs: [10802, 1977, 10866, 528, 29394, 9325, 1810, 3505, 184, 534, 19, 21313, 158, 29292, 1884, 29293, 29265, 5732, 5099, 29449, 29277, 29309, 24, 1186, 29270, 1653, 6468, 16154, 29292]
Encoded Tokens: ['▁Հայերեն', '▁լեզվով', '▁հոդվածի', '▁օրինակ', ':', '▁Փորձ', 'արկում', '▁ենք', '▁Տ', 'ոկ', 'են', 'այզ', 'երը', '։', '▁Բար', 'և', '▁', 'ոնց', '▁ե', '՞', 'ս', '՝', '▁կ', 'ոֆ', 'ե', '▁խմ', 'ե՞', 'նք', '։']
Decoded Text: Հայերեն լեզվով հոդվածի օրինակ: Փորձարկում ենք Տոկենայզերը։ Բարև ոնց ե՞ս՝ կոֆե խմե՞նք։


### Vocab of SentencePiece tokenzier

In [19]:
vocab_SentencePiece = [sp.id_to_piece(idx) for idx in range(sp.get_piece_size())]
vocab_SentencePiece

['<unk>',
 '<s>',
 '</s>',
 'ու',
 'ան',
 'եր',
 'ար',
 'ակ',
 'այ',
 'ում',
 'ներ',
 'որ',
 'ին',
 '▁հ',
 'ութ',
 'ությ',
 'ական',
 'ուն',
 '▁է',
 'են',
 '▁մ',
 'ել',
 'ամ',
 'ատ',
 '▁կ',
 'ություն',
 'աս',
 '▁և',
 '▁ա',
 'ով',
 '▁գ',
 'ած',
 '▁բ',
 '▁ն',
 'ավ',
 '▁տ',
 'ների',
 '▁Ա',
 'աց',
 'ագ',
 '▁դ',
 '▁որ',
 '▁են',
 '▁թ',
 'ես',
 'ության',
 'ետ',
 'ող',
 '▁ս',
 'իր',
 'առ',
 '▁(',
 'եղ',
 'ալ',
 'ոն',
 '▁պ',
 '▁▁',
 '▁լ',
 'իս',
 'յան',
 'ման',
 '▁վ',
 'ից',
 '▁Հ',
 'ահ',
 '▁այ',
 'ային',
 'եզ',
 'ված',
 'ազ',
 'ները',
 '▁համ',
 '▁մի',
 'իկ',
 'աստ',
 'ապ',
 'ուր',
 'վել',
 '▁եր',
 'անի',
 'եց',
 'ուս',
 'աբ',
 'աղ',
 '▁շ',
 'իտ',
 'վում',
 '▁Մ',
 '▁ան',
 '▁«',
 '▁ք',
 'ությունը',
 'ավոր',
 'ադ',
 '▁ար',
 'ոս',
 '▁լեզ',
 'իմ',
 'ույ',
 '▁առ',
 'ործ',
 '▁փ',
 'աշ',
 'ախ',
 'եկ',
 'երի',
 '▁խ',
 '▁թվ',
 'երեն',
 '▁տար',
 '▁ու',
 '▁օ',
 'ըն',
 'արգ',
 'րան',
 '),',
 'այի',
 '▁թվական',
 '▁հետ',
 'եմ',
 'այն',
 'ոլ',
 'անակ',
 'րա',
 'անում',
 '▁Ս',
 '▁իր',
 '▁գր',
 'ագր',
 'ոց',
 '▁

In [20]:
# Save vocab if you want to inspect it
vocab_df_SentencePiece = pd.DataFrame(vocab_SentencePiece)
vocab_df_SentencePiece.to_csv("inspecting_vocab_SentencePiece.csv", index= False)

# End