# Nepali Pretrained Tokenizers examples

In [1]:
import os
os.environ['http_proxy'] = 'http://192.41.170.23:3128'
os.environ['https_proxy'] = 'http://192.41.170.23:3128'

In [28]:
def bold(text):
    return "\033[1m" + text + "\033[0m"

In [2]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

  from .autonotebook import tqdm as notebook_tqdm


In [9]:
# Tokenizer IDs
# BERT_SHUSHANT = 'Shushant/nepaliBERT'
# BERT_NOWALAB = 'nowalab/nepali-bert-npvec1'
NEP_BERT = 'Rajan/NepaliBERT'
NEP_ROBERTA = 'amitness/nepbert'
NEP_DISTILBERT = 'Sakonii/distilbert-base-nepali'
NEP_DEBERTA = 'Sakonii/deberta-base-nepali'
XLM_ROBERTA = 'xlm-roberta-base'
M_BERT = 'bert-base-multilingual-uncased'
HIN_ROBERTA = 'flax-community/roberta-hindi'

tokenizer_ids = [NEP_BERT, NEP_ROBERTA, NEP_DISTILBERT, NEP_DEBERTA, XLM_ROBERTA, M_BERT, HIN_ROBERTA]
wp_tokenizer_ids = [NEP_BERT, M_BERT]
sp_tokenizer_ids = [NEP_DISTILBERT, NEP_DEBERTA, XLM_ROBERTA]
bp_tokenizer_ids = [NEP_ROBERTA, HIN_ROBERTA]

# List of Sentences
sentences = [
    'नेपाल आफ्नै संस्कृतिका कारण विश्वमा सबैतिर चिनिएको हो ।', 
    'स्वास्थ्य तथा जनसंख्या मन्त्रालयले गत असार ९ गतेदेखि १५ गतेसम्म खोप लगाएका बालबालिकालाई आजदेखि दोस्रो मात्रा लगाउन थालेको हो ।', 
    'युरोपमा केही दिनयताको उच्च तापक्रमसँगै फैलिएको डढेलोका कारण जनजीवन अस्तव्यस्त बनेको छ ।',
    'काठमाडौं महानगरपालिकाले साउन १ गतेदेखि कुहिने र नकुहिने फोहोरलाई छुट्टाछुट्टै दिनमा संकलन गर्ने भएको छ ।',
    'काठमाडौंको नागार्जुनमा चितुवाको आक्रमणबाट पाँच जना घाइते भएका छन् ।',]

## Load pretrained tokenizers

In [14]:
tokenizers = []
for id in tokenizer_ids:
    print('Loading', id, '...')
    tokenizers.append(AutoTokenizer.from_pretrained(id))

Loading Rajan/NepaliBERT ...
Loading amitness/nepbert ...
Loading Sakonii/distilbert-base-nepali ...
Loading Sakonii/deberta-base-nepali ...
Loading xlm-roberta-base ...
Loading bert-base-multilingual-uncased ...
Loading flax-community/roberta-hindi ...


In [15]:
wp_tokenizers = [tokenizers[0], tokenizers[5]]
sp_tokenizers = [tokenizers[2], tokenizers[3], tokenizers[4]]
bp_tokenizers = [tokenizers[1], tokenizers[6]]

In [29]:
def tokenize_sentence(text, tokenizers=tokenizers):
    for idx, tokenizer in enumerate(tokenizers):
        print(bold(tokenizer.name_or_path))
        print(' '.join(tokenizer.tokenize(text)))
        print()

### Tokenizer info

In [30]:
[print(f'{tokenizer}\n') for tokenizer in tokenizers]

PreTrainedTokenizerFast(name_or_path='Rajan/NepaliBERT', vocab_size=50000, model_max_len=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

PreTrainedTokenizerFast(name_or_path='amitness/nepbert', vocab_size=52000, model_max_len=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True), 'eos_token': AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True), 'unk_token': AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True), 'sep_token': AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True), 'pad_token': AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=True), 'c

[None, None, None, None, None, None, None]

In [35]:
# Tokenize all sentences
for idx, sentence in enumerate(sentences):
    print(f'Sentence {idx+1}: {sentence}')
    print()
    tokenize_sentence(sentence)
    print('='*150)

Sentence 1: नेपाल आफ्नै संस्कृतिका कारण विश्वमा सबैतिर चिनिएको हो ।

[1mRajan/NepaliBERT[0m
नपा ##ल आफ ##न सस ##कति ##का कारण विश ##वमा सब ##तिर चिनिएको हो ।

[1mamitness/nepbert[0m
à¤¨ à¥ĩ à¤ª à¤¾ à¤² Ġà¤Ĩà¤« à¥į à¤¨ à¥Ī Ġà¤¸ à¤Ĥ à¤¸ à¥į à¤ķ à¥ĥ à¤¤ à¤¿ à¤ķ à¤¾ Ġà¤ķ à¤¾ à¤°à¤£ Ġà¤µ à¤¿ à¤¶ à¥į à¤µà¤® à¤¾ Ġà¤¸à¤¬ à¥Ī à¤¤ à¤¿ à¤° Ġà¤ļ à¤¿ à¤¨ à¤¿ à¤ıà¤ķ à¥ĭ Ġà¤¹ à¥ĭ Ġà¥¤

[1mSakonii/distilbert-base-nepali[0m
▁नेपाल ▁आफ्नै ▁संस्कृति का ▁कारण ▁विश्वमा ▁सबैतिर ▁चिनिए को ▁हो ▁।

[1mSakonii/deberta-base-nepali[0m
▁नेपाल ▁आफ्नै ▁संस्कृति का ▁कारण ▁विश्वमा ▁सबैतिर ▁चिनिए को ▁हो ▁।

[1mxlm-roberta-base[0m
▁नेपाल ▁आफ्नै ▁संस्कृति का ▁कारण ▁विश्व मा ▁सबै तिर ▁चिन िएको ▁हो ▁।

[1mbert-base-multilingual-uncased[0m
नपाल आ ##फ ##न ससकत ##िका कारण विशव ##मा सब ##ति ##र च ##िन ##िएको हो ।

[1mflax-community/roberta-hindi[0m
à¤¨ à¥ĩ à¤ª à¤ ¾ à¤² Ġà¤Ĩà¤« à¥į à¤¨ à¥Ī Ġà¤¸ à¤Ĥ à¤¸ à¥į à¤ķ à¥ĥ à¤¤ à¤¿ à¤ķ à¤ ¾ Ġà¤ķ à¤ ¾ à¤°à¤£ Ġà¤µ à¤¿ à¤¶ à¥į à¤µà¤® à¤ ¾ Ġà¤¸à¤¬ à¥Ī à¤¤ à¤¿ à¤° Ġà¤ļ à¤¿ à¤¨ à

## Tokenizing one sentence based on type of tokenizers

### WordPiece Tokenizer

In [38]:
print(f'{bold("Sentence:")} {sentences[-1]}\n')
tokenize_sentence(sentence, tokenizers=wp_tokenizers)
print('='*150)

[1mSentence:[0m काठमाडौंको नागार्जुनमा चितुवाको आक्रमणबाट पाँच जना घाइते भएका छन् ।

[1mRajan/NepaliBERT[0m
काठमाडौको नागा ##र ##जनमा चित ##वाको आक ##रमण ##बाट पाच जना घाइत भएका छन ।

[1mbert-base-multilingual-uncased[0m
का ##ठ ##मा ##ड ##ौ ##को न ##ाग ##ार ##जन ##मा च ##ित ##वा ##को आ ##करम ##ण ##बाट पाच जन ##ा घ ##ा ##इ ##त भ ##एका छन ।



### SentencePiece Tokenizer

In [39]:
print(f'{bold("Sentence:")} {sentences[-1]}\n')
tokenize_sentence(sentence, tokenizers=sp_tokenizers)
print('='*150)

[1mSentence:[0m काठमाडौंको नागार्जुनमा चितुवाको आक्रमणबाट पाँच जना घाइते भएका छन् ।

[1mSakonii/distilbert-base-nepali[0m
▁काठमाडौंको ▁नागार्जुन मा ▁चितुवा को ▁आक्रमण बाट ▁पाँच ▁जना ▁घाइते ▁भएका ▁छन् ▁।

[1mSakonii/deberta-base-nepali[0m
▁काठमाडौंको ▁नागार्जुन मा ▁चितुवा को ▁आक्रमण बाट ▁पाँच ▁जना ▁घाइते ▁भएका ▁छन् ▁।

[1mxlm-roberta-base[0m
▁काठमाडौं को ▁ना गा र्ज ुन मा ▁ चित ुवा को ▁आक्रमण बाट ▁पाँच ▁जना ▁घाइते ▁भएका ▁छन् ▁।



### Byte-level BPE Tokenizer

In [42]:
print(f'{bold("Sentence:")} {sentences[-1]}\n')
tokenize_sentence(sentence, tokenizers=bp_tokenizers)
print('='*150)

[1mSentence:[0m काठमाडौंको नागार्जुनमा चितुवाको आक्रमणबाट पाँच जना घाइते भएका छन् ।

[1mamitness/nepbert[0m
à¤ķ à¤¾ à¤łà¤® à¤¾ à¤¡ à¥Įà¤Ĥ à¤ķ à¥ĭ Ġà¤¨ à¤¾ à¤Ĺ à¤¾ à¤° à¥į à¤ľ à¥ģ à¤¨à¤® à¤¾ Ġà¤ļ à¤¿ à¤¤ à¥ģ à¤µ à¤¾ à¤ķ à¥ĭ Ġà¤Ĩà¤ķ à¥į à¤°à¤®à¤£à¤¬ à¤¾ à¤Ł Ġà¤ª à¤¾à¤ģ à¤ļ Ġà¤ľà¤¨ à¤¾ Ġà¤ĺ à¤¾ à¤ĩà¤¤ à¥ĩ Ġà¤Ńà¤ıà¤ķ à¤¾ Ġà¤Ľà¤¨ à¥į Ġà¥¤

[1mflax-community/roberta-hindi[0m
à¤ķ à¤ ¾ à¤łà¤® à¤ ¾ à¤¡ à¥Įà¤Ĥ à¤ķ à¥ĭ Ġà¤¨ à¤ ¾ à¤Ĺ à¤ ¾ à¤° à¥į à¤ľ à¥ģ à¤¨à¤® à¤ ¾ Ġà¤ļ à¤¿ à¤¤ à¥ģ à¤µ à¤ ¾ à¤ķ à¥ĭ Ġà¤Ĩà¤ķ à¥į à¤°à¤®à¤£à¤¬ à¤ ¾ à¤Ł Ġà¤ª à¤¾à¤ģ à¤ļ Ġà¤ľà¤¨ à¤ ¾ Ġà¤ĺ à¤ ¾ à¤ĩà¤¤ à¥ĩ Ġà¤Ńà¤ıà¤ķ à¤ ¾ Ġà¤Ľà¤¨ à¥į Ġà¥ ¤



## Load pre-trained models

In [None]:
from transformers import AutoModelForSequenceClassification

In [None]:
np_roberta = AutoModelForSequenceClassification.from_pretrained(RoBERTa_AMITNESS)

In [None]:
all_roberta_tokens = list(tokenizers[4].get_vocab().keys())

In [None]:
len(all_roberta_tokens)

In [None]:
np_roberta

In [None]:
np_roberta.config

In [None]:
''.join(str(tokenizers[4].encode(sentences[0])))

In [None]:
np_roberta.base_mode

In [None]:
sentences = ['म घर जाँदैगर्दा रुखबाट स्याउ खस्यो']

In [None]:
# Tokenize all sentences
for idx, sentence in enumerate(sentences):
    print(f'Sentence {idx+1}: {sentence}')
    print()
    tokenize_sentence(sentence)
    print('='*150)

## Tokenization Process

In [None]:
mBERT_tokenizer = tokenizers[-1]
bert_tokenizer = tokenizers[2]

In [None]:
sent1= 'स्वास्थ्य तथा जनसंख्या मन्त्रालयले गत असार ९ गतेदेखि १५ गतेसम्म खोप लगाएका बालबालिकालाई आजदेखि दोस्रो मात्रा लगाउन थालेको हो ।'

In [None]:
tokenized_sent1 = bert_tokenizer.tokenize(sent1)
len(tokenized_sent1)

In [None]:
print(tokenized_sent1)

In [None]:
encoded_sent1 = bert_tokenizer.encode(sent1)
len(encoded_sent1)

In [None]:
print(encoded_sent1)

In [None]:
bert_tokenizer.decode(encoded_sent1)

In [None]:
print(bert_tokenizer.convert_ids_to_tokens(encoded_sent1))

In [None]:
bert_tokenizer.prepare_for_model()