<a href="https://colab.research.google.com/github/PolyglotsFYP/Pre-training/blob/main/extending/Extend_tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Installing the Transformers Library

In [18]:
%%capture
!pip install transformers

### Tokenization Example with Meta-Llama-3-8B Model

In [19]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B",token="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")

test_sentence = "අපරාධ විමර්ශන දෙපාර්තමේන්තුවේ නිලධාරීන් විසින් අනාගතයේ ඇතිවිය හැකි අපරාධික ප්‍රවණතා පිළිබඳ පරිණත විමසුමක් සිදු කර තිබෙනවා."

tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")
print(f"Tokenized output length: {len(tokenized_output)}")

# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

Tokenized output: ['à¶', 'ħ', 'à¶', '´', 'à¶', '»', 'à·', 'ı', 'à¶', '°', 'Ġà', '·', 'Ģ', 'à·', 'Ĵ', 'à¶', '¸', 'à¶', '»', 'à·', 'Ĭ', 'à·', 'ģ', 'à¶', '±', 'Ġà', '¶', '¯', 'à·', 'Ļ', 'à¶', '´', 'à·', 'ı', 'à¶', '»', 'à·', 'Ĭ', 'à¶', 'Ń', 'à¶', '¸', 'à·', 'ļ', 'à¶', '±', 'à·', 'Ĭ', 'à¶', 'Ń', 'à·', 'Ķ', 'à·', 'Ģ', 'à·', 'ļ', 'Ġà', '¶', '±', 'à·', 'Ĵ', 'à¶', '½', 'à¶', '°', 'à·', 'ı', 'à¶', '»', 'à·', 'ĵ', 'à¶', '±', 'à·', 'Ĭ', 'Ġà', '·', 'Ģ', 'à·', 'Ĵ', 'à·', 'ĥ', 'à·', 'Ĵ', 'à¶', '±', 'à·', 'Ĭ', 'Ġà', '¶', 'ħ', 'à¶', '±', 'à·', 'ı', 'à¶', 'ľ', 'à¶', 'Ń', 'à¶', 'º', 'à·', 'ļ', 'Ġà', '¶', 'ĩ', 'à¶', 'Ń', 'à·', 'Ĵ', 'à·', 'Ģ', 'à·', 'Ĵ', 'à¶', 'º', 'Ġà', '·', 'Ħ', 'à·', 'Ĳ', 'à¶', 'ļ', 'à·', 'Ĵ', 'Ġà', '¶', 'ħ', 'à¶', '´', 'à¶', '»', 'à·', 'ı', 'à¶', '°', 'à·', 'Ĵ', 'à¶', 'ļ', 'Ġà', '¶', '´', 'à·', 'Ĭ', 'âĢį', 'à¶', '»', 'à·', 'Ģ', 'à¶', '«', 'à¶', 'Ń', 'à·', 'ı', 'Ġà', '¶', '´', 'à·', 'Ĵ', 'à·', 'ħ', 'à·', 'Ĵ', 'à¶', '¶', 'à¶', '³', 'Ġà', '¶', '´', 'à¶', '»', 'à·', 'Ĵ', 'à¶', '«', 'à¶', 

### Extracting Sinhala Tokens from Tokenizer Vocabulary

In [25]:
# Function to check if a token contains Sinhala characters
def is_sinhala(token):
    return any('\u0D80' <= char <= '\u0DFF' for char in token)

# Read the tokenizer.vocab file and extract only Sinhala tokens
tokens_with_underscores = []

base_vocab = tokenizer.get_vocab()
# print(base_vocab)

with open('tokenizer.vocab', 'r', encoding='utf-8') as f:
    for line in f:
        # Split the line by tab or whitespace
        parts = line.strip().split()
        if parts and is_sinhala(parts[0]):  # Filter out non-Sinhala tokens
              tokens_with_underscores.append(parts[0])  # Add the Sinhala token to the list

# Print the filtered tokens list
print(len(tokens_with_underscores))
print(tokens_with_underscores[:20])

11080
['න්', '▁ක', '▁ව', '▁ස', '▁ප', '▁ම', 'ත්', '▁අ', 'ිය', 'ක්', '▁ද', '▁න', '්\u200d', '▁හ', '▁ත', '▁ග', '▁බ', 'න්න', '▁එ', 'ම්']


### Extending the Tokenizer with Sinhala Tokens

In [26]:
cleaned_tokens = [token.replace('▁', ' ') for token in tokens_with_underscores]

for token in cleaned_tokens:
    if token in base_vocab:
        cleaned_tokens.remove(token)
print("Size of cleaned token list", len(cleaned_tokens))

# Add the Sinhala tokens to the base vocabulary
for token in cleaned_tokens:
    base_vocab[token] = len(base_vocab)

num_added_tokens = tokenizer.add_tokens(cleaned_tokens)

# Save the updated tokenizer
tokenizer.save_pretrained('updated_llama_tokenizer')


# Test the tokenizer with new tokens
encoded = tokenizer.encode("මම පාසල් යනවා.", add_special_tokens=False)
decoded = tokenizer.decode(encoded)

print(f"Encoded: {encoded}")
print(f"Decoded: {decoded}")


Size of cleaned token list 11080
Encoded: [130604, 129864, 130147, 13]
Decoded: මම පාසල් යනවා.


### Test the extended LLaMA tokenizer

In [27]:
test_sentence = "ගම සංවර්ධනයට රජය විසින් ආධාර සපයන ලදී."
# test_sentence = "ලංකාව කොහෙද? පොත හොයාගත්තා!"
tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")


# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

Tokenized output: ['ගම', ' සංවර්ධනය', 'ට', ' රජය', ' විසින්', ' ආධාර', ' සපයන', ' ලදී', '.']
Decoded output: <|begin_of_text|>ගම සංවර්ධනයට රජය විසින් ආධාර සපයන ලදී.


In [8]:
from huggingface_hub import notebook_login

notebook_login()
#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

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

### Push to Hugginface Repo

In [10]:
from huggingface_hub import create_repo, upload_folder

REPO_NAME = "Extended-Sinhala-LLaMA"
USER = "polyglots"

# Upload the tokenizer folder to the repo
upload_folder(
    repo_id=f"{USER}/{REPO_NAME}",
    folder_path="updated_llama_tokenizer",
    path_in_repo=".",
    commit_message="Uploaded updated Sinhala tokenizer",
)

tokenizer.json:   0%|          | 0.00/11.2M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/polyglots/Extended-Sinhala-LLaMA/commit/6b023980217c6b212c2120953516435b4b0e2262', commit_message='Uploaded updated Sinhala tokenizer', commit_description='', oid='6b023980217c6b212c2120953516435b4b0e2262', pr_url=None, pr_revision=None, pr_num=None)

In [17]:
from transformers import AutoTokenizer

# Load the tokenizer from the Hub
tokenizer = AutoTokenizer.from_pretrained(f"{USER}/{REPO_NAME}")

test_sentence = "අපරාධ විමර්ශන දෙපාර්තමේන්තුවේ නිලධාරීන් විසින් අනාගතයේ ඇතිවිය හැකි අපරාධික ප්‍රවණතා පිළිබඳ පරිණත විමසුමක් සිදු කර තිබෙනවා."
# test_sentence = "ලංකාව කොහෙද? පොත හොයාගත්තා!"
tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")


# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

Tokenized output: ['අප', 'රාධ', ' විමර්ශන', ' දෙපාර්තමේන්තුවේ', ' නිලධාරීන්', ' විසින්', ' අනාගතයේ', ' ඇතිවිය', ' හැකි', ' අපරාධ', 'ික', ' ප්\u200dරවණ', 'තා', ' පිළිබඳ', ' පරිණ', 'ත', ' විමස', 'ුමක්', ' සිදු', ' කර', ' තිබෙනවා', '.']
Decoded output: <|begin_of_text|>අපරාධ විමර්ශන දෙපාර්තමේන්තුවේ නිලධාරීන් විසින් අනාගතයේ ඇතිවිය හැකි අපරාධික ප්‍රවණතා පිළිබඳ පරිණත විමසුමක් සිදු කර තිබෙනවා.
