<a href="https://colab.research.google.com/github/PolyglotsFYP/Pre-training/blob/main/extending/Extend_tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Installing the Transformers Library

In [24]:
%%capture
!pip install transformers

### Tokenization Example with Meta-Llama-3-8B Model

In [25]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B",token="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")

test_sentence = "ගම සංවර්ධනයට රජය විසින් ආධාර සපයන ලදී."

tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")

# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

Tokenized output: ['à¶', 'ľ', 'à¶', '¸', 'Ġà', '·', 'ĥ', 'à¶', 'Ĥ', 'à·', 'Ģ', 'à¶', '»', 'à·', 'Ĭ', 'à¶', '°', 'à¶', '±', 'à¶', 'º', 'à¶', '§', 'Ġà', '¶', '»', 'à¶', '¢', 'à¶', 'º', 'Ġà', '·', 'Ģ', 'à·', 'Ĵ', 'à·', 'ĥ', 'à·', 'Ĵ', 'à¶', '±', 'à·', 'Ĭ', 'Ġà', '¶', 'Ĩ', 'à¶', '°', 'à·', 'ı', 'à¶', '»', 'Ġà', '·', 'ĥ', 'à¶', '´', 'à¶', 'º', 'à¶', '±', 'Ġà', '¶', '½', 'à¶', '¯', 'à·', 'ĵ', '.']
Decoded output: <|begin_of_text|>ගම සංවර්ධනයට රජය විසින් ආධාර සපයන ලදී.


### Extracting Sinhala Tokens from Tokenizer Vocabulary

In [26]:
# Function to check if a token contains Sinhala characters
def is_sinhala(token):
    return any('\u0D80' <= char <= '\u0DFF' for char in token)

# Read the tokenizer.vocab file and extract only Sinhala tokens
tokens_with_underscores = []

with open('tokenizer.vocab', 'r', encoding='utf-8') as f:
    for line in f:
        # Split the line by tab or whitespace
        parts = line.strip().split()
        if parts and is_sinhala(parts[0]):  # Filter out non-Sinhala tokens
            tokens_with_underscores.append(parts[0])  # Add the Sinhala token to the list

# Print the filtered tokens list
print(len(tokens_with_underscores))
print(tokens_with_underscores[:20])

11080
['න්', '▁ක', '▁ව', '▁ස', '▁ප', '▁ම', 'ත්', '▁අ', 'ිය', 'ක්', '▁ද', '▁න', '්\u200d', '▁හ', '▁ත', '▁ග', '▁බ', 'න්න', '▁එ', 'ම්']


### Extending the Tokenizer with Sinhala Tokens

In [27]:
cleaned_tokens = [token.replace('▁', '') for token in tokens_with_underscores]

num_added_tokens = tokenizer.add_tokens(cleaned_tokens)

# Save the updated tokenizer
tokenizer.save_pretrained('updated_llama_tokenizer')


# Test the tokenizer with new tokens
encoded = tokenizer.encode("මම පාසල් යනවා.", add_special_tokens=False)
decoded = tokenizer.decode(encoded)

print(f"Encoded: {encoded}")
print(f"Decoded: {decoded}")


Encoded: [128469, 220, 129683, 220, 129938, 13]
Decoded: මම පාසල් යනවා.


### Test the extended LLaMA tokenizer

In [28]:
# test_sentence = "ගම සංවර්ධනයට රජය විසින් ආධාර සපයන ලදී."
test_sentence = "ලංකාව කොහෙද? පොත හොයාගත්තා!"
tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")


# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

Tokenized output: ['ලංකාව', 'Ġ', 'කොහෙද', '?', 'Ġ', 'පොත', 'Ġ', 'හොයා', 'ගත්තා', '!']
Decoded output: <|begin_of_text|>ලංකාව කොහෙද? පොත හොයාගත්තා!


In [29]:
from huggingface_hub import notebook_login

notebook_login()
#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

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

### Push to Hugginface Repo

In [31]:
from huggingface_hub import create_repo, upload_folder

REPO_NAME = "Extended-Sinhala-LLaMA"
USER = "polyglots"

# Create the repo on Hugging Face (private)
create_repo(repo_id=f"{USER}/{REPO_NAME}", private=False)

# Upload the tokenizer folder to the repo
upload_folder(
    repo_id=f"{USER}/{REPO_NAME}",
    folder_path="updated_llama_tokenizer",
    path_in_repo=".",
    commit_message="Uploaded updated Sinhala tokenizer",
)

tokenizer.json:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/polyglots/Extended-Sinhala-LLaMA/commit/2e52e6ba8a79d2cbfba2a3ea25564e00adc030a0', commit_message='Uploaded updated Sinhala tokenizer', commit_description='', oid='2e52e6ba8a79d2cbfba2a3ea25564e00adc030a0', pr_url=None, pr_revision=None, pr_num=None)

In [32]:
from transformers import AutoTokenizer

# Load the tokenizer from the Hub
tokenizer = AutoTokenizer.from_pretrained(f"{USER}/{REPO_NAME}")

test_sentence = "අපරාධ විමර්ශන දෙපාර්තමේන්තුවේ නිලධාරීන් විසින් අනාගතයේ ඇතිවිය හැකි අපරාධික ප්‍රවණතා පිළිබඳ පරිණත විමසුමක් සිදු කර තිබෙනවා."
# test_sentence = "ලංකාව කොහෙද? පොත හොයාගත්තා!"
tokenized_output = tokenizer.tokenize(test_sentence)
print(f"Tokenized output: {tokenized_output}")


# Test encoding and decoding with the new tokens
encoded = tokenizer.encode(test_sentence, return_tensors='pt')
decoded = tokenizer.decode(encoded[0])
print(f"Decoded output: {decoded}")

tokenizer_config.json:   0%|          | 0.00/1.88M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/11.0M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/301 [00:00<?, ?B/s]

Tokenized output: ['අපරාධ', 'Ġ', 'විමර්ශන', 'Ġ', 'දෙපාර්තමේන්තුවේ', 'Ġ', 'නිලධාරීන්', 'Ġ', 'විසින්', 'Ġ', 'අනාගතයේ', 'Ġ', 'ඇතිවිය', 'Ġ', 'හැකි', 'Ġ', 'අපරාධ', 'ික', 'Ġ', 'ප්\u200dරවණ', 'තා', 'Ġ', 'පිළිබඳ', 'Ġ', 'පරිණ', 'ත', 'Ġ', 'විමස', 'ුමක්', 'Ġ', 'සිදු', 'Ġ', 'කර', 'Ġ', 'තිබෙනවා', '.']
Decoded output: <|begin_of_text|>අපරාධ විමර්ශන දෙපාර්තමේන්තුවේ නිලධාරීන් විසින් අනාගතයේ ඇතිවිය හැකි අපරාධික ප්‍රවණතා පිළිබඳ පරිණත විමසුමක් සිදු කර තිබෙනවා.
