In [1]:
import requests

url = "https://raw.githubusercontent.com/chuuhtetnaing/myanmar-language-dataset-collection/refs/heads/main/A%20Corpus%20of%20Modern%20Burmese/allfiles.txt"
output_path = "allfiles.txt"

response = requests.get(url)
response.raise_for_status()  # Raise error if download failed

with open(output_path, "wb") as f:
    f.write(response.content)

print(f"Downloaded {output_path} successfully!")


Downloaded allfiles.txt successfully!


In [2]:
import os
size_mb = os.path.getsize("allfiles.txt") / (1024 * 1024)
print(f"File size: {size_mb:.2f} MB")
##data Loading Stage Done Now Clean

File size: 8.40 MB


In [3]:
#CLEan Done

import re

def clean_text(text):
    # Remove extra whitespace and control characters
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    return text

cleaned_lines = []
with open("allfiles.txt", "r", encoding="utf-8") as fin:
    for line in fin:
        cleaned = clean_text(line)
        if cleaned:
            cleaned_lines.append(cleaned)

# Save cleaned file
with open("allfiles_cleaned.txt", "w", encoding="utf-8") as fout:
    for line in cleaned_lines:
        fout.write(line + "\n")

print(f"Cleaning done! Saved {len(cleaned_lines)} lines to allfiles_cleaned.txt")


Cleaning done! Saved 18061 lines to allfiles_cleaned.txt


In [4]:
with open("allfiles_cleaned.txt", "r", encoding="utf-8") as f:
    for _ in range(10):
        print(f.readline())


﻿(၁) လေးစားရပါသော သဘာပတိကြီးနှင့် ကြွရောက်လာတဲ့ ပရိသတ်များရှင့်။ ဒီကနေ့ကတော့ အဓိကအားဖြင့် လွတ်လပ် ရေး မရမီ မြန်မာနိုင်ငံမှာ လုပ်ဆောင်ခဲ့တဲ့ ကျောင်းသားကြီးများ၊ အမျိုးသားရေးကို လုပ်ခဲ့တဲ့ ပုဂ္ဂိုလ်ကြီးများရဲ့ ကဏ္ဍကို ဖော်ပြတဲ့နေ့ ဖြစ်ပါတယ်။

ဘာဖြစ်လို့ ဒီလို လွတ်လပ်ရေး မရမီကာလက လုပ်ဆောင်ခဲ့တဲ့ ပုဂ္ဂိုလ်ကြီးများ၊ ကျောင်းသားကြီးများရဲ့ ကဏ္ဍကို အဓိကထားပြီးတော့ ဖော်ပြရသလဲဆိုတော့ ဒီနေ့ဟာ အမျိုးသား အောင်ပွဲနေ့ဖြစ်ပါတယ်။ လွတ်လပ်ရေး အတွက် လုပ်ခဲ့တဲ့ ပုဂ္ဂိုလ်ကြီးများဟာတော့ အောင်ပွဲခံပြီးပါပြီ။

ဒါကြောင့်မို့လို့ အမျိုးသားအောင်ပွဲနေ့ဟာ လွတ်လပ် ရေးရအောင် လုပ်ခဲ့တဲ့ ကျောင်းသားကြီးများ၊ ပုဂ္ဂိုလ်ကြီးများရဲ့ အဓိက ကဏ္ဍကို ဖေါ်ပြတဲ့နေ့လို့ ကျွန်မတို့ သတ်မှတ်ပါတယ်။ လွတ်လပ်ရေး နောက်ပိုင်းကာလမှာ ပေါက်ဖွားလာတဲ့ ကျွန်မတို့ တစ်တွေအတွက်တော့ တာဝန်ဟာ မပြီးသေးပါဘူး။ ကျွန်မတို့ဟာ လွတ်လပ်ရေးရရုံနဲ့ မပြီးသေးပါဘူး။ နိုင်ငံ တစ်နိုင်ငံဟာ လွတ်လပ်ရေးရပြီးတဲ့အခါမှာ ငြိမ်းချမ်းသာယာဖို့ လိုပါတယ်။ တိုးတက်ဖွံ့ဖြိုးဖို့ လိုပါတယ်။ နိုင်ငံသူ နိုင်ငံသား အားလုံးဟာ ဘဝလုံခြုံရေး ရှိပြီးတော့၊ စည်းလုံးညီညွတ်မှုလဲ ရဖို့ လိုပါတယ်။ ဒီတ

In [5]:
#Train SentencePiece Tokenizer on Burmese Text this is the process of converting text into token

!pip install sentencepiece




In [6]:
import sentencepiece as spm

spm.SentencePieceTrainer.Train(
    input='allfiles_cleaned.txt',     # Your cleaned Burmese text file
    model_prefix='burmese_tokenizer', # Output model files will start with this prefix
    vocab_size=8000,                  # Number of tokens (adjust as needed) uniqure token that the model learn
    character_coverage=0.995,         # Keep almost all Burmese characters
    model_type='unigram',             # Recommended for Burmese script
    max_sentence_length=10000         # Optional, increases max sentence length processed
)
print("Tokenizer training complete!")

Tokenizer training complete!


In [7]:
import sentencepiece as spm

# Create a processor instance
sp = spm.SentencePieceProcessor()

# Load your trained tokenizer model
sp.load('burmese_tokenizer.model')

# Test text in Burmese
text = "မြန်မာဘာသာစကားကို စမ်းသပ်ပါ။"

# Encode text into tokens (as strings)
tokens = sp.encode(text, out_type=str)

print("Tokens:", tokens)


Tokens: ['▁မြန်မာ', 'ဘာသာ', 'စကားကို', '▁စမ်းသပ်', 'ပါ။']


In [8]:
# Decode tokens back to original text
decoded_text = sp.decode(tokens)
print("Decoded text:", decoded_text)


Decoded text: မြန်မာဘာသာစကားကို စမ်းသပ်ပါ။


In [9]:
import sentencepiece as spm
##this is not need this is just to test anothe rparameter for more vocab
spm.SentencePieceTrainer.Train(
    input='allfiles_cleaned.txt',     # Your cleaned Burmese text file
    model_prefix='burmese_tokenizer', # Output model files will start with this prefix
    vocab_size=12000,                  # Number of tokens (adjust as needed) uniqure token that the model learn
    character_coverage=1,         # Keep almost all Burmese characters
    model_type='unigram',             # Recommended for Burmese script
    max_sentence_length=10000         # Optional, increases max sentence length processed
)
print("Tokenizer training complete!")

Tokenizer training complete!


In [9]:
import sentencepiece as spm

# Create a processor instance
sp = spm.SentencePieceProcessor()

# Load your trained tokenizer model
sp.load('burmese_tokenizer.model')

# Test text in Burmese
text = "ဒီလို လွတ်လပ်ရေး မရမီကာလက လုပ်ဆောင်ခဲ့တဲ့ ပုဂ္ဂိုလ်ကြီးများ၊ ကျောင်းသားကြီးများရဲ့ ကဏ္ဍကို အဓိကထားပြီးတော့ ဖော်ပြရသလဲဆိုတော့ ဒီနေ့ဟာ အမျိုးသား အောင်ပွဲနေ့ဖြစ်ပါတယ်။ လွတ်လပ်ရေး အတွက် လုပ်ခဲ့တဲ့ ပုဂ္ဂိုလ်ကြီးများဟာတော့ အောင်ပွဲခံပြီးပါပြီ။"

# Encode text into tokens (as strings)
tokens = sp.encode(text, out_type=str)

print("Tokens:", tokens)


Tokens: ['▁ဒီလို', '▁လွတ်လပ်ရေး', '▁မရ', 'မီ', 'ကာလ', 'က', '▁', 'လုပ်ဆောင်', 'ခဲ့တဲ့', '▁ပုဂ္ဂိုလ်', 'ကြီးများ', '၊', '▁ကျောင်းသား', 'ကြီးများ', 'ရဲ့', '▁', 'က', 'ဏ္', 'ဍ', 'ကို', '▁အဓိက', 'ထားပြီး', 'တော့', '▁ဖော်ပြ', 'ရ', 'သလဲဆိုတော့', '▁ဒီနေ့', 'ဟာ', '▁အမျိုးသား', '▁', 'အောင်ပွဲနေ့', 'ဖြစ်ပါတယ်။', '▁လွတ်လပ်ရေး', '▁အတွက်', '▁လုပ်', 'ခဲ့တဲ့', '▁ပုဂ္ဂိုလ်', 'ကြီး', 'များဟာ', 'တော့', '▁အောင်', 'ပွဲ', 'ခံပြီး', 'ပါပြီ။']


In [10]:
import sentencepiece as spm

# Load your tokenizer
sp = spm.SentencePieceProcessor()
sp.load('burmese_tokenizer.model')

# Open input and output files
with open("allfiles_cleaned.txt", "r", encoding="utf-8") as fin, \
     open("allfiles_tokenized.txt", "w", encoding="utf-8") as fout:

    for line in fin:
        line = line.strip()
        if not line:
            continue

        # Encode line to token IDs (integers)
        token_ids = sp.encode(line, out_type=int)

        # Save token IDs as space-separated string
        fout.write(" ".join(map(str, token_ids)) + "\n")

print("Tokenization complete. Saved token IDs to allfiles_tokenized.txt")


Tokenization complete. Saved token IDs to allfiles_tokenized.txt


In [11]:
# Read and preview first 5 lines of your tokenized file
with open("allfiles_tokenized.txt", "r", encoding="utf-8") as f:
    for _ in range(5):
        print(f.readline())


21 140 9 3292 150 30 301 397 4917 35 25 2326 1179 28 1745 34 1538 10 4694 111 2589 1593 1962 385 1266 362 3 6622 3 3758 649 1138 1430 5 6380 7 144 649 2056 1430 42 3 8 492 0 7 1264 3875 514

2320 237 2397 1266 362 1456 8 3 3758 649 2056 1430 5 1138 1430 42 3 8 492 0 7 2589 1159 16 1264 6 4593 1211 36 3161 3 6744 1797 2397 866 144 649 2056 35 1484 16 719 378 3259 1278

4995 32 3161 6744 36 1962 385 490 144 649 1138 1430 5 2056 1430 42 2589 3 8 492 0 7 3 6578 142 3875 32 265 3 2745 100 2397 3 2328 1456 12 1302 1610 58 1065 265 134 2986 16 1117 36 6688 380 265 36 2397 6 366 19 6688 380 914 5787 36 2397 6 20 1394 3 2353 3476 76 3 4221 1405 4799 76 3 4221 914 59 3 5057 3 4657 793 4322 84 148 898 5 1912 178 2380 110 40 3 6 76 3 4221 81 2357 107 3136 16 3 6653 265 74 0 826 3 2328 2397 20 1456 7908 28 5855 5 79 3 1305 2506 1117 73 5507 219 7625 6989

2634 99 39 6195 2397 1016 362 2631 562 16 914 5217 23 3174 1962 1078 93 961 610 265 424 2397 6 20 1456 12 265 1048 773 875 3 16 3174 3482 1962 23

In [12]:
from google.colab import files

files.download("allfiles_tokenized.txt")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [14]:
#Preparing to Pretrain a Burmese Language Model


In [13]:
#Convert Tokenized Data into a Single Long Tensor

import torch

all_token_ids = []

with open("allfiles_tokenized.txt", "r", encoding="utf-8") as f:
    for line in f:
        tokens = list(map(int, line.strip().split()))
        all_token_ids.extend(tokens)

data = torch.tensor(all_token_ids, dtype=torch.long)
torch.save(data, "burmese_dataset.pt")

print("Saved tokenized data to burmese_dataset.pt")


Saved tokenized data to burmese_dataset.pt


In [14]:

#Create Training Dataset
from torch.utils.data import Dataset

class TokenDataset(Dataset):
    def __init__(self, data, block_size):
        self.data = data
        self.block_size = block_size

    def __len__(self):
        return len(self.data) - self.block_size

    def __getitem__(self, idx):
        x = self.data[idx:idx+self.block_size]
        y = self.data[idx+1:idx+1+self.block_size]
        return x, y


In [15]:
#definemodel

from transformers import GPT2Config, GPT2LMHeadModel

config = GPT2Config(
    vocab_size=8000,  # Match your tokenizer vocab count
    n_positions=1024,
    n_ctx=1024,
    n_embd=256,
    n_layer=6,
    n_head=4
)

model = GPT2LMHeadModel(config)


In [21]:
from torch.utils.data import DataLoader
from torch.optim import AdamW

block_size = 128
batch_size = 8
dataset = TokenDataset(data, block_size)
loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
optimizer = AdamW(model.parameters(), lr=5e-4)

for epoch in range(5):  # Adjust epochs
    model.train()
    for step, (x, y) in enumerate(loader):
        x, y = x.to(device), y.to(device)
        outputs = model(input_ids=x, labels=y)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        # Log every 50 steps
        if step % 200 == 0:
            print(f"Epoch {epoch+1} Step {step} Loss {loss.item():.4f}")

    print(f"Epoch {epoch+1} finished. Last loss = {loss.item():.4f}")

Epoch 1 Step 0 Loss 7.0634
Epoch 1 Step 200 Loss 7.0989
Epoch 1 Step 400 Loss 6.8654
Epoch 1 Step 600 Loss 7.0248
Epoch 1 Step 800 Loss 6.7162
Epoch 1 Step 1000 Loss 6.8274
Epoch 1 Step 1200 Loss 6.7508
Epoch 1 Step 1400 Loss 6.7111
Epoch 1 Step 1600 Loss 6.6361
Epoch 1 Step 1800 Loss 6.7154
Epoch 1 Step 2000 Loss 6.8850
Epoch 1 Step 2200 Loss 6.4774
Epoch 1 Step 2400 Loss 6.5413
Epoch 1 Step 2600 Loss 6.5916
Epoch 1 Step 2800 Loss 6.6266
Epoch 1 Step 3000 Loss 6.8265
Epoch 1 Step 3200 Loss 6.3768
Epoch 1 Step 3400 Loss 6.7099
Epoch 1 Step 3600 Loss 5.9975
Epoch 1 Step 3800 Loss 6.2928
Epoch 1 Step 4000 Loss 6.1748
Epoch 1 Step 4200 Loss 6.1310
Epoch 1 Step 4400 Loss 6.3509
Epoch 1 Step 4600 Loss 6.3703
Epoch 1 Step 4800 Loss 6.3004
Epoch 1 Step 5000 Loss 6.6124
Epoch 1 Step 5200 Loss 6.3489
Epoch 1 Step 5400 Loss 6.3623
Epoch 1 Step 5600 Loss 6.0176
Epoch 1 Step 5800 Loss 6.4732
Epoch 1 Step 6000 Loss 6.3971
Epoch 1 Step 6200 Loss 5.9071
Epoch 1 Step 6400 Loss 6.3971
Epoch 1 Step 6600

In [22]:
torch.save(model.state_dict(), "trained_model.pth")
from google.colab import files
files.download("trained_model.pth")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [24]:
print(f"Total parameters: {sum(p.numel() for p in model.parameters()):,}")
print(f"Trainable parameters: {sum(p.numel() for p in model.parameters() if p.requires_grad):,}")

print("\nModel architecture:")
print(model)

print("\nParameter details:")
for name, param in model.named_parameters():
    print(f"{name}: {param.shape}, requires_grad={param.requires_grad}")

print("\nModel config:")
print(model.config)


Total parameters: 7,049,216
Trainable parameters: 7,049,216

Model architecture:
GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(8000, 256)
    (wpe): Embedding(1024, 256)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-5): 6 x GPT2Block(
        (ln_1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D(nf=768, nx=256)
          (c_proj): Conv1D(nf=256, nx=256)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=1024, nx=256)
          (c_proj): Conv1D(nf=256, nx=1024)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=256, out_featur