In [1]:
# morpheme_tokenizer.py

# Expanded Prefixes (unique additions)
prefixes = [
    'प्र', 'पर', 'अ', 'अन', 'अति', 'स', 'वि', 'उप', 'सं', 'सु', 'दु', 'नि', 'अध', 'अव',
    'निर', 'पुन', 'प्रति', 'अभि', 'अधि', 'उत', 'अप', 'अति', 'आ', 'अन्त', 'अन्तर', 'आत्म',
    'प्राक्', 'पुरा', 'सह', 'स्व', 'सम', 'वि', 'अध', 'अनु', 'अभि', 'अव', 'आ', 'उद्', 'नि',
    'परा', 'प्र', 'सम्', 'सु', 'दु', 'निर', 'परि', 'प्रति', 'वि', 'आ', 'अ', 'अन', 'अध',
    'अन्त', 'अन्तर', 'अप', 'अभि', 'अव', 'आ', 'उत्', 'उप', 'दु', 'नि', 'निर', 'पर', 'परि',
    'पुन', 'प्र', 'प्रति', 'वि', 'स', 'सम्', 'सु', 'स्व', 'ह्रस्व', 'दीर्घ', 'पूर्व', 'पश्च',
    'उत्तर', 'दक्षिण', 'महा', 'लघु', 'आदि', 'अन्त्य', 'मध्य', 'प्रथम', 'द्वितीय', 'तृतीय'
]

# Expanded Suffixes for Hindi Wikipedia/encyclopedic content
suffixes = [
    'ता', 'त्व', 'पन', 'ई', 'इक', 'अक', 'ईय', 'इत', 'अन', 'वान', 'मान', 'हीन', 'वाला',
    'वती', 'वान्', 'मती', 'कारी', 'धारी', 'बंद', 'गत', 'युक्त', 'रहित', 'मय', 'वत्', 'शील',
    'कर', 'दायक', 'भर', 'पूर्ण', 'युक्त', 'मूलक', 'प्रिय', 'भाषी', 'ज्ञ', 'विद', 'शास्त्री',
    'धर्मी', 'वादी', 'तंत्र', 'मंत्र', 'विधि', 'करण', 'गीत', 'सूत्र', 'शास्त्र', 'वृत्ति',
    'वाद', 'भाषा', 'लिपि', 'संस्कृति', 'सभ्यता', 'इतिहास', 'भूगोल', 'राजनीति', 'अर्थव्यवस्था',
    'सरकार', 'संविधान', 'व्याकरण', 'उच्चारण', 'प्रणाली', 'व्यवस्था', 'पद्धति', 'शैली', 'प्रकार',
    'क्षेत्र', 'युग', 'काल', 'समय', 'सदी', 'वर्ष', 'माह', 'दिन', 'संख्या', 'मात्रा'
]

# Expanded Roots for Hindi Wikipedia/encyclopedic content
roots = [
    'भाषा', 'हिन्दी', 'संस्कृत', 'लिपि', 'देवनागरी', 'व्याकरण', 'उच्चारण', 'ध्वनि', 'वर्ण',
    'शब्द', 'वाक्य', 'अर्थ', 'भाव', 'संस्कृति', 'साहित्य', 'काव्य', 'गद्य', 'कवि', 'लेखक',
    'रचना', 'पुस्तक', 'ज्ञान', 'विज्ञान', 'इतिहास', 'भूगोल', 'राजनीति', 'अर्थ', 'व्यवस्था',
    'सरकार', 'संविधान', 'कानून', 'अधिकार', 'कर्तव्य', 'राज्य', 'देश', 'राष्ट्र', 'संसद',
    'विधान', 'चुनाव', 'प्रधानमंत्री', 'राष्ट्रपति', 'मंत्री', 'विभाग', 'योजना', 'विकास',
    'अर्थव्यवस्था', 'उद्योग', 'कृषि', 'वाणिज्य', 'व्यापार', 'निर्यात', 'आयात', 'मुद्रा',
    'बैंक', 'वित्त', 'शिक्षा', 'विद्यालय', 'विश्वविद्यालय', 'शिक्षक', 'छात्र', 'पाठ्यक्रम',
    'परीक्षा', 'स्वास्थ्य', 'चिकित्सा', 'रोग', 'उपचार', 'अस्पताल', 'डॉक्टर', 'वैज्ञानिक',
    'तकनीक', 'अनुसंधान', 'आविष्कार', 'मशीन', 'यंत्र', 'कंप्यूटर', 'इंटरनेट', 'सॉफ्टवेयर',
    'मोबाइल', 'यातायात', 'सड़क', 'रेल', 'हवाई', 'जहाज', 'मेट्रो', 'परिवहन', 'संचार',
    'टेलीफोन', 'टीवी', 'रेडियो', 'अखबार', 'पत्रकार', 'समाचार', 'मनोरंजन', 'फिल्म', 'गाना',
    'नृत्य', 'कला', 'चित्र', 'मूर्ति', 'स्थापत्य', 'भवन', 'मंदिर', 'मस्जिद', 'गिरजा',
    'धर्म', 'हिन्दू', 'मुस्लिम', 'सिख', 'ईसाई', 'जैन', 'बौद्ध', 'पूजा', 'प्रार्थना', 'त्योहार',
    'उत्सव', 'विवाह', 'संस्कार', 'जन्म', 'मृत्यु', 'परिवार', 'माता', 'पिता', 'पुत्र', 'पुत्री',
    'भाई', 'बहन', 'दादा', 'दादी', 'नाती', 'पोती', 'समाज', 'जाति', 'वर्ग', 'समुदाय', 'लोग',
    'जनसंख्या', 'नागरिक', 'महिला', 'पुरुष', 'बच्चा', 'युवा', 'वृद्ध', 'किसान', 'मजदूर',
    'कर्मचारी', 'अधिकारी', 'नेता', 'अभिनेता', 'गायक', 'लेखक', 'कवि', 'चित्रकार', 'मूर्तिकार',
    'वास्तुकार', 'इंजीनियर', 'डॉक्टर', 'शिक्षक', 'वैज्ञानिक', 'खिलाड़ी', 'अध्यापक', 'प्राध्यापक',
    'विद्वान', 'पंडित', 'मौलवी', 'पादरी', 'गुरु', 'शिष्य', 'भक्त', 'योगी', 'साधु', 'संन्यासी',
    'क्रांतिकारी', 'स्वतंत्रता', 'संग्राम', 'युद्ध', 'शांति', 'सन्धि', 'समझौता', 'संविधान', 'कानून',
    'अदालत', 'जज', 'वकील', 'पुलिस', 'सेना', 'नौसेना', 'वायुसेना', 'सैनिक', 'अधिकारी', 'जवान',
    'युद्ध', 'शस्त्र', 'बंदूक', 'तोप', 'टैंक', 'जहाज', 'विमान', 'मिसाइल', 'परमाणु', 'ऊर्जा',
    'बिजली', 'पेट्रोल', 'डीजल', 'गैस', 'कोयला', 'खनिज', 'सोना', 'चाँदी', 'ताँबा', 'लोहा',
    'इमारत', 'मकान', 'फ्लैट', 'बंगला', 'हवेली', 'महल', 'किला', 'स्टेशन', 'हवाईअड्डा', 'बस',
    'स्टैंड', 'बाजार', 'दुकान', 'मॉल', 'हॉस्पिटल', 'स्कूल', 'कॉलेज', 'यूनिवर्सिटी', 'पार्क',
    'उद्यान', 'चिड़ियाघर', 'संग्रहालय', 'पुस्तकालय', 'अस्पताल', 'दवाखाना', 'दवा', 'गोली',
    'इंजेक्शन', 'ऑपरेशन', 'चिकित्सा', 'डॉक्टर', 'नर्स', 'मरीज', 'रोग', 'बुखार', 'खाँसी',
    'जुकाम', 'दर्द', 'चोट', 'दुर्घटना', 'मौत', 'जीवन', 'स्वास्थ्य', 'आरोग्य', 'योग', 'प्राणायाम',
    'ध्यान', 'आहार', 'भोजन', 'पानी', 'दूध', 'चाय', 'कॉफी', 'रोटी', 'चावल', 'दाल', 'सब्जी',
    'फल', 'मिठाई', 'नमक', 'मिर्च', 'मसाला', 'तेल', 'घी', 'मक्खन', 'पनीर', 'दही', 'लस्सी',
    'शरबत', 'जूस', 'सूप', 'सलाद', 'अचार', 'चटनी', 'पापड़', 'बिस्कुट', 'केक', 'आइसक्रीम',
    'चॉकलेट', 'पान', 'सिगरेट', 'शराब', 'दवा', 'नशा', 'सुधार', 'केंद्र', 'आश्रम', 'मंदिर',
    'मस्जिद', 'गुरुद्वारा', 'चर्च', 'धर्मशाला', 'सत्संग', 'भजन', 'कीर्तन', 'प्रवचन', 'उपदेश',
    'शिक्षा', 'ज्ञान', 'विद्या', 'बुद्धि', 'मेधा', 'प्रतिभा', 'होशियारी', 'चतुराई', 'समझ',
    'बुद्धिमान', 'मूर्ख', 'अज्ञान', 'अंधविश्वास', 'परंपरा', 'रीति', 'रिवाज', 'प्रथा', 'संस्कार',
    'विवाह', 'जन्म', 'मृत्यु', 'संस्कार', 'उपनयन', 'मुंडन', 'कर्णछेद', 'विद्यारंभ', 'विवाह',
    'अंतिम', 'संस्कार', 'श्राद्ध', 'तर्पण', 'पिंडदान', 'मुक्ति', 'मोक्ष', 'स्वर्ग', 'नरक',
    'पुनर्जन्म', 'कर्म', 'भाग्य', 'नियति', 'ईश्वर', 'भगवान', 'अल्लाह', 'वाहेगुरु', 'ईसा',
    'मसीह', 'पैगम्बर', 'ऋषि', 'मुनि', 'साधु', 'संत', 'महात्मा', 'गुरु', 'शिष्य', 'भक्त',
    'आराधना', 'पूजा', 'इबादत', 'प्रार्थना', 'सत्संग', 'भजन', 'कीर्तन', 'प्रवचन', 'उपदेश',
    'धर्म', 'अध्यात्म', 'योग', 'तप', 'साधना', 'ध्यान', 'समाधि', 'मोक्ष', 'निर्वाण', 'शांति',
    'आनंद', 'सुख', 'दुख', 'कष्ट', 'पीड़ा', 'वेदना', 'तकलीफ', 'रोग', 'शोक', 'दुःख', 'खुशी',
    'आनंद', 'प्रसन्नता', 'हर्ष', 'उल्लास', 'उमंग', 'उत्साह', 'जोश', 'खुशी', 'मस्ती', 'मजा',
    'आनंद', 'सुख', 'शांति', 'संतोष', 'तृप्ति', 'परितोष', 'आह्लाद', 'प्रफुल्लता', 'हर्ष',
    'उमंग', 'उत्साह', 'जोश', 'खुशी', 'मस्ती', 'मजा', 'आनंद', 'सुख', 'शांति', 'संतोष',
    'तृप्ति', 'परितोष', 'आह्लाद', 'प्रफुल्लता', 'हर्ष', 'उमंग', 'उत्साह', 'जोश', 'खुशी',
    'मस्ती', 'मजा', 'आनंद', 'सुख', 'शांति', 'संतोष', 'तृप्ति', 'परितोष', 'आह्लाद', 'प्रफुल्लता'
]

# Tokenizer function
def tokenize_morpheme(word):
    # Try to match prefix
    for prefix in prefixes:
        if word.startswith(prefix):
            word = word[len(prefix):]  # Remove prefix
            return [prefix] + tokenize_morpheme(word)

    # Try to match suffix
    for suffix in suffixes:
        if word.endswith(suffix):
            word = word[:-len(suffix)]  # Remove suffix
            return tokenize_morpheme(word) + [suffix]

    # If the word is in roots, return it as a root
    if word in roots:
        return [word]

    # If no match, return the word as it is
    return [word]

# Function to process the file and tokenize each word
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        # Read file content
        content = file.read()

        # Tokenize the content
        words = content.split()
        tokenized_words = {}

        for word in words:
            # Apply morpheme tokenizer
            morphemes = tokenize_morpheme(word)
            tokenized_words[word] = ' + '.join(morphemes)

        return tokenized_words

# Function to save tokenized words to a file
def save_tokenized_output(file_path, output_file):
    # Process the input file
    tokenized_words = process_file(file_path)

    # Open output file for writing
    with open(output_file, 'w', encoding='utf-8') as output:
        for word, morphemes in tokenized_words.items():
            output.write(f"{word} → {morphemes}\n")

# Main function
if __name__ == "__main__":
    # Replace 'your_file.txt' with the path to your input text file
    input_file = 'wikipedia_articles_cleaned_100MB.txt'  # Change this path
    output_file = 'morpheme_tokenized_output_100MB.txt'  # Output file where tokenized words will be saved

    # Save tokenized words to the output file
    save_tokenized_output(input_file, output_file)

    print(f"Tokenized output has been saved to {output_file}")


Tokenized output has been saved to morpheme_tokenized_output_100MB.txt


TRAINING llM ON BOTH DATA

In [2]:
import os
os.environ["WANDB_DISABLED"] = "true"

from tokenizers import Tokenizer, models, trainers, pre_tokenizers


def train_tokenizer(file_path, vocab_size=8000, output_path="tokenizer.json"):
    from tokenizers import Tokenizer
    from tokenizers.models import WordLevel
    from tokenizers.trainers import WordLevelTrainer
    from tokenizers.pre_tokenizers import Whitespace

    tokenizer = Tokenizer(WordLevel(unk_token="[UNK]"))
    trainer = WordLevelTrainer(vocab_size=vocab_size, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])
    tokenizer.pre_tokenizer = Whitespace()

    tokenizer.train([file_path], trainer)
    tokenizer.save(output_path)

# Train on both tokenized versions
#train_tokenizer("bpe_tokenized.txt", output_path="bpe_tokenizer.json")
train_tokenizer("morpheme_tokenized_output_100MB.txt", output_path="morph_tokenizer_100MB.json")


In [3]:
from transformers import GPT2TokenizerFast
from torch.utils.data import Dataset, DataLoader
import torch

# Load tokenizer
tokenizer = GPT2TokenizerFast(tokenizer_file="morph_tokenizer_100MB.json")

# Load your text
with open("wikipedia_articles_cleaned_100MB.txt", "r", encoding="utf-8") as f:
    text = f.read()

# Encode the full text
tokens = tokenizer.encode(text)
print(f"Total tokens: {len(tokens)}")

# Create a simple dataset that chunks the tokenized text
class TextDataset(Dataset):
    def __init__(self, tokens, block_size):
        self.tokens = tokens
        self.block_size = block_size

    def __len__(self):
        return len(self.tokens) // self.block_size

    def __getitem__(self, idx):
        start = idx * self.block_size
        end = start + self.block_size
        x = torch.tensor(self.tokens[start:end], dtype=torch.long)
        y = torch.tensor(self.tokens[start + 1:end + 1], dtype=torch.long)
        return x, y


Total tokens: 8178047


In [4]:
from transformers import GPT2LMHeadModel, GPT2Config

# Build a GPT2 model from scratch
config = GPT2Config(
    vocab_size=12_000,
    n_positions=256,
    n_ctx=256,
    n_embd=384,
    n_layer=8,
    n_head=6,
    resid_pdrop=0.1,             # Dropout for residual connections
    attn_pdrop=0.1,              # Dropout for attention layers
    embd_pdrop=0.1,              # Dropout for embeddings
    # Optimization
    activation_function="gelu",
    use_cache=False,             
)
model = GPT2LMHeadModel(config)


In [5]:
from torch.utils.data import DataLoader
from torch.optim import AdamW
from tqdm import tqdm

# Prepare dataset and dataloader
dataset = TextDataset(tokens, block_size=256)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, drop_last=True)

# Optimizer
optimizer = AdamW(model.parameters(), lr=5e-4, weight_decay=0.01)

# Gradient clipping to avoid explosions
max_grad_norm = 1.0

# Move to GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
model.train()

# Train manually
epochs = 20
for epoch in range(epochs):
    model.train()
    total_loss = 0
    progress_bar = tqdm(dataloader, desc=f"Epoch {epoch+1}/{epochs}")
    
    for x, y in progress_bar:
        x, y = x.to(device), y.to(device)
        
        outputs = model(x, labels=y)
        loss = outputs.loss
        
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)  # Clip gradients
        optimizer.step()
        optimizer.zero_grad()
        
        total_loss += loss.item()
        progress_bar.set_postfix(loss=loss.item())
    
    avg_train_loss = total_loss / len(dataloader)
    print(f"Epoch {epoch+1} | Train Loss: {avg_train_loss:.4f}")


Epoch 1/20:   0%|                                                                              | 0/998 [00:00<?, ?it/s]`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.
Epoch 1/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:07<00:00,  7.84it/s, loss=4.15]


Epoch 1 | Train Loss: 4.3989


Epoch 2/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=4.09]


Epoch 2 | Train Loss: 4.0859


Epoch 3/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.94]


Epoch 3 | Train Loss: 3.9641


Epoch 4/20: 100%|██████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.9]


Epoch 4 | Train Loss: 3.8856


Epoch 5/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.82]


Epoch 5 | Train Loss: 3.8263


Epoch 6/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.85]


Epoch 6 | Train Loss: 3.7766


Epoch 7/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.73]


Epoch 7 | Train Loss: 3.7349


Epoch 8/20: 100%|██████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.7]


Epoch 8 | Train Loss: 3.6968


Epoch 9/20: 100%|█████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.72]


Epoch 9 | Train Loss: 3.6623


Epoch 10/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.72]


Epoch 10 | Train Loss: 3.6309


Epoch 11/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.63]


Epoch 11 | Train Loss: 3.6004


Epoch 12/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.62]


Epoch 12 | Train Loss: 3.5725


Epoch 13/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.61]


Epoch 13 | Train Loss: 3.5455


Epoch 14/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.59]


Epoch 14 | Train Loss: 3.5198


Epoch 15/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.47]


Epoch 15 | Train Loss: 3.4955


Epoch 16/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.77it/s, loss=3.43]


Epoch 16 | Train Loss: 3.4718


Epoch 17/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.45]


Epoch 17 | Train Loss: 3.4490


Epoch 18/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.75it/s, loss=3.38]


Epoch 18 | Train Loss: 3.4270


Epoch 19/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.48]


Epoch 19 | Train Loss: 3.4066


Epoch 20/20: 100%|████████████████████████████████████████████████████████| 998/998 [02:08<00:00,  7.76it/s, loss=3.38]

Epoch 20 | Train Loss: 3.3866





In [6]:
model.save_pretrained("gpt2_morph_manual_100MB")
tokenizer.save_pretrained("gpt2_morph_manual_100MB")

('gpt2_morph_manual_100MB\\tokenizer_config.json',
 'gpt2_morph_manual_100MB\\special_tokens_map.json',
 'gpt2_morph_manual_100MB\\vocab.json',
 'gpt2_morph_manual_100MB\\added_tokens.json',
 'gpt2_morph_manual_100MB\\tokenizer.json')

In [7]:
input_text = "अब्राहम लिंकन द्वारा अमरीकी गृह युद्ध के बीच में गुलामों:"

# Tokenize and move tensors to the same device as the model
inputs = tokenizer(input_text, return_tensors="pt").to(device)  # Add `.to(device)`

# Generate text
output = model.generate(
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    max_length=50,
    do_sample=True,
    top_p=0.9,
    temperature=0.9,
    pad_token_id=tokenizer.eos_token_id,  # Ensure pad_token_id is set
    no_repeat_ngram_size=1
)

print(tokenizer.decode(output[0], skip_special_tokens=True))

द्वारा गृह युद्ध के बीच में गया । ने को सबसे बताया पूर्व अपने की का करने लिए जिसमें व्यक्ति या शामिल व भी हो यह रूप एक है हर और से पर करता कि ही इस बिना राष्ट्र शासन मुक्ति किया सके नहीं वह
