In [1]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Downloading datasets-3.5.0-py3-none-any.whl (491 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.2/491.2 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading multiprocess-0.70.16-py311-none-any.whl (143 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.5/143.5 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading x

In [None]:
token = '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'
from datasets import load_dataset

# Use streaming mode to avoid memory issues
dataset = load_dataset(
    "oscar-corpus/OSCAR-2201",
    language="hi",
    split="train",
    token = token,
    streaming=True,  # This avoids loading everything into memory
)

n_samples = 100
output_file = "oscar_hi_sample.txt"

with open(output_file, "w", encoding="utf-8") as f:
    for i, example in enumerate(dataset):
        text = example.get("text", "").strip()
        if text:
            f.write(text + "\n\n")  # two newlines for separation
        if i + 1 >= n_samples:
            break

print(f"Saved {n_samples} samples to {output_file}")

In [None]:
import re
# Path to input and output files
input_file = "oscar_hi_sample.txt"
output_file = "oscar_hi_cleaned.txt"

# Devanagari Unicode range: U+0900 to U+097F
# Optional: Add some punctuation if needed (like । or whitespace)
devanagari_pattern = re.compile(r'^[\u0900-\u097F]+$')
def is_hindi_word(word):
    return devanagari_pattern.match(word) is not None

cleaned_lines = []

with open(input_file, "r", encoding="utf-8") as infile:
    for line in infile:
        words = line.strip().split()
        hindi_words = [word for word in words if is_hindi_word(word)]
        if hindi_words:
            cleaned_lines.append(" ".join(hindi_words))

# Save cleaned lines to a new file
with open(output_file, "w", encoding="utf-8") as outfile:
    for line in cleaned_lines:
        outfile.write(line + "\n")

print(f"Cleaned Hindi text saved to {output_file}")

In [None]:
!pip install morfessor
import morfessor

# Step 1: Load and clean your word list from the file
def load_hindi_words(file_path):
    with open("/hindi_wordlist_10k.txt", 'r', encoding='utf-8') as f:
        lines = f.readlines()
    # Strip whitespace, remove empty lines, and keep only Devanagari words
    words = [line.strip() for line in lines if line.strip()]
    return list(set(words))  # remove duplicates

# Step 2: Train Morfessor on your data
def train_morfessor(word_list):
    model = morfessor.BaselineModel()
    # Provide words in format: (count, word)
    training_data = [(1, word) for word in word_list]
    model.load_data(training_data)
    return model

# Step 3: Segment a new word
def segment_word(model, word):
    segments, _ = model.viterbi_segment(word)
    return segments

# Example usage
file_path = "hindi_words.txt"
word_list = load_hindi_words(file_path)
model = train_morfessor(word_list)

# Try segmenting a few words
test_words = ["अनुभवी", "सहनशीलता", "नेतागिरी", "प्रसिद्ध"]
for w in test_words:
    print(f"{w} → {' + '.join(segment_word(model, w))}")


अनुभवी → अनुभवी
सहनशीलता → सहनशीलता
नेतागिरी → नेतागिरी
प्रसिद्ध → प्रसिद्ध


In [None]:
# Let's inspect the lexicon (learned morphemes)
for word in ["अनुभवी", "सहनशीलता", "नेतागिरी", "प्रसिद्ध"]:
    segments, _ = model.viterbi_segment(word)
    print(f"{word} → {' + '.join(segments)}")

अनुभवी → अनुभवी
सहनशीलता → सहनशीलता
नेतागिरी → नेतागिरी
प्रसिद्ध → प्रसिद्ध


In [None]:
import random

# Example extended lists (these will be expanded to simulate 10,000 morphemes)
prefixes = [
    'अ', 'अन', 'अध', 'अति', 'पर', 'स', 'व', 'प्र', 'उ', 'सभी', 'अधि', 'उप', 'वि', 'संप',
    'प्रौ', 'अधिकार', 'आ', 'न', 'सम', 'अंतर', 'बिना', 'सदृश', 'पार', 'उदाहरण', 'रूप', 'विक',
    'संपर्क', 'विवेक', 'क', 'मुख्य', 'प्रकृति', 'तंत्र', 'धर्म', 'सामाजिक', 'विज्ञान'
] * 100  # Replicating the list to simulate a larger list

suffixes = [
    'ता', 'वाला', 'वाली', 'ने', 'रूप', 'पन', 'इ', 'नुमा', 'ण', 'वृत्ति', 'वाद', 'शक्ति', 'रण',
    'कता', 'धन', 'सिद्ध', 'त्व', 'ता', 'करण', 'ज्ञान', 'काल', 'शास्त्र', 'ई', 'साधना', 'सार',
    'देश', 'मूल्य', 'वृद्धि', 'वाला', 'प्रकार', 'भावना', 'आत्म', 'शांति', 'समान', 'वर्धन'
] * 100  # Replicating the list to simulate a larger list

roots = [
    'भारत', 'शक्ति', 'समाज', 'धर्म', 'विज्ञान', 'ज्ञान', 'प्रकृति', 'जीवन', 'कला', 'शांति', 'प्यार',
    'सपना', 'विकास', 'आत्मा', 'मूल्य', 'रक्षा', 'शौर्य', 'शक्ति', 'विज्ञानी', 'वृत्ति', 'संतोष',
    'राज', 'नेता', 'संत', 'योग', 'विपक्ष', 'विजेता', 'लक्ष्य', 'मूल', 'न्याय', 'सत्यमेव',
    'मित्र', 'कर्म', 'शिक्षा', 'श्रम', 'विधि', 'रचनात्मक', 'जिंदगी', 'संगीत', 'दर्शन'
] * 100  # Replicating the list to simulate a larger list

# Tokenizer function
def tokenize_morpheme(word):
    # Try to match prefix
    for prefix in prefixes:
        if word.startswith(prefix):
            word = word[len(prefix):]  # Remove prefix
            return [prefix] + tokenize_morpheme(word)

    # Try to match suffix
    for suffix in suffixes:
        if word.endswith(suffix):
            word = word[:-len(suffix)]  # Remove suffix
            return tokenize_morpheme(word) + [suffix]

    # If the word is in roots, return it as a root
    if word in roots:
        return [word]

    # If no match, return the word as it is
    return [word]

# Function to process the file and tokenize each word
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        # Read file content
        content = file.read()

        # Tokenize the content
        words = content.split()
        tokenized_words = {}

        for word in words:
            # Apply morpheme tokenizer
            morphemes = tokenize_morpheme(word)
            tokenized_words[word] = ' + '.join(morphemes)

        return tokenized_words

# Replace 'your_file.txt' with the path to your text file
file_path = '/oscar_hi_cleaned.txt'  # Change this path

# Process the file
tokenized_words = process_file(file_path)

# Output the tokenized words
for word, morphemes in tokenized_words.items():
    print(f"{word} → {morphemes}")


हांसी → हांसी
देह → देह
व्यापार → व + ्यापार
का → क + ा
भंडाफोड़ → भंडाफोड़
हुआ → हुआ
है। → है।
थाना → थाना
शहर → शहर
पुलिस → पुलिस
ने → न + े
तीन → तीन
महिलाओं → महिलाओं
व → व + 
एक → एक
पीजी → पीजी
संचालक → स + ंचालक
को → क + ो
अनैतिक → अ + न + ैतिक
कार्य → क + ार्य
करने → क + र + ने
के → क + े
आरोप → आ + रोप
में → में
गिरफ्तार → गिरफ्तार
कर → क + र
लिया → लिया
जींद → जींद
बाइपास → बाइपास
पर → पर + 
स्थित → स + ्थित
पीसी → पीसी
स्टार → स + ्टार
की → क + ी
गुप्त → गुप्त
सूचना → स + ूचना
मिली → मिली
थी। → थी।
बोगस → बोगस
ग्राहक → ग्राहक
तैयार → तैयार
उसे → उ + स + े
भेजा। → भेजा।
जैसे → जैसे
ही → ही
सौदा → स + ौदा
तय → तय
हुआ। → हुआ।
सही → स + ही
पाई → पा + ई
गई → ग + ई
और → और
तुरंत → तुरंत
वहां → व + हां
से → स + े
लिया। → लिया।
महिला → महिला
हिमाचल → हिमाचल
प्रदेश → प्र +  + देश
जबकि → जबकि
दो → दो
हरियाणा → हरियाणा
हैं। → हैं।
लोगों → लोगों
खिलाफ → खिलाफ
विभिन्न → व + िभिन्न
धाराओं → धाराओं
कार्रवाई → क + ार्रवा + ई
जा → जा
रही → रही
ये → ये
सब → स + ब
अफवाह → अ + फवाह
कल → क + ल
म

In [None]:
import random

# Expanded Prefixes (unique additions)
prefixes = [
    'अ', 'अन', 'अध', 'अति', 'पर', 'स', 'व', 'प्र', 'उ', 'सभी', 'उप', 'वि', 'संप', 'प्रौ',
    'अधिकार', 'आ', 'न', 'सम', 'अंतर', 'बिना', 'सदृश', 'पार', 'उदाहरण', 'रूप', 'विक', 'संपर्क',
    'विवेक', 'क', 'मुख्य', 'प्रकृति', 'तंत्र', 'धर्म', 'सामाजिक', 'विज्ञान', 'विशेष', 'अधिकार',
    'प्रति', 'अधिवेशन', 'संचालन', 'संविधान', 'समाज', 'प्रतिनिधि', 'संचालित', 'अंतरिक्ष',
    'विज्ञापन', 'आधिकारिक', 'आध्यात्मिक', 'कृपया', 'संस्कृत', 'दृश्य', 'पारंपरिक', 'स्वदेशी',
    'अंतरराष्ट्रीय', 'न्यायिक', 'प्राकृतिक', 'समान', 'समानांतर', 'संकुचित', 'विकसीत', 'साक्षात्कार',
    'उधार', 'उत्साहित', 'सजग', 'आत्म', 'विश्वास', 'प्राकृतिक', 'विकसित'
]

# Expanded Suffixes (unique additions)
suffixes = [
    'ता', 'वाला', 'वाली', 'ने', 'रूप', 'पन', 'इ', 'नुमा', 'ण', 'वृत्ति', 'वाद', 'शक्ति', 'रण',
    'कता', 'धन', 'सिद्ध', 'त्व', 'ता', 'करण', 'ज्ञान', 'काल', 'शास्त्र', 'ई', 'साधना', 'सार',
    'देश', 'मूल्य', 'वृद्धि', 'वाला', 'प्रकार', 'भावना', 'आत्म', 'शांति', 'समान', 'वर्धन',
    'हीन', 'मूल', 'निवासी', 'शुल्क', 'विधि', 'कारण', 'वीर', 'देश', 'अधिकार', 'भविष्य', 'प्रभाव',
    'स्वीकृति', 'त्याग', 'योजना', 'पुरस्कार', 'निर्णय', 'जन', 'संतुलन', 'मान्यता', 'विश्व', 'संपत्ति',
    'सिद्धांत', 'समाजवादी', 'आधुनिक', 'सुरक्षा', 'संगठित', 'निष्ठा', 'परिस्थिति', 'विकास', 'शक्ति',
    'साक्षात्कार', 'प्रशासन', 'रचनात्मक', 'समर्थ', 'विवेचना', 'शिकायत', 'मुलायम', 'विवाह',
    'महत्व', 'समझौता', 'समर्पण', 'स्वास्थ्य', 'पदवी', 'लाभ', 'लक्षण', 'नौकरी', 'योजना'
]

# Expanded Roots (unique additions)
roots = [
    'भारत', 'शक्ति', 'समाज', 'धर्म', 'विज्ञान', 'ज्ञान', 'प्रकृति', 'जीवन', 'कला', 'शांति', 'प्यार',
    'सपना', 'विकास', 'आत्मा', 'मूल्य', 'रक्षा', 'शौर्य', 'विज्ञानी', 'वृत्ति', 'संतोष',
    'राज', 'नेता', 'संत', 'योग', 'विपक्ष', 'विजेता', 'लक्ष्य', 'मूल', 'न्याय', 'सत्यमेव',
    'मित्र', 'कर्म', 'शिक्षा', 'श्रम', 'विधि', 'रचनात्मक', 'जिंदगी', 'संगीत', 'दर्शन',
    'संविधान', 'लोक', 'राजनीति', 'प्रशासन', 'स्वतंत्रता', 'संस्कार', 'मुलायम', 'संघ',
    'विरासत', 'अनुराग', 'भावना', 'रचनात्मकता', 'समस्या', 'समाधान', 'आत्मनिर्भर', 'अभियान',
    'उत्साह', 'सपने', 'भविष्य', 'शिक्षक', 'शिक्षिका', 'विद्यालय', 'नौकरी', 'स्वास्थ्य', 'समाजसेवा',
    'विकिरण', 'विश्वविद्यालय', 'संस्था', 'अधिकार', 'संगठन', 'संचार', 'मूल', 'समाजशास्त्र', 'अर्थशास्त्र',
    'शिक्षण', 'अध्ययन', 'समाजवादी', 'विपरीत', 'सामाजिक', 'कर्मचारी', 'प्रारंभ', 'शुद्धता', 'विवाह',
    'तंत्रज्ञान', 'विपणन', 'नैतिकता', 'संस्कार', 'निर्माण', 'स्वतंत्रता', 'ध्वनि', 'आदर्श'
]

# Tokenizer function
def tokenize_morpheme(word):
    # Try to match prefix
    for prefix in prefixes:
        if word.startswith(prefix):
            word = word[len(prefix):]  # Remove prefix
            return [prefix] + tokenize_morpheme(word)

    # Try to match suffix
    for suffix in suffixes:
        if word.endswith(suffix):
            word = word[:-len(suffix)]  # Remove suffix
            return tokenize_morpheme(word) + [suffix]

    # If the word is in roots, return it as a root
    if word in roots:
        return [word]

    # If no match, return the word as it is
    return [word]

# Function to process the file and tokenize each word
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        # Read file content
        content = file.read()

        # Tokenize the content
        words = content.split()
        tokenized_words = {}

        for word in words:
            # Apply morpheme tokenizer
            morphemes = tokenize_morpheme(word)
            tokenized_words[word] = ' + '.join(morphemes)

        return tokenized_words

# Replace 'your_file.txt' with the path to your text file
file_path = '/oscar_hi_cleaned.txt'  # Change this path

# Process the file
tokenized_words = process_file(file_path)

# Output the tokenized words
for word, morphemes in tokenized_words.items():
    print(f"{word} → {morphemes}")


हांसी → हांसी
देह → देह
व्यापार → व + ्यापार
का → क + ा
भंडाफोड़ → भंडाफोड़
हुआ → हुआ
है। → है।
थाना → थाना
शहर → शहर
पुलिस → पुलिस
ने → न + े
तीन → तीन
महिलाओं → महिलाओं
व → व + 
एक → एक
पीजी → पीजी
संचालक → स + ंचालक
को → क + ो
अनैतिक → अ + न + ैतिक
कार्य → क + ार्य
करने → क + र + ने
के → क + े
आरोप → आ + रोप
में → में
गिरफ्तार → गिरफ्तार
कर → क + र
लिया → लिया
जींद → जींद
बाइपास → बाइपास
पर → पर + 
स्थित → स + ्थित
पीसी → पीसी
स्टार → स + ्टार
की → क + ी
गुप्त → गुप्त
सूचना → स + ूचना
मिली → मिली
थी। → थी।
बोगस → बोगस
ग्राहक → ग्राहक
तैयार → तैयार
उसे → उ + स + े
भेजा। → भेजा।
जैसे → जैसे
ही → ही
सौदा → स + ौदा
तय → तय
हुआ। → हुआ।
सही → स + ही
पाई → पा + ई
गई → ग + ई
और → और
तुरंत → तुरंत
वहां → व + हां
से → स + े
लिया। → लिया।
महिला → महिला
हिमाचल → हिमाचल
प्रदेश → प्र +  + देश
जबकि → जबकि
दो → दो
हरियाणा → हरियाणा
हैं। → हैं।
लोगों → लोगों
खिलाफ → खिलाफ
विभिन्न → व + िभिन्न
धाराओं → धाराओं
कार्रवाई → क + ार्रवा + ई
जा → जा
रही → रही
ये → ये
सब → स + ब
अफवाह → अ + फवाह
कल → क + ल
म

In [None]:
# Process the file and print all tokenized words
tokenized_words = process_file(file_path)

# Output the tokenized words
for word, morphemes in tokenized_words.items():
    print(f"{word} → {morphemes}")


हांसी → हांसी
देह → देह
व्यापार → व + ्यापार
का → क + ा
भंडाफोड़ → भंडाफोड़
हुआ → हुआ
है। → है।
थाना → थाना
शहर → शहर
पुलिस → पुलिस
ने → न + े
तीन → तीन
महिलाओं → महिलाओं
व → व + 
एक → एक
पीजी → पीजी
संचालक → स + ंचालक
को → क + ो
अनैतिक → अ + न + ैतिक
कार्य → क + ार्य
करने → क + र + ने
के → क + े
आरोप → आ + रोप
में → में
गिरफ्तार → गिरफ्तार
कर → क + र
लिया → लिया
जींद → जींद
बाइपास → बाइपास
पर → पर + 
स्थित → स + ्थित
पीसी → पीसी
स्टार → स + ्टार
की → क + ी
गुप्त → गुप्त
सूचना → स + ूचना
मिली → मिली
थी। → थी।
बोगस → बोगस
ग्राहक → ग्राहक
तैयार → तैयार
उसे → उ + स + े
भेजा। → भेजा।
जैसे → जैसे
ही → ही
सौदा → स + ौदा
तय → तय
हुआ। → हुआ।
सही → स + ही
पाई → पा + ई
गई → ग + ई
और → और
तुरंत → तुरंत
वहां → व + हां
से → स + े
लिया। → लिया।
महिला → महिला
हिमाचल → हिमाचल
प्रदेश → प्र +  + देश
जबकि → जबकि
दो → दो
हरियाणा → हरियाणा
हैं। → हैं।
लोगों → लोगों
खिलाफ → खिलाफ
विभिन्न → व + िभिन्न
धाराओं → धाराओं
कार्रवाई → क + ार्रवा + ई
जा → जा
रही → रही
ये → ये
सब → स + ब
अफवाह → अ + फवाह
कल → क + ल
म

In [None]:
# morpheme_tokenizer.py

# Expanded Prefixes (unique additions)
prefixes = [
    'अ', 'अन', 'अध', 'अति', 'पर', 'स', 'व', 'प्र', 'उ', 'सभी', 'उप', 'वि', 'संप', 'प्रौ',
    'अधिकार', 'आ', 'न', 'सम', 'अंतर', 'बिना', 'सदृश', 'पार', 'उदाहरण', 'रूप', 'विक', 'संपर्क',
    'विवेक', 'क', 'मुख्य', 'प्रकृति', 'तंत्र', 'धर्म', 'सामाजिक', 'विज्ञान', 'विशेष', 'अधिकार',
    'प्रति', 'अधिवेशन', 'संचालन', 'संविधान', 'समाज', 'प्रतिनिधि', 'संचालित', 'अंतरिक्ष',
    'विज्ञापन', 'आधिकारिक', 'आध्यात्मिक', 'कृपया', 'संस्कृत', 'दृश्य', 'पारंपरिक', 'स्वदेशी',
    'अंतरराष्ट्रीय', 'न्यायिक', 'प्राकृतिक', 'समान', 'समानांतर', 'संकुचित', 'विकसीत', 'साक्षात्कार',
    'उधार', 'उत्साहित', 'सजग', 'आत्म', 'विश्वास', 'प्राकृतिक', 'विकसित'
]

# Expanded Suffixes (unique additions)
suffixes = [
    'ता', 'वाला', 'वाली', 'ने', 'रूप', 'पन', 'इ', 'नुमा', 'ण', 'वृत्ति', 'वाद', 'शक्ति', 'रण',
    'कता', 'धन', 'सिद्ध', 'त्व', 'ता', 'करण', 'ज्ञान', 'काल', 'शास्त्र', 'ई', 'साधना', 'सार',
    'देश', 'मूल्य', 'वृद्धि', 'वाला', 'प्रकार', 'भावना', 'आत्म', 'शांति', 'समान', 'वर्धन',
    'हीन', 'मूल', 'निवासी', 'शुल्क', 'विधि', 'कारण', 'वीर', 'देश', 'अधिकार', 'भविष्य', 'प्रभाव',
    'स्वीकृति', 'त्याग', 'योजना', 'पुरस्कार', 'निर्णय', 'जन', 'संतुलन', 'मान्यता', 'विश्व', 'संपत्ति',
    'सिद्धांत', 'समाजवादी', 'आधुनिक', 'सुरक्षा', 'संगठित', 'निष्ठा', 'परिस्थिति', 'विकास', 'शक्ति',
    'साक्षात्कार', 'प्रशासन', 'रचनात्मक', 'समर्थ', 'विवेचना', 'शिकायत', 'मुलायम', 'विवाह',
    'महत्व', 'समझौता', 'समर्पण', 'स्वास्थ्य', 'पदवी', 'लाभ', 'लक्षण', 'नौकरी', 'योजना'
]

# Expanded Roots (unique additions)
roots = [
    'भारत', 'शक्ति', 'समाज', 'धर्म', 'विज्ञान', 'ज्ञान', 'प्रकृति', 'जीवन', 'कला', 'शांति', 'प्यार',
    'सपना', 'विकास', 'आत्मा', 'मूल्य', 'रक्षा', 'शौर्य', 'विज्ञानी', 'वृत्ति', 'संतोष',
    'राज', 'नेता', 'संत', 'योग', 'विपक्ष', 'विजेता', 'लक्ष्य', 'मूल', 'न्याय', 'सत्यमेव',
    'मित्र', 'कर्म', 'शिक्षा', 'श्रम', 'विधि', 'रचनात्मक', 'जिंदगी', 'संगीत', 'दर्शन',
    'संविधान', 'लोक', 'राजनीति', 'प्रशासन', 'स्वतंत्रता', 'संस्कार', 'मुलायम', 'संघ',
    'विरासत', 'अनुराग', 'भावना', 'रचनात्मकता', 'समस्या', 'समाधान', 'आत्मनिर्भर', 'अभियान',
    'उत्साह', 'सपने', 'भविष्य', 'शिक्षक', 'शिक्षिका', 'विद्यालय', 'नौकरी', 'स्वास्थ्य', 'समाजसेवा',
    'विकिरण', 'विश्वविद्यालय', 'संस्था', 'अधिकार', 'संगठन', 'संचार', 'मूल', 'समाजशास्त्र', 'अर्थशास्त्र',
    'शिक्षण', 'अध्ययन', 'समाजवादी', 'विपरीत', 'सामाजिक', 'कर्मचारी', 'प्रारंभ', 'शुद्धता', 'विवाह',
    'तंत्रज्ञान', 'विपणन', 'नैतिकता', 'संस्कार', 'निर्माण', 'स्वतंत्रता', 'ध्वनि', 'आदर्श'
]

# Tokenizer function
def tokenize_morpheme(word):
    # Try to match prefix
    for prefix in prefixes:
        if word.startswith(prefix):
            word = word[len(prefix):]  # Remove prefix
            return [prefix] + tokenize_morpheme(word)

    # Try to match suffix
    for suffix in suffixes:
        if word.endswith(suffix):
            word = word[:-len(suffix)]  # Remove suffix
            return tokenize_morpheme(word) + [suffix]

    # If the word is in roots, return it as a root
    if word in roots:
        return [word]

    # If no match, return the word as it is
    return [word]

# Function to process the file and tokenize each word
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        # Read file content
        content = file.read()

        # Tokenize the content
        words = content.split()
        tokenized_words = {}

        for word in words:
            # Apply morpheme tokenizer
            morphemes = tokenize_morpheme(word)
            tokenized_words[word] = ' + '.join(morphemes)

        return tokenized_words

# Main function
if __name__ == "__main__":
    # Replace 'your_file.txt' with the path to your text file
    file_path = '/oscar_hi_cleaned.txt'   # Change this path

    # Process the file
    tokenized_words = process_file(file_path)

    # Output the tokenized words
    for word, morphemes in tokenized_words.items():
        print(f"{word} → {morphemes}")


हांसी → हांसी
देह → देह
व्यापार → व + ्यापार
का → क + ा
भंडाफोड़ → भंडाफोड़
हुआ → हुआ
है। → है।
थाना → थाना
शहर → शहर
पुलिस → पुलिस
ने → न + े
तीन → तीन
महिलाओं → महिलाओं
व → व + 
एक → एक
पीजी → पीजी
संचालक → स + ंचालक
को → क + ो
अनैतिक → अ + न + ैतिक
कार्य → क + ार्य
करने → क + र + ने
के → क + े
आरोप → आ + रोप
में → में
गिरफ्तार → गिरफ्तार
कर → क + र
लिया → लिया
जींद → जींद
बाइपास → बाइपास
पर → पर + 
स्थित → स + ्थित
पीसी → पीसी
स्टार → स + ्टार
की → क + ी
गुप्त → गुप्त
सूचना → स + ूचना
मिली → मिली
थी। → थी।
बोगस → बोगस
ग्राहक → ग्राहक
तैयार → तैयार
उसे → उ + स + े
भेजा। → भेजा।
जैसे → जैसे
ही → ही
सौदा → स + ौदा
तय → तय
हुआ। → हुआ।
सही → स + ही
पाई → पा + ई
गई → ग + ई
और → और
तुरंत → तुरंत
वहां → व + हां
से → स + े
लिया। → लिया।
महिला → महिला
हिमाचल → हिमाचल
प्रदेश → प्र +  + देश
जबकि → जबकि
दो → दो
हरियाणा → हरियाणा
हैं। → हैं।
लोगों → लोगों
खिलाफ → खिलाफ
विभिन्न → व + िभिन्न
धाराओं → धाराओं
कार्रवाई → क + ार्रवा + ई
जा → जा
रही → रही
ये → ये
सब → स + ब
अफवाह → अ + फवाह
कल → क + ल
म

In [None]:
# morpheme_tokenizer.py

# Expanded Prefixes (unique additions)
prefixes = [
    'अ', 'अन', 'अध', 'अति', 'पर', 'स', 'व', 'प्र', 'उ', 'सभी', 'उप', 'वि', 'संप', 'प्रौ',
    'अधिकार', 'आ', 'न', 'सम', 'अंतर', 'बिना', 'सदृश', 'पार', 'उदाहरण', 'रूप', 'विक', 'संपर्क',
    'विवेक', 'क', 'मुख्य', 'प्रकृति', 'तंत्र', 'धर्म', 'सामाजिक', 'विज्ञान', 'विशेष', 'अधिकार',
    'प्रति', 'अधिवेशन', 'संचालन', 'संविधान', 'समाज', 'प्रतिनिधि', 'संचालित', 'अंतरिक्ष',
    'विज्ञापन', 'आधिकारिक', 'आध्यात्मिक', 'कृपया', 'संस्कृत', 'दृश्य', 'पारंपरिक', 'स्वदेशी',
    'अंतरराष्ट्रीय', 'न्यायिक', 'प्राकृतिक', 'समान', 'समानांतर', 'संकुचित', 'विकसीत', 'साक्षात्कार',
    'उधार', 'उत्साहित', 'सजग', 'आत्म', 'विश्वास', 'प्राकृतिक', 'विकसित'
]

# Expanded Suffixes (unique additions)
suffixes = [
    'ता', 'वाला', 'वाली', 'ने', 'रूप', 'पन', 'इ', 'नुमा', 'ण', 'वृत्ति', 'वाद', 'शक्ति', 'रण',
    'कता', 'धन', 'सिद्ध', 'त्व', 'ता', 'करण', 'ज्ञान', 'काल', 'शास्त्र', 'ई', 'साधना', 'सार',
    'देश', 'मूल्य', 'वृद्धि', 'वाला', 'प्रकार', 'भावना', 'आत्म', 'शांति', 'समान', 'वर्धन',
    'हीन', 'मूल', 'निवासी', 'शुल्क', 'विधि', 'कारण', 'वीर', 'देश', 'अधिकार', 'भविष्य', 'प्रभाव',
    'स्वीकृति', 'त्याग', 'योजना', 'पुरस्कार', 'निर्णय', 'जन', 'संतुलन', 'मान्यता', 'विश्व', 'संपत्ति',
    'सिद्धांत', 'समाजवादी', 'आधुनिक', 'सुरक्षा', 'संगठित', 'निष्ठा', 'परिस्थिति', 'विकास', 'शक्ति',
    'साक्षात्कार', 'प्रशासन', 'रचनात्मक', 'समर्थ', 'विवेचना', 'शिकायत', 'मुलायम', 'विवाह',
    'महत्व', 'समझौता', 'समर्पण', 'स्वास्थ्य', 'पदवी', 'लाभ', 'लक्षण', 'नौकरी', 'योजना'
]

# Expanded Roots (unique additions)
roots = [
    'भारत', 'शक्ति', 'समाज', 'धर्म', 'विज्ञान', 'ज्ञान', 'प्रकृति', 'जीवन', 'कला', 'शांति', 'प्यार',
    'सपना', 'विकास', 'आत्मा', 'मूल्य', 'रक्षा', 'शौर्य', 'विज्ञानी', 'वृत्ति', 'संतोष',
    'राज', 'नेता', 'संत', 'योग', 'विपक्ष', 'विजेता', 'लक्ष्य', 'मूल', 'न्याय', 'सत्यमेव',
    'मित्र', 'कर्म', 'शिक्षा', 'श्रम', 'विधि', 'रचनात्मक', 'जिंदगी', 'संगीत', 'दर्शन',
    'संविधान', 'लोक', 'राजनीति', 'प्रशासन', 'स्वतंत्रता', 'संस्कार', 'मुलायम', 'संघ',
    'विरासत', 'अनुराग', 'भावना', 'रचनात्मकता', 'समस्या', 'समाधान', 'आत्मनिर्भर', 'अभियान',
    'उत्साह', 'सपने', 'भविष्य', 'शिक्षक', 'शिक्षिका', 'विद्यालय', 'नौकरी', 'स्वास्थ्य', 'समाजसेवा',
    'विकिरण', 'विश्वविद्यालय', 'संस्था', 'अधिकार', 'संगठन', 'संचार', 'मूल', 'समाजशास्त्र', 'अर्थशास्त्र',
    'शिक्षण', 'अध्ययन', 'समाजवादी', 'विपरीत', 'सामाजिक', 'कर्मचारी', 'प्रारंभ', 'शुद्धता', 'विवाह',
    'तंत्रज्ञान', 'विपणन', 'नैतिकता', 'संस्कार', 'निर्माण', 'स्वतंत्रता', 'ध्वनि', 'आदर्श'
]

# Tokenizer function
def tokenize_morpheme(word):
    # Try to match prefix
    for prefix in prefixes:
        if word.startswith(prefix):
            word = word[len(prefix):]  # Remove prefix
            return [prefix] + tokenize_morpheme(word)

    # Try to match suffix
    for suffix in suffixes:
        if word.endswith(suffix):
            word = word[:-len(suffix)]  # Remove suffix
            return tokenize_morpheme(word) + [suffix]

    # If the word is in roots, return it as a root
    if word in roots:
        return [word]

    # If no match, return the word as it is
    return [word]

# Function to process the file and tokenize each word
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        # Read file content
        content = file.read()

        # Tokenize the content
        words = content.split()
        tokenized_words = {}

        for word in words:
            # Apply morpheme tokenizer
            morphemes = tokenize_morpheme(word)
            tokenized_words[word] = ' + '.join(morphemes)

        return tokenized_words

# Function to save tokenized words to a file
def save_tokenized_output(file_path, output_file):
    # Process the input file
    tokenized_words = process_file(file_path)

    # Open output file for writing
    with open(output_file, 'w', encoding='utf-8') as output:
        for word, morphemes in tokenized_words.items():
            output.write(f"{word} → {morphemes}\n")

# Main function
if __name__ == "__main__":
    # Replace 'your_file.txt' with the path to your input text file
    input_file = 'oscar_hi_cleaned.txt'  # Change this path
    output_file = 'tokenized_output.txt'  # Output file where tokenized words will be saved

    # Save tokenized words to the output file
    save_tokenized_output(input_file, output_file)

    print(f"Tokenized output has been saved to {output_file}")


Tokenized output has been saved to tokenized_output.txt


TRAINING llM ON BOTH DATA

In [None]:
import os
os.environ["WANDB_DISABLED"] = "true"

from tokenizers import Tokenizer, models, trainers, pre_tokenizers


def train_tokenizer(file_path, vocab_size=30000, output_path="tokenizer.json"):
    from tokenizers import Tokenizer
    from tokenizers.models import WordLevel
    from tokenizers.trainers import WordLevelTrainer
    from tokenizers.pre_tokenizers import Whitespace

    tokenizer = Tokenizer(WordLevel(unk_token="[UNK]"))
    trainer = WordLevelTrainer(vocab_size=vocab_size, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])
    tokenizer.pre_tokenizer = Whitespace()

    tokenizer.train([file_path], trainer)
    tokenizer.save(output_path)

# Train on both tokenized versions
#train_tokenizer("bpe_tokenized.txt", output_path="bpe_tokenizer.json")
train_tokenizer("/content/tokenized_output.txt", output_path="morph_tokenizer.json")


In [None]:

# TRAINING LLM ON MORPHIC TOKEN
import os
os.environ["WANDB_DISABLED"] = "true"

from transformers import GPT2TokenizerFast, GPT2Config, GPT2LMHeadModel, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments

# Load tokenizer
tokenizer = GPT2TokenizerFast(tokenizer_file="morph_tokenizer.json")  # or "morph_tokenizer.json"

# Prepare dataset
dataset = TextDataset(
    tokenizer=tokenizer,
    file_path="/content/tokenized_output.txt",  # or "morph_tokenized.txt"
    block_size=128
)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# Configure model
config = GPT2Config(vocab_size=tokenizer.vocab_size)
model = GPT2LMHeadModel(config)

# Train
training_args = TrainingArguments(
    output_dir="./gpt2_MORPH",  # or ./gpt2_morph
    overwrite_output_dir=True,
    num_train_epochs=10,
    per_device_train_batch_size=8,
    save_steps=500,
    save_total_limit=2,
    prediction_loss_only=True,
    logging_dir='./logs'
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()


Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.


Step,Training Loss


TrainOutput(global_step=140, training_loss=4.842524065290179, metrics={'train_runtime': 1681.1259, 'train_samples_per_second': 0.648, 'train_steps_per_second': 0.083, 'total_flos': 71202078720000.0, 'train_loss': 4.842524065290179, 'epoch': 10.0})

In [None]:
# GENERATING TEXT FROM TRAINED MODEL
from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
output = generator("भारत", max_length=150, num_return_sequences=1)
print(output[0]["generated_text"])

Device set to use cpu
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


भारत → क + ता प्रकाशित → स + ने + ता । → स + ता प्रकाशित → स + ता प्रकाशित → स + ता + ता प्रकाशित → स + न + ता हरसंभव → अ + ता । → स + ता । → अ + ता + ता + ता + ता + ता + ता पंडित → स + ने कैसे → अ + ता + ता । → स + ता + ता । → स + ता जिससे → अ + ता + ता + ता । → स + ता । → अ + ता जिससे → अ + ता विरोध → स + ता जुड़े → क + ता यादृच्छिक → अ + ता + ता + ता + ता ता + ता ता । → स + ता ता । → स + ता । → अ + न


In [None]:
output = generator("भारत", max_length=50, do_sample=True, temperature=0.9, top_k=50, top_p=0.95)
print(output[0]["generated_text"])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


भारत → स + ने + ने मर्थन → प्र + ता जानकारी → अ + ने बचें । → व + ता बेचा → प्र + ई → व + न + ई मिनटों → न + ता योगदान → स + न + ता गुणवत्ता → व +
