# 🧠 Morphological Segmentation with Morfessor (Telugu)

This tutorial demonstrates unsupervised morphological segmentation using **Morfessor** on **Telugu**, a morphologically rich language.

Morfessor breaks words into morphemes (smallest meaning-carrying units) without requiring labeled data — useful for low-resource NLP tasks.

We will:
- Preprocess Telugu data
- Train the Morfessor model
- Predict and visualize segmentations
- Evaluate segmentation quality


In [59]:
!pip install morfessor
import morfessor
import os


Defaulting to user installation because normal site-packages is not writeable


## 📝 Step 1: Create a Sample Telugu Word File

We'll write a few Telugu words to a `.txt` file — this is needed to train the Morfessor model.


In [60]:
# Sample Telugu words
telugu_words = [
    "ప్రపంచానికి", "అధ్యాపకుడు", "ఉపాధ్యాయురాలు", "అనుభవించాయి", "చదువుతున్నాను"
]

# Save to file
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words:
        f.write(word + "\n")

print("✅ Wrote Telugu words to telugu_sample.txt")


✅ Wrote Telugu words to telugu_sample.txt


## 🤖 Step 2: Train Morfessor on Telugu Data
We’ll now train a Morfessor model using the sample Telugu words.


In [63]:
# Load training data
io = morfessor.MorfessorIO()
data = io.read_corpus_file("telugu_sample.txt")

# Initialize and train the model
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("✅ Morfessor training complete!")


......
......

✅ Morfessor training complete!





## 🔍 Step 3: Predict Morpheme Segmentation

Now we’ll test how Morfessor segments some Telugu words.


In [65]:
# Test words (same ones or new ones)
test_words = [
    "ప్రపంచానికి", "అధ్యాపకుడు", "ఉపాధ్యాయురాలు", "అనుభవించాయి", "చదువుతున్నాను"
]

# Segment and display results
for word in test_words:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


ప్రపంచానికి ➝ ప్రపంచానికి
అధ్యాపకుడు ➝ అధ్యాపకుడు
ఉపాధ్యాయురాలు ➝ ఉపాధ్యాయురాలు
అనుభవించాయి ➝ అనుభవించాయి
చదువుతున్నాను ➝ చదువుతున్నాను


In [67]:
telugu_words = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", 
    "ఆడుతోంది", "ఆడతాడు", "ఆడారు", "ఆడింది",
    "పరీక్ష", "పరీక్షలకి", "పరీక్షలు", "పరీక్షకు"
]


## 📚 Step 4: Train with a Larger Telugu Word List

We’ll now use a longer list of Telugu words that share common patterns (prefixes/suffixes) for better training.


In [69]:
# Larger word list with repeated roots and suffixes
telugu_words_large = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", "చదువుతుంది",
    "ఆడుతోంది", "ఆడతాడు", "ఆడారు", "ఆడింది", "ఆడుతున్నాడు",
    "పరీక్ష", "పరీక్షలు", "పరీక్షలకి", "పరీక్షలకు", "పరీక్షకు",
    "తెలుగునాడు", "తెలుగులో", "తెలుగువారు", "తెలుగుదేశం", "తెలుగుబడి"
]

# Save to file again (overwrite)
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words_large:
        f.write(word + "\n")

print(f"✅ Wrote {len(telugu_words_large)} Telugu words to telugu_sample.txt")


✅ Wrote 20 Telugu words to telugu_sample.txt


## 🔁 Step 5: Retrain Morfessor with the New Data
Now we’ll retrain the model using the larger word list.


# Reload corpus
data = io.read_corpus_file("telugu_sample.txt")

# Reinitialize model (start fresh)
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("✅ Retrained Morfessor with larger dataset!")


## 🔄 Step 6: Segment Again Using the Retrained Model

Let’s check if Morfessor now splits words into meaningful morphemes.


In [71]:
# Predict segmentations on the training words
for word in telugu_words_large:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


చదువుతాడు ➝ చదువుతాడు
చదువుతున్నారు ➝ చదువుతున్నారు
చదువుతున్నాను ➝ చదువుతున్నాను
చదువుతుంది ➝ చదువుతుంది
చదువుతుంది ➝ చదువుతుంది
ఆడుతోంది ➝ ఆడుతోంది
ఆడతాడు ➝ ఆడతాడు
ఆడారు ➝ ఆడారు
ఆడింది ➝ ఆడింది
ఆడుతున్నాడు ➝ ఆడుతున్నాడు
పరీక్ష ➝ పరీక్ష
పరీక్షలు ➝ పరీక్షలు
పరీక్షలకి ➝ పరీక్షలకి
పరీక్షలకు ➝ పరీక్షలకు
పరీక్షకు ➝ పరీక్షకు
తెలుగునాడు ➝ తెలుగునాడు
తెలుగులో ➝ తెలుగులో
తెలుగువారు ➝ తెలుగువారు
తెలుగుదేశం ➝ తెలుగుదేశం
తెలుగుబడి ➝ తెలుగుబడి


In [73]:
telugu_words_extended = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", "చదువుతున్నవి",
    "పాటలకోసం", "పాటలు", "పాటలతో", "పాటకులకు", "పాటగా",
    "ఆడుతుంది", "ఆడతాడు", "ఆడారు", "ఆడతానని", "ఆడుతున్నాము",
    "పరీక్ష", "పరీక్షలు", "పరీక్షలకి", "పరీక్షలకు", "పరీక్షకు",
    "తెలుగునాడు", "తెలుగులో", "తెలుగువారు", "తెలుగుదేశం", "తెలుగుబడి"
]

# Overwrite file
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words_extended:
        f.write(word + "\n")

print(f"✅ Wrote {len(telugu_words_extended)} words to file")


✅ Wrote 25 words to file


In [75]:
# Reload and retrain
data = io.read_corpus_file("telugu_sample.txt")
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("🔁 Model retrained on extended data!")


..........................
..........................
..........................

🔁 Model retrained on extended data!





In [77]:
# Try segmenting again
for word in telugu_words_extended:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


చదువుతాడు ➝ చదువుతాడు
చదువుతున్నారు ➝ చదువుతున్నారు
చదువుతున్నాను ➝ చదువుతున్నాను
చదువుతుంది ➝ చదువుతుంది
చదువుతున్నవి ➝ చదువుతున్నవి
పాటలకోసం ➝ పాట + లకోసం
పాటలు ➝ పాట + లు
పాటలతో ➝ పాట + లతో
పాటకులకు ➝ పాట + కు + లకు
పాటగా ➝ పాట + గా
ఆడుతుంది ➝ ఆడుతుంది
ఆడతాడు ➝ ఆడతాడు
ఆడారు ➝ ఆడారు
ఆడతానని ➝ ఆడతానని
ఆడుతున్నాము ➝ ఆడుతున్నాము
పరీక్ష ➝ పరీక్ష
పరీక్షలు ➝ పరీక్ష + లు
పరీక్షలకి ➝ పరీక్ష + లకి
పరీక్షలకు ➝ పరీక్ష + లకు
పరీక్షకు ➝ పరీక్ష + కు
తెలుగునాడు ➝ తెలుగునాడు
తెలుగులో ➝ తెలుగులో
తెలుగువారు ➝ తెలుగువారు
తెలుగుదేశం ➝ తెలుగుదేశం
తెలుగుబడి ➝ తెలుగుబడి


In [19]:
import shutil
shutil.copy("telugu_500.txt", "telugu_sample.txt")

data = io.read_corpus_file("telugu_sample.txt")
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("✅ Morfessor trained on 500-word dataset!")


.......................................................
......................................................

✅ Morfessor trained on 500-word dataset!





## 🔍 Step: Segment Sample Telugu Words using Trained Model
Let’s now test how well the model segments new and existing Telugu words.


In [79]:
test_words = [
    "చదువుతున్నాను", "పరీక్షలకు", "తెలుగువారు", "పాఠశాలలో", "శిక్షణకోసం",
    "విద్యార్థులు", "తెలుగునాడు", "ఆడతాడు", "విద్యార్థికి", "శిక్షణలో"
]

for word in test_words:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


చదువుతున్నాను ➝ చదువుతున్నాను
పరీక్షలకు ➝ పరీక్ష + లకు
తెలుగువారు ➝ తెలుగువారు
పాఠశాలలో ➝ పాఠశాలలో
శిక్షణకోసం ➝ శిక్షణకోసం
విద్యార్థులు ➝ విద్యార్థు + లు
తెలుగునాడు ➝ తెలుగునాడు
ఆడతాడు ➝ ఆడతాడు
విద్యార్థికి ➝ విద్యార్థికి
శిక్షణలో ➝ శిక్షణలో


In [81]:
import shutil
shutil.copy("telugu_10000.txt", "telugu_sample.txt")

data = io.read_corpus_file("telugu_sample.txt")
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("📈 Morfessor trained on 10,000 words!")


...........................................................
...........................................................
...........................................................
...........................................................

📈 Morfessor trained on 10,000 words!





In [83]:
test_words = [
    "తెలుగులో", "పరీక్షలకి", "శిక్షణలో", "ఆడుతున్నాము", "తెలుగువారు",
    "విద్యార్థులకు", "గురుత్వాకర్షణ", "పాఠశాలలో", "సాహిత్యాన్ని", "అధ్యాపకుడు"
]

for word in test_words:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


తెలుగులో ➝ తెలుగు + లో
పరీక్షలకి ➝ పరీక్ష + ల + కి
శిక్షణలో ➝ శిక్షణ + లో
ఆడుతున్నాము ➝ ఆడుతున్నాము
తెలుగువారు ➝ తెలుగు + వారు
విద్యార్థులకు ➝ విద్యార్థుల + కు
గురుత్వాకర్షణ ➝ గురుత్వాకర్షణ
పాఠశాలలో ➝ పాఠశాల + లో
సాహిత్యాన్ని ➝ సాహిత్యాన్ + ని
అధ్యాపకుడు ➝ అధ్యాపకుడు


In [85]:
test_words = ["తెలుగులో", "పరీక్షలకి", "శిక్షణలో", "ఆడుతున్నాము", "విద్యార్థులకు"]
for word in test_words:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} → {' + '.join(segments)}")


తెలుగులో → తెలుగు + లో
పరీక్షలకి → పరీక్ష + ల + కి
శిక్షణలో → శిక్షణ + లో
ఆడుతున్నాము → ఆడుతున్నాము
విద్యార్థులకు → విద్యార్థుల + కు


In [87]:
test_words_file = []
with open("telugu_500.txt", "r", encoding="utf-8") as f:
    for line in f:
        word = line.strip()
        if word:
            test_words_file.append(word)

print(f"✅ Loaded {len(test_words_file)} words for testing.")



✅ Loaded 500 words for testing.


In [89]:
split_count = 0
for word in test_words_file:
    segments = model.viterbi_segment(word)[0]
    if len(segments) > 1:
        split_count += 1
    print(f"{word} ➝ {' + '.join(segments)}")

print(f"\n📊 {split_count} out of {len(test_words_file)} words were segmented.")


చదువు ➝ చదువు
మాచదువు ➝ మాచదువు
అచదువు ➝ అచదువు
ఉపచదువు ➝ ఉపచదువు
సహచదువు ➝ సహచదువు
చదువుతాడు ➝ చదువుతాడు
మాచదువుతాడు ➝ మాచదువు + తాడు
అచదువుతాడు ➝ అచదువు + తాడు
ఉపచదువుతాడు ➝ ఉపచదువు + తాడు
సహచదువుతాడు ➝ సహచదువు + తాడు
చదువుతుంది ➝ చదువుతుంది
మాచదువుతుంది ➝ మాచదువు + తుంది
అచదువుతుంది ➝ అచదువు + తుంది
ఉపచదువుతుంది ➝ ఉపచదువు + తుంది
సహచదువుతుంది ➝ సహచదువు + తుంది
చదువుతున్నారు ➝ చదువుతున్నారు
మాచదువుతున్నారు ➝ మాచదువు + తున్నారు
అచదువుతున్నారు ➝ అచదువు + తున్నారు
ఉపచదువుతున్నారు ➝ ఉపచదువు + తున్నారు
సహచదువుతున్నారు ➝ సహచదువు + తున్నారు
చదువునాడు ➝ చదువునాడు
మాచదువునాడు ➝ మాచదువు + నాడు
అచదువునాడు ➝ అచదువు + నాడు
ఉపచదువునాడు ➝ ఉపచదువు + నాడు
సహచదువునాడు ➝ సహచదువు + నాడు
చదువులు ➝ చదువులు
మాచదువులు ➝ మాచదువు + లు
అచదువులు ➝ అచదువు + లు
ఉపచదువులు ➝ ఉపచదువు + లు
సహచదువులు ➝ సహచదువు + లు
చదువుకు ➝ చదువుకు
మాచదువుకు ➝ మాచదువు + కు
అచదువుకు ➝ అచదువు + కు
ఉపచదువుకు ➝ ఉపచదువు + కు
సహచదువుకు ➝ సహచదువు + కు
చదువుగా ➝ చదువుగా
మాచదువుగా ➝ మాచదువు + గా
అచదువుగా ➝ అచదువు + గా
ఉపచదువుగా ➝ ఉపచదువు + గా

In [99]:
output_file = "Tested500words.txt"

with open(output_file, "w", encoding="utf-8") as f:
    for word in test_words_file:
        segments = model.viterbi_segment(word)[0]
        segmented_word = " + ".join(segments)
        f.write(f"{word} ➝ {segmented_word}\n")

print(f"✅ Segmentation results saved to {output_file}")



✅ Segmentation results saved to Tested500words.txt


In [103]:
gold_dict = {
    "తెలుగులో": ["తెలుగు", "లో"],
    "పరీక్షలకు": ["పరీక్ష", "లకు"],
    "శిక్షణలో": ["శిక్షణ", "లో"],
    "ఆడుతున్నారు": ["ఆడు", "తున్నారు"],
    "విద్యార్థికి": ["విద్యార్థి", "కి"],
    "చదువుతున్నాను": ["చదువు", "తున్నాను"],
    "తెలుగునాడు": ["తెలుగు", "నాడు"],
    "ఆడుతుంది": ["ఆడు", "తుంది"],
    "పాఠశాలలో": ["పాఠశాల", "లో"],
    "గురువారు": ["గురు", "వారు"]
}


In [105]:
correct = 0
total = len(gold_dict)

print("🔍 Word-by-word comparison:\n")

for word, expected in gold_dict.items():
    predicted = model.viterbi_segment(word)[0]
    match = predicted == expected
    if match:
        correct += 1
    print(f"{word:15} → {' + '.join(predicted):25} | Expected: {' + '.join(expected):25} | {'✅' if match else '❌'}")

accuracy = (correct / total) * 100
print(f"\n📊 Overall Evaluation Accuracy: {accuracy:.2f}% ({correct}/{total} correct)")


🔍 Word-by-word comparison:

తెలుగులో        → తెలుగు + లో               | Expected: తెలుగు + లో               | ✅
పరీక్షలకు       → పరీక్ష + ల + కు           | Expected: పరీక్ష + లకు              | ❌
శిక్షణలో        → శిక్షణ + లో               | Expected: శిక్షణ + లో               | ✅
ఆడుతున్నారు     → ఆడుతున్నారు               | Expected: ఆడు + తున్నారు            | ❌
విద్యార్థికి    → విద్యార్థి + కి           | Expected: విద్యార్థి + కి           | ✅
చదువుతున్నాను   → చదువుతున్నాను             | Expected: చదువు + తున్నాను          | ❌
తెలుగునాడు      → తెలుగు + నాడు             | Expected: తెలుగు + నాడు             | ✅
ఆడుతుంది        → ఆడుతుంది                  | Expected: ఆడు + తుంది               | ❌
పాఠశాలలో        → పాఠశాల + లో               | Expected: పాఠశాల + లో               | ✅
గురువారు        → గురువారు                  | Expected: గురు + వారు               | ❌

📊 Overall Evaluation Accuracy: 50.00% (5/10 correct)


In [117]:
with open("mixed_telugu_2000.txt", "r", encoding="utf-8") as f:
    train_words = [line.strip() for line in f if line.strip()]


In [119]:
# Step 2: Initialize and train the Morfessor model
io = morfessor.MorfessorIO()
model = morfessor.BaselineModel()

# Convert words into (count, word) pairs
train_data = [(1, word) for word in train_words]

model.load_data(train_data)
model.train_batch()

print("✅ Morfessor trained on 2000-word mixed dataset.")


..........................................................
..........................................................
..........................................................
..........................................................
..........................................................
..........................................................


✅ Morfessor trained on 2000-word mixed dataset.


In [121]:
# Load the 500 test words
with open("telugu_500.txt", "r", encoding="utf-8") as f:
    test_words = [line.strip() for line in f if line.strip()]

# Segment each test word using the trained model
segmented_results = []
for word in test_words:
    segments = model.viterbi_segment(word)[0]
    segmented_results.append(f"{word} ➝ {' + '.join(segments)}")

# Save to a file
with open("segmented_output_500_from_2000mix.txt", "w", encoding="utf-8") as f:
    for line in segmented_results:
        f.write(line + "\n")

print("✅ Segmentation complete. Results saved to segmented_output_500_from_2000mix.txt")


✅ Segmentation complete. Results saved to segmented_output_500_from_2000mix.txt


In [123]:
# Count how many words got split (i.e., more than one segment)
split_count = 0

for word in test_words:
    segments = model.viterbi_segment(word)[0]
    if len(segments) > 1:
        split_count += 1

print(f"🔍 {split_count} out of {len(test_words)} words were segmented into multiple morphemes.")


🔍 459 out of 500 words were segmented into multiple morphemes.


In [125]:
correct = 0
total = len(gold_dict)

print("🔍 Word-by-word comparison:\n")

for word, expected in gold_dict.items():
    predicted = model.viterbi_segment(word)[0]
    match = predicted == expected
    if match:
        correct += 1
    print(f"{word:15} → {' + '.join(predicted):25} | Expected: {' + '.join(expected):25} | {'✅' if match else '❌'}")

accuracy = (correct / total) * 100
print(f"\n📊 Overall Evaluation Accuracy: {accuracy:.2f}% ({correct}/{total} correct)")

🔍 Word-by-word comparison:

తెలుగులో        → తెలుగు + లో               | Expected: తెలుగు + లో               | ✅
పరీక్షలకు       → పరీక్ష + ల + కు           | Expected: పరీక్ష + లకు              | ❌
శిక్షణలో        → శిక్షణ + లో               | Expected: శిక్షణ + లో               | ✅
ఆడుతున్నారు     → ఆడు + తున్నారు            | Expected: ఆడు + తున్నారు            | ✅
విద్యార్థికి    → విద్యార్థి + కి           | Expected: విద్యార్థి + కి           | ✅
చదువుతున్నాను   → చదువు + తున్నాను          | Expected: చదువు + తున్నాను          | ✅
తెలుగునాడు      → తెలుగు + నాడు             | Expected: తెలుగు + నాడు             | ✅
ఆడుతుంది        → ఆడు + తుంది               | Expected: ఆడు + తుంది               | ✅
పాఠశాలలో        → పాఠశాల + లో               | Expected: పాఠశాల + లో               | ✅
గురువారు        → గురు + వారు               | Expected: గురు + వారు               | ✅

📊 Overall Evaluation Accuracy: 90.00% (9/10 correct)
