#  Morphological Segmentation with Morfessor (Telugu)

This tutorial demonstrates unsupervised morphological segmentation using **Morfessor** on **Telugu**, a morphologically rich language.

Morfessor breaks words into morphemes (smallest meaning-carrying units) without requiring labeled data — useful for low-resource NLP tasks.

We will:
- Preprocess Telugu data
- Train the Morfessor model
- Predict and visualize segmentations
- Evaluate segmentation quality


In [1]:
!pip install morfessor
import morfessor
import os




## 📝 Step 1: Create a Sample Telugu Word File

We'll write a few Telugu words to a `.txt` file — this is needed to train the Morfessor model.


In [2]:
# Sample Telugu words
telugu_words = [
    "ప్రపంచానికి", "అధ్యాపకుడు", "ఉపాధ్యాయురాలు", "అనుభవించాయి", "చదువుతున్నాను"
]

# Save to file
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words:
        f.write(word + "\n")

print("✅ Wrote Telugu words to telugu_sample.txt")


✅ Wrote Telugu words to telugu_sample.txt


## 🤖 Step 2: Train Morfessor on Telugu Data
We’ll now train a Morfessor model using the sample Telugu words.


In [3]:
# Load training data
io = morfessor.MorfessorIO()
data = io.read_corpus_file("telugu_sample.txt")

# Initialize and train the model
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("✅ Morfessor training complete!")


100% (5 of 5) |##########################| Elapsed Time: 0:00:00 Time:  0:00:00
100% (5 of 5) |##########################| Elapsed Time: 0:00:00 Time:  0:00:00


✅ Morfessor training complete!


## 🔍 Step 3: Predict Morpheme Segmentation

Now we’ll test how Morfessor segments some Telugu words.


In [4]:
# Test words (same ones or new ones)
test_words = [
    "ప్రపంచానికి", "అధ్యాపకుడు", "ఉపాధ్యాయురాలు", "అనుభవించాయి", "చదువుతున్నాను"
]

# Segment and display results
for word in test_words:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


ప్రపంచానికి ➝ ప్రపంచానికి
అధ్యాపకుడు ➝ అధ్యాపకుడు
ఉపాధ్యాయురాలు ➝ ఉపాధ్యాయురాలు
అనుభవించాయి ➝ అనుభవించాయి
చదువుతున్నాను ➝ చదువుతున్నాను


In [5]:
telugu_words = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", 
    "ఆడుతోంది", "ఆడతాడు", "ఆడారు", "ఆడింది",
    "పరీక్ష", "పరీక్షలకి", "పరీక్షలు", "పరీక్షకు"
]


## 📚 Step 4: Train with a Larger Telugu Word List

We’ll now use a longer list of Telugu words that share common patterns (prefixes/suffixes) for better training.


In [6]:
# Larger word list with repeated roots and suffixes
telugu_words_large = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", "చదువుతుంది",
    "ఆడుతోంది", "ఆడతాడు", "ఆడారు", "ఆడింది", "ఆడుతున్నాడు",
    "పరీక్ష", "పరీక్షలు", "పరీక్షలకి", "పరీక్షలకు", "పరీక్షకు",
    "తెలుగునాడు", "తెలుగులో", "తెలుగువారు", "తెలుగుదేశం", "తెలుగుబడి"
]

# Save to file again (overwrite)
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words_large:
        f.write(word + "\n")

print(f"✅ Wrote {len(telugu_words_large)} Telugu words to telugu_sample.txt")


✅ Wrote 20 Telugu words to telugu_sample.txt


## 🔁 Step 5: Retrain Morfessor with the New Data
Now we’ll retrain the model using the larger word list.


# Reload corpus
data = io.read_corpus_file("telugu_sample.txt")

# Reinitialize model (start fresh)
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("✅ Retrained Morfessor with larger dataset!")


## 🔄 Step 6: Segment Again Using the Retrained Model

Let’s check if Morfessor now splits words into meaningful morphemes.


In [7]:
# Predict segmentations on the training words
for word in telugu_words_large:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


చదువుతాడు ➝ చదువుతాడు
చదువుతున్నారు ➝ చదువుతున్నారు
చదువుతున్నాను ➝ చదువుతున్నాను
చదువుతుంది ➝ చదువుతుంది
చదువుతుంది ➝ చదువుతుంది
ఆడుతోంది ➝ ఆడుతోంది
ఆడతాడు ➝ ఆడతాడు
ఆడారు ➝ ఆడారు
ఆడింది ➝ ఆడింది
ఆడుతున్నాడు ➝ ఆడుతున్నాడు
పరీక్ష ➝ పరీక్ష
పరీక్షలు ➝ పరీక్షలు
పరీక్షలకి ➝ పరీక్షలకి
పరీక్షలకు ➝ పరీక్షలకు
పరీక్షకు ➝ పరీక్షకు
తెలుగునాడు ➝ తెలుగునాడు
తెలుగులో ➝ తెలుగులో
తెలుగువారు ➝ తెలుగువారు
తెలుగుదేశం ➝ తెలుగుదేశం
తెలుగుబడి ➝ తెలుగుబడి


In [8]:
telugu_words_extended = [
    "చదువుతాడు", "చదువుతున్నారు", "చదువుతున్నాను", "చదువుతుంది", "చదువుతున్నవి",
    "పాటలకోసం", "పాటలు", "పాటలతో", "పాటకులకు", "పాటగా",
    "ఆడుతుంది", "ఆడతాడు", "ఆడారు", "ఆడతానని", "ఆడుతున్నాము",
    "పరీక్ష", "పరీక్షలు", "పరీక్షలకి", "పరీక్షలకు", "పరీక్షకు",
    "తెలుగునాడు", "తెలుగులో", "తెలుగువారు", "తెలుగుదేశం", "తెలుగుబడి"
]

# Overwrite file
with open("telugu_sample.txt", "w", encoding="utf-8") as f:
    for word in telugu_words_extended:
        f.write(word + "\n")

print(f"✅ Wrote {len(telugu_words_extended)} words to file")


✅ Wrote 25 words to file


In [9]:
# Reload and retrain
data = io.read_corpus_file("telugu_sample.txt")
model = morfessor.BaselineModel()
model.load_data(data)
model.train_batch()

print("🔁 Model retrained on extended data!")


100% (25 of 25) |########################| Elapsed Time: 0:00:00 Time:  0:00:00
100% (25 of 25) |########################| Elapsed Time: 0:00:00 Time:  0:00:00
100% (25 of 25) |########################| Elapsed Time: 0:00:00 Time:  0:00:00


🔁 Model retrained on extended data!


In [10]:
# Try segmenting again
for word in telugu_words_extended:
    segments = model.viterbi_segment(word)[0]
    print(f"{word} ➝ {' + '.join(segments)}")


చదువుతాడు ➝ చదువుతాడు
చదువుతున్నారు ➝ చదువుతున్నారు
చదువుతున్నాను ➝ చదువుతున్నాను
చదువుతుంది ➝ చదువుతుంది
చదువుతున్నవి ➝ చదువుతున్నవి
పాటలకోసం ➝ పాట + లకోసం
పాటలు ➝ పాట + లు
పాటలతో ➝ పాట + లతో
పాటకులకు ➝ పాట + కు + లకు
పాటగా ➝ పాట + గా
ఆడుతుంది ➝ ఆడుతుంది
ఆడతాడు ➝ ఆడతాడు
ఆడారు ➝ ఆడారు
ఆడతానని ➝ ఆడతానని
ఆడుతున్నాము ➝ ఆడుతున్నాము
పరీక్ష ➝ పరీక్ష
పరీక్షలు ➝ పరీక్ష + లు
పరీక్షలకి ➝ పరీక్ష + లకి
పరీక్షలకు ➝ పరీక్ష + లకు
పరీక్షకు ➝ పరీక్ష + కు
తెలుగునాడు ➝ తెలుగునాడు
తెలుగులో ➝ తెలుగులో
తెలుగువారు ➝ తెలుగువారు
తెలుగుదేశం ➝ తెలుగుదేశం
తెలుగుబడి ➝ తెలుగుబడి


In [11]:
with open("mixed_telugu_2000.txt", "r", encoding="utf-8") as f:
    train_words = [line.strip() for line in f if line.strip()]


In [12]:
# Step 2: Initialize and train the Morfessor model
io = morfessor.MorfessorIO()
model = morfessor.BaselineModel()

# Convert words into (count, word) pairs
train_data = [(1, word) for word in train_words]

model.load_data(train_data)
model.train_batch()

print("✅ Morfessor trained on 2000-word mixed dataset.")


100% (1466 of 1466) |####################| Elapsed Time: 0:00:03 Time:  0:00:03
100% (1466 of 1466) |####################| Elapsed Time: 0:00:02 Time:  0:00:02
100% (1466 of 1466) |####################| Elapsed Time: 0:00:02 Time:  0:00:02
100% (1466 of 1466) |####################| Elapsed Time: 0:00:02 Time:  0:00:02
100% (1466 of 1466) |####################| Elapsed Time: 0:00:02 Time:  0:00:02
100% (1466 of 1466) |####################| Elapsed Time: 0:00:02 Time:  0:00:02


✅ Morfessor trained on 2000-word mixed dataset.


In [18]:
# Load the 500 test words
with open("telugu_500.txt", "r", encoding="utf-8") as f:
    test_words = [line.strip() for line in f if line.strip()]

# Segment each test word using the trained model
segmented_results = []
for word in test_words:
    segments = model.viterbi_segment(word)[0]
    segmented_results.append(f"{word} ➝ {' + '.join(segments)}")

# Save to a file
with open("final_novel_test_500.txt", "w", encoding="utf-8") as f:
    for line in segmented_results:
        f.write(line + "\n")

print("✅ Segmentation complete. Results saved to segmented_output_500_from_2000mix.txt")


✅ Segmentation complete. Results saved to segmented_output_500_from_2000mix.txt


In [19]:
# Count how many words got split (i.e., more than one segment)
split_count = 0

for word in test_words:
    segments = model.viterbi_segment(word)[0]
    if len(segments) > 1:
        split_count += 1

print(f"🔍 {split_count} out of {len(test_words)} words were segmented into multiple morphemes.")


🔍 461 out of 500 words were segmented into multiple morphemes.


In [20]:
# Load gold-standard segmentations
with open("Tested500words.txt", "r", encoding="utf-8") as f:
    gold_pairs = [line.strip().split(" ➝ ") for line in f if "➝" in line]

# Create a dictionary from word → correct segmentation
gold_dict = {word: seg.strip() for word, seg in gold_pairs}

In [21]:
correct = 0
total = len(gold_dict)

print("🔍 Word-by-word comparison:\n")

for word, expected in gold_dict.items():
    predicted = model.viterbi_segment(word)[0]
    match = predicted == expected
    if match:
        correct += 1
    print(f"{word:15} → {' + '.join(predicted):25} | Expected: {' + '.join(expected):25} | {'✅' if match else '❌'}")

accuracy = (correct / total) * 100
print(f"\n📊 Overall Evaluation Accuracy: {accuracy:.2f}% ({correct}/{total} correct)")

🔍 Word-by-word comparison:

చదువు           → చదువు                     | Expected: చ + ద + ు + వ + ు         | ❌
మాచదువు         → మాచదువు                   | Expected: మ + ా + చ + ద + ు + వ + ు | ❌
అచదువు          → అచదువు                    | Expected: అ + చ + ద + ు + వ + ు     | ❌
ఉపచదువు         → ఉపచదువు                   | Expected: ఉ + ప + చ + ద + ు + వ + ు | ❌
సహచదువు         → సహచదువు                   | Expected: స + హ + చ + ద + ు + వ + ు | ❌
చదువుతాడు       → చదువు + తాడు              | Expected: చ + ద + ు + వ + ు + త + ా + డ + ు | ❌
మాచదువుతాడు     → మాచదువు + తాడు            | Expected: మ + ా + చ + ద + ు + వ + ు +   + + +   + త + ా + డ + ు | ❌
అచదువుతాడు      → అచదువు + తాడు             | Expected: అ + చ + ద + ు + వ + ు +   + + +   + త + ా + డ + ు | ❌
ఉపచదువుతాడు     → ఉపచదువు + తాడు            | Expected: ఉ + ప + చ + ద + ు + వ + ు +   + + +   + త + ా + డ + ు | ❌
సహచదువుతాడు     → సహచదువు + తాడు            | Expected: స + హ + చ + ద + ు + వ + ు +   + + +   + త + ా + డ + ు 