# Spell-Checker (DATASET 1)

## Sinhala dataset

In [17]:
import pandas as pd
import re
import textdistance

def load_dataset():
    #load dataset
    dataset_path = "Dataset/sinhala_dataset.csv"
    data = pd.read_csv(dataset_path)
    print(data.head())
    return data

def tokenize_sentence(sentence):
    #split into words
    return re.findall(r'\b[^\s]+\b', sentence)

def correct_word(word, dictionary):
    # Compute Levenshtein distance for each word in the dictionary
    distances = [(candidate, textdistance.levenshtein(word, candidate)) for candidate in dictionary]
    # Sort by distance (ascending)
    distances = sorted(distances, key=lambda x: x[1])
    # Return the closest match
    return distances[0][0] if distances else word

def correct_sentence(tokens, dictionary):
    corrected_tokens = [correct_word(token, dictionary) for token in tokens]
    return ' '.join(corrected_tokens)

data = load_dataset()
# Tokenize the original and spelling error sentences
data['Original Tokens'] = data['Original Sentence'].apply(tokenize_sentence)
data['Spelling Error Tokens'] = data['Spelling Error'].apply(tokenize_sentence)
print(data[['Original Tokens', 'Spelling Error Tokens']].head())

# Create a dictionary of unique words from the original sentences
unique_words = set(word for sentence in data['Original Tokens'] for word in sentence)

# Test the correction function
sample_error = data['Spelling Error Tokens'][0]
corrected = correct_sentence(sample_error, unique_words)
print("Original Error:", sample_error)
print("Corrected Sentence:", corrected)

    



                                   Original Sentence  \
0  කතානායක අශෝක රංවලගේ අධ්යාපන සුදුසුකම් පිළිබඳ ම...   
1  දෙසැම්බර් වන දා සිය ධූරයෙන් ඉල්ලා අස්වීමත් සමඟ...   
2  ඉල්ලා අස්වීම ජනධිපතිවරයා විසින් භාර ගැනීමත් සම...   
3  නොවැම්බර් වැනි දා ඔහු කාතානායක ධුරයට පත් වූ දා...   
4  අශෝක රංවල විසින් නිකුත් කළ මාධ්ය නිවේදනයක් දෙස...   

                                      Spelling Error  \
0  කතාානයක අශෝක රංවලගේ අධය්ාපන සුදුසුකම් පිළිබඳ ම...   
1  දෙසැමබ්ර් වන දා සිය ධූරයෙන් ඉල්ාල අස්වීමත් සමඟ...   
2  ඉල්ාල අස්වමී ජනධිපතිවරයා විසින් භාර ගැනීමත් සම...   
3  නොවැම්බර් වැනි ාද හඔු කාතානායක ධුරයට පත් වූ ාද...   
4  අශෝක ංරවල විසින් නිකුත් කළ මාධ්ය නිවේදනයක් දෙස...   

                                       Grammar Error  
0  කතානායක අශෝක රංවලගේ අධ්යාපන සුදුසුකම් පිළිබඳ ම...  
1  දෙසැම්බර් වන දා සිය ධූරයෙන් ඉල්ලා අස්වීමත් සමඟ...  
2  ඉල්ලා අස්වීම ජනධිපතිවරයා විසින් භාර ගැනීමත් සම...  
3  නොවැම්බර් වැනි දා ඔහු කාතානායක ධුරයට එක පත් වූ...  
4  අශෝක රංවල විසින් නිකුත් කළ මාධ්ය වැනිදා දෙසැම්..

In [18]:
# Apply the spell checker to all sentences with spelling errors
data['Corrected Spelling Error'] = data['Spelling Error Tokens'].apply(lambda x: correct_sentence(x, unique_words))

# Evaluate the corrections
print(data[['Spelling Error', 'Corrected Spelling Error', 'Original Sentence']].head())


                                      Spelling Error  \
0  කතාානයක අශෝක රංවලගේ අධය්ාපන සුදුසුකම් පිළිබඳ ම...   
1  දෙසැමබ්ර් වන දා සිය ධූරයෙන් ඉල්ාල අස්වීමත් සමඟ...   
2  ඉල්ාල අස්වමී ජනධිපතිවරයා විසින් භාර ගැනීමත් සම...   
3  නොවැම්බර් වැනි ාද හඔු කාතානායක ධුරයට පත් වූ ාද...   
4  අශෝක ංරවල විසින් නිකුත් කළ මාධ්ය නිවේදනයක් දෙස...   

                            Corrected Spelling Error  \
0  කතානායක අශෝක රංවලග අධ්යාපන සුදුසුකම පිළිබඳ මත ...   
1  දෙසැම්බර වන ද සිය ධූරයෙන ඉල්ල අස්වීමත සමඟ ශ්ර ...   
2  ඉල්ල අස්වන ජනධිපතිවරය විසින භාර ගැනීමත සමග ඔහු...   
3  නොවැම්බර වැන ද හර කාතානායක ධුරයට පත ව ද පටන්ම ...   
4  අශෝක වල විසින නිකුත කළ මාධ්ය නිවේදනයක දෙසැම්බර...   

                                   Original Sentence  
0  කතානායක අශෝක රංවලගේ අධ්යාපන සුදුසුකම් පිළිබඳ ම...  
1  දෙසැම්බර් වන දා සිය ධූරයෙන් ඉල්ලා අස්වීමත් සමඟ...  
2  ඉල්ලා අස්වීම ජනධිපතිවරයා විසින් භාර ගැනීමත් සම...  
3  නොවැම්බර් වැනි දා ඔහු කාතානායක ධුරයට පත් වූ දා...  
4  අශෝක රංවල විසින් නිකුත් කළ මාධ්ය නිවේදනයක් දෙස..

In [19]:
def calculate_accuracy(original_sentences, corrected_sentences):
    # Initialize counters
    word_correct = 0
    word_total = 0
    sentence_correct = 0
    sentence_total = len(original_sentences)

    for original, corrected in zip(original_sentences, corrected_sentences):
        # Tokenize both sentences
        original_tokens = tokenize_sentence(original)
        corrected_tokens = tokenize_sentence(corrected)
        
        # Word-level accuracy
        for orig_word, corr_word in zip(original_tokens, corrected_tokens):
            word_total += 1
            if orig_word == corr_word:
                word_correct += 1

        # Sentence-level accuracy
        if original == corrected:
            sentence_correct += 1

    # Calculate percentages
    word_accuracy = (word_correct / word_total) * 100 if word_total > 0 else 0
    return word_accuracy

# Evaluate accuracy of the spell checker
original_sentences = data['Original Sentence']
corrected_sentences = data['Corrected Spelling Error']

word_accuracy = calculate_accuracy(original_sentences, corrected_sentences)
print(f"Word-Level Accuracy: {word_accuracy:.2f}%")


Word-Level Accuracy: 90.95%


In [20]:
def correct_word(word, dictionary):
    # Compute Levenshtein distance for each word in the dictionary
    distances = [(candidate, textdistance.levenshtein(word, candidate)) for candidate in dictionary]
    # Sort by distance (ascending)
    distances = sorted(distances, key=lambda x: x[1])
    # Return the closest match
    return (word, distances[0][0]) if distances else (word, word)  # Return the original word if no match found

def correct_sentence(tokens, dictionary):
    # Correct each word and collect mistakes
    corrections = [correct_word(token, dictionary) for token in tokens]
    corrected_tokens = [correct[1] for correct in corrections]
    mistakes = [(original, corrected) for original, corrected in corrections if original != corrected]
    return ' '.join(corrected_tokens), mistakes

# Apply the spell checker and collect mistakes
data['Corrected Spelling Error'], data['Mistakes'] = zip(
    *data['Spelling Error Tokens'].apply(lambda x: correct_sentence(x, unique_words))
)

# Print spelling mistakes and corrections
for index, row in data.iterrows():
    print(f"Sentence {index + 1}:")
    print(f"  Spelling Mistakes and Corrections: {row['Mistakes']}")
    print(f"  Corrected Sentence: {row['Corrected Spelling Error']}")
    print()


Sentence 1:
  Spelling Mistakes and Corrections: [('කතාානයක', 'කතානායක'), ('අධය්ාපන', 'අධ්යාපන'), ('ආනද්ෝලනය', 'ආන්දෝලනය'), ('ජාතක', 'ජාතික'), ('ආණඩ්වුට', 'ආණ්ඩුව'), ('කුළදුුල', 'කුළුදුල'), ('ගනීැමට', 'ගැනීමට'), ('මුුහණ', 'මුහුණ')]
  Corrected Sentence: කතානායක අශෝක රංවලග අධ්යාපන සුදුසුකම පිළිබඳ මත ව ආන්දෝලනය පෙර නොව විර ජනවරමකින බලයට පත ජාතික ජනබලවේග ආණ්ඩුව මසක ගතවීමටත පෙර තම කුළුදුල ආණ්ඩුව සුජාතභාවය ආරක්ෂාකර ගැනීමට මුහුණ දීමට සිද ව අභියෝගාත්මක ලිට්මස පරීක්ෂාවක බවට පත්විය

Sentence 2:
  Spelling Mistakes and Corrections: [('දෙසැමබ්ර', 'දෙසැම්බර'), ('ඉල්ාල', 'ඉල්ල'), ('ශ්ීර', 'ශ්ර'), ('අඩම', 'අඩුම')]
  Corrected Sentence: දෙසැම්බර වන ද සිය ධූරයෙන ඉල්ල අස්වීමත සමඟ ශ්ර ලංක ඉතිහාසය අඩුම කාලයක කතානායක ධුරය දැර කතානායකවරය බවට අශෝක රංවල පත්විය

Sentence 3:
  Spelling Mistakes and Corrections: [('ඉල්ාල', 'ඉල්ල'), ('අස්වම', 'අස්වන'), ('රධ', 'ර')]
  Corrected Sentence: ඉල්ල අස්වන ජනධිපතිවරය විසින භාර ගැනීමත සමග ඔහුග ර කාලය දින කට සීම වුණ

Sentence 4:
  Spelling Mistakes and Corrections: [('හඔ',

# Spell-Checker (DATASET2)

In [21]:
import pandas as pd
import re
import textdistance

def load_dataset():
    #load dataset
    dataset_path = "Dataset/dataset2.csv"
    data = pd.read_csv(dataset_path)
    print(data.head())
    return data

def tokenize_sentence(sentence):
    #split into words
    return re.findall(r'\b[^\s]+\b', sentence)

def correct_word(word, dictionary):
    # Compute Levenshtein distance for each word in the dictionary
    distances = [(candidate, textdistance.levenshtein(word, candidate)) for candidate in dictionary]
    # Sort by distance (ascending)
    distances = sorted(distances, key=lambda x: x[1])
    # Return the closest match
    return distances[0][0] if distances else word

def correct_sentence(tokens, dictionary):
    corrected_tokens = [correct_word(token, dictionary) for token in tokens]
    return ' '.join(corrected_tokens)

data = load_dataset()
# Tokenize the original and spelling error sentences
data['Original Tokens'] = data['Original Sentence'].apply(tokenize_sentence)
data['Spelling Error Tokens'] = data['Spelling Error'].apply(tokenize_sentence)
print(data[['Original Tokens', 'Spelling Error Tokens']].head())

# Create a dictionary of unique words from the original sentences
unique_words = set(word for sentence in data['Original Tokens'] for word in sentence)

# Test the correction function
sample_error = data['Spelling Error Tokens'][0]
corrected = correct_sentence(sample_error, unique_words)
print("Original Error:", sample_error)
print("Corrected Sentence:", corrected)


             Original Sentence            Spelling Error  \
0                  මම ගමට යමි.                මම ගට යමි.   
1             ඔහු පාසලට ගියේය.            ඔහු පසලට ගියය.   
2          අපි ගඟේ දිය නෑවෙමු.         අ ගඟේ දිය නෑවෙමු.   
3  ඔවුන් විභාගය ජයග්‍රහණය කළහ.  ඔවන විභාගය ජයග්‍හණය කළහ.   
4              ඔහු ගෙදරට ආවේය.           ඔහු ගෙදරට ආවේය.   

                  Grammar Error  
0                  මම ගමට යනවා.  
1                ඔහු පාසලට ගිය.  
2            අපි ගඟේ දිය නෑවෙම.  
3  ඔවුන් විභාගය ජයග්‍රහණය කළමු.  
4              ඔහු ගෙදරට ආවායය.  
                  Original Tokens         Spelling Error Tokens
0                   [මම, ගමට, යම]                  [මම, ගට, යම]
1              [ඔහ, පාසලට, ගියේය]              [ඔහ, පසලට, ගියය]
2            [අප, ගඟ, දිය, නෑවෙම]           [අ, ගඟ, දිය, නෑවෙම]
3  [ඔවුන, විභාගය, ජයග්‍රහණය, කළහ]  [ඔවන, විභාගය, ජයග්‍හණය, කළහ]
4               [ඔහ, ගෙදරට, ආවේය]             [ඔහ, ගෙදරට, ආවේය]
Original Error: ['මම', 'ගට', 'යම']
Corrected Senten

In [22]:
# Apply the spell checker to all sentences with spelling errors
data['Corrected Spelling Error'] = data['Spelling Error Tokens'].apply(lambda x: correct_sentence(x, unique_words))

# Evaluate the corrections
print(data[['Spelling Error', 'Corrected Spelling Error', 'Original Sentence']].head())


             Spelling Error   Corrected Spelling Error  \
0                මම ගට යමි.                   මම ගත යම   
1            ඔහු පසලට ගියය.             ඔහ පාසලට ගියේය   
2         අ ගඟේ දිය නෑවෙමු.            අප ගඟ දිය නෑවෙම   
3  ඔවන විභාගය ජයග්‍හණය කළහ.  ඔවුන විභාගය ජයග්‍රහණය කළහ   
4           ඔහු ගෙදරට ආවේය.              ඔහ ගෙදරට ආවේය   

             Original Sentence  
0                  මම ගමට යමි.  
1             ඔහු පාසලට ගියේය.  
2          අපි ගඟේ දිය නෑවෙමු.  
3  ඔවුන් විභාගය ජයග්‍රහණය කළහ.  
4              ඔහු ගෙදරට ආවේය.  


In [24]:
def calculate_accuracy(original_sentences, corrected_sentences):
    # Initialize counters
    word_correct = 0
    word_total = 0
    sentence_correct = 0
    sentence_total = len(original_sentences)

    for original, corrected in zip(original_sentences, corrected_sentences):
        # Tokenize both sentences
        original_tokens = tokenize_sentence(original)
        corrected_tokens = tokenize_sentence(corrected)
        
        # Word-level accuracy
        for orig_word, corr_word in zip(original_tokens, corrected_tokens):
            word_total += 1
            if orig_word == corr_word:
                word_correct += 1

        # Sentence-level accuracy
        if original == corrected:
            sentence_correct += 1

    # Calculate percentages
    word_accuracy = (word_correct / word_total) * 100 if word_total > 0 else 0
    return word_accuracy
# Evaluate accuracy of the spell checker
original_sentences = data['Original Sentence']
corrected_sentences = data['Corrected Spelling Error']

word_accuracy = calculate_accuracy(original_sentences, corrected_sentences)

print(f"Word-Level Accuracy: {word_accuracy:.2f}%")

Word-Level Accuracy: 92.24%


In [25]:
def correct_word(word, dictionary):
    # Compute Levenshtein distance for each word in the dictionary
    distances = [(candidate, textdistance.levenshtein(word, candidate)) for candidate in dictionary]
    # Sort by distance (ascending)
    distances = sorted(distances, key=lambda x: x[1])
    # Return the closest match
    return (word, distances[0][0]) if distances else (word, word)  # Return the original word if no match found

def correct_sentence(tokens, dictionary):
    # Correct each word and collect mistakes
    corrections = [correct_word(token, dictionary) for token in tokens]
    corrected_tokens = [correct[1] for correct in corrections]
    mistakes = [(original, corrected) for original, corrected in corrections if original != corrected]
    return ' '.join(corrected_tokens), mistakes

# Apply the spell checker and collect mistakes
data['Corrected Spelling Error'], data['Mistakes'] = zip(
    *data['Spelling Error Tokens'].apply(lambda x: correct_sentence(x, unique_words))
)

# Print spelling mistakes and corrections
for index, row in data.iterrows():
    print(f"Sentence {index + 1}:")
    print(f"  Spelling Mistakes and Corrections: {row['Mistakes']}")
    print(f"  Corrected Sentence: {row['Corrected Spelling Error']}")
    print()

Sentence 1:
  Spelling Mistakes and Corrections: [('ගට', 'ගත')]
  Corrected Sentence: මම ගත යම

Sentence 2:
  Spelling Mistakes and Corrections: [('පසලට', 'පාසලට'), ('ගියය', 'ගියේය')]
  Corrected Sentence: ඔහ පාසලට ගියේය

Sentence 3:
  Spelling Mistakes and Corrections: [('අ', 'අප')]
  Corrected Sentence: අප ගඟ දිය නෑවෙම

Sentence 4:
  Spelling Mistakes and Corrections: [('ඔවන', 'ඔවුන'), ('ජයග්\u200dහණය', 'ජයග්\u200dරහණය')]
  Corrected Sentence: ඔවුන විභාගය ජයග්‍රහණය කළහ

Sentence 5:
  Spelling Mistakes and Corrections: []
  Corrected Sentence: ඔහ ගෙදරට ආවේය

Sentence 6:
  Spelling Mistakes and Corrections: [('ගැන්වීය', 'ඉගැන්වීය')]
  Corrected Sentence: ගුරුවරය පාඩම ඉගැන්වීය

Sentence 7:
  Spelling Mistakes and Corrections: [('වර්ධය', 'වර්ධනය')]
  Corrected Sentence: ම නගරය වර්ධනය ව

Sentence 8:
  Spelling Mistakes and Corrections: []
  Corrected Sentence: මග මිතුර ම උදව කළේය

Sentence 9:
  Spelling Mistakes and Corrections: []
  Corrected Sentence: අප පාසල ප්‍රථම ස්ථානයට පැමිණිය

Sen