In [8]:
import pandas as pd
import re
import textdistance

# Load the Sinhala dictionary
dictionary_path = 'Dataset/sinhala_dictionary.csv'  
sinhala_dictionary = pd.read_csv(dictionary_path, header=None)[0].tolist()

if not sinhala_dictionary:
    raise ValueError("The Sinhala dictionary is empty. Please check the file and try again.")

# Function to tokenize a paragraph into words
def tokenize_paragraph(paragraph):
    return re.findall(r'\b[^\s]+\b', paragraph)

# Function to correct a word using Levenshtein distance and the Sinhala dictionary
def correct_word(word, dictionary):
    distances = [(candidate, textdistance.levenshtein(word, candidate)) for candidate in dictionary]
    distances = sorted(distances, key=lambda x: x[1])
    return distances[0][0] if distances else word

# Function to correct a paragraph
def correct_paragraph(paragraph, dictionary):
    words = tokenize_paragraph(paragraph)
    corrected_words = [correct_word(word, dictionary) for word in words]
    return ' '.join(corrected_words)

# Test loop
for n in range(5):
    print(f"\n--- Test Case {n+1} ---")
    
    # Ask for the input paragraph with spelling mistakes
    input_paragraph = input("Enter a paragraph with spelling mistakes (in Sinhala): ").strip()
    if not input_paragraph:
        print("Input paragraph cannot be empty. Please try again.")
        continue

    # Ask for the correct paragraph for comparison
    correct_paragraph_input = input("Enter the correct version of the paragraph (in Sinhala): ").strip()
    if not correct_paragraph_input:
        print("Correct paragraph cannot be empty. Please try again.")
        continue

    # Correct the input paragraph using the Sinhala dictionary
    corrected_paragraph = correct_paragraph(input_paragraph, sinhala_dictionary)

    # Tokenize both the corrected paragraph and the correct paragraph for comparison
    input_tokens = tokenize_paragraph(corrected_paragraph)
    correct_tokens = tokenize_paragraph(correct_paragraph_input)

    # Calculate word-level accuracy
    total_words = len(correct_tokens)
    if total_words == 0:
        print("The correct paragraph has no words. Unable to calculate accuracy.")
        continue
    
    correctly_corrected_words = sum(1 for w1, w2 in zip(input_tokens, correct_tokens) if w1 == w2)
    accuracy = (correctly_corrected_words / total_words) * 100

    # Print results
    print("\nOriginal Paragraph with Mistakes:")
    print(input_paragraph)
    print("\nCorrected Paragraph:")
    print(corrected_paragraph)
    print("\nAccuracy of Spell Checker: {:.2f}%".format(accuracy))



--- Test Case 1 ---

Original Paragraph with Mistakes:
අපි විභාගයෙ සාර්ථකත්වය සම්පූර්ණයෙන්ම අඩුපාඩු සාර්ථක කලහ. පාසලේ නඩත්තු ගැටලුව අරසගින් විසඳා ගත්තා.

Corrected Paragraph:
අප විභාගය සාර්ථකත්වය සම්පූර්ණයෙන්ම අඩුපාඩු සාර්ථක කල පාසල නඩත්තු ගැටලුව අරගෙන විඳ ගත්ත

Accuracy of Spell Checker: 76.92%

--- Test Case 2 ---

Original Paragraph with Mistakes:
මම ගමට යනව හොග් අරක් ගෙදර ඇවිදින් විභාගය සාර්ථකව කෙරුවා. ඔවුන් සින්දු කියමින් අඩක් විනයෙන් යනවා.

Corrected Paragraph:
මම ගමට යනව දොර අරක ගෙදර විදින විභාගය සාර්ථකව කෙරුණ ඔවුන කින්ද කියමන අංක තියෙන යනව

Accuracy of Spell Checker: 56.25%

--- Test Case 3 ---

Original Paragraph with Mistakes:
ඔවුන් ගමට ගියෙත් උදේ කාලෙ ඇරඹෙන සන්සුන්ම කාලය. ගමට ගොස් සින්දු කියමින් ගඟේ සන්සුන්ම විටාවක ගත කලා.

Corrected Paragraph:
ඔවුන ගමට ගියෙ අද කාල ඇරඹෙන සන්සුන් කාලය ගමට ගොස කින්ද කියමන ගඟ සන්සුන් රියාවක ගත කල

Accuracy of Spell Checker: 52.94%

--- Test Case 4 ---

Original Paragraph with Mistakes:
අපි ගෙදරට ආවනම් පසෙකින් යාමට හොඳ මගක් වුණා. නමුත් ඔවුන් 