In [18]:
from Evaluator import evaluator
from SpellChecker import SpellChecker

# Example usage of the updated SpellChecker class
def correct_text(test_sentence, correct_words_file):
    # Load the correct words from the provided file
    with open(correct_words_file, 'r', encoding='utf-8') as file:
        correct_words = [line.strip() for line in file]  # Strip newline characters

    # Initialize the SpellChecker object with correct words
    spell_checker = SpellChecker(correct_words)

    # Correct the test sentence
    corrected_text = spell_checker.correct(test_sentence)
    return corrected_text

In [19]:
import pandas as pd
import re
from pathlib import Path

def load_dataset(file_path):
    if not Path(file_path).exists():
        raise FileNotFoundError(f"Dataset not found at {file_path}")
    return pd.read_csv(file_path)

def extract_words_from_dataset(dataset):
    if 'text' not in dataset.columns:
        raise ValueError("Dataset does not contain 'text' column.")
    all_words = []
    for text in dataset['text'].dropna():  # Handle missing text data
        words = extract_words_from_text(text)
        all_words.extend(words)
    return all_words

def save_words_to_file(words, output_file):
    with open(output_file, 'w', encoding='utf-8') as file:
        for word in words:
            file.write(word + '\n')

def extract_words_from_text(text):
    text = re.sub(r'[0-9.,]', '', text)  # Remove digits and certain punctuation
    text = re.sub(r'[^஀-௿\s]', '', text)  # Remove non-Tamil characters
    words = text.split()  # Split into words
    return words

if __name__ == "__main__":
    dataset_path = r"/Users/divyanicassionprinston/Desktop/AI_project/dataset.csv" 
    output_file = r"/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt" 

    print("Loading dataset...")
    dataset = load_dataset(dataset_path)

    print("Extracting words...")
    extracted_words = extract_words_from_dataset(dataset)

    print(f"Saving words to {output_file}...")
    save_words_to_file(extracted_words, output_file)

    print(f"Extracted {len(extracted_words)} words successfully!")


Loading dataset...
Extracting words...
Saving words to /Users/divyanicassionprinston/Desktop/AI_project/WordList.txt...
Extracted 81188 words successfully!


In [20]:
# File containing the correct words
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

# Test paragraphs with some incorrect sentences
test_paragraphs_list = [
    "நம்முடய அன்றட நற்செயலள் கடவுளுக்குப் புகழ் சேர்த்தால், உயரமான இடத்தில் வைக்கப்பட்ட தீபமாக இருப்போம்.இந ஆக்கத்துடன தொடர்புடைர்கள், உலகவிய பொதுப் பயனபாட்டுக்கு பதிப்புரமைச் சட்டததுக்கு உடட்டு, தங்கள் அனைத்துப பதிப்புரமைகளையும் விடுவித்துள்ளனர்.தமிழ், இந்தி உட்பட இலங்கை, சிங்கப்பூரில பேசப்படும் மொழிகளில் ஒன்ற.நிறைவுசெய்பவள என்று மொழிபெயர்க்கப்பட்டிருக்கும் (நீகெத்) என்ற எபிரெய சொல்லைக் குறித்த ஒரு பைபிள புலவர் இவ்வாற விளக்குகிறார்.தமிழ ஒலி சார்ந்த மொழி, அதன் பலமும் பலவீனமும், ஒவ்வொர பிரதேசத தமிழர்களின் உச்சரிப்பு வேறுபடம."
]

# Expected sentences for comparison
expected_paragraph = [
    "நம்முடைய அன்றாட நற்செயல்கள் கடவுளுக்குப் புகழ் சேர்த்தால், உயரமான இடத்தில் வைக்கப்பட்ட தீபமாக இருப்போம்.இந்த ஆக்கத்துடன் தொடர்புடையவர்கள், உலகளளாவிய பொதுப் பயன்பாட்டுக்கு பதிப்புரிமைச் சட்டத்துக்கு உட்பட்டு, தங்கள் அனைத்துப் பதிப்புரிமைகளையும் விடுவித்துள்ளனர்.தமிழ், இந்தியா உட்பட இலங்கை, சிங்கப்பூரில் பேசப்படும் மொழிகளில் ஒன்று.நிறைவுசெய்பவள் என்று மொழிபெயர்க்கப்பட்டிருக்கும் (நீகெத்) என்ற எபிரெய சொல்லைக் குறித்து ஒரு பைபிள் புலவர் இவ்வாறு விளக்குகிறார்.தமிழ் ஒலி சார்ந்த மொழி, அதன் பலமும் பலவீனமும், ஒவ்வொரு பிரதேசத் தமிழர்களின் உச்சரிப்பு வேறுபடும்."
]

# Function to split the text into sentences
def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

# Split the test and expected paragraphs into sentences
test_sentences = split_into_sentences(test_paragraphs_list)
expected_sentences = split_into_sentences(expected_paragraph)

# Loop through test paragraphs and perform spell/grammar correction
for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
        print(f"\nTest Sentence {i+1}: {sentence.strip()}")

        # Correct the test sentence using the SpellChecker
        corrected_text = correct_text(sentence.strip(), correct_words_file)

        # Output the corrected text
        print(f"Corrected Text: {corrected_text.strip()}")

        # Evaluate the spell checker against the expected result
        print("\n--- Evaluation Results ---")

        # Pass the individual sentences as arguments for evaluation
        evaluator(
            sentence.strip().split(), 
            expected_sentences[idx][i].strip().split(), 
            corrected_text.strip()
        )


Test Sentence 1: நம்முடய அன்றட நற்செயலள் கடவுளுக்குப் புகழ் சேர்த்தால், உயரமான இடத்தில் வைக்கப்பட்ட தீபமாக இருப்போம்
Corrected Text: நம்முடைய அன்று நற்பெயர் கடவுளுக்குள் புகழ் பார்த்தால் உயரமான இடத்தில் வைக்கப்பட்டு தீபம் இருப்போம்

--- Evaluation Results ---
Accuracy: 0.2727272727272727
Precision: 0.2727272727272727
Recall: 1.0
Specificity: 0.0
F1-Score: 0.42857142857142855

Test Sentence 2: இந ஆக்கத்துடன தொடர்புடைர்கள், உலகவிய பொதுப் பயனபாட்டுக்கு பதிப்புரமைச் சட்டததுக்கு உடட்டு, தங்கள் அனைத்துப பதிப்புரமைகளையும் விடுவித்துள்ளனர்
Corrected Text: இட சக்கரத்துடன் தொடர்பவர்கள் உலகளாவிய பொதுச் பாராட்டுக்கு மதிப்பும் லட்சத்துக்கு உண்டு தங்கள் அனைத்து பரிந்துரைகளும் விடுத்துள்ளார்

--- Evaluation Results ---
Accuracy: 0.7692307692307693
Precision: 0.7692307692307693
Recall: 1.0
Specificity: 0.0
F1-Score: 0.8695652173913044

Test Sentence 3: தமிழ், இந்தி உட்பட இலங்கை, சிங்கப்பூரில பேசப்படும் மொழிகளில் ஒன்ற
Corrected Text: தமிழ் இந்தி உட்பட இலங்கை சிங்கப்பூரில் பேசப்படும் மொழிகளில் என்ற

--