In [9]:
from Evaluator import evaluator
from SpellChecker import SpellChecker

def correct_text(test_sentence, correct_words_file):

    with open(correct_words_file, 'r', encoding='utf-8') as file:
        correct_words = [line.strip() for line in file]  

    spell_checker = SpellChecker(correct_words)

    corrected_text = spell_checker.correct(test_sentence)
    return corrected_text

In [10]:
import pandas as pd
import re
from pathlib import Path

def load_dataset(file_path):
    if not Path(file_path).exists():
        raise FileNotFoundError(f"Dataset not found at {file_path}")
    return pd.read_csv(file_path)

def extract_words_from_dataset(dataset):
    if 'text' not in dataset.columns:
        raise ValueError("Dataset does not contain 'text' column.")
    all_words = []
    for text in dataset['text'].dropna():  
        words = extract_words_from_text(text)
        all_words.extend(words)
    return all_words

def save_words_to_file(words, output_file):
    with open(output_file, 'w', encoding='utf-8') as file:
        for word in words:
            file.write(word + '\n')

def extract_words_from_text(text):
    text = re.sub(r'[0-9.,]', '', text)  
    text = re.sub(r'[^஀-௿\s]', '', text)  
    words = text.split() 
    return words

if __name__ == "__main__":
    dataset_path = r"/Users/divyanicassionprinston/Desktop/AI_project/dataset.csv" 
    output_file = r"/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt" 

    print("Loading dataset...")
    dataset = load_dataset(dataset_path)

    print("Extracting words...")
    extracted_words = extract_words_from_dataset(dataset)

    print(f"Saving words to {output_file}...")
    save_words_to_file(extracted_words, output_file)

    print(f"Extracted {len(extracted_words)} words successfully!")


Loading dataset...
Extracting words...
Saving words to /Users/divyanicassionprinston/Desktop/AI_project/WordList.txt...
Extracted 81188 words successfully!


In [21]:
#EXAMPLE -01
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

#incorrect paragraph
test_paragraphs = [
    "இதபல டீசல் என்ஜன் உளள மட்டார் சைக்களும் பிரசத்தம். இதற்கு அடதது இந்நறுவனம் உபதச முத்தரையடன் கூடய மட்டார் சைககிளை அறமுகப்படுததயது. ஆனால் இவயெலலாம் இபபது கடையது."
]

# correct paragraph for comparison
expected_paragraph = [
    "இதேபோல டீசல் என்ஜின் உள்ள மோட்டார் சைக்கிளும் பிரசித்தம். இதற்கு அடுத்து இந்நிறுவனம் உபதேச முத்திரையுடன் கூடிய மோட்டார் சைக்கிளை அறிமுகப்படுத்தியது. ஆனால் இவையெல்லாம் இப்போது கிடையாது."
]

def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

test_sentences = split_into_sentences(test_paragraphs)
expected_sentences = split_into_sentences(expected_paragraph)

for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
       corrected_text = correct_text(sentence.strip(), correct_words_file)


def evaluate_paragraph(test_paragraph, expected_paragraph, correct_words_file):
    print(f"\nTest Paragraph: {test_paragraph.strip()}")
    
    corrected_text = correct_text(test_paragraph.strip(), correct_words_file)
    
    print(f"Corrected Text: {corrected_text.strip()}")
    
    # Evaluate the spell checker against the expected paragraph
    print("\nResults of Prediction")
    
    evaluator(
        test_paragraph.strip().split(),
        expected_paragraph.strip().split(),
        corrected_text.strip()
    )

# Loop through test paragraphs and evaluate
for idx, test_paragraph in enumerate(test_paragraphs):
    evaluate_paragraph(test_paragraph, expected_paragraph[idx], correct_words_file)



Test Paragraph: இதபல டீசல் என்ஜன் உளள மட்டார் சைக்களும் பிரசத்தம். இதற்கு அடதது இந்நறுவனம் உபதச முத்தரையடன் கூடய மட்டார் சைககிளை அறமுகப்படுததயது. ஆனால் இவயெலலாம் இபபது கடையது.
Corrected Text: பல டீசல் என்ஜின் உள்ள மோட்டார் சைக்கிளும் பிரசித்தம் இதற்கு அடைவது இந்நிறுவனம் உபதேச முத்திரையுடன் கூடிய மோட்டார் சைக்கிளை அறிமுகப்படுத்தியது ஆனால் இவையெல்லாம் இந்து உடையது

Results of Prediction
Accuracy: 0.85
Precision: 0.85
Recall: 1.0
Specificity: 0.0
F1-Score: 0.9189189189189189


In [20]:
#EXAMPLE -02
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

#incorrect paragraph
test_paragraphs = [
    "அதவது கடந்த ஆணடகளில் வரமான வரச்சடடத்தன் படி வரதாக்கல் செலத்தமல் இரபபவர்களை கண்டறந்து அவரளை வரி வரம்புககுள் கொணடவருவத இநத திட்டத்தின் இலக்கு எனறு வரத்துறையினர் கூறுகின்றனர். மேலம் நிறவனஙகளயும் கணடறந்து வரிததாக்கல் செய்வதற்கு திடடமட்டுள்ளனர்"

]

# correct paragraph for comparison
expected_paragraph = [
    "அதாவது கடந்த ஆண்டுகளில் வருமான வரிச்சட்டத்தின் படி வரிதாக்கல் செலுத்தாமல் இருப்பவர்களை கண்டறிந்து அவர்களை வரி வரம்புக்குள் கொண்டுவருவதே இந்த திட்டத்தின் இலக்கு என்று வரித்துறையினர் கூறுகின்றனர். மேலும் நிறுவனங்களையும் கண்டறிந்து வரித்தாக்கல் செய்வதற்கு திட்டமிட்டுள்ளனர்"

]

def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

test_sentences = split_into_sentences(test_paragraphs)
expected_sentences = split_into_sentences(expected_paragraph)

for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
       corrected_text = correct_text(sentence.strip(), correct_words_file)


def evaluate_paragraph(test_paragraph, expected_paragraph, correct_words_file):
    print(f"\nTest Paragraph: {test_paragraph.strip()}")
    
    corrected_text = correct_text(test_paragraph.strip(), correct_words_file)
    
    print(f"Corrected Text: {corrected_text.strip()}")
    
    # Evaluate the spell checker against the expected paragraph
    print("\nResults of Prediction")
    
    evaluator(
        test_paragraph.strip().split(),
        expected_paragraph.strip().split(),
        corrected_text.strip()
    )

# Loop through test paragraphs and evaluate
for idx, test_paragraph in enumerate(test_paragraphs):
    evaluate_paragraph(test_paragraph, expected_paragraph[idx], correct_words_file)



Test Paragraph: அதவது கடந்த ஆணடகளில் வரமான வரச்சடடத்தன் படி வரதாக்கல் செலத்தமல் இரபபவர்களை கண்டறந்து அவரளை வரி வரம்புககுள் கொணடவருவத இநத திட்டத்தின் இலக்கு எனறு வரத்துறையினர் கூறுகின்றனர். மேலம் நிறவனஙகளயும் கணடறந்து வரிததாக்கல் செய்வதற்கு திடடமட்டுள்ளனர்
Corrected Text: அதாவது கடந்த ஆண்டுகளில் வருமான வரிச்சட்டத்தின் படி வரிதாக்கல் செலுத்தாமல் இருப்பவர்களை கண்டறிந்து அவரை வரி வரம்புக்குள் கொண்டுவருவதே இந்த திட்டத்தின் இலக்கு என்று வரித்துறையினர் கூறுகின்றனர் மேலும் நிறுவனங்களும் கண்டறிந்து வரிதாக்கல் செய்வதற்கு திட்டமிட்டுள்ளனர்

Results of Prediction
Accuracy: 0.7307692307692307
Precision: 0.7307692307692307
Recall: 1.0
Specificity: 0.0
F1-Score: 0.8444444444444443


In [None]:
#EXAMPLE -03
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

#incorrect paragraph
test_paragraphs = [
"புதய தலைமைச் சயல் அதகாரியை தர்வு செய்யும் வஷயத்தில் நந்தனக்கு ஆலனை சல்லத் தேவயல்லை. அவரே சறந்த தலமச் செயல் அதகரியாக செயலபடடவர் என்பதால்  எனன தேவை எனபது அவரக்கு தெரயும். அதனல் அவரக்கு ஆலசனை சல்ல தேவை இலலை என தெரவிததர்."
]

# correct paragraph for comparison
expected_paragraph = [
"புதிய தலைமைச் செயல் அதிகாரியை தேர்வு செய்யும் விஷயத்தில் நந்தனுக்கு ஆலோசனை சொல்லத் தேவையில்லை. அவரே சிறந்த தலைமைச் செயல் அதிகாரியாக செயல்பட்டவர் என்பதால்  என்ன தேவை என்பது அவருக்கு தெரியும். அதனால் அவருக்கு ஆலோசனை சொல்ல தேவை இல்லை என தெரிவித்தார்."
]

def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

test_sentences = split_into_sentences(test_paragraphs)
expected_sentences = split_into_sentences(expected_paragraph)

for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
       corrected_text = correct_text(sentence.strip(), correct_words_file)


def evaluate_paragraph(test_paragraph, expected_paragraph, correct_words_file):
    print(f"\nTest Paragraph: {test_paragraph.strip()}")
    
    corrected_text = correct_text(test_paragraph.strip(), correct_words_file)
    
    print(f"Corrected Text: {corrected_text.strip()}")
    
    # Evaluate the spell checker against the expected paragraph
    print("\nResults of Prediction")
    
    evaluator(
        test_paragraph.strip().split(),
        expected_paragraph.strip().split(),
        corrected_text.strip()
    )

# Loop through test paragraphs and evaluate
for idx, test_paragraph in enumerate(test_paragraphs):
    evaluate_paragraph(test_paragraph, expected_paragraph[idx], correct_words_file)



Test Paragraph: புதய தலைமைச் சயல் அதகாரியை தர்வு செய்யும் வஷயத்தில் நந்தனக்கு ஆலனை சல்லத் தேவயில்லை. அவரே சறந்த தலமச் செயல் அதிகாரியாக செயலபடடவர் என்பதால்  என்ன தேவை எனபது அவரக்கு தெரயும். அதனல் அவரக்கு ஆலசனை சல்ல தேவை இலலை என தெரவிததர்.
Corrected Text: புதிய தலைமைச் செயல் அதிகாரியை தேர்வு செய்யும் விஷயத்தில் நந்தனுக்கு ஆலை சொல்லத் தேவையில்லை அவரே சிறந்த தலம் செயல் அதிகாரியாக செயல்பட்டவர் என்பதால் என்ன தேவை என்பது அவருக்கு தெரியும் அதில் அவருக்கு ஆலோசனை சொல்ல தேவை இல்லை என தெரிவித்தார்

Results of Prediction
Accuracy: 0.6774193548387096
Precision: 0.6774193548387096
Recall: 1.0
Specificity: 0.0
F1-Score: 0.8076923076923077


In [17]:
#EXAMPLE -04
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

#incorrect paragraph
test_paragraphs = [
"இநதப் பிசசைக்கானிடம் என்ன இரக்கிறது எனறு கேட்க வந்தரக்கிறீர்கள். உங்களடைய சத்து உஙகளிடமே வரபபகிறது. பிறகு பிச்சக்காரனிடம் எனன கேடடு வநதருக்கறீர்கள’ என்று பகவன் அருளச்சொனனார்."
]

# correct paragraph for comparison
expected_paragraph = [
"இந்தப் பிச்சைக்காரனிடம் என்ன இருக்கிறது என்று கேட்க வந்திருக்கிறீர்கள். உங்களுடைய சொத்து உங்களிடமே வரப்போகிறது. பிறகு பிச்சைக்காரனிடம் என்ன கேட்டு வந்திருக்கிறீர்கள்’ என்று பகவான் அருளிச்சொன்னார்."
]

def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

test_sentences = split_into_sentences(test_paragraphs)
expected_sentences = split_into_sentences(expected_paragraph)

for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
       corrected_text = correct_text(sentence.strip(), correct_words_file)


def evaluate_paragraph(test_paragraph, expected_paragraph, correct_words_file):
    print(f"\nTest Paragraph: {test_paragraph.strip()}")
    
    corrected_text = correct_text(test_paragraph.strip(), correct_words_file)
    
    print(f"Corrected Text: {corrected_text.strip()}")
    
    # Evaluate the spell checker against the expected paragraph
    print("\nResults of Prediction")
    
    evaluator(
        test_paragraph.strip().split(),
        expected_paragraph.strip().split(),
        corrected_text.strip()
    )

# Loop through test paragraphs and evaluate
for idx, test_paragraph in enumerate(test_paragraphs):
    evaluate_paragraph(test_paragraph, expected_paragraph[idx], correct_words_file)



Test Paragraph: இநதப் பிசசைக்கானிடம் என்ன இரக்கிறது எனறு கேட்க வந்தரக்கிறீர்கள். உங்களடைய சத்து உஙகளிடமே வரபபகிறது. பிறகு பிச்சக்காரனிடம் எனன கேடடு வநதருக்கறீர்கள’ என்று பகவன் அருளச்சொனனார்.
Corrected Text: இந்தப் பிச்சைக்காரனிடம் என்ன இருக்கிறது என்று கேட்க வந்திருக்கிறீர்கள் உங்களுடைய ரத்து உங்களிடமே வருகிறது பிறகு பிச்சைக்காரனிடம் என்ன கேட்டு வந்திருக்கிறீர்கள் என்று பகவத் அருளிச்சொன்னார்

Results of Prediction
Accuracy: 0.7894736842105263
Precision: 0.7894736842105263
Recall: 1.0
Specificity: 0.0
F1-Score: 0.8823529411764706


In [19]:
#EXAMPLE -05
correct_words_file = "/Users/divyanicassionprinston/Desktop/AI_project/WordList.txt"

#incorrect paragraph
test_paragraphs = [
"ரமனிடம், லவனம், குசனம் பரிட்ட இடம சிறுவாபுர எனற செய்தி திருப்புகழ வழியாக அறயப்படுகறது. இக்கோயலில் உள்ள மணக்கோலததில் காட்சியளக்கும் வள்ளி மணவாள பெரமானை வணங்கனல், திருமணம கைகூடம் எனபது ஐதகம்.இந்நலயில், இறுதயாக வெளியற்றபபடவார் யார என்பதறகான நிகழவு நடைபெறறத."
]

# correct paragraph for comparison
expected_paragraph = [
    "ராமனிடம், லவனும், குசனும் போரிட்ட இடம் சிறுவாபுரி என்ற செய்தி திருப்புகழ் வழியாக அறியப்படுகிறது. இக்கோயிலில் உள்ள மணக்கோலத்தில் காட்சியளிக்கும் வள்ளி மணவாள பெருமானை வணங்கினால், திருமணம் கைகூடும் என்பது ஐதீகம்.இந்நிலையில், இறுதியாக வெளியேற்றப்படுவார் யார் என்பதற்கான நிகழ்வு நடைபெற்றது."
]

def split_into_sentences(paragraphs):
    return [para.rstrip(".").split(".") for para in paragraphs]

test_sentences = split_into_sentences(test_paragraphs)
expected_sentences = split_into_sentences(expected_paragraph)

for idx, test_sentences_group in enumerate(test_sentences):

    for i, sentence in enumerate(test_sentences_group):
       corrected_text = correct_text(sentence.strip(), correct_words_file)


def evaluate_paragraph(test_paragraph, expected_paragraph, correct_words_file):
    print(f"\nTest Paragraph: {test_paragraph.strip()}")
    
    corrected_text = correct_text(test_paragraph.strip(), correct_words_file)
    
    print(f"Corrected Text: {corrected_text.strip()}")
    
    # Evaluate the spell checker against the expected paragraph
    print("\nResults of Prediction")
    
    evaluator(
        test_paragraph.strip().split(),
        expected_paragraph.strip().split(),
        corrected_text.strip()
    )

# Loop through test paragraphs and evaluate
for idx, test_paragraph in enumerate(test_paragraphs):
    evaluate_paragraph(test_paragraph, expected_paragraph[idx], correct_words_file)



Test Paragraph: ரமனிடம், லவனம், குசனம் பரிட்ட இடம சிறுவாபுர எனற செய்தி திருப்புகழ வழியாக அறயப்படுகறது. இக்கோயலில் உள்ள மணக்கோலததில் காட்சியளக்கும் வள்ளி மணவாள பெரமானை வணங்கனல், திருமணம கைகூடம் எனபது ஐதகம்.இந்நலயில், இறுதயாக வெளியற்றபபடவார் யார என்பதறகான நிகழவு நடைபெறறத.
Corrected Text: ராமனிடம் கவனம் குசனும் பிட்ட இடம் சிறுவாபுரி என்ற செய்தி திருப்புகழ் வழியாக அறியப்படுகிறது இக்கோயிலில் உள்ள மணக்கோலத்தில் காட்சியளிக்கும் வள்ளி மணவாள பெருமானை வணங்கினால் திருமணம் கைகூடும் என்பது இந்நிலையில் இறுதியாக வெளியேற்றப்படுவார் யார் என்பதற்கான நிகழ்வு நடைபெற்றது

Results of Prediction
Accuracy: 0.8275862068965517
Precision: 0.8275862068965517
Recall: 1.0
Specificity: 0.0
F1-Score: 0.9056603773584906
