In [1]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [3]:
# Load the dataset
df = pd.read_excel('/content/drive/MyDrive/tamildataset.xlsx')

df.head()

Unnamed: 0,Serial Number,Error Type,Ungrammatical Statement,Standard Tamil
0,0,error1,நான் நேற்று பாடம் படிக்கிறேன்.,நான் நேற்று பாடம் படித்தேன்.
1,1,error2,அவள் பள்ளிக்குச் சென்றான்.,அவள் பள்ளிக்குச் சென்றாள்.
2,2,error1,நான் நேற்று தோசை சாப்பிடுகிறேன்.,நான் நேற்று தோசை சாப்பிட்டேன்.
3,3,error1,அவன் இப்போது பள்ளிக்குச் சென்றான்.,அவன் இப்போது பள்ளிக்குச் செல்கிறான்.
4,4,error2,அவன் உணவு சாப்பிட்டாள்.,அவன் உணவு சாப்பிட்டான்.


In [4]:
# Check for missing values and drop them
print("Missing values in each column:")
print(df.isnull().sum())
df = df.dropna()


Missing values in each column:
Serial Number                0
Error Type                   0
Ungrammatical Statement    307
Standard Tamil             307
dtype: int64


In [5]:
# Split the data into features and target
X = df['Ungrammatical Statement']  # Ungrammatical Tamil statements
y = df['Standard Tamil']  # Corrected Tamil statements

# Vectorize the input text using character n-grams
vectorizer = CountVectorizer(ngram_range=(1, 2), analyzer='char', token_pattern=None)
X_vectorized = vectorizer.fit_transform(X)

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

In [6]:
# Initialize and train the model
model = MultinomialNB()
model.fit(X_train, y_train)

In [7]:
# Make predictions on the test set
y_pred = model.predict(X_test)

# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy * 100:.2f}%")

Model Accuracy: 38.46%


In [8]:
from sklearn.metrics import classification_report

# Generate the classification report
report = classification_report(y_test, y_pred)
print("Classification Report:")
print(report)

Classification Report:
                                        precision    recall  f1-score   support

                        அவன் அழகானவன்.       1.00      1.00      1.00         1
    அவன் கடையில் பொருட்கள் வாங்கினான்.       0.00      0.00      0.00         0
                  அவன் கதை சொல்லினான்.       0.00      0.00      0.00         1
              அவன் சைக்கிள் ஓட்டினான்.       0.00      0.00      0.00         1
                 அவன் தன்னை அழைத்தான்.       1.00      1.00      1.00         1
                அவன் தன்னை பார்த்தான்.       1.00      1.00      1.00         1
                   அவன் நடனம் ஆடினான்.       0.00      0.00      0.00         0
               அவன் பாடம் படிக்கிறான்.       1.00      1.00      1.00         1
                   அவன் வேலை செய்தான்.       0.00      0.00      0.00         1
    அவள் கடையில் பொருட்கள் வாங்கினாள்.       0.00      0.00      0.00         1
                    அவள் கதை சொன்னான்.       0.00      0.00      0.00         1
                

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [10]:
# Test the model with a new sentence
test_sentence = ["அவள் வேலை செய்தான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவள் வேலை செய்தான்.
Predicted Standard Tamil: அவள் வேலை செய்தாள்.


In [11]:
# Test the model with a new sentence
test_sentence = ["அவள் கதை சொன்னான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவள் கதை சொன்னான்.
Predicted Standard Tamil: அவள் கதை சொல்லினாள்.


In [12]:
# Test the model with a new sentence
test_sentence = ["அவள் புத்தகம் படித்தான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவள் புத்தகம் படித்தான்.
Predicted Standard Tamil: அவள் பாடம் படித்தாள்.


In [13]:
# Test the model with a new sentence
test_sentence = ["அவன் தன்னை அழைத்தாள்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவன் தன்னை அழைத்தாள்.
Predicted Standard Tamil: அவன் தன்னை அழைத்தான்.


In [15]:
# Test the model with a new sentence
test_sentence = ["நான் நாளை பாடம் படிக்கிறேன்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: நான் நாளை பாடம் படிக்கிறேன்.
Predicted Standard Tamil: நான் நாளை பாடம் படிப்பேன்.
