In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [None]:
df = pd.read_excel('/content/drive/MyDrive/AI_Assignment/tamil_sentences.xlsx')

df.head()

Unnamed: 0,Ungrammatical Statement,Standard Tamil
0,அவளே குரலுடன் பாடினான்.,அவன் குரலுடன் பாடினான்.
1,அவன் விளையாட்டில் சிறந்தாள்.,அவன் விளையாட்டில் சிறந்தான்.
2,அவர்கள் கதையை கேட்டான்.,அவர்கள் கதையை கேட்டார்கள்.
3,அவள் மொபைலை பிடித்தான்.,அவள் மொபைலை பிடித்தாள்.
4,அவளை பார்த்தான் அவன் நண்பர்கள்.,அவளை அவன் நண்பர்கள் பார்த்தார்கள்.


In [None]:
# Check for missing values and drop them
print("Missing values in each column:")
print(df.isnull().sum())
df = df.dropna()

Missing values in each column:
Ungrammatical Statement    702
Standard Tamil             702
dtype: int64


In [None]:
# Split the data into features and target
X = df['Ungrammatical Statement']  # Ungrammatical Tamil statements
y = df['Standard Tamil']  # Corrected Tamil statements

# Vectorize the input text using character n-grams
vectorizer = CountVectorizer(ngram_range=(1, 2), analyzer='char', token_pattern=None)
X_vectorized = vectorizer.fit_transform(X)

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

In [None]:
# Initialize and train the model
model = MultinomialNB()
model.fit(X_train, y_train)

In [None]:
# Make predictions on the test set
y_pred = model.predict(X_test)

# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy * 100:.2f}%")

Model Accuracy: 43.04%


In [None]:
from sklearn.metrics import classification_report

# Generate the classification report
report = classification_report(y_test, y_pred)
print("Classification Report:")
print(report)

Classification Report:
                                       precision    recall  f1-score   support

                       அவன் அழகானவன்.       0.00      0.00      0.00         0
                அவன் அவளை பார்த்தான்.       0.00      0.00      0.00         1
 அவன் இப்போது பள்ளிக்குச் செல்கிறான்.       0.00      0.00      0.00         1
                 அவன் உணவு சமைத்தான்.       0.50      1.00      0.67         1
          அவன் ஓடிக்கொண்டு இருந்தான்.       0.00      0.00      0.00         0
                 அவன் கதை சொல்லினான்.       1.00      1.00      1.00         2
              அவன் குரலுடன் பாடினான்.       0.00      0.00      0.00         1
           அவன் சாப்பாடு சமைக்கிறான்.       0.00      0.00      0.00         0
                 அவன் சாப்பிடுகிறான்.       0.00      0.00      0.00         1
            அவன் சினிமா பார்க்கிறான்.       0.00      0.00      0.00         1
             அவன் சைக்கிள் ஓட்டினான்.       0.00      0.00      0.00         0
                அவன் தன்னை அ

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
# Test the model with a new sentence
test_sentence = ["அவளே குரலுடன் பாடினான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவளே குரலுடன் பாடினான்.
Predicted Standard Tamil: அவள் பாடம் படிக்கிறாள்.


In [None]:
# Test the model with a new sentence
test_sentence = ["அவள் வேலை செய்தான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவள் வேலை செய்தான்.
Predicted Standard Tamil: அவள் வேலை செய்தாள்.


In [None]:
# Test the model with a new sentence
test_sentence = ["நான் இன்று பாடம் படிக்கிறேன்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: நான் இன்று பாடம் படிக்கிறேன்.
Predicted Standard Tamil: நான் நேற்று பாடம் படித்தேன்.


In [None]:
# Test the model with a new sentence
test_sentence = ["அவர்கள் கதையை கேட்டான்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: அவர்கள் கதையை கேட்டான்.
Predicted Standard Tamil: அவள் கதை சொல்லினாள்.


In [None]:
# Test the model with a new sentence
test_sentence = ["நான் நேற்று பாடம் படிக்கிறேன்."]
test_vector = vectorizer.transform(test_sentence)
predicted = model.predict(test_vector)

# Display the result
print("Ungrammatical Sentence:", test_sentence[0])
print("Predicted Standard Tamil:", predicted[0])

Ungrammatical Sentence: நான் நேற்று பாடம் படிக்கிறேன்.
Predicted Standard Tamil: நான் நேற்று பாடம் படித்தேன்.
