<a href="https://colab.research.google.com/github/it21023996/machine-learning/blob/nlp/Sinhala_news_classification_TFIDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd

df = pd.read_csv("Sinhala_news_articles.csv")
df.head()


Unnamed: 0,Title,Label
0,කොරෝනා වැලඳුණු ට්‍රම්ප් අද ජන රැලියක,International
1,ආර්ථික විද්‍යාව පිළිබඳ නොබෙල් ත්‍යාගය ඇමරිකානු...,International
2,ඉන්දියාවේ කොරෝනා ආසාදිතයන් 71 ලක්ෂය ඉක්මවයි,International
3,කළු ජාතිකයෙකු ඩොලර් මිලියනයක වන්දි ඉල්ලා ටෙක්ස...,International
4,නේපාල සංචාරක ඇමතිට කොරෝනා,International


In [3]:
df.Label.value_counts()

Unnamed: 0_level_0,count
Label,Unnamed: 1_level_1
International,12009
Sport,9088
Business,5323


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

In [34]:
from sklearn.preprocessing import LabelEncoder

In [6]:
x_train, x_test, y_train, y_test = train_test_split(df['Title'], df['Label'], test_size=0.2, random_state=42)

In [9]:
vectorizer = TfidfVectorizer(max_features=5000)

x_train_vec = vectorizer.fit_transform(x_train)

x_test_vec = vectorizer.transform(x_test)

In [35]:
label_encoder = LabelEncoder()

y_train_encoded = label_encoder.fit_transform(y_train)

y_test_encoded = label_encoder.transform(y_test)

##logistic Regrestion

In [10]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

In [36]:
lr = LogisticRegression(max_iter=1000)
lr.fit(x_train_vec, y_train_encoded)

In [37]:
y_pred = lr.predict(x_test_vec)
print(classification_report(y_test_encoded, y_pred))

              precision    recall  f1-score   support

           0       0.85      0.76      0.80      1067
           1       0.84      0.89      0.86      2408
           2       0.87      0.87      0.87      1809

    accuracy                           0.85      5284
   macro avg       0.85      0.84      0.84      5284
weighted avg       0.85      0.85      0.85      5284



In [14]:
from sklearn.naive_bayes import MultinomialNB

In [38]:
nb = MultinomialNB()
nb.fit(x_train_vec, y_train_encoded)
print("Naive Bayes:\n", classification_report(y_test_encoded, nb.predict(x_test_vec)))

Naive Bayes:
               precision    recall  f1-score   support

           0       0.93      0.62      0.74      1067
           1       0.78      0.93      0.85      2408
           2       0.88      0.83      0.86      1809

    accuracy                           0.83      5284
   macro avg       0.86      0.79      0.82      5284
weighted avg       0.85      0.83      0.83      5284



In [16]:
from sklearn.svm import LinearSVC

In [39]:
svm = LinearSVC(class_weight='balanced')
svm.fit(x_train_vec, y_train_encoded)
print("SVM:\n", classification_report(y_test_encoded, svm.predict(x_test_vec)))

SVM:
               precision    recall  f1-score   support

           0       0.78      0.81      0.80      1067
           1       0.88      0.86      0.87      2408
           2       0.87      0.89      0.88      1809

    accuracy                           0.86      5284
   macro avg       0.85      0.85      0.85      5284
weighted avg       0.86      0.86      0.86      5284



In [18]:
from sklearn.ensemble import RandomForestClassifier

In [40]:
rf = RandomForestClassifier(n_estimators=100)
rf.fit(x_train_vec, y_train_encoded)
print("Random Forest:\n", classification_report(y_test_encoded, rf.predict(x_test_vec)))

Random Forest:
               precision    recall  f1-score   support

           0       0.86      0.72      0.79      1067
           1       0.82      0.88      0.85      2408
           2       0.85      0.85      0.85      1809

    accuracy                           0.84      5284
   macro avg       0.84      0.82      0.83      5284
weighted avg       0.84      0.84      0.84      5284



In [20]:
from sklearn.metrics import f1_score

In [43]:
models = {
    "Logistic Regression": lr,
    "Naive Bayes": nb,
    "SVM": svm,
    "Random Forest": rf
}

In [44]:
for name, model in models.items():
    preds = model.predict(x_test_vec)
    score = f1_score(y_test_encoded, preds, average='weighted')
    print(f"{name} F1 Score: {score:.4f}")

Logistic Regression F1 Score: 0.8535
Naive Bayes F1 Score: 0.8300
SVM F1 Score: 0.8578
Random Forest F1 Score: 0.8379


In [51]:
new_texts = [
    "ශ්‍රී ලංකා කණ්ඩායම අවසන් වටයට පත්වෙයි",
    "මූල්‍ය වෙළඳපොලේ විශාල වැටීමක් සිදුවේ",
    "ජාත්‍යන්තර සමුළුවක් ජනෙවාහි පැවැත්වේ",
    "ක්‍රිකට් තරඟාවලිය අද ආරම්භ වේ",
    "බැංකු පොලී අනුපාතය නැවත සමාලෝචනය කෙරේ",
    "අමෙරිකානු ජනාධිපතිවරයා ආසියාවට ගමන් කරයි",
    "ශ‍්‍රී ලංකා ක්‍රීඩකයාට අවුරුදු 2ක තහනමක්",
    "කොළඹ කොටස් වෙළඳපොල වැඩි වටිනාකමක් ලැබූවා",
    "චීනයේ නව ආර්ථික උපායන් ලෝකයෙන් දැකුම්මට",
    "පන්දුවාර තරඟය 3-0 ලෙස ජයග්‍රහණය කරයි ශ්‍රී ලංකාව"
]


In [52]:
new_x = vectorizer.transform(new_texts)

In [53]:
predictions = svm.predict(new_x)
decoded_preds = label_encoder.inverse_transform(predictions)

In [54]:
for text, label in zip(new_texts, decoded_preds):
    print(f"📰 '{text}' → Predicted Category: {label}")

📰 'ශ්‍රී ලංකා කණ්ඩායම අවසන් වටයට පත්වෙයි' → Predicted Category: Sport
📰 'මූල්‍ය වෙළඳපොලේ විශාල වැටීමක් සිදුවේ' → Predicted Category: Business
📰 'ජාත්‍යන්තර සමුළුවක් ජනෙවාහි පැවැත්වේ' → Predicted Category: International
📰 'ක්‍රිකට් තරඟාවලිය අද ආරම්භ වේ' → Predicted Category: Sport
📰 'බැංකු පොලී අනුපාතය නැවත සමාලෝචනය කෙරේ' → Predicted Category: International
📰 'අමෙරිකානු ජනාධිපතිවරයා ආසියාවට ගමන් කරයි' → Predicted Category: International
📰 'ශ‍්‍රී ලංකා ක්‍රීඩකයාට අවුරුදු 2ක තහනමක්' → Predicted Category: Sport
📰 'කොළඹ කොටස් වෙළඳපොල වැඩි වටිනාකමක් ලැබූවා' → Predicted Category: Business
📰 'චීනයේ නව ආර්ථික උපායන් ලෝකයෙන් දැකුම්මට' → Predicted Category: Business
📰 'පන්දුවාර තරඟය 3-0 ලෙස ජයග්‍රහණය කරයි ශ්‍රී ලංකාව' → Predicted Category: Sport
