In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import nltk
from nltk.corpus import stopwords
import string

In [2]:
data = pd.read_csv("final_dataset.csv", encoding="utf-8")
data.drop_duplicates(inplace=True)
data = data.dropna()
data = data.drop(columns=['Date','Headlines'], axis=1)
data.head()

Unnamed: 0,News,Category
0,"স্টাফ রিপোর্টার, কক্সবাজার ॥ সমাবেশের তারিখ পি...",national
1,৪৩তম বিসিএসের মাধ্যমে বিভিন্ন ক্যাডারে এক হাজা...,national
2,বহুল আলোচিত বরগুনার রিফাত শরীফ হত্যা মামলার অপ...,national
3,স্বাস্থ্য ও পরিবার কল্যাণ মন্ত্রী জাহিদ মালেক ...,national
4,"নিজস্ব সংবাদদাতা, ভোলা, ৯ জুলাই ॥ ভোলায় এসিডে ...",national


In [3]:
nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text):
    tokens = nltk.word_tokenize(text)

    tokens = [word for word in tokens if word not in string.punctuation]

    stop_words = set(stopwords.words('bengali'))
    tokens = [word for word in tokens if word.lower() not in stop_words]

    return ' '.join(tokens)

data['News'] = data['News'].apply(preprocess_text)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sykat\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sykat\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [12]:
X = data['News']
y = data['Category']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [13]:
tfidf_vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

In [14]:
model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

In [15]:
y_pred = model.predict(X_test_tfidf)

In [16]:
with open('E:\\Study\\Thesis\\mnb_output.txt', 'w', encoding='utf-8') as f:
    # Loop over 100 samples
    for sample_index in range(1, 100):
        test_sample = X_test.iloc[sample_index]
        test_sample_tfidf = tfidf_vectorizer.transform([test_sample])
        predicted_headline = model.predict(test_sample_tfidf)
        actual_headline = y_test.iloc[sample_index]

        print(f'Test Sample:\n{test_sample}', file=f)
        print(f'Predicted category: {predicted_headline[0]}', file=f)
        print(f'Actual category: {actual_headline}', file=f)
        print('\n' + '='*50 + '\n', file=f)

In [17]:
for sample_index in range(1, 20):
        test_sample = X_test.iloc[sample_index]
        test_sample_tfidf = tfidf_vectorizer.transform([test_sample])
        predicted_headline = model.predict(test_sample_tfidf)
        actual_headline = y_test.iloc[sample_index]

        print(f'Test Sample:\n{test_sample}')
        print(f'Predicted category: {predicted_headline[0]}')
        print(f'Actual category: {actual_headline}')
        print('\n' + '='*50 + '\n')

Test Sample:
﻿﻿প্রধানমন্ত্রী শেখ হাসিনা চামড়াজাত পণ্য কাঙ্ক্ষিত রপ্তানি আয়ের লক্ষ্য অর্জনে ৫ বছর খাতে আর্থিক প্রণোদনা অব্যাহত রাখার ঘোষণা দিয়েছেন।বুধবার সকালে রাজধানীর বঙ্গবন্ধু আন্তর্জাতিক সম্মেলন কেন্দ্রে ‘ ৩য় বাংলাদেশ লেদার ফুটওয়্যার অ্যান্ড লেদার গুডস ইন্টারন্যাশনাল সোর্সিং শো-২০১৯ ’ উদ্বোধনী অনুষ্ঠানে প্রধান অতিথির বক্তব্যে ঘোষণা দেন। খবর বাসসেরপ্রধানমন্ত্রী ‘ সাভারে চামড়া শিল্প নগরীর বর্ধিত প্রকল্পে আন্তর্জাতিক মান এলডব্লিউজি সনদ অর্জন উপযোগী কম্পোজিট চামড়াজাত পণ্য পাদুকা কারখানা গড়ে তোলার কমপক্ষে ১৫০ একর জায়গা বরাদ্দ দেব ইতোমধ্যে জায়গা দেখেছি। ’ ‘ সকল রপ্তানি খাতের সমান সুযোগ নীতিগত সহায়তা নিশ্চিত হবে। বৈষম্যমূলক প্রতিবন্ধকতা দূর হবে। ’ চামড়া খাতে দেশি-বিদেশি বিনিয়োগ আকৃষ্ট লক্ষ্য এলএফএমইএবি সরকারের বাণিজ্য মন্ত্রণালয় যৌথভাবে বঙ্গবন্ধু আন্তর্জাতিক সম্মেলন কেন্দ্রে তিন দিনব্যাপী ‘ সোর্সিং শো ’ আয়োজন করেছে।বাণিজ্যমন্ত্রী টিপু মুনশি বাণিজ্য মন্ত্রণালয় সম্পর্কিত সংসদীয় স্থায়ী কমিটির চেয়ারম্যান তোফায়েল আহমেদ প্রধানমন্ত্রীর বেসরকারী শিল্প বিনিয়োগ বিষয়ক উপদেষ্টা সালমান এফ রহমান বাণিজ্য

In [18]:
from sklearn.metrics import accuracy_score, classification_report
print(classification_report(y_test, y_pred))

               precision    recall  f1-score   support

    economics       0.79      0.78      0.79       919
    education       0.65      0.65      0.65       999
entertainment       0.77      0.78      0.78       994
international       0.73      0.75      0.74       888
    lifestyle       0.87      0.88      0.87       798
     national       0.59      0.52      0.55       828
     politics       0.69      0.78      0.73       975
       sports       0.88      0.82      0.85       945

     accuracy                           0.75      7346
    macro avg       0.75      0.75      0.75      7346
 weighted avg       0.75      0.75      0.75      7346



In [9]:
import joblib
joblib.dump(model, 'E:\\Study\\Thesis\\mnb_model.joblib')

['E:\\Study\\Thesis\\mnb_model.joblib']