In [26]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn import metrics
from sklearn.metrics import confusion_matrix

# 1 - category, 2 - title, 3 - text
data = pd.read_excel("azeri_news.xlsx", encoding='utf-8')

In [27]:
data.head()

Unnamed: 0,Category,Title,News_Article
0,Maraqlı,Naviforce Sport Saat 2016 ilə zövqlərin ahəngi,Naviforce Sport Saat 2016 Yapon Mexanizmi Yapo...
1,Maraqlı,"Sinir ,oynaq , sinir bel ağrılarına 3 gündə son !","ŞOK ! ŞOK ! ŞOK ! Xanımlar və bəylər , bel və ..."
2,Maraqlı,Dəyərindən qat-qat aşağı qiymətə Mənzil,Dəyərindən qat-qat Aşağı Qiymətə. Həzi Aslanov...
3,İdman,2024 və 2028-ci il olimpiadalarının keçiriləcə...,2028-ci il Yay Olimpiya və Paralimpiya Oyunla...
4,Dünya,Türkiyədə zəlzələ,Türkiyədə daha bir zəlzələ meydana gəlib. L...


In [28]:
data['corpus'] = data['Title']+data['News_Article'] 
#using both columns at the same time doesn't work the way we need. combination of 2 columns gives slightly better accuracy
y = data["Category"]
x = data["corpus"]

In [29]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)

In [30]:
cv = CountVectorizer()

In [31]:
train_cv = cv.fit_transform(x_train)

In [39]:
cv.vocabulary_

{'ağızdakı': 19067,
 'sümük': 157482,
 'iltihabına': 73977,
 'səbəb': 158909,
 'amillərdişlər': 9556,
 'ağız': 19064,
 'içərisindəki': 78903,
 'sümüklə': 157487,
 'tam': 161862,
 'mənası': 107912,
 'ilə': 74000,
 'birləşmədən': 26412,
 'xüsusi': 183614,
 'tellərlə': 164207,
 'sümüyə': 157517,
 'yapışırlar': 185773,
 'bu': 29232,
 'bağlantı': 22625,
 'mürəkkəb': 105132,
 'bir': 26096,
 'sistem': 151744,
 'olaraq': 115886,
 'dişdən': 42157,
 'gələn': 65323,
 'qüvvələri': 136527,
 'göndərir': 61450,
 'hadisə': 66239,
 'növ': 113889,
 'asma': 13597,
 'vəzifə': 181086,
 'görür': 62129,
 'bəzən': 32699,
 'somatik': 153015,
 'xəstəliklər': 184295,
 'və': 180507,
 'lokal': 93806,
 'təsirlərlə': 172878,
 'dişin': 42171,
 'əlaqə': 209664,
 'mexanizmində': 99288,
 'qüsurlar': 136470,
 'yaranır': 186208,
 'yaranan': 186128,
 'isə': 77670,
 'diş': 42154,
 'arasında': 11849,
 'ankiloz': 10203,
 'deyilən': 40256,
 'çıxmalar': 200152,
 'meydana': 99347,
 'gətirə': 65861,
 'bilər': 25794,
 'belə': 2400

In [32]:
mnb = MultinomialNB()

In [33]:
mnb.fit(train_cv,y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [34]:
test_cv = cv.transform(x_test)

In [35]:
predictions_cv=mnb.predict(test_cv)

In [36]:
print(classification_report(y_test, predictions_cv))

              precision    recall  f1-score   support

       Dünya       0.74      0.80      0.77      2676
     Maraqlı       0.82      0.68      0.74      3182
  Mədəniyyət       0.83      0.66      0.73       301
     Siyasət       0.77      0.87      0.82      1300
       İdman       0.90      0.96      0.93      1256
İqtisadiyyat       0.81      0.90      0.86      1285

    accuracy                           0.80     10000
   macro avg       0.81      0.81      0.81     10000
weighted avg       0.80      0.80      0.80     10000



In [37]:
print(confusion_matrix(y_test, predictions_cv))

[[2135  331    8  107   34   61]
 [ 618 2164   23  131   94  152]
 [   7   62  198   30    0    4]
 [  76   34    5 1137    2   46]
 [  13   27    0   10 1202    4]
 [  28   20    4   67    5 1161]]


In [38]:
# checking this library in case if accuracy will be higher
tfidf = TfidfVectorizer()
train_tf = tfidf.fit_transform(x_train) 

In [40]:
tfidf.vocabulary_

{'ağızdakı': 19067,
 'sümük': 157482,
 'iltihabına': 73977,
 'səbəb': 158909,
 'amillərdişlər': 9556,
 'ağız': 19064,
 'içərisindəki': 78903,
 'sümüklə': 157487,
 'tam': 161862,
 'mənası': 107912,
 'ilə': 74000,
 'birləşmədən': 26412,
 'xüsusi': 183614,
 'tellərlə': 164207,
 'sümüyə': 157517,
 'yapışırlar': 185773,
 'bu': 29232,
 'bağlantı': 22625,
 'mürəkkəb': 105132,
 'bir': 26096,
 'sistem': 151744,
 'olaraq': 115886,
 'dişdən': 42157,
 'gələn': 65323,
 'qüvvələri': 136527,
 'göndərir': 61450,
 'hadisə': 66239,
 'növ': 113889,
 'asma': 13597,
 'vəzifə': 181086,
 'görür': 62129,
 'bəzən': 32699,
 'somatik': 153015,
 'xəstəliklər': 184295,
 'və': 180507,
 'lokal': 93806,
 'təsirlərlə': 172878,
 'dişin': 42171,
 'əlaqə': 209664,
 'mexanizmində': 99288,
 'qüsurlar': 136470,
 'yaranır': 186208,
 'yaranan': 186128,
 'isə': 77670,
 'diş': 42154,
 'arasında': 11849,
 'ankiloz': 10203,
 'deyilən': 40256,
 'çıxmalar': 200152,
 'meydana': 99347,
 'gətirə': 65861,
 'bilər': 25794,
 'belə': 2400

In [41]:
mnb.fit(train_tf,y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [42]:
test_tf = tfidf.transform(x_test)

In [43]:
predictions_tf=mnb.predict(test_tf)

In [44]:
print(classification_report(y_test, predictions_tf))
# accuracy lowered

              precision    recall  f1-score   support

       Dünya       0.73      0.77      0.75      2676
     Maraqlı       0.68      0.76      0.72      3182
  Mədəniyyət       0.92      0.04      0.08       301
     Siyasət       0.81      0.77      0.79      1300
       İdman       0.91      0.87      0.89      1256
İqtisadiyyat       0.88      0.78      0.83      1285

    accuracy                           0.76     10000
   macro avg       0.82      0.67      0.68     10000
weighted avg       0.77      0.76      0.75     10000



In [45]:
print(confusion_matrix(y_test, predictions_tf))

[[2062  510    0   48   23   33]
 [ 533 2425    1   69   75   79]
 [   6  254   12   27    0    2]
 [ 143  123    0 1007    2   25]
 [  31  118    0    8 1097    2]
 [  59  140    0   80    3 1003]]
