# 1. Load dataset

#### In this assignment, you are expected to build a model that classifies given news article in Azerbaijani into one of the pre-defined six categories. You will need to train your model on a dataset of 50000 news examples.
#### You will need to read the data from data file (news.xlsx). It contains three columns: news category, news title, and the news content. Split the data into train and test sets. Reserve 20% of the data for testing.

In [1]:
import pandas as pd

dt = pd.read_excel('news.xlsx')

In [2]:
dt

Unnamed: 0,Category,Title,News_Article
0,Maraqlı,Naviforce Sport Saat 2016 ilə zövqlərin ahəngi,Naviforce Sport Saat 2016 Yapon Mexanizmi Yapo...
1,Maraqlı,"Sinir ,oynaq , sinir bel ağrılarına 3 gündə son !","ŞOK ! ŞOK ! ŞOK ! Xanımlar və bəylər , bel və ..."
2,Maraqlı,Dəyərindən qat-qat aşağı qiymətə Mənzil,Dəyərindən qat-qat Aşağı Qiymətə. Həzi Aslanov...
3,İdman,2024 və 2028-ci il olimpiadalarının keçiriləcə...,2028-ci il Yay Olimpiya və Paralimpiya Oyunla...
4,Dünya,Türkiyədə zəlzələ,Türkiyədə daha bir zəlzələ meydana gəlib. L...
...,...,...,...
49995,Siyasət,Əli Kərimli terrorçularla da əməkdaşlığa hazır...,"AXCP sədri ""Milli Şura""nın mitinqində qəsdən..."
49996,Siyasət,Elşən Musayev: “Bəlkə elə o terrorist Əli Kəri...,"""Ümumiyyətlə, Milli Şuraya xoş olan, hətta o..."
49997,Dünya,İstanbulda 52 mərtəbəli binada yanğın baş verib,Türkiyənin İstanbul şəhərinin Ataşehir rayon...
49998,Dünya,“Onlar cinayətkarlardır və bir-bir məhv edilir...,Rusiyanı tərk edərək İŞİD sıralarında döyüşə...


In [3]:
from sklearn.model_selection import train_test_split

x = dt['News_Article']
y = dt['Category']

SEED = 42
x_train, x_test, y_train, y_test = \
                train_test_split(x, y, test_size = 0.2, random_state = SEED)

# 2. Data preprocessing

#### You are expected to extract features from the news articles using bag-of-words and tf-idf representation techniques. You can use library tools (CountVectorizer, TfidfVectorizer) for this purpose. You may want to limit the vocabulary size by choosing most frequent 3000 tokens. Experiment with different sizes.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
cv = CountVectorizer(max_features = 3000)
x_train_cv = cv.fit_transform(x_train)

tfidf = TfidfVectorizer(max_features = 3000)
x_train_tfidf = tfidf.fit_transform(x_train)
x_test_tfidf = tfidf.transform(x_test)

In [5]:
x_train_cv

<40000x3000 sparse matrix of type '<class 'numpy.int64'>'
	with 2664988 stored elements in Compressed Sparse Row format>

In [6]:
x_train_tfidf

<40000x3000 sparse matrix of type '<class 'numpy.float64'>'
	with 2664988 stored elements in Compressed Sparse Row format>

In [7]:
x_test_tfidf

<10000x3000 sparse matrix of type '<class 'numpy.float64'>'
	with 668999 stored elements in Compressed Sparse Row format>

# 3. Modeling

#### For each of the a) logistic regression, b) naïve Bayes, c) stochastic gradient descent classifier, and d) random forest classifier:
- Train it on the training data with Tf-idf representations
- Test the model using test set
- Achieve accuracy rate of ~80%
- Evaluate precision, recall, and F1 scores
- Construct confusion matrix
#### You can use LogisticRegression, MultinomialNB, SGDClassifier, and RandomForestClassifier

In [8]:
from sklearn.linear_model import LogisticRegression

model_log = LogisticRegression(max_iter = 1000)
model_log.fit(x_train_tfidf, y_train)
y_pred = model_log.predict(x_test_tfidf)

#classifiacation report
#confusion matrix

In [12]:
tfidf.vocabulary_

{'avropa': 247,
 'şurası': 2864,
 'parlament': 1810,
 'assambleyasının': 232,
 'aşpa': 319,
 'yeni': 2656,
 'ilk': 1101,
 'mümkün': 1472,
 'olmayıb': 1739,
 'apa': 191,
 'xəbər': 2576,
 'verir': 2501,
 'ki': 1238,
 'nın': 1674,
 'bu': 452,
 'gün': 905,
 'başlayan': 366,
 'payız': 1819,
 'sessiyasında': 2139,
 'oktyabrın': 1704,
 'da': 530,
 'qurumun': 1954,
 'prezidenti': 1839,
 'vermiş': 2504,
 'yerinə': 2665,
 'prezident': 1838,
 'idi': 1081,
 'lakin': 1314,
 'nəticəsində': 1693,
 'xalq': 2547,
 'partiyası': 1812,
 'xanım': 2552,
 'səs': 2263,
 'və': 2526,
 'lazım': 1325,
 'olan': 1709,
 'qədər': 1971,
 'iştirak': 1203,
 'edən': 702,
 'sayı': 2118,
 'az': 275,
 'olduğundan': 1722,
 'ikinci': 1092,
 'tur': 2320,
 'elan': 715,
 'edilib': 678,
 'kinci': 1248,
 'keçiriləcək': 1230,
 'qeyd': 1916,
 'edək': 701,
 '2018': 40,
 'ci': 501,
 'ilin': 1100,
 'yanvar': 2599,
 'icra': 1073,
 'edəcək': 696,
 'qış': 1966,
 'müddəti': 1464,
 'başa': 361,
 'xezerxeber': 2559,
 '38': 62,
 'dəfə': 640,


In [9]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print()
print(accuracy_score(y_test, y_pred))

              precision    recall  f1-score   support

       Dünya       0.81      0.82      0.82      2745
     Maraqlı       0.80      0.79      0.80      3172
  Mədəniyyət       0.81      0.60      0.69       304
     Siyasət       0.83      0.82      0.83      1269
       İdman       0.91      0.93      0.92      1264
İqtisadiyyat       0.83      0.88      0.85      1246

    accuracy                           0.83     10000
   macro avg       0.83      0.81      0.82     10000
weighted avg       0.83      0.83      0.83     10000

[[2258  353    6   52   34   42]
 [ 389 2507   17   78   67  114]
 [  17   79  182   20    0    6]
 [  83   66   12 1037   11   60]
 [  23   48    4    7 1177    5]
 [  26   68    5   49    0 1098]]

0.8259


In [14]:
from sklearn.naive_bayes import MultinomialNB
model_nb = MultinomialNB()
model_nb.fit(x_train_tfidf, y_train)

y_pred = model_nb.predict(x_test_tfidf)

In [15]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print()
print(accuracy_score(y_test, y_pred))

              precision    recall  f1-score   support

       Dünya       0.75      0.76      0.76      2745
     Maraqlı       0.76      0.71      0.73      3172
  Mədəniyyət       0.79      0.51      0.62       304
     Siyasət       0.75      0.79      0.77      1269
       İdman       0.90      0.92      0.91      1264
İqtisadiyyat       0.76      0.88      0.81      1246

    accuracy                           0.78     10000
   macro avg       0.79      0.76      0.77     10000
weighted avg       0.78      0.78      0.77     10000

[[2093  438    5  111   34   64]
 [ 570 2239   14  100   79  170]
 [   7  107  154   28    3    5]
 [  82   64   13 1005   10   95]
 [  17   53    5    9 1169   11]
 [  22   46    5   80    0 1093]]

0.7753


In [16]:
from sklearn.linear_model import SGDClassifier
model_sdg = SGDClassifier()
model_sdg.fit(x_train_tfidf, y_train)

y_pred = model_sdg.predict(x_test_tfidf)

In [17]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print()
print(accuracy_score(y_test, y_pred))

              precision    recall  f1-score   support

       Dünya       0.81      0.82      0.81      2745
     Maraqlı       0.81      0.78      0.80      3172
  Mədəniyyət       0.81      0.54      0.65       304
     Siyasət       0.82      0.84      0.83      1269
       İdman       0.90      0.95      0.93      1264
İqtisadiyyat       0.82      0.90      0.86      1246

    accuracy                           0.83     10000
   macro avg       0.83      0.80      0.81     10000
weighted avg       0.83      0.83      0.82     10000

[[2241  361    7   57   36   43]
 [ 385 2467   15   84   82  139]
 [  19   91  165   24    2    3]
 [  82   45   10 1065   12   55]
 [  13   31    2    7 1204    7]
 [  23   38    5   55    2 1123]]

0.8265


In [19]:
from sklearn.ensemble import RandomForestClassifier

model_rf = RandomForestClassifier()
model_rf.fit(x_train_tfidf, y_train)

y_pred = model_rf.predict(x_test_tfidf)

In [20]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print()
print(accuracy_score(y_test, y_pred))

              precision    recall  f1-score   support

       Dünya       0.79      0.83      0.81      2745
     Maraqlı       0.78      0.77      0.78      3172
  Mədəniyyət       0.87      0.45      0.59       304
     Siyasət       0.79      0.82      0.80      1269
       İdman       0.90      0.91      0.91      1264
İqtisadiyyat       0.82      0.81      0.82      1246

    accuracy                           0.81     10000
   macro avg       0.83      0.76      0.78     10000
weighted avg       0.81      0.81      0.80     10000

[[2272  360    0   64   28   21]
 [ 407 2446   11   98   85  125]
 [  23   98  136   34    2   11]
 [  84   80    7 1037    8   53]
 [  37   58    1   11 1150    7]
 [  67   97    1   69    1 1011]]

0.8052
