### News Classification
> We are going to classify news categories
> We are going to use `naive_bayes` algo

In [1]:
import requests
import json
import pandas as pd
import numpy as np
import csv
import nltk
import pickle

### Loading data

In [97]:
path = 'news_after_stemming.pkl'

In [112]:
with open(path, 'rb') as f:
    news = pickle.load(f)
len(news)

4706

#### Changing categories into numbers for example [0, 1, 2....], [BUSINESS...]

In [118]:
categories =[]
description =[]
for cat, desc in news:
    categories.append(cat)
    description.append(desc)
    
description[:2], 

(['state owned domestic airline mango facing financial uncertainty raising questions much longer stay air',
  'absa launched qr payments part growing push reduce physical transactions'],)

In [119]:
categories_dict = {'GENERAL':0,
  'TECHNOLOGY':1,
  'HEALTH':2,
  'ENTERTAINMENT':3,
  'BUSINESS':4,
  'SCIENCE':5,
  'SPORTS':6
}

In [120]:
categories_in_numbers = [categories_dict[i] for i in categories]
len(categories_in_numbers)

4706

> Now let's join the descriptions with their respective categories_in_numbers

In [121]:
X = description
y = categories_in_numbers
X[:2], y[:2], len(X), len(y)

(['state owned domestic airline mango facing financial uncertainty raising questions much longer stay air',
  'absa launched qr payments part growing push reduce physical transactions'],
 [4, 4],
 4706,
 4706)

In [122]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, HashingVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, accuracy_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

In [123]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=29, test_size =.20)
len(X_train), len(X_test), len(y_train), len(y_test)

(3764, 942, 3764, 942)

In [124]:
X_train[:5], X_test[:5], y_train[:5], y_test[:5]

(['иорданский боксер рашед аль свайсат умер боя молодежном чемпионате мира польше апреля летний спортсмен потерял сознание время поединка весовой категории килограмма против эстонца андрея виноградова боксера госпитализировали б',
  'καλεσμένος happy day ήταν σήμερα νίκος κοκλώνης οποίος ανακοίνωσε σταματίνα τσιμτσιλή απόφασή φύγει από open',
  'quebec recorded new covid cases tuesday second time row new daily infections remained past month',
  'child first covid pediatric death minnesota involve underlying health conditions',
  'alongside episode act'],
 ['新浪娱乐讯月日晚 小浪带领北京地区团员提前观看了电影 阳光劫匪 影片由李玉执导 马丽 宋佳 张海宇 谢锐韬主演 讲述了阳光 马丽饰 经营着一家寻宠事务所 接受委托帮忙寻找丢失的宠物 有天 晓雪 宋佳饰 找到了阳光 请她找回自己相依为',
  'έκδοση πιστοποιητικού κτηματογραφούμενου ακινήτου είναι απαραίτητος προηγούμενος εντοπισμός ακινήτου επί προσωρινών κτηματολογικών στοιχείων απόδοση αυτό κωδικού αριθμού εθνικού κτηματολογίου καεκ',
  'نريد محمد رمضان نريد الفنان نريد صاحب الأخلاق العالية الفيديوهات صادفتها انستجرام يومين عفاني الله مؤقتا فيسبوك 

In [125]:
pipe = Pipeline([
    ('vect', CountVectorizer(stop_words="english", ngram_range=(1, 3))),
    ('clf', MultinomialNB()),
])
pipe

Pipeline(steps=[('vect',
                 CountVectorizer(ngram_range=(1, 3), stop_words='english')),
                ('clf', MultinomialNB())])

In [126]:
pipe.fit(X_train, y_train)

Pipeline(steps=[('vect',
                 CountVectorizer(ngram_range=(1, 3), stop_words='english')),
                ('clf', MultinomialNB())])

> Scoring the model

In [127]:
pipe.score(X_train, y_train)

0.941817215727949

> `94%` accurate on the train dataset.

In [84]:
pipe.score(X_test, y_test)

0.5912951167728238

> `59%` accurate on the test dataset.

In [88]:
y_pred = pipe.predict(X_test)
f1_score(y_test, y_pred, average=None, labels =list(categories_dict.values()))

array([0.09929078, 0.59101655, 0.64676617, 0.67272727, 0.49541284,
       0.64944649, 0.71333333])

> Making predictions

In [90]:
X_train[0], y_train[0]

('иорданский боксер рашед аль свайсат умер боя молодежном чемпионате мира польше апреля летний спортсмен потерял сознание время поединка весовой категории килограмма против эстонца андрея виноградова боксера госпитализировали б',
 6)

In [91]:
pipe.predict([X_train[0]])

array([6])

In [92]:
X_train[10], y_train[10]

('patron spacex donné quelques détails objectif envoyer hommes mars ici quelques années visiblement voyage tout repos',
 1)

In [93]:
pipe.predict([X_train[10]])

array([1])

In [95]:
X_test[10], y_test[10]

('астробиологи показали недра марса могут поддерживать микробную жизнь обеспечивая энергией всеми необходимыми веществами марсианские породы будут постоянно контактировать водой смогут производить побочные соединения важные жизнеде',
 5)

In [94]:
pipe.predict([X_test[10]])

array([5])

> The model is predicting well so far.