## This a simple news classifier

For the purpose of this task I decided to use CountVectorizer and Multinominal Naive Bayes.

more info at [Scikit Learn](https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html)
and [this article by Kelly Epley](https://towardsdatascience.com/naive-bayes-document-classification-in-python-e33ff50f937e)

---------------------------------------------------------------------------

### Proper imports

In [1]:
import pickle
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn import model_selection
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, recall_score

Polish language customization feature in progress

In [2]:
#  na moment zrezygnujmy z lematyzacji
# Replace nltk stemmer with Polish stemmer version from pystempel repository (https://github.com/dzieciou/pystempel)
# from stempel import StempelStemmer

### Import data and select equal sets of different labelized news

In [23]:
df = pd.read_csv(r"corpus.csv",encoding='utf-8')
df.head()

df['__label__1'] = df['labelWojciechowski zrobił złe wrażenie i zapewne czeka go powtórne przesłuchanie w europarlamencie']
df = df.drop(columns='labelWojciechowski zrobił złe wrażenie i zapewne czeka go powtórne przesłuchanie w europarlamencie')
df = df.rename(columns={'label':'text', '__label__1':'label'})
df.head()

Unnamed: 0,text,label
0,Janusz Wojciechowski kandydat na unijnego komi...,__label__1
1,Jak będą wyglądać przesłuchania kandydatów na ...,__label__1
2,Duch terrorystycznej organizacji ETA wciąż żyj...,__label__1
3,Z powodu brexitu Bruksela traci wiarę w Wielką...,__label__1
4,Europosłanka Sylwia Spurek walczy o wegańskie ...,__label__1


### Split data into training sets and testing sets
below examples of training headlines and proper labels

In [24]:
X_train, X_test, Y_train, Y_test = train_test_split(df['text'], df['label'], random_state=1)
X_train.head()

47      Historia polskiej Solidarności powinna być prz...
3257    POGODA na WEEKEND 15-16.09.2012. Słońce wróci ...
2039    RMF4RT Gladiators: Trening? Dyscyplina? Po co ...
1672    Wyścig Górski w Limanowej: Za nami rywalizacja...
1334    Krystyna z "Rolnik szuka żony" przygotowuje si...
Name: text, dtype: object

In [25]:
Y_train.head()

47      __label__1
3257    __label__5
2039    __label__3
1672    __label__3
1334    __label__2
Name: label, dtype: object

### Create CountVectorizer instance and transform with it our pdSeries. 


In [26]:
cv = CountVectorizer(X_train.to_list())
X_train_cv = cv.fit_transform(X_train)
X_test_cv = cv.transform(X_test)

### Create Naive Bayes model instance and train it

In [27]:
naive_bayes = MultinomialNB()
naive_bayes.fit(X_train_cv, Y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [28]:
predictions = naive_bayes.predict(X_test_cv)

### Let's save the model

In [29]:
filename = 'finalized_model.sav'
pickle.dump(naive_bayes, open(filename, 'wb'))
filename = 'count_vectorizer.sav'
pickle.dump(cv, open(filename, 'wb'))

### Time for test it

In [30]:
my_test = ['Dwa tygodnie przerwy Piszczka',\
           'Formuła 1: GP Japonii w strugach deszczu i porywach wiatru. O ile w ogóle się odbędzie',\
           'Nowe drogi rozwiną regiony',\
           'Minister Jerzy Kwieciński z Polskim Kompasem 2019'  
          ]

my_test_series = pd.Series(my_test)
my_test_series.head()

0                        Dwa tygodnie przerwy Piszczka
1    Formuła 1: GP Japonii w strugach deszczu i por...
2                           Nowe drogi rozwiną regiony
3    Minister Jerzy Kwieciński z Polskim Kompasem 2019
dtype: object

In [31]:
my_test_series_cv = cv.transform(my_test_series)

In [32]:
naive_bayes.predict(my_test_series_cv)

array(['__label__3', '__label__3', '__label__4', '__label__2'],
      dtype='<U151')

### Seems it work properly, we can measure accuracy of theise predictions

In [33]:
print('Accuracy score: ', accuracy_score(Y_test, predictions))

Accuracy score:  0.8697674418604651
