# Naive Bayes

V tomto notebooku se budeme zabývat využitím klasifikace pomocí Naivního Bayese. Speciálně se budeme soustředit na klasifikaci textů.
 
Základem pro tento dokument je tutorial ze scikit-learn zaměřený na analýzu textů [zde](https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html).

In [None]:
import pandas as pd
import numpy as np
from scipy.misc import logsumexp
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline

np.set_printoptions(precision=5, suppress=True)  # suppress scientific float notation (so 0.000 is printed as 0.)

## Načtení dat

Využijeme data ze zdroje [20 Newsgroups](http://qwone.com/~jason/20Newsgroups/), který obsahuje různě kategorizované texty z internetových diskusí.

Pro jednoduchost se zaměříme pouze na dvě kategorie - hokej a auta.

In [None]:
categories = ['rec.sport.hockey', 'rec.autos']
train_data = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=1)
test_data = fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=1)

In [None]:
# Prozkoumání testovacích dat
print('Kategorie:', test_data.target_names)
print('Train data length:', len(train_data.data))

# print(train_data.data[0])
print('Kategorie prvního dokumentu:',train_data.target_names[train_data.target[0]])

## Transformace do bag-of-words reprezentace

Použijeme k tomu CountVectorizer ze scikit-learn.

In [None]:
# Nejprve načteme slovník
with open('vocabulary.txt','r') as f:
    vocab=f.read().splitlines()
print(len(vocab))

In [None]:
count_vect = CountVectorizer(vocabulary = vocab)
X_train_counts = count_vect.fit_transform(train_data.data)
print('Bag of words shape', X_train_counts.shape)
print('Bag of words type', type(X_train_counts))

Výstupem je scipy.sparse matrix.

In [None]:
# zobrazení prvního řádku - tj.příznaků prvního dokumentu
X_train_counts[0,:20].toarray()

We can also extract the vocabulary...

In [None]:
# several words from the dictionary together with their indices in the dictionary
print(type(count_vect.vocabulary_))
print(len(count_vect.vocabulary_))
print(len(vocab))

print({vocab[i]:X_train_counts[0,i] for i in range(20)})

### TASK 1 - aplikujte nejprve jednoduchý model - Bernoulli Naive Bayes

* Reprezentujte dokument pomocí indikátorů výskytů slov ze slovníku vocab
* Natrénujte Naivního Bayese s Bernoulliho rozdělením příznaků
* Otestujte kvalitu predikce na ručně určených dokumentech
* Odhadněte přesnost (acccuracy) predikce s využitím testovací množiny test_data

In [None]:
# Vlastní dokumenty pro testování
docs_new = ["Lets play hockey.", "I don't like their seats"]

# alternatives to play with
# docs_new = ["Lets play hockey.", "I don't like their game"]

In [None]:
# Your code here


### TASK 2 - aplikujte složitější model - Multinomial Naive Bayes

* Reprezentujte dokument pomocí počtů výskytů slov ze slovníku vocab - tj. bag-of-words reprezentace
* Natrénujte multinomického naivního Bayese
* Otestujte kvalitu predikce na ručně určených dokumentech
* Odhadněte přesnost (acccuracy) predikce s využitím testovací množiny test_data

In [None]:
# Your code here


### Task 3 - Implementujte Naivní Bayesův klasifikátor v situaci, kdy má část příznaků kategorické a část Bernoulliho rozdělení

* První příznak je kategorický (se třemi kategoriemi)
* Zbývajících 10 příznaků má Bernoulliho rozdělení

**Hint** - kategorický příznak převeďte na 3 indikátorové příznaky a odděleně použijte MultinomialNB.
Potom zvlášt odhadněte zbylé Bernoulliho příznaky a na závěr získané pravděpodobnosti pronásobte. 
Pozor - je třeba v jednom z modelů zafixovat rozdělení $Y$ na rovnoměrné - aby se pravděpodobnosti $P(Y = y)$ nenásobili dvakrát.

In [None]:
# Vytvoření datasetu
class_count = 10
X00 = np.random.choice(3, size = (class_count,1), p = [0.4,0.4,0.2])
X01 = np.random.choice(3, size = (class_count,1), p = [0.2,0.5,0.3])
X0 = np.concatenate([X00,X01])
print(X0.shape)

X10 = np.random.choice(2, size = (class_count,5), p = [0.4,0.6])
X11 = np.random.choice(2, size = (class_count,5), p = [0.6,0.4])
X1 = np.concatenate([X10,X11])
print(X1.shape)

X20 = np.random.choice(2, size = (class_count,5), p = [0.4,0.6])
X21 = np.random.choice(2, size = (class_count,5), p = [0.2,0.8])
X2 = np.concatenate([X20,X21])
print(X2.shape)

X = np.concatenate([X0,X1,X2],axis = 1)
print(X.shape)

Y = np.concatenate([np.ones(class_count-3), np.zeros(class_count+3)])
print(Y)

In [None]:
# Your code here
