# Klasifikácia pomocou pravdepodobnostných modelov - Naive Bayes

Pravdepodobnostný klasifikátor na báze Naive Bayes je v Scikit-learn implementovaný triedou `GaussianNB`. Metódu používame rovnakým spôsobom ako ostatné metódy. Navyše, Naive Bayes je neparametrická metóda, tzn. nenastavujeme žiadne parametre modelu (odpadá tuning modelu), jeho presnosť teda závisí na dátach a ich predspracovaní.

V prípade Naive Bayes klasifikátora odstránime redundantné atribúty. Rovnako nie je potrebné robiť normalizáciu atribútov. 

In [1]:
# Titanic import a preprocessing

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

titanic = pd.read_csv("../data/titanic-processed.csv")

titanic = titanic.drop(columns=['cabin','ticket','title', 'deck', 'fare_ordinal', 'age_ordinal'])

titanic['sex'] = titanic['sex'].map({"male": 0, "female": 1})
titanic['has_family'] = titanic['has_family'].map({False: 0, True: 1})

titanic = pd.get_dummies(titanic, columns=['embarked', 'title_short'])

titanic.head()

Unnamed: 0,pclass,survived,sex,age,sibsp,parch,fare,family,has_family,embarked_Cherbourg,embarked_Queenstown,embarked_Southampton,title_short_Miss,title_short_Mr,title_short_Mrs,title_short_rare title
0,1,1,1,29.0,0,0,211.3375,0,0,0,0,1,1,0,0,0
1,1,1,0,0.92,1,2,151.55,3,1,0,0,1,0,0,0,1
2,1,0,1,2.0,1,2,151.55,3,1,0,0,1,1,0,0,0
3,1,0,0,30.0,1,2,151.55,3,1,0,0,1,0,1,0,0
4,1,0,1,25.0,1,2,151.55,3,1,0,0,1,0,0,1,0


In [2]:
X_titanic = titanic.drop('survived', axis=1) # vytvoríme maticu príznakov - použijeme všetky stĺpce okrem cieľového atribútu a uložíme do X_titanic
y_titanic = titanic['survived'] # vytvoríme vektor hodnôt cieľového atribútu ako stĺpec 'survived'

print(X_titanic.shape) # pre kontrolu môžeme vypísať rozmery matice hodnôt a vektora cieľového atribútu
print(y_titanic.shape)

from sklearn.model_selection import train_test_split # importujeme funkciu train_test_split()
X_train, X_test, y_train, y_test = train_test_split(X_titanic, y_titanic, test_size=0.3, random_state=1) # rozdelíme dataset do trénovacej a testovacej časti, tak že testovacia bude 30% z celkového datasetu

(1309, 15)
(1309,)


#### Úloha 12.5.

Vyskúšajte natrénovať model `GaussianBN()` na dátach Titanic. Keďže metóda nepoužíva žiadne vstupné parametre, vyskúšajte vplyv predspracovania a selekcie atribútov na presnosť modelu. Pri ako predspracovaných dátach ste dosiahli najlepšie výsledky?

In [4]:
# YOUR CODE HERE
from sklearn.naive_bayes import GaussianNB # importovanie knižnice
from sklearn.metrics import confusion_matrix

nb = GaussianNB()
nb.fit(X_train, y_train)
y_nb = nb.predict(X_test)

print(confusion_matrix(y_test, y_nb))


[[197  39]
 [ 36 121]]


Naive Bayes patrí medzi tzv. pravdepodobnostné klasifikátory. To znamená, že okrem preikujúcej triedy sa vieme pozrieť na pravdepodobnosti príslušnosti testovaného príkladu do jednotlivých tried. 

In [5]:
prediction = nb.predict_proba(X_test[:1]) ##1 predstavuje hranicnu hodnotu, ked je potrebne davat pozor na klienta a pod. 

In [6]:
print(prediction)

[[0.98113192 0.01886808]]
