# Naiwny klasyfikator Bayesa

Celem ćwiczenia jest zapoznanie się z możliwością wykorzystania biblioteki `scikit-learn` do zbudowania prostego przepływu ilustrującego wykorzystanie algorytmu [naiwnego klasyfikatora Bayesa](https://en.wikipedia.org/wiki/Naive_Bayes_classifier). Przed przystąpieniem do realizacji ćwiczenia zapoznaj się z [dokumentacją algorytmu w scikit-learn](https://scikit-learn.org/stable/modules/naive_bayes.html).

# Setup

## Potrzebne biblioteki
Do wykonania ćwiczenia skorzystamy z następujących bibliotek:

In [1]:
# Data manipulation
import pandas as pd
import numpy as np

# Options for pandas
pd.options.display.max_columns = 50
pd.options.display.max_rows = 30

In [2]:
%load_ext autoreload
%autoreload 2

# Machine learning
from sklearn import datasets, metrics
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Import danych

Do ćwiczenia wykorzystamy [zbiór irysów Fishera](https://en.wikipedia.org/wiki/Iris_flower_data_set) dostarczany razem z biblioteką `scikit-learn`. Funkcja `load_iris()` zwraca słownik zawierający tablicę danych, osobną listę z etykietami kwiatów, listę nazw atrybutów.

In [4]:
iris = datasets.load_iris()

print(f"Pierwsze pięć kwiatów: \n {iris['data'][:5]}")
print(f"Pierwszych pięć etykiet: \n {iris['target'][:5]}")
print(f"Nazwy atrybutów: \n {iris['feature_names']}")

Pierwsze pięć kwiatów: 
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
Pierwszych pięć etykiet: 
 [0 0 0 0 0]
Nazwy atrybutów: 
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [5]:
# opis zbioru danych
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

# Budowanie klasyfikatora

Przed przystąpieniem do uczenia klasyfikatora musimy podzielić zbiór danych na część treningową i testową. Wykorzystamy w tym celu funkcję pomocniczą dostarczaną przez `scikit-learn`.

In [8]:
X = iris.data
y = iris['target']

In [10]:
print(X.shape, y.shape)

(150, 4) (150,)


In [19]:
# podziel zbiór danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7)

print(f"Zbiór uczący: {X_train.shape}, zbiór testujący: {X_test.shape}")

Zbiór uczący: (105, 4), zbiór testujący: (45, 4)


In [13]:
# przygotuj model i dopasuj model do danych
model = GaussianNB()
model.fit(X_train,y_train)

In [14]:
# zobacz, w jaki sposób model oszacował prawd. a priori
 
print(f"Klasy decyzyjne: {model.classes_}")
print(f"Liczba instancji każdej klasy: {model.class_count_}")
print(f"Prawdopod. a priori każdej klasy: {model.class_prior_}")

Klasy decyzyjne: [0 1 2]
Liczba instancji każdej klasy: [39. 32. 34.]
Prawdopod. a priori każdej klasy: [0.37142857 0.3047619  0.32380952]


In [15]:
# dokonaj predykcji i oceń jakość modelu
predicted = model.predict(X_test)
expected = y_test
 
print(f"Dokładność modelu: {metrics.accuracy_score(expected, predicted)}\n")
print(f"Macierz pomyłek: \n {metrics.confusion_matrix(expected, predicted)}")

Dokładność modelu: 0.9777777777777777

Macierz pomyłek: 
 [[11  0  0]
 [ 0 18  0]
 [ 0  1 15]]


In [16]:
print(metrics.classification_report(expected, predicted))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.95      1.00      0.97        18
           2       1.00      0.94      0.97        16

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45



In [20]:
# zobacz, jak podanie prawdopodobieństwa a priori zmieni działanie klasyfikatora
model = GaussianNB(priors=[0.5, 0.49, 0.01])
model.fit(X_train,y_train)
 
predicted = model.predict(X_test)
expected = y_test
 
print(f"Dokładność modelu: {metrics.accuracy_score(expected, predicted)}\n")
print(f"Macierz pomyłek: \n {metrics.confusion_matrix(expected, predicted)}")

Dokładność modelu: 0.9555555555555556

Macierz pomyłek: 
 [[19  0  0]
 [ 0 12  0]
 [ 0  2 12]]
