# Testowanie GaussianNaiveBayesClassifier dla zbioru Iris
### Wstęp

Celem testowania klasyfikatora **Gaussian Naive Bayes Classifier** jest ocena jego skuteczności w klasyfikacji danych z popularnego zbioru **Iris**. Klasyfikator opiera się na założeniu warunkowej niezależności cech oraz na obliczaniu prawdopodobieństw z wykorzystaniem rozkładu normalnego dla każdej cechy w każdej klasie.

W ramach testów:
1. **Zbiór danych Iris** został wybrany jako zbiór testowy ze względu na swoje ciągłe cechy, które doskonale pasują do założeń klasyfikatora Gaussian Naive Bayes.
2. **Wybrane cechy:** 
   - Wszystkie dostępne cechy zbioru **Iris**, opisujące różne właściwości kwiatów, takie jak długość i szerokość działek oraz płatków:
     - **sepal length**
     - **sepal width**
     - **petal length**
     - **petal width**
3. **Cel testowania:** Sprawdzenie, jak dobrze klasyfikator radzi sobie z przewidywaniem gatunku irysów w oparciu o podane cechy.

Proces testowania obejmuje:
- Podział zbioru na dane treningowe i testowe.
- Trenowanie modelu na danych treningowych.
- Ewaluację klasyfikatora na zbiorze testowym poprzez obliczenie dokładności modelu.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
from sklearn.datasets import load_iris
iris = load_iris()

features_to_fit = iris.feature_names
species = iris.target_names

df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
df_iris['class'] = [iris.target_names[i] for i in iris.target]

X = df_iris[['class']+features_to_fit]
y = df_iris['class']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1337) #Easter-Egg: dla random_state=6969 acccuracy wynosi 100%

print("Liczba próbek w zbiorze treningowym: ", len(X_train))
print("Liczba próbek w zbiorze testowym: ", len(X_test))

Liczba próbek w zbiorze treningowym:  105
Liczba próbek w zbiorze testowym:  45


In [3]:
import sys; import os; sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "..")))

from src.GaussianNaiveBayesClassifier import *

In [4]:
nbc = GaussianNaiveBayesClassifier(species, features_to_fit)

nbc.fit(X_train)

predictions, accuracy = nbc.predict_dataframe_with_accuracy(X_test)

print("Dokładność klasyfikatora: ", f"{100*accuracy:.2f}" + "%")

print("---------------------------------------------------------")
sample = X_test.iloc[0]
result = nbc.predict(sample)
actual = y_test.iloc[0]
print("Klasa przewidziana: ", result)
print("Klasa rzeczywista: ", actual)
print("Poprawnie sklasyfikowano: ", result == actual)

Dokładność klasyfikatora:  97.78%
---------------------------------------------------------
Klasa przewidziana:  versicolor
Klasa rzeczywista:  versicolor
Poprawnie sklasyfikowano:  True


### Wnioski

Na podstawie wyników testowania klasyfikatora **Gaussian Naive Bayes Classifier** na zbiorze danych **Iris** możemy stwierdzić, że implementacja klasyfikatora jest poprawna. Kluczowe wnioski to:

**Wysoka dokładność modelu:** Klasyfikator osiągnął dokładność rzędu **97.78%**, co świadczy o bardzo dobrej skuteczności w klasyfikacji gatunków irysów na podstawie cech danych zbioru.

Podsumowując, implementacja klasyfikatora Gaussian Naive Bayes została uznana za poprawną i skuteczną, co pozwala na jej wykorzystanie w praktycznych zadaniach klasyfikacyjnych.
