# Testowanie MultinominalNaiveBayesClassifier dla zbioru Mushrooms
### Wstęp

Celem testowania klasyfikatora **Multinomial Naive Bayes Classifier** jest ocena jego skuteczności w klasyfikacji danych z popularnego zbioru **Mushrooms**. Klasyfikator opiera się na założeniu warunkowej niezależności cech oraz na obliczaniu prawdopodobieństw na podstawie liczby wystąpień wartości cech w danych kategorycznych.

W ramach testów:
1. **Zbiór danych Mushrooms** został wybrany jako zbiór testowy ze względu na swoją strukturę kategorycznych cech, co idealnie odpowiada założeniom klasyfikatora Multinomial Naive Bayes.

2. **Wybrane cechy:** 
- bruises
- odor
- gill-spacing
- gill-size
- gill-color
- stalk-surface-above-ring
- stalk-surface-below-ring
- stalk-color-above-ring
- veil-color
- ring-number
- ring-type
- spore-print-color
- population
- habitat

3. **Cel testowania:** Sprawdzenie, jak dobrze klasyfikator radzi sobie z przewidywaniem, czy dany grzyb jest **jadalny** (e->edible) czy **trujący** (p->poisonous).

Proces testowania obejmuje:
- Podział zbioru na dane treningowe i testowe.
- Trenowanie modelu na danych treningowych.
- Ewaluację klasyfikatora na zbiorze testowym poprzez obliczenie dokładności modelu.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
features_to_fit = [
    "bruises",
    "odor",
    "gill-size",
    "gill-color",
    "stalk-surface-above-ring",
    "stalk-surface-below-ring",
    "ring-type",
    "spore-print-color",
    "population",
    "habitat",
    "stalk-color-above-ring",
    "veil-color",
    "ring-number",
    "gill-spacing",
]
classes = ["e", "p"]

In [3]:
data = pd.read_csv("../data/mushrooms.csv")

X = data[["class"] + features_to_fit]
y = data["class"]

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3, random_state=420)

print("Liczba próbek w zbiorze treningowym: ", len(X_train))
print("Liczba próbek w zbiorze testowym: ", len(X_test))

Liczba próbek w zbiorze treningowym:  5686
Liczba próbek w zbiorze testowym:  2438


In [4]:
import sys; import os; sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "..")))

from src.MulitnomialNaiveBayesClassifier import *

In [5]:
nbc = MultinomialNaiveBayesClassifier(classes, features_to_fit)

nbc.fit(X_train)

predictions, accuracy = nbc.predict_dataframe_with_accuracy(X_test)

print("Dokładność klasyfikatora: ", f"{100*accuracy:.2f}" + "%")

print("---------------------------------------------------------")
sample = X_test.iloc[2137]
result = nbc.predict(sample)
actual = y_test.iloc[2137]
result = "jadalny" if result == "e" else "trujący"
actual = "jadalny" if actual == "e" else "trujący"
print("Klasa przewidziana: ", result)
print("Klasa rzeczywista: ", actual)
print("Poprawnie sklasyfikowano: ", result == actual)

Dokładność klasyfikatora:  99.96%
---------------------------------------------------------
Klasa przewidziana:  jadalny
Klasa rzeczywista:  jadalny
Poprawnie sklasyfikowano:  True


### Wnioski

Na podstawie wyników testowania klasyfikatora **Multinomial Naive Bayes Classifier** na zbiorze danych **Mushrooms** możemy stwierdzić, że implementacja klasyfikatora jest poprawna.

**Wysoka dokładność modelu:** Klasyfikator osiągnął dokładność rzędu **99.96%**, co świadczy o niemal doskonałej skuteczności w klasyfikacji grzybów.

Dzięki tym wynikom możemy uznać implementację klasyfikatora za poprawną i skuteczną. Klasyfikator może być używany do analiz danych o podobnych właściwościach, jak w zbiorze Mushrooms.

