# Naiwny Klasyfikator Bayesowski - zmienne kategoryczne

Poniższy notatnik prezentuje kolejne kroki działania klasyfikatora w wersji dla zmiennych kategorycznych, na koniec oceniając jego procent poprawnych odpowiedzi (*accuracy*).

## Krok 1: Wczytanie danych do listy dwuwymiarowej.

Pierwszym krokiem jest odczytanie danych z pliku *mushrooms.csv* i przekształcenie ich do postaci listy dwuwymiarowej.

In [1]:
from util import read_csv_file

data = read_csv_file("data/mushrooms.csv", True)

## Krok 2: Utworzenie obiektu klasyfikatora.

Tworzymy obiekt klasy *MultinomialNaiveBayesClassifier*, który będzie służył jako nasz klasyfikator, jak również obiekty klasy *Trait*, służące do reprezentacji poszczególnych cech. Wykorzystujemy do tego funkcję *set_up*, która przyjmuje dwuwymiarową listę danych i zwraca zbudowany na ich podstawie (ale jeszcze nie wytrenowany) klasyfikator.

In [2]:
from MultinomialNaiveBayesClassifier import set_up

classifier = set_up(data)

## Krok 3: Podziału zbioru danych na część treningową i testową.

Zbiór testowy został podzielony na część treningową (70%) i testową (30%).

In [4]:
# Tutaj będę dzielił

## Krok 4: Trenowanie klasyfikatora.

Klasyfikator trenujemy, używając do tego celu metody *fit*, której przekazujemy zbiór danych (omawianą już dwuwymiarową listę, jednak bez pierwszego wiersza (nagłówków)), na którym ma zostać dokonany trening.

In [3]:
classifier.fit(data[1:])

## Krok 5: Wizualizacja rezultatów treningu.

Poniżej można zobaczyć prawdopodobieństwa wystąpienia poszczególnych wartości cechy *gill color*, z podziałem na grzyby jadalne i niejadalne. Wartości te można porównać z wysokościami słupków na wykresie w pliku *mushroom_data_analysis.xlsm*, zawierającym analizę danych tego zbioru. Nie będzie tu jednak dokładnej korelacji, ponieważ poniższe dane zostały wygenerowane na podstawie 70% grzybów, a dane w pliku na podstawie całego zbioru.

In [14]:
print("Dla grzybów jadalnych:")
for key, value in classifier.traits[8].probabilities['e'].items():
    print(f'p({key}|e) = {value}')
print("\nDla grzybów trujących:")
for key, value in classifier.traits[8].probabilities['p'].items():
    print(f'p({key}|p) = {value}')

Dla grzybów jadalnych:
p(g|e) = 0.05900473933649289
p(y|e) = 0.015402843601895734
p(o|e) = 0.015402843601895734
p(u|e) = 0.10545023696682465
p(k|e) = 0.08175355450236967
p(b|e) = 0.00023696682464454977
p(p|e) = 0.20213270142180095
p(r|e) = 0.00023696682464454977
p(e|e) = 0.02298578199052133
p(h|e) = 0.0485781990521327
p(w|e) = 0.22677725118483413
p(n|e) = 0.22203791469194312

Dla grzybów trujących:
p(g|p) = 0.12856415478615071
p(y|p) = 0.005855397148676171
p(o|p) = 0.0002545824847250509
p(u|p) = 0.012474541751527495
p(k|p) = 0.01654786150712831
p(b|p) = 0.440173116089613
p(p|p) = 0.16318737270875763
p(r|p) = 0.006364562118126273
p(e|p) = 0.0002545824847250509
p(h|p) = 0.13467413441955192
p(w|p) = 0.06288187372708758
p(n|p) = 0.028767820773930752
