# Naiwny Klasyfikator Bayesowski - zmienne kategoryczne

Poniższy notatnik prezentuje kolejne kroki działania klasyfikatora w wersji dla zmiennych kategorycznych, na koniec oceniając jego procent poprawnych odpowiedzi (*accuracy*).

## Krok 1: Wczytanie danych do listy dwuwymiarowej.

Pierwszym krokiem jest odczytanie danych z pliku *mushrooms.csv* i przekształcenie ich do postaci listy dwuwymiarowej.

In [1]:
from util import read_csv_file

data = read_csv_file("data/mushrooms.csv", True)

## Krok 2: Utworzenie obiektu klasyfikatora.

Tworzymy obiekt klasy *MultinomialNaiveBayesClassifier*, który będzie służył jako nasz klasyfikator, jak również obiekty klasy *Trait*, służące do reprezentacji poszczególnych cech. Wykorzystujemy do tego funkcję *set_up*, która przyjmuje dwuwymiarową listę danych i zwraca zbudowany na ich podstawie (ale jeszcze nie wytrenowany) klasyfikator.

In [2]:
from MultinomialNaiveBayesClassifier import set_up

classifier = set_up(data)

## Krok 3: Podziału zbioru danych na część treningową i testową.

Zbiór testowy został podzielony na część treningową (70%) i testową (30%).

In [3]:
from sklearn.model_selection import train_test_split

data = data[1:]
training_data, test_data = train_test_split(data, train_size=0.7, test_size=0.3, random_state=1)
print(f'Rozmiar części treningowej: {len(training_data)}\nRozmiar części testowej: {len(test_data)}')

Rozmiar części treningowej: 5686
Rozmiar części testowej: 2438


## Krok 4: Trenowanie klasyfikatora.

Klasyfikator trenujemy, używając do tego celu metody *fit*, której przekazujemy zbiór danych (omawianą już dwuwymiarową listę, jednak bez pierwszego wiersza (nagłówków)), na którym ma zostać dokonany trening.

In [4]:
classifier.fit(training_data)

## Krok 5: Wizualizacja rezultatów treningu.

Poniżej można zobaczyć prawdopodobieństwa wystąpienia poszczególnych wartości cechy *gill color*, z podziałem na grzyby jadalne i niejadalne. Wartości te można porównać z wysokościami słupków na wykresie w pliku *mushroom_data_analysis.xlsm*, zawierającym analizę danych tego zbioru. Nie będzie tu jednak dokładnej korelacji, ponieważ poniższe dane zostały wygenerowane na podstawie 70% grzybów, a dane w pliku na podstawie całego zbioru.

In [5]:
print("Dla grzybów jadalnych:")
for key, value in classifier.traits[8].probabilities['e'].items():
    print(f'p({key}|e) = {value}')
print("\nDla grzybów trujących:")
for key, value in classifier.traits[8].probabilities['p'].items():
    print(f'p({key}|p) = {value}')

Dla grzybów jadalnych:
p(n|e) = 0.22553619302949063
p(u|e) = 0.10857908847184987
p(r|e) = 0.0003351206434316354
p(y|e) = 0.015750670241286863
p(w|e) = 0.22319034852546918
p(h|e) = 0.04758713136729222
p(e|e) = 0.024128686327077747
p(b|e) = 0.0003351206434316354
p(p|e) = 0.19839142091152814
p(o|e) = 0.013739946380697051
p(g|e) = 0.057640750670241284
p(k|e) = 0.08478552278820375

Dla grzybów trujących:
p(n|p) = 0.028980190755685985
p(u|p) = 0.012472487160674981
p(r|p) = 0.006969919295671314
p(y|p) = 0.006603081438004402
p(w|p) = 0.06272927366104182
p(h|p) = 0.13279530447542187
p(e|p) = 0.00036683785766691124
p(b|p) = 0.43800440205429203
p(p|p) = 0.16287600880410857
p(o|p) = 0.00036683785766691124
p(g|p) = 0.12986060161408658
p(k|p) = 0.01797505502567865


# Krok 6: Obliczanie współczynnika *accuracy* dla danych testowych.

In [6]:
number_of_mushrooms = len(test_data)
accuracy = 0
for data_vector in test_data:
    if data_vector[0] == classifier.predict(data_vector[1:]):
        accuracy += 1
print(f'Accuracy: {accuracy / number_of_mushrooms}')

Accuracy: 0.9540607054963085


Accuracy wyniosło około 95%. Oceniamy ten wynik jako dość dobry, jednak oczywiście istnieją możliwości jego poprawy, np. poprzez wykorzystanie klasyfikatora, który brałby pod uwagę związki między cechami (czyli nie byłby 'naiwny') lub poprzez wykluczenie niektórych cech w procesie uczenia modelu.