# Zadanie 7 (7 pkt)
Celem zadania jest zaimplementowanie dwóch wersji naiwnego klasyfikatora Bayesa.
* W pierwszej wersji należy dokonać dyskretyzacji danych - przedział wartości każdego atrybutu dzielimy na cztery równe przedziały i każdej ciągłej wartości atrybutu przypisujemy wartość dyskretną wynikająca z przynależności do danego przedziału.
* W drugiej wersji wartości likelihood wyliczamy z rozkładów normalnych o średnich i odchyleniach standardowych wynikających z wartości atrybutów.
Trening i test należy przeprowadzić dla zbioru Iris, tak jak w przypadku zadania z drzewem klasyfikacyjnym. Proszę przeprowadzić eksperymenty najpierw dla DOKŁADNIE takiego podziału zbioru testowego i treningowego jak umieszczony poniżej. W dalszej części należy przeprowadzić analizę działania klasyfikatorów dla różnych wartości parametrów. Proszę korzystać z przygotowanego szkieletu programu, oczywiście można go modyfikować według potrzeb. Wszelkie elementy szkieletu zostaną wyjaśnione na zajęciach.

* Dyskretyzacja danych - **0.5 pkt**
* Implementacja funkcji rozkładu normalnego o zadanej średniej i odchyleniu standardowym. - **0.5 pkt**
* Implementacja naiwnego klasyfikatora Bayesa dla danych dyskretnych. - **2.0 pkt**
* Implementacja naiwnego klasyfikatora Bayesa dla danych ciągłych. - **2.5 pkt**
* Przeprowadzenie eksperymentów, wnioski i sposób ich prezentacji. - **1.5 pkt**

In [40]:
from collections import Counter
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()

x = iris.data
y = iris.target


x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=123)
class NaiveBayes:
    def __init__(self):
        self.priors = {}
        self.likelihoods = {}

    def build_classifier(self, train_features, train_classes):
        self.priors = Counter(train_classes)
        train_features = np.array([self.data_discretization(attribute) for attribute in train_features.T]).T
        self.likelihoods = np.zeros(shape=(len(self.priors), len(train_features[0]), 4))
        for features, result_class in zip(train_features, train_classes):
            for i in enumerate(features):
                self.likelihoods[result_class][i[0]][features[i[0]]] += 1
        total = self.priors.total()
        for key in self.priors.keys():
            key_occurances = self.priors[key]
            self.priors[key] /= total
            for i in enumerate(train_features[0]):
                for j in range(4):
                    self.likelihoods[key][i[0]][j] = (self.likelihoods[key][i[0]][j] + 1) / (key_occurances + 4)


    @staticmethod
    def data_discretization(data):
        max_value = max(data)
        min_value = min(data)
        section_size = (max_value - min_value) / 4
        first_section_limit = min_value + section_size
        second_section_limit = first_section_limit + section_size
        third_section_limit = second_section_limit + section_size
        discretize = lambda x: 0 if x < first_section_limit else 1 if x < second_section_limit else 2 if x < third_section_limit else 3
        return [discretize(x) for x in data]
        

    def predict(self, sample):
        max_probability = 0
        prediction = None
        for key in self.priors.keys():
            probability = self.priors[key]
            for i in enumerate(sample):
                probability *= (self.likelihoods[key][i[0]][sample[i[0]]])
            if probability > max_probability:
                prediction = key
                max_probability = probability
        return prediction

class GaussianNaiveBayes:
    def __init__(self):
        self.priors = {}
        self.likelihoods = {}

    def build_classifier(self, train_features, train_classes):
        pass

    @staticmethod
    def normal_dist(x, mean, std):
        pass

    def predict(self, sample):
        pass

In [41]:
good = 0
total = 0
x_test = np.array([NaiveBayes.data_discretization(r) for r in x_test.T]).T
nb = NaiveBayes()
nb.build_classifier(x_train, y_train)
for a, b in zip(x_test, y_test):
    n = nb.predict(a)
    print(n, b)
    if n == b:
        good += 1
    total += 1
print(good/total)

2 1
2 2
2 2
1 1
0 0
2 2
1 1
0 0
0 0
1 1
2 2
0 0
1 1
2 2
2 2
0.9333333333333333


In [27]:
x_test[0]
nb.predict(np.array([2,0,3,2]))

2