### Наивный байесовский классификатор

$$P(y | x_1,x_2,...,x_n) = \frac{P(y) P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)} $$

В силу 'наивного' предположения о независимости признаков $x_1,x_2,..,x_n$ получаем:

$$ P(y | x_1,x_2,...,x_n) = \frac{P(y) \prod\limits_{i=1}^{n}P(x_i| y)}{P(x_1,x_2,...,x_n)} $$

Откуда следует, что

$$ P(y | x_1,x_2,...,x_n) \propto P(y) \prod\limits_{i=1}^{n}P(x_i| y) $$

$$\hat{y} = arg \max_{y} P(y) \prod\limits_{i=1}^{n}P(x_i| y) $$

В данном задании будем предполагать, что

$$ P(x_i | y) = P(x_i =1 | y) x_i + (1 - P(x_i =1 | y)) (1 - x_i), $$

где $ p_y = P(x_i =1 | y)$ считается по оценке максимального правдобия.

### Задание

Необходимо реализовать наивный байесовский классификтор для нормального распределения.
Сам код необходимо оформить и отправить боту в виде класса MyBernoulliNBClassifier в файле seminar03.py


In [None]:
import numpy as np

class MyBernoulliNBClassifier():
    def __init__(self, priors=None):
        pass

    @staticmethod
    def p(y,c):
        return np.count_nonzero(y == c) / len(y)

    def pxiy(self, x, c):
        P = self.pclass[c]
        for j,r in enumerate(x):
            P *= (self.param[c][j] * x[j]) + ((1-self.param[c][j]) * (1-x[j]))
        return P

    def maxprav(self, X, y, c):
        s = [0.0] * len(X[0])
        for j,r in enumerate(y):
            if y[j]==c:
                for k,t in enumerate(X[j]):
                    s[k]+=X[j][k]
        for j,r in enumerate(s):
            s[j]=s[j] / (len(y)*self.p(y,c))
        return s

    def fit(self, X, y):
        self.classes = list(set(y))
        self.pclass = [self.p(y,c) for c in self.classes]
        self.param = [self.maxprav(X,y,c) for c in self.classes]


    def predict(self, X):
        result = []
        for x in X:
            arg = np.argmax(np.array([self.pxiy(x,i) for i,cl in enumerate(self.classes)]))
            result.append(self.classes[arg])
        return np.array(result)

    def predict_proba(self, X):
        result = []
        for x in X:
            px = 0.0
            for i,cl in enumerate(self.classes):
                px += self.pxiy(x,i)
            vec = [pxiy(x,i)/px for i,cl in enumerate(self.classes)]
            result.append(np.array(vec))
        return np.array(result)

    def score(self, X, y):
        pred = self.predict(X)
        return np.count_nonzero(y == pred)/len(y)



Ваша реализация дожна поддерживать методы predict, predict_proba, score аналоично методам класса sklearn.naive_bayes.BernoulliNB при alpha=0

In [None]:
from sklearn.naive_bayes import BernoulliNB
import numpy as np

X = np.random.randint(2, size=(9, 3))
Y = np.array([1, 2, 3, 2, 3, 1, 3, 1, 2])

clf = BernoulliNB()
c = MyBernoulliNBClassifier()
clf.fit(X, Y)
c.fit(X, Y)

Xtest=np.random.randint(2, size=(50, 3))
Ytest=np.random.randint(3, size=50)

print(np.all(clf.predict(Xtest) == c.predict(Xtest)))
#print(clf.predict(Xtest) == c.predict(Xtest))
print(clf.score(Xtest,Ytest))
print(c.score(Xtest,Ytest))

True
0.32
0.32
