### Наивный байесовский классификатор

$$P(y | x_1,x_2,...,x_n) = \frac{P(y) P(x_1,x_2,...,x_n|y)}{P(x_1,x_2,...,x_n)} $$

В силу 'наивного' предположения о независимости признаков $x_1,x_2,..,x_n$ получаем:

$$ P(y | x_1,x_2,...,x_n) = \frac{P(y) \prod\limits_{i=1}^{n}P(x_i| y)}{P(x_1,x_2,...,x_n)} $$

Откуда следует, что

$$ P(y | x_1,x_2,...,x_n) \propto P(y) \prod\limits_{i=1}^{n}P(x_i| y) $$

$$\hat{y} = arg \max_{y} P(y) \prod\limits_{i=1}^{n}P(x_i| y) $$

В данном задании будем предполагать, что 

$$ P(x_i | y) = P(x_i =1 | y) x_i + (1 - P(x_i =1 | y)) (1 - x_i), $$

где $ p_y = P(x_i =1 | y)$ считается по оценке максимального правдобия.

### Задание

Необходимо реализовать наивный байесовский классификтор для нормального распределения.
Сам код необходимо оформить и отправить боту в виде класса MyBernoulliNBClassifier в файле seminar03.py


In [79]:
import numpy as np
from sklearn.naive_bayes import BernoulliNB
class MyBernoulliNBClassifier():
    def __init__(self, priors=None):
        pass
    @staticmethod
    def p(y,i):
        k=0
        for a in y:
            if a==i:
                k+=1
        return k/len(y)
    
    def maxtrue(self,X,y,i):
        s = [0.0]*len(X[0])
        for j in range(len(y)):
            if y[j]==i:
                for k in range(len(X[j])):
                    s[k]+=X[j][k]
        for j in range(len(s)):
            s[j]=s[j]/(len(y)*self.p(y,i))
        return s
    
    def r(self,x,i):
        tmp = self.p_y[i] 
        for j in range(len(x)):
            tmp*=(self.s[i][j]**x[j])*((1-self.s[i][j])**(1-x[j]))
        return tmp
    
    def fit(self, X, y):
        self.p_y = []
        self.s = []
        self.ans = []
        for i in set(y):
            self.p_y.append(self.p(y,i))
            self.s.append(self.maxtrue(X,y,i))
            self.ans.append(i)
        #print(self.p_y)
        #print(self.s)
        #print(self.ans)
    
    def predict(self, X):
        result = []
        for x in X:
            max = 0
            val = self.ans[0]
            for i in range(len(self.ans)):
                if self.r(x,i)>max:
                    max = self.r(x,i)
                    val = self.ans[i]
            result.append(val)
        return result              
    
    def predict_proba(self, X):
        result = []
            
        for x in X:
            p = []
            c = 0.0
            for i in range(len(self.ans)):
                c+=self.r(x,i)
            for i in range(len(self.ans)):
                p.append(self.r(x,i)/c)
            result.append(p)
        return result
    
    def score(self,X, y):
        p = self.predict(X)
        k = 0
        for i in range(len(y)):
            if y[i]==p[i]:
                k+=1
        return k/len(y)

rng = np.random.RandomState(1)
X = rng.randint(2, size=(8, 4))
print(X)
Y = np.array([1, 1, 2, 2, 2, 1,2,1])

XT=rng.randint(2, size=(100, 4))
YT=rng.randint(3, size=100)
clf = BernoulliNB(alpha=0)
clf.fit(X, Y)
print(clf.predict_proba(X))  
print(clf.score(XT,YT))
cl = MyBernoulliNBClassifier()
cl.fit(X,Y)
print(cl.predict_proba(X)) 
print(cl.score(XT,YT))  


[[1 1 0 0]
 [1 1 1 1]
 [1 0 0 1]
 [0 1 1 0]
 [0 1 0 0]
 [0 1 0 0]
 [1 0 0 0]
 [1 0 0 0]]
[[0.69230769 0.30769231]
 [0.69230769 0.30769231]
 [0.42857143 0.57142857]
 [0.42857143 0.57142857]
 [0.42857143 0.57142857]
 [0.42857143 0.57142857]
 [0.42857143 0.57142857]
 [0.42857143 0.57142857]]
0.31
[[0.6923076923076923, 0.3076923076923077], [0.6923076923076923, 0.3076923076923077], [0.42857142857142855, 0.5714285714285714], [0.42857142857142855, 0.5714285714285714], [0.42857142857142855, 0.5714285714285714], [0.42857142857142855, 0.5714285714285714], [0.42857142857142855, 0.5714285714285714], [0.42857142857142855, 0.5714285714285714]]
0.31




Ваша реализация дожна поддерживать методы predict, predict_proba, score аналоично методам класса sklearn.naive_bayes.BernoulliNB при alpha=0

In [41]:
a=[5,4,7,2,2,2]
b=set(a)
for c in b:
    print(c)

2
4
5
7
