In [37]:
from sklearn.datasets import make_classification
import pandas as pd
import numpy as np 

In [39]:
X, y = make_classification(n_samples=200, n_features=4)
X = pd.DataFrame(X, columns=['f1', 'f2', 'f3', 'f4'])
y = pd.Series(y)

In [41]:
# реализуем методы predict и predict_proba

In [43]:
class MyKNNClf: 
    def __init__(self, k=3): 
        self.k = k
        self.train_size = None
        
    def __repr__(self): 
        return f'MyKNNClf class: k={self.k}'
        
    def fit(self, X: pd.DataFrame, y: pd.Series):
        self.__X_train, self.__y_train = X.values, y.values 
        self.train_size = X.shape

    def predict(self, X: pd.DataFrame): 
        X_test = X.values
        preds = [] 
        for x in X_test: # проходимся по каждому объекту из тестовой выборки 
            # расстояние до всех объектов train
            dist = np.sqrt(np.sum((self.__X_train - x)**2, axis=1))
            # индексы k ближайших 
            k_idx = np.argsort(dist)[:self.k] # сортируем по возростанию 
            k_labels = self.__y_train[k_idx]  # находим лейблы самых близких точек
            counts = np.bincount(k_labels,  minlength=2)    # считаем сколько раз встречается каждый класс
            if counts[0] > counts[1]: # если кол 0 больше 1
                preds.append(0)
            else: 
                preds.append(1)
        return np.array(preds)

    def predict_proba(self, X: pd.DataFrame): 
        X_test = X.values
        probs = [] 
        for x in X_test: # проходимся по каждому объекту из тестовой выборки 
            # расстояние от x до всех объектов из train 
            distances = np.sqrt(np.sum((self.__X_train - x)**2, axis=1))
            k_idx = np.argsort(distances)[:self.k]
            k_labels = self.__y_train[k_idx]
            counts = np.bincount(k_labels, minlength=2)
            probs.append(counts[1]/self.k) # вероятность принадлежности к 1ому классу
        return np.array(probs)
            

    


In [45]:
model = MyKNNClf()

In [47]:
model.fit(X,y)

In [49]:
model.predict(X)

array([0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1,
       0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1,
       1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0,
       0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 1])

In [51]:
model.predict_proba(X)

array([0.        , 0.        , 1.        , 1.        , 0.        ,
       0.        , 0.        , 1.        , 1.        , 1.        ,
       0.        , 1.        , 0.        , 1.        , 1.        ,
       0.        , 1.        , 0.        , 0.66666667, 1.        ,
       1.        , 1.        , 0.        , 1.        , 0.        ,
       1.        , 1.        , 1.        , 1.        , 0.        ,
       1.        , 0.66666667, 0.        , 1.        , 0.        ,
       1.        , 0.66666667, 0.        , 1.        , 0.        ,
       1.        , 0.        , 0.        , 1.        , 1.        ,
       1.        , 1.        , 1.        , 0.        , 0.        ,
       0.33333333, 1.        , 0.        , 0.33333333, 0.        ,
       1.        , 1.        , 0.        , 1.        , 0.        ,
       0.        , 0.        , 1.        , 0.        , 0.66666667,
       1.        , 1.        , 0.        , 1.        , 1.        ,
       0.        , 0.33333333, 0.        , 1.        , 1.     

In [53]:
X.head()

Unnamed: 0,f1,f2,f3,f4
0,-1.183414,-1.309283,-0.984546,-0.789386
1,-1.721205,-1.501502,-0.344206,-1.179395
2,-1.58475,-1.196861,0.184339,-1.100308
3,0.691474,0.794518,0.65494,0.458951
4,-1.071891,-1.471523,-1.663142,-0.692815


In [55]:
a = X.loc[0].values

In [57]:
a = a.reshape(-1, 4)

In [59]:
a

array([[-1.18341361, -1.30928313, -0.98454644, -0.78938643]])

In [61]:
np.sum(a, axis=1)

array([-4.26662961])

In [63]:
k = np.array([[1, 2, 3],
              [4, 5, 6]])


In [65]:
np.sum(k, axis=0)

array([5, 7, 9])

In [67]:
np.sum(k, axis=1)

array([ 6, 15])

In [69]:
a = [0, 1, 1, 0, 1, 1, 1, 0] 

In [71]:
np.bincount(a, )

array([3, 5], dtype=int64)