# Реализуем метод predict_proba для KNN

Ниже реализован класс KNeighborsClassifier, который для поиска ближайших соседей использует sklearn.neighbors.NearestNeighbors

Требуется реализовать метод predict_proba для вычисления ответа классификатора.

In [26]:
import numpy as np

from sklearn.base import BaseEstimator, ClassifierMixin
from sklearn.neighbors import NearestNeighbors


class KNeighborsClassifier(BaseEstimator, ClassifierMixin):
    '''
    Класс, который позволит нам изучить KNN
    '''
    def __init__(self, n_neighbors=5, weights='uniform',  # The self parameter is a reference to the class itself, and is used to access variables that belongs to the class.
                 metric='minkowski', p=2): # Use the __init__() function to assign values to object properties, or other operations that are necessary to do when the object is being created
        '''                             
        Инициализируем KNN с несколькими стандартными параметрами
        '''
        assert weights in ('uniform', 'distance')  # if not condition: raise AssertionError()
        
        self.n_neighbors = n_neighbors
        self.weights = weights
        self.metric = metric
        
        self.NearestNeighbors = NearestNeighbors(
            n_neighbors = n_neighbors,
            metric = self.metric)
    
    def fit(self, X, y):
        '''
        Используем sklearn.neighbors.NearestNeighbors 
        для запоминания обучающей выборки
        и последующего поиска соседей
        '''
        self.NearestNeighbors.fit(X)
        self.n_classes = len(np.unique(y))
        self.y = y
        
    def predict_proba(self, X, use_first_zero_distant_sample=True):
        '''
        Чтобы реализовать этот метод, 
        изучите работу sklearn.neighbors.NearestNeighbors'''
        
        
        # получим здесь расстояния до соседей distances и их метки
        distances, indices = self.NearestNeighbors.kneighbors(X)
        
        
        if self.weights == 'uniform':
            w = np.ones(distances.shape)
        else:
            # чтобы не делить на 0, 
            # добавим небольшую константу, например 1e-3
            w = 1/(distances + 1e-3) # 150*5 

        # реализуем вычисление предсказаний:      
        
        n_samples = X.shape[0] # 150
        all_rows = np.arange(X.shape[0]) # [0 -> 149]
        probs = []
        
        # выбрав один объект, для каждого класса посчитаем

        
        _y =  np.empty([len(self.y), self.n_classes] , dtype=np.int)  
        classes_ =   []  
        
        for k in range(self.n_classes):
            classes, _y[:, k] = np.unique(self.y, return_inverse=True)
            classes_.append(classes)
        
        
        
        for k, classes_k in enumerate(classes_):
            pred_labels = _y[:, k][indices]
            proba_k = np.zeros((n_samples, classes_k.size))

            # суммарный вес голосующих за него объектов
            
            # a simple ':' index doesn't work right
            for i, idx in enumerate(pred_labels.T):  # loop is O(n_neighbors) The T attribute is the transpose of the array, see the documentation.
                proba_k[all_rows, idx] += w[:, i]
            
            
            
            
            # затем нормируем эти веса на их сумму
            

            # normalize 'votes' into real [0,1] probabilities
            normalizer = proba_k.sum(axis=1)[:, np.newaxis] # Simply put, the newaxis is used to increase the dimension of the existing array by one more dimension, when used once
            normalizer[normalizer == 0.0] = 1.0
            proba_k /= normalizer


            
            # и вернем это как предсказание KNN

            
            probs.append(proba_k)

        
        #return distances
        #return indices
        #return probs
        return probs[0]

# Загрузим данные и обучим классификатор

In [27]:
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)

knn = KNeighborsClassifier(weights='distance')
knn.fit(X, y)
prediction = knn.predict_proba(X, )

prediction

array([[1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.

Поскольку мы используем одну и ту же выборку для обучения и предсказания, ближайшим соседом любого объекта будет он же сам. В качестве упражнения предлагаю реализовать метод transform, который реализует получение предсказаний для обучающей выборки, но для каждого объекта не будет учитывать его самого.

Посмотрим, в каких объектах max(prediction) != 1:

In [28]:
inds = np.arange(len(prediction))[prediction.max(1) != 1]
print(inds)

# [ 56  68  70  72  77  83 106 110 119 123 127 133 134 138 146]

[ 56  68  70  72  77  83 106 110 119 123 127 133 134 138 146]


Несколько примеров, на которых можно проверить правильность реализованного метода:

In [29]:
for i in 1, 4, -1:
    print(inds[i], prediction[inds[i]])

# 68 [0.         0.99816311 0.00183689]
# 77 [0.         0.99527902 0.00472098]
# 146 [0.         0.00239145 0.99760855]

68 [0.         0.99816311 0.00183689]
77 [0.         0.99527902 0.00472098]
146 [0.         0.00239145 0.99760855]


# Ответы для формы

В форму требуется ввести max(prediction) для объекта. Если метод реализован верно, то ячейка ниже распечатает ответы, которые нужно ввести в форму

In [30]:
for i in 56, 83, 127:
    print('{:.4f}'.format(max(prediction[i])))

0.9978
0.9889
0.9967
