In [70]:
import numpy as np
"""
Кредиты: исходный код принадлежит заданию курса Stanford CS231n 1. Ссылка на источник: http://cs231n.github.io/assignments2019/assignment1/
"""

class KNearestNeighbor:
    """ классификатор kNN с расстоянием L2 """

    def __init__(self):
        pass

    def fit(self, X, y):
        """
        Обучите классификатор. Для k-ближайших соседей это просто
        запоминание тренировочных данных.

        Входные:
        - X: Массив numpy shape (num_train, D), содержащий обучающие данные
          состоящий из выборок num_train, каждая из которых имеет размерность D.
        - y: Числовой массив shape (N,), содержащий обучающие метки, где
             y[i] - это метка для X[i].
        """
        self.X_train = X
        self.y_train = y

    def predict(self, X, k=1, num_loops=0):
        """
       Прогнозируйте метки для тестовых данных, используя этот классификатор.
        Входные:
        - X: Массив numpy формы (num_test, D), содержащий тестовые данные, состоящие
             из num_test выборок, каждая из измерения D.
        - k: Количество ближайших соседей, которые голосуют за предсказанные метки.
        - num_loops: определяет, какую реализацию использовать для вычисления расстояний
          между точками обучения и тестирования.
        Возвращается:
        - y: массив numpy формы (num_test,), содержащий предсказанные метки для
          тестовые данные, где y[i] - прогнозируемая метка для тестовой точки X[i].
        num_loops = 0: Этот параметр использует векторизованную реализацию для вычисления расстояний без использования каких-либо явных циклов.
        num_loops = 1: Этот параметр использует один цикл для вычисления расстояний.
        num_loops = 2: Этот параметр использует два вложенных цикла для вычисления расстояний.
        """
        if num_loops == 0:
            dists = self.compute_distances_no_loops(X)
        elif num_loops == 1:
            dists = self.compute_distances_one_loop(X)
        elif num_loops == 2:
            dists = self.compute_distances_two_loops(X)
        else:
            raise ValueError('Invalid value %d for num_loops' % num_loops)

        return self.predict_labels(dists, k=k)

    def compute_distances_two_loops(self, X):
        """
        Вычислите расстояние между каждой тестовой точкой в X и каждой тренировочной точкой
        в self.X_train используется вложенный цикл как над обучающими данными, так и над
        тестовыми данными.

        Входные:
        - X: Массив numpy формы (num_test, D), содержащий тестовые данные.

        Возвращается:
        - dists: массив numpy формы (num_test, num_train), где dists[i, j]
          это евклидово расстояние между i-й контрольной точкой и j-й тренировочной
          точка.
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            for j in range(num_train):
                dists[i, j] = np.sqrt(np.sum(np.square(X[i] - self.X_train[j])))
                #####################################################################
                # ЗАДАЧА: #
                # Вычислить расстояние l2 между i-й тестовой точкой и j-й тренировочной точкой # 
                # и сохранить результат в dists[i, j]. 
                # Вы должны использовать цикл по измерению и не использовать np.linalg.norm(). 
                # np.linalg.norm() вычисляется L2-норма вектора, и результат выводится на экран. 
                # L2-норма является квадратным корнем из суммы квадратов элементов вектора.
                #####################################################################
        return dists

    def compute_distances_one_loop(self, X):
        """
        Вычислите расстояние между каждой тестовой точкой в X и каждой тренировочной точкой
        в self.X_train используется один цикл над тестовыми данными.

        Ввод / вывод: То же, что и compute_distances_two_loops
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            #######################################################################
            # TODO:                                                               #
            # Compute the l2 distance between the ith test point and all training #
            # points, and store the result in dists[i, :].                        #
            # Do not use np.linalg.norm().                                        #
            #######################################################################
            # *****START OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
            # *****END OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
               dists[i, :] = np.sqrt(np.sum(np.square(X[i] - self.X_train), axis=1))
        return dists

    def compute_distances_no_loops(self, X):
        """
        Вычислите расстояние между каждой тестовой точкой в X и каждой тренировочной точкой
        в self.X_train не используются явные циклы.

        Ввод / вывод: То же, что и compute_distances_two_loops
        """
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        #########################################################################
        # TODO:                                                                 #
        # Compute the l2 distance between all test points and all training      #
        # points without using any explicit loops, and store the result in      #
        # dists.                                                                #
        #                                                                       #
        # You should implement this function using only basic array operations; #
        # in particular you should not use functions from scipy,                #
        # nor use np.linalg.norm().                                             #
        #                                                                       #
        # HINT: Try to formulate the l2 distance using matrix multiplication    #
        #       and two broadcast sums.                                         #
        #########################################################################
        # *****START OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****

        # *****END OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
        for i in range(num_test):
            for j in range(num_train):
                dists[i, j] = np.sqrt(np.sum(np.square(X[i] - self.X_train[j])))
        return dists

    def predict_labels(self, dists, k=1):
        """
        Учитывая матрицу расстояний между контрольными точками и тренировочными точками,
        спрогнозируйте метку для каждой тестовой точки.

        Входные:
        - dists: массив numpy формы (num_test, num_train), где dists[i, j]
          задает расстояние между i-й тестовой точкой и j-й тренировочной точкой.

        Возвращается:
        - y: массив numpy формы (num_test,), содержащий предсказанные метки для
        тестовых данных, где y[i] - предсказанная метка для тестовой точки X[i].
        """
        num_test = dists.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
        # A list of length k storing the labels of the k nearest neighbors to
            # the ith test point.
            #########################################################################
            # TODO:                                                                 #
            # Use the distance matrix to find the k nearest neighbors of the ith    #
            # testing point, and use self.y_train to find the labels of these       #
            # neighbors. Store these labels in closest_y.                           #
            # Hint: Look up the function numpy.argsort.                             #
            #########################################################################
            # *****START OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
            # *****END OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
            #########################################################################
            # TODO:                                                                 #
            # Now that you have found the labels of the k nearest neighbors, you    #
            # need to find the most common label in the list closest_y of labels.   #
            # Store this label in y_pred[i]. Break ties by choosing the smaller     #
            # label.                                                                #
            #########################################################################
            # *****START OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****

            # *****END OF YOUR CODE (DO NOT DELETE/MODIFY THIS LINE)*****
            closest_indices = np.argsort(dists[i])[:k]
            closest_y = self.y_train[closest_indices]
            counts = np.bincount(closest_y)
            y_pred[i] = np.argmax(counts)
        return y_pred


In [71]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris(as_frame=True)
X = np.array(iris.data[["sepal length (cm)", "sepal width (cm)"]])
y = np.array(iris.target)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
knn = KNearestNeighbor()
knn.fit(X_train, y_train)

In [72]:
result_predict=knn.predict(X_test, k=1, num_loops=0)

In [73]:
print(result_predict)

[0. 0. 0. 0. 1. 2. 2. 0. 2. 2. 1. 1. 2. 1. 1. 0. 0. 2. 0. 2. 1. 1. 2. 0.
 1. 0. 0. 1. 2. 2. 0. 2. 2. 1. 0. 2. 2. 2.]


In [74]:
print(y_test)

[0 0 0 0 1 1 1 0 1 2 2 2 1 2 1 0 0 2 0 1 2 1 1 0 2 0 0 1 2 1 0 1 2 2 0 1 2
 2]


In [75]:
print(result_predict==y_test)

[ True  True  True  True  True False False  True False  True False False
 False False  True  True  True  True  True False False  True False  True
 False  True  True  True  True False  True False  True False  True False
  True  True]


In [76]:
print(np.sum(result_predict==y_test))

23
