<a href="https://colab.research.google.com/github/JannaBabicheva/Machine-learning/blob/main/KNN_1_Janna_Babicheva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Дополняем класс KNearestNeighbor, реализовав недостающие части кода,  вычисление расстояний L2 в различных сценариях и логику прогнозирования, основанную на k ближайших соседях:

In [2]:
import numpy as np

In [5]:
class KNearestNeighbor:
    def __init__(self):
        pass

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X, k=1, num_loops=0):
        if num_loops == 0:
            dists = self.compute_distances_no_loops(X)
        elif num_loops == 1:
            dists = self.compute_distances_one_loop(X)
        elif num_loops == 2:
            dists = self.compute_distances_two_loops(X)
        else:
            raise ValueError(f'Invalid value {num_loops} for num_loops')

        return self.predict_labels(dists, k=k)

    def compute_distances_two_loops(self, X):
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            for j in range(num_train):
                # Compute the L2 distance
                dists[i, j] = np.sqrt(np.sum((X[i] - self.X_train[j]) ** 2))
        return dists

    def compute_distances_one_loop(self, X):
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]
        dists = np.zeros((num_test, num_train))
        for i in range(num_test):
            # Compute the L2 distance for each test point
            dists[i, :] = np.sqrt(np.sum((self.X_train - X[i]) ** 2, axis=1))
        return dists

    def compute_distances_no_loops(self, X):
        num_test = X.shape[0]
        num_train = self.X_train.shape[0]

        # Using the identity (a - b)^2 = a^2 + b^2 - 2ab
        X_square = np.sum(X**2, axis=1).reshape((num_test, 1))
        X_train_square = np.sum(self.X_train**2, axis=1).reshape((1, num_train))
        cross_term = np.dot(X, self.X_train.T)

        dists = np.sqrt(X_square + X_train_square - 2 * cross_term)
        return dists

    def predict_labels(self, dists, k=1):
        num_test = dists.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
            # Find the k nearest neighbors
            closest_y = self.y_train[np.argsort(dists[i])[:k]]

            # Find the most common label in the list of nearest neighbors
            unique, counts = np.unique(closest_y, return_counts=True)
            y_pred[i] = unique[np.argmax(counts)]

        return y_pred

In [6]:
# Example of how to use the class:
# knn = KNearestNeighbor()
# knn.fit(X_train, y_train)
# y_test_pred = knn.predict(X_test, k=5, num_loops=0)

Этот скрипт определяет класс KNearestNeighbor с методами вычисления расстояний и прогнозирования меток для тестовых данных с использованием алгоритма K-Nearest Neighbors. Вот основные реализованные задачи:



compute_distances_two_loops: Вычисляет расстояния L2 с использованием двух вложенных циклов.

compute_distances_one_loop: Вычисляет расстояния L2, используя один цикл и операции с массивами.

compute_distances_no_loops: Вычисляет расстояния L2, используя векторизованные операции без явных циклов.

predict_labels: Определяет наиболее распространенную метку среди k ближайших соседей, при этом связи прерываются выбором метки меньшего размера.


Этот код разработан для обеспечения четкой и эффективной реализации алгоритма k-ближайших соседей с использованием различных уровней вычислительной эффективности.