In [24]:
import numpy as np

# Реализация K-ближайших соседей
class KNearestNeighbors:
    def __init__(self, n_neighbors=17, regression=False):
        self.n_neighbors = n_neighbors  # Количество соседей
        self.regression = regression    # Режим: True для регрессии, False для классификации

    # Метод обучения, просто сохраняет обучающие данные
    def fit(self, X_train, y_train):
        self.X_train = X_train  # Признаки обучающей выборки
        self.y_train = y_train  # Метки или целевые значения обучающей выборки

    # Вычисление евклидова расстояния между тестовой точкой и всеми обучающими точками
    def _euclidean_distances(self, x_test_i):
        return np.sqrt(np.sum((self.X_train - x_test_i) ** 2, axis=1))

    # Прогноз для одного тестового образца
    def _make_prediction(self, x_test_i):
        distances = self._euclidean_distances(x_test_i)  # Расстояния до всех соседей
        k_nearest_indexes = np.argsort(distances)[:self.n_neighbors]  # Индексы k ближайших
        targets = self.y_train[k_nearest_indexes]  # Значения целевой переменной ближайших соседей

        # Возвращаем среднее для регрессии или моду для классификации
        return np.mean(targets) if self.regression else np.bincount(targets).argmax()

    # Прогноз для всех тестовых образцов
    def predict(self, X_test):
        return np.array([self._make_prediction(x) for x in X_test])

# Тестирование на наборе данных Iris
from sklearn.datasets import load_iris, load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, r2_score

# Загрузка датасета для классификации (Iris)
X1, y1 = load_iris(return_X_y=True)
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, random_state=0)

# Классификатор KNN
knn_clf = KNearestNeighbors()
knn_clf.fit(X1_train, y1_train)
knn_clf_pred_res = knn_clf.predict(X1_test)
knn_clf_accuracy = accuracy_score(y1_test, knn_clf_pred_res)

print(f'Точность классификации KNN: {knn_clf_accuracy}')

# Загрузка датасета для регрессии (Diabetes)
X2, y2 = load_diabetes(return_X_y=True)
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, random_state=0)

# Регрессор KNN
knn_reg = KNearestNeighbors(regression=True)
knn_reg.fit(X2_train, y2_train)
knn_reg_pred_res = knn_reg.predict(X2_test)
knn_reg_r2 = r2_score(y2_test, knn_reg_pred_res)

print(f'R2 для регрессии KNN: {knn_reg_r2}')



Точность классификации KNN: 0.9736842105263158
R2 для регрессии KNN: 0.36106697446565017
