In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

In [2]:
X, y = load_iris(return_X_y=True)

# Для наглядности возьмем только первые два признака (всего в датасете их 4)
X = X[:, :2]

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=1,
                                                    stratify=y)
X_train.shape, X_test.shape

((120, 2), (30, 2))

In [4]:
def e_metrics(x1, x2):
    distance = np.sum(np.square(x1 - x2))
    return np.sqrt(distance)

In [5]:
def knn(x_train, y_train, x_test, k):
    
    answers = []
    answers_weight = []
    for x in x_test:
        test_distances = []

        for i in range(len(x_train)):
            # расчет расстояния от классифицируемого объекта до
            # объекта обучающей выборки
            distance = e_metrics(x, x_train[i])

            # Записываем в список значение расстояния и ответа на объекте обучающей выборки
            test_distances.append((distance, y_train[i]))

        test_distances_2 = [(e_metrics(x, xx), y_train[i]) for i, xx in enumerate(x_train)]
        # создаем словарь со всеми возможными классами
        classes = {class_item: 0 for class_item in set(y_train)}
        classes_dist = {class_item: 0.0 for class_item in set(y_train)}

        # Сортируем список и среди первых k элементов подсчитаем частоту появления разных классов
        for d in sorted(test_distances)[0:k]:
            classes[d[1]] += 1
            classes_dist[d[1]] += 0.5 ** d[0]

        # Записываем в список ответов наиболее часто встречающийся класс
        answers.append(sorted(classes, key=classes.get)[-1])
        answers_weight.append(sorted(classes_dist, key=classes_dist.get)[-1])
    
    return answers, answers_weight

In [6]:
def accuracy(pred, y):
    return (sum(pred == y) / len(y))

In [7]:
k = 2

y_pred, y_pred_weight = knn(X_train, y_train, X_test, k)

print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred_weight, y_test):.3f}')

Точность алгоритма при k = 2: 0.733
Точность алгоритма при k = 2: 0.700


In [8]:
k = 4

y_pred, y_pred_weight = knn(X_train, y_train, X_test, k)

print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred_weight, y_test):.3f}')

Точность алгоритма при k = 4: 0.700
Точность алгоритма при k = 4: 0.700


In [9]:
k = 8

y_pred, y_pred_weight = knn(X_train, y_train, X_test, k)

print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred_weight, y_test):.3f}')

Точность алгоритма при k = 8: 0.767
Точность алгоритма при k = 8: 0.733


In [10]:
k = 10

y_pred, y_pred_weight = knn(X_train, y_train, X_test, k)

print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred_weight, y_test):.3f}')

Точность алгоритма при k = 10: 0.767
Точность алгоритма при k = 10: 0.767
