In [None]:

import numpy as np  
from sklearn.datasets import load_iris  
from sklearn.model_selection import train_test_split  
from collections import Counter 
import math

# Функция для вычисления евклидова расстояния между двумя точками
def euclidean_distance(point1, point2):
    """
    Вычисляет евклидово расстояние между двумя точками.
    point1 и point2 — это массивы чисел (признаки объектов).
    Формула: sqrt(sum((point1 - point2)^2))
    """
    return math.sqrt(np.sum((point1 - point2) ** 2))  # Возвращает евклидово расстояние

# Функция kNN (k ближайших соседей)
def k_nearest_neighbors(train_data, test_data, k):
    """
    Реализует алгоритм k ближайших соседей.
    train_data — обучающая выборка
    test_data — тестовая выборка 
    k — количество ближайших соседей.
    Возвращает список предсказанных классов для тестовой выборки.
    """
    predictions = []  # Список для хранения предсказанных классов
    for test_point in test_data:  
        distances = []  # Список для хранения расстояний до объектов обучающей выборки
        for i, train_point in enumerate(train_data):  # Для каждого объекта из обучающей выборки
            # Вычисляем расстояние между тестовым объектом и объектом обучающей выборки
            dist = euclidean_distance(test_point[:-1], train_point[:-1])
            # Сохраняем расстояние и метку класса обучающего объекта
            distances.append((dist, train_point[-1]))
        
        # Сортируем расстояния по возрастанию и выбираем k ближайших соседей
        distances.sort(key=lambda x: x[0])  # Сортировка по расстоянию
        k_nearest = distances[:k]  # Выбираем k ближайших соседей
        
        # Определяем класс на основе большинства голосов
        labels = [neighbor[1] for neighbor in k_nearest]  
        majority_vote = Counter(labels).most_common(1)[0][0]  
        predictions.append(majority_vote)  # Добавляем предсказанный класс в список
    
    return predictions  

# Загрузка набора данных "Ирисы"
iris = load_iris()  # Загружаем данные
X = iris.data  # Признаки 
y = iris.target  # Метки классов 

# Объединяем признаки и метки в один массив
data = np.column_stack((X, y))  

# Разделяем данные на обучающую и тестовую выборки
train_data, test_data = train_test_split(data, test_size=0.1, random_state=42)
# test_size=0.1 — 10% данных используются для тестирования, 90% — для обучения
# random_state=42 — фиксирует случайное разделение для воспроизводимости результатов

3
k = 3  # Количество ближайших соседей
predictions = k_nearest_neighbors(train_data, test_data, k)  

# Выводим результаты
print("Тестовые данные:")
for i, test_point in enumerate(test_data): 
    print(f"Объект {i+1}: Предсказанный класс = {predictions[i]}, Истинный класс = {test_point[-1]}")

Тестовые данные:
Объект 1: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 2: Предсказанный класс = 0.0, Истинный класс = 0.0
Объект 3: Предсказанный класс = 2.0, Истинный класс = 2.0
Объект 4: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 5: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 6: Предсказанный класс = 0.0, Истинный класс = 0.0
Объект 7: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 8: Предсказанный класс = 2.0, Истинный класс = 2.0
Объект 9: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 10: Предсказанный класс = 1.0, Истинный класс = 1.0
Объект 11: Предсказанный класс = 2.0, Истинный класс = 2.0
Объект 12: Предсказанный класс = 0.0, Истинный класс = 0.0
Объект 13: Предсказанный класс = 0.0, Истинный класс = 0.0
Объект 14: Предсказанный класс = 0.0, Истинный класс = 0.0
Объект 15: Предсказанный класс = 0.0, Истинный класс = 0.0
