#Семинар 2. Процесс разработки проекта машинного обучения. Подготовка данных. Оценка качества алгоритмов обучения с учителем. Метод ближайших соседей

Практическая работа по использованию основных методов подготовки данных для классических задач машинного обучения. Реализация метода ближайших соседей с помощью библиотеки numpy.    


# Содержание
- [Pandas: описание возможностей](#pandas)
- [Структуры данных](#structures)
- [Чтение и запись данных](#read_write)
- [Индексация и выборка данных](#indexing)
- [Обработка данных](#processing)
- [Объединение и слияние данных](#merging)
- [Визуализация данных](#visualization)
- [Работа с временными рядами](#time_series)
- [Работа с большими файлами](#big_files)
- [Примеры с реальными данными](#real_examples)
- [KNN](#KNN)
- [KNN для регрессии](#KNN_regression)
- [KNN для классификации](#KNN_classification)

## Pandas: описание возможностей  <a class="anchor" id="pandas"></a>

Pandas - это библиотека языка программирования Python для работы с данными, которая предоставляет множество функций для обработки и анализа структурированных данных. Некоторые из основных возможностей pandas включают в себя:

1. Структуры данных: Pandas предоставляет две основные структуры данных - Series и DataFrame - для работы с одномерными и двумерными данными соответственно. Эти структуры данных позволяют легко обрабатывать и анализировать различные типы данных.

2. Чтение и запись данных: Pandas обеспечивает возможность чтения и записи данных в различных форматах, включая CSV, Excel, SQL, JSON, HTML и другие.

3. Индексация и выборка данных: Pandas позволяет выбирать и фильтровать данные с помощью различных методов индексации и срезов, а также выполнять группировку и агрегацию данных.

4. Обработка данных: Pandas предоставляет функции для отсутствующих данных, таких как удаление, заполнение, агрегация или замена пропущенных значений.

5. Объединение и слияние данных: Pandas позволяет объединять и сливать данные из различных источников, включая объединение по строкам и столбцам, а также соединение таблиц.

6. Визуализация данных: Pandas обеспечивает возможность создания различных типов графиков и диаграмм для визуализации данных.

7. Работа с временными рядами: Pandas предоставляет функциональность для работы с временными рядами, включая создание временных индексов, агрегацию и ресемплирование данных по времени.

8. Работа с большими данными: Pandas поддерживает работу с большими наборами данных, включая возможность чтения и записи данных по частям, использование индексации и выборки для сокращения использования памяти и другие методы оптимизации работы с данными.

## Структуры данных  <a class="anchor" id="structures"></a>

Pandas предоставляет две основные структуры данных - Series и DataFrame.

Series - это одномерный массив данных, который можно индексировать и доступ к элементам которого можно осуществлять по индексу. Он может быть разных типов (например, числа, строки, даты и т.д.), но все элементы должны быть одного типа данных. Series удобен для хранения и обработки временных рядов, рядов цен, статистических данных и т.д.

DataFrame - это двумерная таблица данных, которая состоит из рядов и колонок. Каждая колонка в DataFrame может содержать данные разных типов (например, числа, строки, даты и т.д.). DataFrame удобен для хранения и обработки больших и сложных наборов данных, таких как таблицы баз данных, файлы Excel, CSV-файлы и т.д.

Обе структуры данных Pandas позволяют осуществлять быстрый и удобный доступ к данным, фильтровать данные, выполнять арифметические операции над данными, агрегировать данные, а также визуализировать данные в различных форматах.

Series и DataFrame также имеют множество методов и функций для обработки данных, например, для сортировки, фильтрации, замены, удаления и объединения данных. Эти функции и методы делают работу с данными в Pandas быстрой, удобной и эффективной.

### Создание

In [None]:
import pandas as pd

# Создание Series из списка
my_list = [10, 20, 30, 40, 50]
s = pd.Series(my_list)
print(s)

In [None]:
# Создание Series из массива NumPy
import numpy as np
arr = np.array([1, 2, 3, 4, 5])
s = pd.Series(arr)
print(s)

In [None]:
# Создание Series из словаря
my_dict = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(my_dict)
print(s)

In [None]:
# Создание списка списков
data = [[10, 20, 30], [40, 50, 60], [70, 80, 90]]

# Создание DataFrame из списка списков
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)

In [None]:
# Создание списка словарей
data = [
    {'name': 'John', 'age': 30},
    {'name': 'Alice', 'age': 25},
    {'name': 'Bob', 'age': 40}
]

# Создание DataFrame из списка словарей
df = pd.DataFrame(data)
print(df)

In [None]:
# Создание словаря списков
data = {'A': [10, 20, 30], 'B': [40, 50, 60], 'C': [70, 80, 90]}

# Создание DataFrame из словаря списков
df = pd.DataFrame(data)
print(df)

In [None]:
import numpy as np

# Создание массива NumPy
data = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

# Создание DataFrame из массива NumPy
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)

## Чтение и запись <a class="anchor" id="read_write"></a>

In [None]:
# # Загрузка CSV-файла в DataFrame
# df = pd.read_csv('file.csv')

# # Вывод содержимого DataFrame
# print(df)

In [None]:
# # Загрузка Excel-файла в DataFrame
# df = pd.read_excel('file.xlsx')

# # Вывод содержимого DataFrame
# print(df)

In [None]:
# import sqlite3

# # Создание подключения к базе данных
# conn = sqlite3.connect('database.db')

# # Загрузка SQL-запроса в DataFrame
# df = pd.read_sql_query('SELECT * FROM table', conn)

# # Вывод содержимого DataFrame
# print(df)

In [None]:
# # Загрузка URL-адреса в DataFrame
# df = pd.read_html('https://example.com')[0]

# # Вывод содержимого DataFrame
# print(df)

In [None]:
# # Загрузка текстового файла в объект Series
# s = pd.read_csv('file.txt', header=None, squeeze=True)

# # Вывод содержимого Series
# print(s)

В Pandas есть несколько способов записи данных из объектов Series и DataFrame в файлы. Рассмотрим несколько примеров.
В каждом примере мы записываем данные из объектов Series и DataFrame в различные форматы файлов. Каждый пример также показывает, как использовать различные параметры функций для управления процессом записи данных в файлы.

In [None]:
# Создание DataFrame
data = {'name': ['John', 'Jane', 'Sam'],
        'age': [25, 30, 35],
        'city': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

# Запись DataFrame в CSV-файл
df.to_csv('file.csv', index=False)

In [None]:
# Запись DataFrame в Excel-файл
# df.to_excel('file.xlsx', index=False)
# ModuleNotFoundError: No module named 'openpyxl'

In [None]:
import sqlite3

# Создание подключения к базе данных
conn = sqlite3.connect('database.db')

# Запись DataFrame в SQL-базу данных
df.to_sql('table', conn, if_exists='replace', index=False)

In [None]:
# Запись DataFrame в формате JSON
df.to_json('file.json', orient='records')

In [None]:
# Создание объекта Series
s = pd.Series([10, 20, 30])

# Запись Series в текстовый файл
s.to_csv('file.txt', index=False)

## Индексация и выборка данных <a class="anchor" id="indexing"></a>

In [None]:
import pandas as pd

# Создание объекта Series
s = pd.Series([10, 20, 30, 40, 50])

# Индексация по номеру элемента
print(s[2])  # выводит 30

# Индексация по метке элемента
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(s["a"])  # выводит 30

In [None]:
# Создание DataFrame
data = {'name': ['John', 'Jane', 'Sam'],
        'age': [25, 30, 35],
        'city': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

# Индексация по метке строки
print(df.loc[1])

In [None]:
# Индексация по названию столбца
print(df['name'])  # выводит столбец 'name'

In [None]:
# Индексация по номеру строки и столбца
print(df.iloc[1, 2])  # выводит 'Paris'

In [None]:
# Индексация по метке строки и названию столбца
print(df.loc[1, 'city'])  # выводит 'Paris'

In [None]:
# Индексация по условию
print(df[df['age'] >= 30])  # выводит строки с возрастом больше 30

In [None]:
# Создание DataFrame
data = {'name': ['John', 'Jane', 'Sam', 'Alice', 'Bob'],
        'age': [25, 30, 35, 40, 45],
        'city': ['New York', 'Paris', 'London', 'Paris', 'London']}
df = pd.DataFrame(data)

# Индексация DataFrame по условию с использованием оператора &
print(df[(df['age'] > 30) & (df['city'] == 'Paris')]) # выводит строки с возрастом больше 30 и городом Paris

In [None]:
# Индексация DataFrame по условию с использованием оператора |
print(df[(df['age'] > 30) | (df['city'] == 'Paris')]) # выводит строки с возрастом больше 30 или городом Paris

In [None]:
# Индексация DataFrame по условию с использованием метода query()
print(df.query("age > 30 and city == 'Paris'")) # выводит строки с возрастом больше 30 и городом Paris

In [None]:
# Индексация DataFrame по условию с использованием метода loc[]
print(df.loc[(df['age'] > 30) & (df['city'] == 'Paris')]) # выводит строки с возрастом больше 30 и городом Paris

In [None]:
# Слайсинг DataFrame по индексу строк и столбцов с использованием метода loc[]
print(df.loc[1:3, 'name':'age']) # выводит строки 1-3 и столбцы name и age

In [None]:
# Слайсинг DataFrame по позиции строк и столбцов с использованием метода iloc[]
print(df.iloc[1:3, 0:2]) # выводит строки 1-2 и столбцы 0-1 (name и age)

## Обработка данных <a class="anchor" id="processing"></a>

Замена значений в столбце на другие значения

Можно использовать метод .replace(), передав в него словарь, где ключи - значения,
которые нужно заменить, а значения - значения, на которые нужно заменить.
Например, заменим значения "male" на "M" и "female" на "F" в столбце gender:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Peter'],
                   'gender': ['male', 'female', 'male']})
# заменяем значения в столбце gender
df['gender'] = df['gender'].replace({'male': 'M', 'female': 'F'})
print(df)

Преобразование типа данных столбца
Можно использовать метод .astype(), передав в него новый тип данных.
Например, преобразуем столбец age из типа object в тип int:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Peter'],
                   'age': ['25', '30', '35']})
# преобразуем тип данных столбца age
df['age'] = df['age'].astype(int)
print(df)

Объединение значений столбцов

Можно использовать метод .apply(), передав в него функцию, которая будет объединять значения столбцов.
Например, объединим значения столбцов first_name и last_name в новый столбец full_name:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'first_name': ['John', 'Mary', 'Peter'],
                   'last_name': ['Doe', 'Smith', 'Johnson']})
# объединяем значения столбцов first_name и last_name
df['full_name'] = df.apply(lambda row: row['first_name'] + ' ' + row['last_name'], axis=1)
print(df)

Удаление строк или столбцов

Можно использовать метод .drop(), передав в него индексы строк или столбцов, которые нужно удалить, а также параметр axis=0 для удаления строк или axis=1 для удаления столбцов.
Например, удалим столбец age:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Peter'],
                   'age': ['25', '30', '35']})
# удаляем столбец age
df = df.drop('age', axis=1)
df = df.drop(0, axis=0)
print(df)

Группировка и агрегация данных

Можно использовать метод .groupby(), чтобы сгруппировать данные по значениям столбца или нескольких столбцов, а затем применить к группам агрегационную функцию, например, сумму, среднее значение, максимальное значение и т.д.
Например, посчитаем средний возраст для каждого пола в DataFrame:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Peter', 'Mike', 'Sarah'],
                   'gender': ['M', 'F', 'M', 'M', 'F'],
                   'age': [25, 30, 35, 40, 45]})
# считаем средний возраст для каждого пола
mean_age_by_gender = df.groupby('gender')['age'].mean()
print(mean_age_by_gender)

Фильтрация данных по условию

Можно использовать условный оператор и метод .loc[], чтобы выбрать строки, удовлетворяющие заданному условию.
Например, выберем только те строки, в которых возраст больше 30:

In [None]:
# создаем DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Peter', 'Mike', 'Sarah'],
                   'age': [25, 30, 35, 40, 45]})
# выбираем только строки, у которых возраст больше 30
df_filtered = df.loc[df['age'] > 30]
print(df_filtered)

## Упражнение <a class="anchor" id="processing"></a>

Часть 1. Сделайте копию Dataframe. Зачем это может быть нужно?

Часть 2. Есть признак 'age'. Создайте новый признак 'new_age', в котором будут квадраты значений из 'age'. При условии, что величина в 'age' больше 30 строго (не включая). Попробуйте это сделать через lambda функцию.

In [None]:
# Ваш код и комментарии

# Часть 1


# Часть 2


## Объединение и слияние данных <a class="anchor" id="merging"></a>

Слияние данных - это процесс соединения двух или более наборов данных на основе общих признаков. В pandas это делается с помощью метода merge(). Он принимает на вход два DataFrame и объединяет их по заданным колонкам.

In [None]:
# создаем первый DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})
# создаем второй DataFrame
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value': [5, 6, 7, 8]})
# объединяем по колонке 'key'
merged_df = pd.merge(df1, df2, on='key')
print(merged_df)

# В результате мы получили новый DataFrame, в котором объединены два исходных DataFrame по значению колонки 'key'.
# В данном случае в объединенном DataFrame остались только строки, где значение 'key' было общим для обоих
# DataFrame.

Объединение данных - это процесс соединения двух или более наборов данных по вертикали (добавление новых строк)
или горизонтали (добавление новых колонок). В pandas это делается с помощью методов concat() и join().

In [None]:
# создаем первый DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})
# создаем второй DataFrame
df2 = pd.DataFrame({'key': ['E', 'F', 'G', 'H'],
                    'value': [5, 6, 7, 8]})
# объединяем по вертикали
concat_df = pd.concat([df1, df2])
print(concat_df)

# В данном примере мы объединили два DataFrame по вертикали с помощью метода concat().
# В результате мы получили новый DataFrame, состоящий из строк обоих исходных DataFrame.

С помощью метода join() можно объединять DataFrame по колонкам, а не по строкам. Он принимает на вход два DataFrame и объединяет их по заданным колонкам.

In [None]:
# создаем первый DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value1': [1, 2, 3, 4]})
# создаем второй DataFrame
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value2': [5, 6, 7, 8]})
# объединяем по колонке 'key'
joined_df = df1.set_index('key').join(df2.set_index('key'))
print(joined_df)

# В данном примере мы объединили два DataFrame по колонке 'key' с помощью метода join().
# В результате мы получили новый DataFrame, в котором значения из обоих исходных DataFrame
# объединены по значениям колонки 'key'. Если значение отсутствует в одном из DataFrame,
# то в объединенном DataFrame оно будет NaN.

## Визуализация данных <a class="anchor" id="visualization"></a>

In [None]:
import matplotlib.pyplot as plt

# Создание DataFrame
data = {'name': ['John', 'Jane', 'Sam', 'Alice', 'Bob'],
        'age': [25, 30, 35, 40, 45],
        'city': ['New York', 'Paris', 'London', 'Paris', 'London']}
df = pd.DataFrame(data)

# Отображение диаграммы разброса числовых данных DataFrame
df.plot.scatter(x='age', y='name')
plt.title('Диаграмма разброса возраста и имени')
plt.xlabel('Возраст')
plt.ylabel('Имя')
plt.show()

In [None]:
# Создание DataFrame с категориальными данными
data = {'city': ['New York', 'Paris', 'London'],
        'count': [10, 15, 12]}
df2 = pd.DataFrame(data)

# Отображение столбчатой диаграммы категориальных данных DataFrame
df2.plot.bar(x='city', y='count', rot=0)
plt.title('Диаграмма количества людей в городах')
plt.xlabel('Город')
plt.ylabel('Количество людей')
plt.show()


## Работа с временными рядами <a class="anchor" id="time_series"></a>

In [None]:
# Создание временного ряда с шагом в дни
dates = pd.date_range('20220101', periods=365)

# Создание DataFrame с временным индексом
df = pd.DataFrame({'value': range(365)}, index=dates)
print(df.head())

In [None]:
# Срез по диапазону дат
print(df['20220301':'20220501'])

In [None]:
# # Агрегирование данных по дням
# print(df.resample('D').sum())

# # Агрегирование данных по неделям
# print(df.resample('W').sum())

# Агрегирование данных по месяцам
print(df.resample('M').sum())

Для вычисления скользящего среднего в pandas можно использовать метод rolling(). Например, чтобы вычислить скользящее среднее с окном размером 3 для столбца "value" в DataFrame "df", можно использовать следующий код:

In [None]:
df['rolling_mean'] = df['value'].rolling(window=3).mean()
print(df)

Метод rolling() также позволяет задавать другие параметры, такие как минимальное количество наблюдений для вычисления среднего значения (min_periods) и тип окна (window). Например, чтобы использовать взвешенное скользящее среднее с экспоненциальным затуханием, можно задать параметр window следующим образом:
```python
df['rolling_mean1'] = df['column_name'].rolling(window='expanding').mean()
```

## Работа с большими файлами <a class="anchor" id="big_files"></a>

Pandas предоставляет множество инструментов для работы с большими файлами данных, которые могут не поместиться в оперативную память компьютера.

Некоторые из этих инструментов:

Использование параметра chunksize при чтении файла с помощью метода read_csv. Этот параметр позволяет читать файл по кускам определенного размера и выполнять операции с каждым куском данных отдельно. Например, следующий код читает файл "large_data.csv" по кускам в 1000 строк и суммирует значения столбца "value":

In [None]:
chunksize = 1000
sum_value = 0

# for chunk in pd.read_csv("large_data.csv", chunksize=chunksize):
#     sum_value += chunk["value"].sum()

# print("Total sum of values: ", sum_value)

Использование функции to_csv для записи данных по частям. В этом случае можно использовать параметры chunksize и mode. Например, следующий код сохраняет файл "large_data.csv" по частям в 1000 строк каждая:

In [None]:
chunksize = 1000
i = 0

# for chunk in pd.read_csv("large_data.csv", chunksize=chunksize):
#     chunk.to_csv("large_data_part{}.csv".format(i), index=False, mode="a")
#     i += 1

Использование модуля Dask. Dask - это библиотека, которая позволяет обрабатывать большие наборы данных, не помещающиеся в оперативную память, путем распределения задач на несколько вычислительных узлов. Dask имеет сходный с Pandas API, поэтому переход на Dask может быть довольно простым. Например, следующий код считывает файл "large_data.csv" с помощью Dask и выводит сумму значений столбца "value":

In [None]:
# import dask.dataframe as dd

# df = dd.read_csv("large_data.csv")
# sum_value = df["value"].sum().compute()

# print("Total sum of values: ", sum_value)

Использование модуля Vaex. Vaex - это библиотека для работы с большими наборами данных, которая использует ленивую загрузку и индексирование, чтобы обеспечить быстрое выполнение запросов к данным. Vaex также имеет сходный с Pandas API, но работает намного быстрее для больших наборов данных. Например, следующий код считывает файл "large_data.csv" с помощью Vaex и выводит сумму значений столбца "value":

In [None]:
# import vaex

# df = vaex.open("large_data.csv")
# sum_value = df.sum("value")

# print("Total sum of values: ", sum_value)

## Примеры с реальными данными <a class="anchor" id="real_examples"></a>

https://www.kaggle.com/datasets?search=sales

## KNN  <a class="anchor" id="KNN"></a>

Алгоритм k-ближайших соседей (k-nearest neighbors, KNN) является простым алгоритмом машинного обучения, который используется как для задач классификации, так и для задач регрессии. Он основывается на принципе ближайших соседей, где объекты данных классифицируются или предсказываются на основе ближайших к ним соседей.

Для задачи классификации, алгоритм KNN присваивает объекту класс на основе большинства (голосования) классов его k ближайших соседей. Например, если k > 4 и объект имеет k-2 ближайших соседей, принадлежащих к классу "1", и только 2 соседей принадлежат к классу "0", то объект будет отнесен к классу "1".

Для задачи регрессии, алгоритм KNN предсказывает числовое значение для объекта на основе среднего (или медианы) значений целевой переменной его k ближайших соседей. Например, если объект имеет k ближайших соседей с целевыми значениями [2, 3, 4, 5, 6], то предсказанное значение будет равно среднему значению 4.

Основной параметр алгоритма KNN - это k, который определяет количество ближайших соседей, которые будут участвовать в классификации или предсказании. Выбор оптимального значения k зависит от данных и требует экспериментирования.

Алгоритм KNN прост в реализации и понимании, но может быть вычислительно интенсивным для больших наборов данных. Он также может быть чувствителен к масштабированию признаков и может требовать предварительной обработки данных.

## KNN для регрессии  <a class="anchor" id="KNN_regression"></a>

In [None]:
import numpy as np

class KNNRegressor:
    def __init__(self, k):
        self.k = k

    def fit(self, X, y):
        self.X_train = X  # Запоминаем обучающие данные
        self.y_train = y  # Запоминаем метки классов

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2)**2))  # Вычисляем евклидово расстояние между двумя точками

    def predict(self, X):
        y_pred = []  # Список для хранения предсказанных значений

        for x in X:
            distances = [self.euclidean_distance(x, x_train) for x_train in self.X_train]  # Вычисляем расстояния до всех точек в обучающих данных
            k_indices = np.argsort(distances)[:self.k]  # Получаем индексы k ближайших соседей
            k_nearest_targets = [self.y_train[i] for i in k_indices]  # Получаем значения целевых переменных ближайших соседей
            y_pred.append(np.mean(k_nearest_targets))  # Добавляем предсказанное значение в список

        return np.array(y_pred)  # Преобразуем список в массив и возвращаем его


In [None]:
# Создание экземпляра класса KNN
knn = KNNRegressor(k=3)

# Обучение модели
X_train = np.array([[1, 2], [3, 4], [5, 6]])
y_train = np.array([0, 0.5, 1])
knn.fit(X_train, y_train)

# Новые данные для классификации
X_test = np.array([[2, 3], [4, 5]])

# Предсказание меток классов
y_pred = knn.predict(X_test)
print(y_pred)

## KNN для классификации  <a class="anchor" id="KNN_classification"></a>

In [None]:
class KNNClassifier:
    def __init__(self, k):
        self.k = k

    def fit(self, X, y):
        self.X_train = X  # Запоминаем обучающие данные
        self.y_train = y  # Запоминаем метки классов

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2)**2))  # Вычисляем евклидово расстояние между двумя точками

    def predict(self, X):
        y_pred = []  # Список для хранения предсказанных меток классов

        for x in X:
            distances = [self.euclidean_distance(x, x_train) for x_train in self.X_train]  # Вычисляем расстояния до всех точек в обучающих данных
            k_indices = np.argsort(distances)[:self.k]  # Получаем индексы k ближайших соседей
            k_nearest_labels = [self.y_train[i] for i in k_indices]  # Получаем метки классов k ближайших соседей
            most_common = np.argmax(np.bincount(k_nearest_labels))  # Находим наиболее часто встречающуюся метку класса среди соседей
            y_pred.append(most_common)  # Добавляем предсказанную метку класса в список

        return np.array(y_pred)  # Преобразуем список в массив и возвращаем его


In [None]:
# Создание экземпляра класса KNN
knn = KNNClassifier(k=3)

# Обучение модели
X_train = np.array([[1, 2], [3, 4], [5, 6]])
y_train = np.array([0, 0, 1])
knn.fit(X_train, y_train)

# Новые данные для классификации
X_test = np.array([[2, 3], [4, 5]])

# Предсказание меток классов
y_pred = knn.predict(X_test)
print(y_pred)

## Упражнение <a class="anchor" id="processing"></a>

Тут всё просто. Есть код. Он должен выводить строчку 'hello from euclidean_distance function :)'. Почему этого не происходит?

Это задание на проверку понимая кода. И на проверку понимая текущей среды разработки.

In [None]:
class KNNClassifier:
    def __init__(self, k):
        self.k = k

    def fit(self, X, y):
        self.X_train = X  # Запоминаем обучающие данные
        self.y_train = y  # Запоминаем метки классов

    def euclidean_distance(self, x1, x2):
        print('hello from euclidean_distance function :)')
        return np.sqrt(np.sum((x1 - x2)**2))  # Вычисляем евклидово расстояние между двумя точками

    def predict(self, X):
        y_pred = []  # Список для хранения предсказанных меток классов

        for x in X:
            distances = [self.euclidean_distance(x, x_train) for x_train in self.X_train]  # Вычисляем расстояния до всех точек в обучающих данных
            k_indices = np.argsort(distances)[:self.k]  # Получаем индексы k ближайших соседей
            k_nearest_labels = [self.y_train[i] for i in k_indices]  # Получаем метки классов k ближайших соседей
            most_common = np.argmax(np.bincount(k_nearest_labels))  # Находим наиболее часто встречающуюся метку класса среди соседей
            y_pred.append(most_common)  # Добавляем предсказанную метку класса в список

        return np.array(y_pred)  # Преобразуем список в массив и возвращаем его

from sklearn.neighbors import KNeighborsClassifier as KNNClassifier

In [None]:
# Создание экземпляра класса KNN
knn = KNNClassifier(3)

# Обучение модели
X_train = np.array([[1, 2], [3, 4], [5, 6]])
y_train = np.array([0, 0, 1])
knn.fit(X_train, y_train)

# Новые данные для классификации
X_test = np.array([[2, 3], [4, 5]])

# Предсказание меток классов
y_pred = knn.predict(X_test)
print(y_pred)