In [1]:
import numpy as np
import pandas as pd

In [2]:
# Генерация фиктивных данных
np.random.seed(42) # Для воспроизводимости

In [3]:
# Количество данных
n_samples = 100

In [4]:
# Атрибуты : возраст (18-60 лет), время пробуждения (с 5 до 9 утра), продолжительность сна (с 4 до 10 часов)
ages = np.random.randint(18, 60, n_samples)
wake_up_times = np.random.uniform(5.0, 9.0, n_samples)
sleep_durations = np.random.uniform(4.0, 10.0, n_samples)

In [5]:
# Генерировать ярлыки (чай или кофе) в соответствии с фиктивной логикой : 
# Кофе, если возраст > 30 или если просыпаюсь < 7 утра, чай, если нет
labels = np.array([
    "Кофе" if age > 30 or wake_up < 7.0 else "Чай"
    for age, wake_up in zip(ages, wake_up_times)
])

In [6]:
# Создать фрейм данных
data = pd.DataFrame({
    "Возраст": ages,
    "Время_пробуждения": wake_up_times,
    "Продолжительность_сна": sleep_durations,
    "Напиток": labels
})

In [8]:
# Разделение на обучающие и тестовые данные (80/20)
train_data = data.sample(frac = 0.8, random_state = 42)
test_data = data.drop(train_data.index)

In [9]:
# Отображение первых строк обучающих данных
train_data.head()

Unnamed: 0,Возраст,Время_пробуждения,Продолжительность_сна,Напиток
83,26,8.265727,5.771744,Чай
53,21,5.976502,9.185005,Кофе
70,57,7.537405,5.834182,Кофе
45,45,5.002082,7.539225,Кофе
44,37,7.59076,5.502771,Кофе


In [10]:
# Отображение первых строк тестовых данных
test_data.head()

Unnamed: 0,Возраст,Время_пробуждения,Продолжительность_сна,Напиток
1,46,6.797803,5.25443,Кофе
2,32,5.38164,7.248688,Кофе
14,20,6.024273,5.673228,Кофе
20,19,8.583054,9.105571,Чай
21,38,6.901481,9.61381,Кофе


In [11]:
# Реализация алгоритма k-NN с нуля
# Функция для вычисления евклидова расстояния
def euclidean_distance(p1, p2):
    return np.sqrt(np.sum((p1 - p2)**2))

In [15]:
# Реализация k-NN
def k_nearest_neighbors(train_data, test_point, k):
    # Извлечение числовых данных и меток
    train_points = train_data[["Возраст", "Время_пробуждения", "Продолжительность_сна"]].values
    train_labels = train_data["Напиток"].values
    
    # Рассчитать расстояния от контрольной точки до всех тренировочных точек
    distances = [euclidean_distance(test_point, train_point) for train_point in train_points]
    
    # Найти индексы ближайших соседей k
    k_indices = np.argsort(distances)[:k]
    
    # Получить метки из k ближайших соседей
    k_labels = train_labels[k_indices]
    
    # Effectuer un vote majoritaire
    prediction = pd.Series(k_labels).mode()[0]  # Класс большинства
    return prediction

In [16]:
# Протестировать алгоритм на одной контрольной точке
test_point = test_data.iloc[0][["Возраст", "Время_пробуждения", "Продолжительность_сна"]].values
k = 3

prediction = k_nearest_neighbors(train_data, test_point, k)
actual_label = test_data.iloc[0]["Напиток"]

prediction, actual_label

('Кофе', 'Кофе')

In [17]:
# Алгоритм k-NN успешно предсказал напиток для первой контрольной точки :
    # Прогноз : Кофе
    # Фактический ярлык : кофе

In [19]:
# Расширить эту реализацию для прогнозирования меток для всего тестового набора и оценки производительности модели (например, точности)
def evaluate_knn(train_data, test_data, k):
    test_points = test_data[["Возраст", "Время_пробуждения", "Продолжительность_сна"]].values
    actual_labels = test_data["Напиток"].values
    
    # Прогнозировать для каждой контрольной точки
    predictions = [k_nearest_neighbors(train_data, test_point, k) for test_point in test_points]

    # Рассчитать точность
    accuracy = np.mean(np.array(predictions) == actual_labels)

    return predictions, accuracy

In [20]:
# Оценить с помощью k = 3
k = 3

predictions, accuracy = evaluate_knn(train_data, test_data, k)

predictions[:5], accuracy

(['Кофе', 'Кофе', 'Кофе', 'Чай', 'Кофе'], 1.0)

In [None]:
# Алгоритм k-NN был оценен на тестовом наборе с k = 3 :
    # Прогнозы для первых 5 тестовых баллов: ['кофе', 'Кофе', 'Кофе', 'Чай', 'кофе']
    # Общая точность на тестовом наборе : 100%

# Это указывает на то, что для этого набора данных и этого выбора k модель k-NN идеально предсказала метки.