# Новый раздел

In [24]:
import pandas as pd
import math

# Шаг 1: Загрузка данных
data = pd.read_excel('/content/GH.xlsx')

# Шаг 2: Предобработка данных

# Создание словарей для каждой категориальной переменной
coffee_or_tea_values = {"Чай": 0, "Кофе": 1}
gender_values = {"М": 0, "Ж": 1}
sport_values = {"Да": 1, "Нет": 0}
job_values = {"Есть": 1, "Нет": 0}
heart_disease_values = {"Есть": 1, "Нет": 0}
owl_or_lark_values = {"Сова": 0, "Жаворонок": 1}
milk_in_fridge_values = {"Есть": 1, "Нет": 0}
wake_up_time_values = {"Позднее 8 утра": 0, "Раньше 8 утра": 1}
admin_district_values = {"Восточный административный округ": 0, "Другой административный округ": 1}
sleep_time_values = {"7-8 часов": 0, "Меньше 7 часов": 1, "Больше 8 часов": 2}

# Преобразование каждой категориальной переменной в числовое значение
data["Кофе или чай?"] = data["Кофе или чай?"].map(coffee_or_tea_values)
data["Пол"] = data["Пол"].map(gender_values)
data["Занимаетесь спортом?"] = data["Занимаетесь спортом?"].map(sport_values)
data["Есть ли работа?"] = data["Есть ли работа?"].map(job_values)
data["Есть ли сердечные заболевания?"] = data["Есть ли сердечные заболевания?"].map(heart_disease_values)
data["Сова или Жаворонок"] = data["Сова или Жаворонок"].map(owl_or_lark_values)
data["Есть ли молоко в холодильнике?"] = data["Есть ли молоко в холодильнике?"].map(milk_in_fridge_values)
data["Время подъема"] = data["Время подъема"].map(wake_up_time_values)
data["Административный округ"] = data["Административный округ"].map(admin_district_values)
data["Время сна"] = data["Время сна"].map(sleep_time_values)

# Шаг 3: Разделение данных на обучающую и тестовую выборки
train_data = data.iloc[:33]  # пример: первые 80% данных
test_data = data.iloc[33:]   # пример: оставшиеся 20% данных

# Шаг 4: Вычисление расстояния между объектами
def euclidean_distance(point1, point2):
    distance = 0
    for i in range(len(point1)):
        distance += pow((point1[i] - point2[i]), 2)
    return math.sqrt(distance)

# Шаг 5: Нахождение k ближайших соседей
def get_nearest_neighbors(train_data, test_instance, k):
    distances = []
    for index, row in train_data.iterrows():
        distance = euclidean_distance(row[:-1], test_instance[:-1])  # расстояние между объектами
        distances.append((distance, row[-1]))  # сохраняем расстояние и метку класса
    distances.sort(key=lambda x: x[0])  # сортируем по расстоянию
    neighbors = distances[:k]  # выбираем k ближайших соседей
    return neighbors

# Шаг 6: Прогнозирование классов
def predict_class(neighbors):
    classes = {}
    for neighbor in neighbors:
        label = neighbor[1]
        if label in classes:
            classes[label] += 1
        else:
            classes[label] = 1
    predicted_class = max(classes, key=classes.get)
    return predicted_class

# Шаг 7: Оценка точности модели
def accuracy(test_data, predictions):
    if len(test_data) > 0:
        correct = 0
        for i in range(len(test_data)):
            if test_data.iloc[i][-1] == predictions[i]:
                correct += 1
        return (correct / float(len(test_data))) * 100.0
    else:
        return 0
# Пример использования:
k = 3  # количество ближайших соседей

predictions = []
for index, row in test_data.iterrows():
    neighbors = get_nearest_neighbors(train_data, row, k)
    predicted_class = predict_class(neighbors)
    predictions.append(predicted_class)

acc = accuracy(test_data, predictions)
print("Точность модели:", acc)

Точность модели: 50.0
