In [None]:
# Задание 3. Исследование алгоритмов классификации

# Для выполнения данного задания вам необходимо сначала оценить, насколько набор
# данных, выбранный вами ранее, подходит для решения задачи. Для этого следует:

# 1) Оценить какой атрибут выступит в роли целевого класса (метки)
# 2) Оценить сбалансированность классов

# В случае, если невозможно выбрать атрибут, выступающего в роли класса, необходимо
# подобрать подходящий датасет.

# Задание состоит из последовательного выполнения следующих подзадач.
# 1. Необходимо оценить и сравнить результаты классификации, используя следующие
# алгоритмы классификации:
# * kNN
# * дерево решений

# 2. Сравните полученные результаты с помощью различных метрик оценки качества:
# Accuracy
# Presicion, Recall, F-measure
# ROC

# 3. Объяснить полученные результаты
# Отчет должен включать описания выполнения каждой подзадачи.
# Дополнительная литература

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("../data/Sleep_health_and_lifestyle_dataset.csv")
df[['Systolic', 'Diastolic']] = df['Blood Pressure'].str.split('/', expand=True).astype(int)
df = df.fillna('None')

In [2]:
# 1) Целевой класс Sleep Disorder
# 2) Данные не сбалансированны, тк значений None больше в несколько раз

df['Sleep Disorder'].value_counts()

Sleep Disorder
None           219
Sleep Apnea     78
Insomnia        77
Name: count, dtype: int64

In [5]:
# Целевая переменная
y = df['Sleep Disorder']

# Признаки
X = df.drop(columns=[
    'Person ID', 
    'Sleep Disorder', 
    'Blood Pressure' 
])

# Кодируем Gender
X = pd.get_dummies(X, columns=['Gender', 'BMI Category'], drop_first=True)

# Удалим Occupation, если много уникальных значений
if X['Occupation'].nunique() > 10:
    X = X.drop('Occupation', axis=1)
else:
    X = pd.get_dummies(X, columns=['Occupation'], drop_first=True)

# Убедимся, что остались только числа
X = X.select_dtypes(include=[np.number])

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.25, 
    random_state=42, 
    stratify=y  # сохраняем пропорции классов
)

In [7]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score
from sklearn.preprocessing import LabelBinarizer

# kNN
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

In [8]:
# Decision Tree
dt = DecisionTreeClassifier(random_state=42, max_depth=5)  # ограничим глубину, чтобы не переобучалось
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)

In [9]:
#Шаг 4. Оценка качества

# 4.1 Accuracy
print("kNN Accuracy:", accuracy_score(y_test, y_pred_knn))
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred_dt))

kNN Accuracy: 0.9148936170212766
Decision Tree Accuracy: 0.9361702127659575


In [10]:
# 4.2 Precision, Recall, F1 (по классам и макро-среднее)
print("\n=== kNN ===")
print(classification_report(y_test, y_pred_knn))

print("\n=== Decision Tree ===")
print(classification_report(y_test, y_pred_dt))


=== kNN ===
              precision    recall  f1-score   support

    Insomnia       0.81      0.89      0.85        19
        None       0.98      0.93      0.95        55
 Sleep Apnea       0.86      0.90      0.88        20

    accuracy                           0.91        94
   macro avg       0.88      0.91      0.89        94
weighted avg       0.92      0.91      0.92        94


=== Decision Tree ===
              precision    recall  f1-score   support

    Insomnia       0.85      0.89      0.87        19
        None       1.00      0.98      0.99        55
 Sleep Apnea       0.85      0.85      0.85        20

    accuracy                           0.94        94
   macro avg       0.90      0.91      0.90        94
weighted avg       0.94      0.94      0.94        94



In [None]:
#1.Данные несбалансированные. Целевой класс - Sleep Disorder

In [None]:
#2. Сравнение метрик
#                Accuracy Precision Recall F1-score
# knn:           0.91     0.88      0.91   0.89
# desicion tree: 0.94     0.90      0.91   0.90
