# Навигация и краткое описание

**Цель:** Сравнительный анализ линейных моделей машинного обучения из библиотеки sklearn для решения задач классификации.([Dataset](https://www.kaggle.com/datasets/mohankrishnathalla/diabetes-health-indicators-dataset))

**Рассматриваемые модели:**
- [LogisticRegression](##LogisticRegression)
- [LinearSVC](##LinearSVC)
- [SGDClassifier](##SGDClassifier)

# Подключение нужных библиотек

In [8]:
import pandas as pd 
import sklearn

In [9]:
# Заранее установим несколько констант
RANDOM_STATE = 42

# Подготока данных

In [10]:
from utils import load_data_cls_task
data = load_data_cls_task()

Описание признаков нашего набора данных.

1) Возраст (`age`): 
    * Описание: Возраст пациента в годах. 
    * Тип данных: *Числовой признак*
2) Пол (`gender`): 
    * Описание: Пол пациента. 
    * Тип данных: Категориальный признак, содержащий 2 уникальных значения (Male/Female).
3) Этническая принадлежность (`ethnicity`): 
    * Описание: Этническая группа пациента
    * Тип данных: Категориальный признак.
4) Уровень образования (`education_level`):
    * Описание: Уровень образования.
    * Тип данных: Категориальный признак.
5) Уровень дохода (`income_level`):
    * Описание: Уровень дохода пациента.
    * Тип данных: Категориальный признак.
6) Статус занятости (`employment_status`):
    * Описание: Трудовой статус.
    * Тип данных: Категориальный признак.
7) Статус курения (`smoking_status`):
    * Описание: Отношение к курению.
    * Тип данных: Категориальный признак.
8) Потребление алкоголя (`alcohol_consumption_per_week`):
    * Описание: Количество алкогольных напитков в неделю.
    * Тип данных: Числовой признак.
9) Физическая активность (`physical_activity_minutes_per_week`):
    * Описание: Минуты физической активности в неделю.
    * Тип данных: Числовой признак.
10) Оценка диеты (`diet_score`):
    * Описание: Оценка качества питания.
    * Тип данных: Числовой признак (шкала 1-10).
11) Часы сна (`sleep_hours_per_day`):
    * Описание: Среднее количество часов сна в сутки.
    * Тип данных: Числовой признак.
12) Экранное время (`screen_time_hours_per_day`):
    * Описание: Часы перед экраном в день.
    * Тип данных: Числовой признак.
13) Семейная история диабета (`family_history_diabetes`): 
    * Описание: Наличие диабета у родственников.
    * Тип данных: Бинарный признак (0/1).
14) История гипертонии (`hypertension_history`):
    * Описание: Наличие гипертонии в анамнезе.
    * Тип данных: Бинарный признак.
15) Сердечно-сосудистые заболевания (`cardiovascular_history`):
    * Описание: Наличие сердечно-сосудистых заболеваний.
    * Тип данных: Бинарный признак.
16) Индекс массы тела (`bmi`):
    * Описание: Индекс массы тела.
    * Тип данных: Числовой признак.
17) Соотношение талии и бедер (`waist_to_hip_ratio`):
    * Описание: Соотношение объемов талии и бедер.
    * Тип данных: Числовой признак.
18) Систолическое давление (`systolic_bp`): 
    * Описание: Верхнее артериальное давление.
    * Тип данных: Числовой признак.
19) Диастолическое давление (`diastolic_bp`):
    * Описание: Нижнее артериальное давление.
    * Тип данных: Числовой признак.
20) Пульс (`heart_rate`):
    * Описание: Частота сердечных сокращений.
    * Тип данных: Числовой признак.
21) Общий холестерин (`cholesterol_total`):
    * Описание: Общий уровень холестерина.
    * Тип данных: Числовой признак.
22) HDL холестерин (`hdl_cholesterol`):
    * Описание: Холестерин липопротеинов высокой плотности.
    * Тип данных: Числовой признак.
23) LDL холестерин (`ldl_cholesterol`):
    * Описание: Холестерин липопротеинов низкой плотности.
    * Тип данных: Числовой признак.
24) Триглицериды (`triglycerides`):
    * Описание: Уровень триглицеридов в крови.
    * Тип данных: Числовой признак.
25) Глюкоза натощак (`glucose_fasting`):
    * Описание: Уровень глюкозы на голодный желудок.
    * Тип данных: Числовой признак.
26) Глюкоза после еды (`glucose_postprandial`):
    * Описание: Уровень глюкозы после приема пищи.
    * Тип данных: Числовой признак.
27) Уровень инсулина (`insulin_level`):
    * Описание: Уровень инсулина в крови.
    * Тип данных: Числовой признак.
28) Гликированный гемоглобин (`hba1c`):
    * Описание: Показатель уровня сахара в крови за 3 месяца.
    * Тип данных: Числовой признак.
29) Оценка риска диабета (`diabetes_risk_score`):
    * Описание: Интегральная оценка риска диабета.
    * Тип данных: Числовой признак.
30) Стадия диабета (`diabetes_stage`):
    * Описание: Стадия диабета.
    * Тип данных: Категориальный признак.
31) Диагностированный диабет (`diagnosed_diabetes`):
    * Описание: Факт диагностики диабета.
    * Тип данных: Бинарный признак.


Целевая переменная: `diagnosed_diabetes` - бинарный признак, указывающий на наличие диагностированного диабета у пациента.

In [11]:
from utils import get_info_unique

get_info_unique(data)

| gender          (count:  3)
| ['Male' 'Female' 'Other']
| ethnicity       (count:  5)
| ['Asian' 'White' 'Hispanic' 'Black' 'Other']
| education_level (count:  4)
| ['Highschool' 'Graduate' 'Postgraduate' 'No formal']
| income_level    (count:  5)
| ['Lower-Middle' 'Middle' 'Low' 'Upper-Middle' 'High']
| employment_status (count:  4)
| ['Employed' 'Unemployed' 'Retired' 'Student']
| smoking_status  (count:  3)
| ['Never' 'Former' 'Current']
| diabetes_stage  (count:  5)
| ['Type 2' 'No Diabetes' 'Pre-Diabetes' 'Gestational' 'Type 1']


Реализуем пользовательский класс для предобработки данных без использования наследования. Его цель - преобразовать все категориальные и числовые признаки в формат, пригодный для линейных моделей машинного обучения в задаче классификации диабета.


Теперь рассмотрим, что будет представлять из себя созданный нами класс.
В классе идёт обработка по следующим шагам.

1) Первичная обработка.
    * Кодировка в бинарный формат историй заболеваний:
        * family_history_diabetes
        * hypertension_history
        * cardiovascular_history 
    * ```OrdinalEncoder()``` для стадий диабета с естественной порядковой структурой:
        * {"No Diabetes": 0, "Prediabetes": 1, "Type 1": 2, "Type 2": 3, "Gestational": 4}
2) Теперь перейдём к трансформациям. Будем брать классы из sklearn.preprocessing.
    - ```OneHotEncoder(sparse_output=False, drop='first')``` - применяется к категориальным признакам без естественного порядка:
        * `gender`, `ethnicity`, `education_level`, `income_level`, `employment_status`, `smoking_status`
        * Параметр `drop='first'` исключает первую категорию для избежания дамми-ловушки
            * дамми-ловушки - проблема, возникающая при прямом кодировании, когда два закодированных бинарных признака имеют 100% корреляцию.
    - ```MinMaxScaler()``` - нормализация на диапазоне [0,1] для демографических и поведенческих признаков:
        * `age`, `alcohol_consumption_per_week`, `physical_activity_minutes_per_week`
        * `diet_score`, `sleep_hours_per_day`, `screen_time_hours_per_day`
        * `bmi`, `waist_to_hip_ratio`, `systolic_bp`, `diastolic_bp`, `heart_rate`
    - ```StandardScaler()``` - стандартизация для медицинских лабораторных показателей:
        * `cholesterol_total`, `hdl_cholesterol`, `ldl_cholesterol`, `triglycerides`
        * `glucose_fasting`, `glucose_postprandial`, `insulin_level`, `hba1c`, `diabetes_risk_score`
3) Сохраняем обученные трансформеры с помощью метода ```.save()``` сохраняется по умолчанию по пути _data/preprocessing/_. А так же если вам не нужно обучать модель она сама загрузит сохранённые трансформеры из заданной директории. (Её можно изменить с помощью парметра ```path_dir_w``` при создании класса);
4) Изменённые данные можно получить с помощью метода ```get_data()```. Так же методы ```fit_transform()``` и ```transform()``` возвращают изменённые данные.

Краткое обоснование выбора методов:
- ```OneHotEncoder``` выбран для категориальных признаков без естественного порядка (пол, этническая принадлежность и т.д.)
- ```MinMaxScaler``` применяется к признакам с разными единицами измерения, но сопоставимыми диапазонами значений
- ```StandardScaler``` критически важен для медицинских показателей, которые имеют разные шкалы измерений и распределения
- ```OrdinalEncoder``` используется для стадий диабета, где существует естественная прогрессия заболевания
- *Бинарное кодирование* оптимально для признаков с двумя состояниями (наличие/отсутствие заболевания)


In [12]:
# импортируем пользовательский класс, который изменяет входные данные данные
from utils import PreprocessingDataClsInNumber

#  Вариант если впервые проходите по блокноту
prepoc = PreprocessingDataClsInNumber(data)

prepoc.fit_transform()
prepoc.save()
data_df = prepoc.get_data()

#  Вариант проходите по блокноту повторно
# data_df = prepoc.transform()

In [13]:
data_df

Unnamed: 0,age,alcohol_consumption_per_week,physical_activity_minutes_per_week,diet_score,sleep_hours_per_day,screen_time_hours_per_day,family_history_diabetes,hypertension_history,cardiovascular_history,bmi,...,education_level_Postgraduate,income_level_Low,income_level_Lower-Middle,income_level_Middle,income_level_Upper-Middle,employment_status_Retired,employment_status_Student,employment_status_Unemployed,smoking_status_Former,smoking_status_Never
0,0.555556,0.0,0.258103,0.57,0.700000,0.453988,0,0,0,0.640496,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,0.416667,0.1,0.171669,0.67,0.500000,0.503067,0,0,0,0.334711,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.583333,0.1,0.068427,0.64,1.000000,0.466258,1,0,0,0.297521,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0
3,0.777778,0.0,0.058824,0.34,0.514286,0.288344,0,0,0,0.487603,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0
4,0.388889,0.1,0.130852,0.72,0.628571,0.276074,0,0,0,0.256198,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,0.388889,0.1,0.163265,0.83,0.485714,0.245399,0,0,0,0.611570,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0
99996,0.319444,0.3,0.091236,0.88,0.542857,0.263804,0,0,0,0.475207,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
99997,0.541667,0.4,0.145258,0.99,0.285714,0.343558,0,0,1,0.438017,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0
99998,0.402778,0.3,0.062425,0.59,0.528571,0.000000,0,1,0,0.487603,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0


## Разделение на тестовую и обучающую выборки
Для базового разделения данных используем метод `train_test_split` из библиотеки scikit-learn. 
Данные будут разделены на обучающую и тестовую выборки в соотношении **80:20**.

In [14]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data_df.drop("diagnosed_diabetes", axis=1), data_df["diagnosed_diabetes"],
                                                    test_size=0.2, random_state=RANDOM_STATE) 

# Подготовка к разбору моделей 

## Метрики

Метрики - ключевой элемент машинного обучения, так как они позволяют оценить, насколько эффективна модель, и определить направление её улучшения

|Метрика|Плюсы|Минусы|Cсылка на функцию|
|-|-|-|-|
|Accuracy|Простота интерпретации, общая оценка качества|Не информативна при несбалансированных классах|[accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html)|
|Precision|Показывает точность положительных прогнозов, важна когда False Positive дорого|Игнорирует False Negative|[precision_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)|
|Recall|Показывает полноту обнаружения положительных классов, важна когда False Negative дорого|Игнорирует False Positive|[recall_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)|
|F1-Score|Баланс между Precision и Recall, хороша для несбалансированных данных|Не учитывает True Negative|[f1_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)|
|ROC-AUC|Оценка качества разделения классов, инвариантна к порогу|Может быть оптимистичной при несбалансированных данных|[roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)|
|Log Loss|Учитывает уверенность прогнозов, строгая метрика|Чувствительна к калибровке вероятностей|[log_loss](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html)

Особенности для нашей задачи:

* Precision - важна, чтобы минимизировать ложные диагнозы диабета
* Recall - критична, чтобы не пропустить реальные случаи диабета
* F1-Score - оптимальный баланс для скрининговых задач
* ROC-AUC - показывает общее качество модели по разделению классов

In [15]:
from utils import ModelsClassificationHistory

Давайте заранее создадим экземпляр класса. Для работы с ним

In [16]:
history_models = ModelsClassificationHistory()

# Создание моделей

## LogisticRegression

In [17]:
from sklearn.linear_model import LogisticRegression

Логистическая регрессия - это линейная модель для задач классификации, которая строит линейную зависимость между признаками и вероятностью принадлежности к целевому классу. В отличие от линейной регрессии, она предсказывает не числовое значение, а вероятность от 0 до 1.

Для бинарной классификации логистическая регрессия сначала вычисляет линейную комбинацию признако (логит), а затем преобразует её в вероятность с помощью сигмоидной функции:

$$ 
    z = w_0 + w_1 * x_1 + w_2 * x_2 + \dots + w_n * x_n
$$

$$ 
    P(y=1) = \sigma(z) = \frac{1}{1+e^{-z}}
$$
где:
- $P(y=1)$ - вероятность принадлежности к классу 1
- $w_0$ - смещение (bias)
- $w_1, w_2, \dots, w_n$ - коэффициенты при признаках
- $x_1, x_2, \dots, x_n$ - значения признаков
- $\sigma(z)$ - сигмоидная функция


Графическое представление формулы представлено ниже:

![Геометрический смысл логистической регрессии](./data/images/logRegression/geometric_meaning.png)

In [18]:
LR_standard = LogisticRegression(random_state=RANDOM_STATE)
LR_standard.fit(X_train, y_train)
y_pred = LR_standard.predict(X_test)
y_pred_proba = LR_standard.predict_proba(X_test)  # Вероятности для метрик

In [19]:
history_models.add_model(
    LR_standard, 
    "linear_model", 
    LR_standard.get_params(), 
    "Логистическая регрессия, стандартные параметры", 
    y_true=y_test, 
    y_pred=y_pred,
    y_pred_proba=y_pred_proba
)
history_models.to_dataframe()

Unnamed: 0,Модели,Класс модели,Параметры модели,Accuracy,Precision,Recall,F1,ROC-AUC,Log-Loss,Заметки
0,LogisticRegression,linear_model,"{'C': 1.0, 'class_weight': None, 'dual': False...",0.857,0.8565,0.857,0.8566,,0.3485,"Логистическая регрессия, стандартные параметры"


## LinearSVC

## SGDClassifier

## Итоги