# Проект: Предсказание рисков сердечного приступа

**Описание проекта:** разработать модель машинного обучения по предсказанию риска сердечного приступа.
Компания предоставила данные с характеристиками сотрудников компании. Среди них — уровень удовлетворённости сотрудника работой в компании. Эту информацию получили из форм обратной связи: сотрудники заполняют тест-опросник, и по его результатам рассчитывается доля их удовлетворённости от 0 до 1, где 0 — совершенно неудовлетворён, 1 — полностью удовлетворён. \
Задача № 1 — построить модель, которая сможет предсказать уровень удовлетворённости сотрудника на основе данных заказчика. \
Задача № 2 — построить модель, которая сможет на основе данных заказчика предсказать то, что сотрудник уволится из компании.

**Описание датафреймов:**\
1 heart_train.csv - тренировочная выборка.\
2 heart_test.csv - тестовая выборка, по которой нужно получить предсказание.\

**Описание признаков датафреймов:**\
1 Unnamed: 0 - порядковый номер пациента в датафрейме, я полагаю.\
2 Age - влзраст пациента.\
3 Cholesterol - уровень холестирина пациента.\
4 Heart rate - частота сердеченых сокращений. \
5 Diabetes - наличие диабета у пациента. \
6 Family History - наличие у пациента истории семьи (болезней родственников).\
7 Smoking - курит ли пациент.\
8 Obesity - ожирение пациента. \
9 Alcohol Consumption -  употребление алкоголя (да / нет).\
10 Exercise Hours Per Week - количество часов упражнений в неделю.\
11 Diet - тип диеты пациента.\
12 Previous Heart Problems - проблемы с сердцем в прошлом.\
13 Medication Use - применение лекарств.\
14 Stress Level - уровень стресса пациента. \
15 Sedentary Hours Per Day - часы сидячего образа жизни в день.\
16 Income - доход пациента.\
17 BMI - индекс массы тела.\
18 Triglycerides - уровень триглицеридов пациента.\
19 Physical Activity Days Per Week - количество дней в неделю с физической активностью.\
20 Sleep Hours Per Day - количество часов сна в день.\
21 Heart Attack Risk (Binary) - риск сердечного приступа (целевой признак).\
22 Blood sugar - уровень сахара крови пациента.\
23 CK-MB - креатинин-киназа MB (потенциальный кандидат на удаление, т.к. этот показатель смотрится у пациентов уже ПОСЛЕ сердечного приступа).\
24 Troponin - тропонин, белок, который появляется в крови при разрушении сердечной мышцы (потенциальный кандидат на удаление, т.к. этот показатель смотрится у пациентов уже ПОСЛЕ сердечного приступа).\
25 Gender - пол пациента.\
26 Systolic blood pressure - систолическое давление пациента.\
27 Diastolic blood pressure - диастолическое давление пациента. \
28 id.

**Ход исследования (для каждой из задач):**\
1 Загрузка данных - загрузка и изучение информации из датасетов.\
2 Предобработка данных - обработка пропущенных значений, поиск дубликатов.\
3 Исследовательский анализ данных - изучение основных данных из датафреймов, их распределения, поиск зависимостей.\
4 Обучение моделей - для отбора лучшей модели машинного обучения и оценки важности признаков для лучшей модели.\
5 Оценка важности признаков для лучшей модели и построение графиков важности с помощью метода SHAP.\
6 Получение пердсказаний на тестовой выборке и сохранение лучшей модели.

**Общий вывод:** резюмирование полученных результатов, формулировка ключевых выводов.

In [None]:
# библиотеки общие
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
import plotly.express as px
import numpy as np
from scipy import stats as st
from math import sqrt
from math import factorial
from scipy.stats import shapiro
from scipy.stats import binom, norm
import math
!pip install phik -q
from phik import resources, report
pd.set_option('display.float_format', '{:,.3f}'.format)

# библиотеки линейной регрессии
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# библиотеки логистической регрессии
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

# библиотеки для пайплайна
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

from sklearn.preprocessing import OrdinalEncoder, MinMaxScaler, RobustScaler
from sklearn.compose import ColumnTransformer

from sklearn.metrics import accuracy_score, roc_auc_score, make_scorer, f1_score
from sklearn.dummy import DummyClassifier

!pip install imbalanced-learn -q 
from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTENC
from imblearn.combine import SMOTETomek

from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVC
!pip install shap -q
import shap

# import warnings filter
from warnings import simplefilter
# ignore all future warnings
simplefilter(action='ignore', category=FutureWarning)

from sklearn.model_selection import cross_val_score, cross_val_predict

from sklearn.metrics import ConfusionMatrixDisplay
#np.seterr(invalid='ignore')

from lightgbm import LGBMRegressor

from sklearn.impute import KNNImputer
from catboost import Pool, CatBoostRegressor, cv
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
from math import ceil
pd.options.display.max_columns = None
import optuna
import joblib

## Загрузка данных

In [None]:
htrain = pd.read_csv('/datasets/heart_train.csv', sep=',')

In [None]:
htest = pd.read_csv('/datasets/heart_test.csv', sep=',')

In [None]:
def infohead(a):
    a.info()
    display(a.head())

In [None]:
infohead(htrain)

In [None]:
infohead(htest)

In [None]:
htrain = htrain.rename(columns={'Unnamed: 0': '№'})

In [None]:
htest = htest.rename(columns={'Unnamed: 0': '№'})

In [None]:
colors_blue = ["#132C33", "#264D58", '#17869E', '#51C4D3', '#B4DBE9']
colors_dark = ["#1F1F1F", "#313131", '#636363', '#AEAEAE', '#DADADA']
colors_green = ['#01411C','#4B6F44','#4F7942','#74C365','#D0F0C0']
color_red = '#d62728'

In [None]:
fig = px.scatter_matrix(htrain,htrain.drop('Heart Attack Risk (Binary)', axis=1),height=1250,width=1100,template='plotly_white',opacity=0.7,
                       color_discrete_sequence=[color_red, colors_blue[3]],color='Heart Attack Risk (Binary)',
                       symbol='Heart Attack Risk (Binary)',color_continuous_scale=[color_red, colors_blue[3]])
fig.update_layout(font_family='monospace',font_size=10,
                  coloraxis_showscale=False,
                 legend=dict(x=0.02,y=1.07,bgcolor=colors_dark[4]),
                 title=dict(text='Точечный график признаков',x=0.5,y=0.97,
                   font=dict(color=colors_dark[2],size=24)))
fig.show()

#### Датафреймы сохранены в htrain и htest.

## Предобработка данных

### Оценим наличие пропусков

In [None]:
temp_tj = htrain.copy()      
missing_tj = (pd.DataFrame({'Кол-во пропусков': temp_tj.isnull().sum(), 'Доля пропусков': temp_tj.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing_tj

In [None]:
temp = htest.copy()      
missing = (pd.DataFrame({'Кол-во пропусков': temp.isnull().sum(), 'Доля пропусков': temp.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing

In [None]:
null_train = htrain[htrain.isnull().any(axis=1)]

In [None]:
null_test = htest[htest.isnull().any(axis=1)]

In [None]:
infohead(null_train)

In [None]:
infohead(null_test)

In [None]:
null_train['Diet'].unique()

In [None]:
null_train['Heart Attack Risk (Binary)'].unique()

Как мы видим в пропусках есть только одна уникальна диета 3 и при этом все пациенты не имеют риска сердечного приступа. Следовательно, удалять строки с пропусками не очень разумно.

### Оценим наличие полных дубликатов

In [None]:
htrain.duplicated().sum()

In [None]:
htest.duplicated().sum()

###  Оценим наличие неявных дубликатов и ошибок в категориальных и бинарных столбцах датафреймов:

#### Оценим столбец Gender

In [None]:
htrain['№']= htrain['№'].astype('str')
htest['№']= htest['№'].astype('str')
htrain['id']= htrain['id'].astype('str')
htest['id']= htest['id'].astype('str')

In [None]:
htrain.select_dtypes(include='object').describe()

In [None]:
htest.select_dtypes(include='object').describe()

Количество уникальных значений в столбцах № и id равно количеству уникальных значений в датасетах. Следовательно, неполных дубликатов в этих столбцах нет.

In [None]:
htrain['Gender'].sort_values().unique()

In [None]:
htest['Gender'].sort_values().unique()

В столбце Gender наблюдается аномалия - 4 значения. Оценим их подробнее:

In [None]:
px.pie(htrain, names='Gender', title='Gender, htrain - предобработка')

In [None]:
px.pie(htest, names='Gender', title='Gender, htest - предобработка')

In [None]:
display(px.density_heatmap(htrain, x='Gender', y='Smoking',
                         color_continuous_scale='Viridis'))

Как видим представители пола 1 и 0 не курят. Как и мужчины в этом датасете. Проведем замену:

In [None]:
htrain.loc[htrain['Gender'] == '1.0', 'Gender'] = 'Male'
htrain.loc[htrain['Gender'] == '0.0', 'Gender'] = 'Male'
htest.loc[htest['Gender'] == '1.0', 'Gender'] = 'Male'
htest.loc[htest['Gender'] == '0.0', 'Gender'] = 'Male'

In [None]:
cat = ['Gender', 'Diabetes', 'Diet', 'Family History', 'Smoking', 'Obesity', 'Alcohol Consumption', 'Previous Heart Problems',	'Medication Use',	'Stress Level', 'Physical Activity Days Per Week']

In [None]:
for i in cat:
    display('htrain:', i, htrain[i].sort_values().unique())
    display('htest:', i, htest[i].sort_values().unique())

Как видим, аномальные значения (за исключением пропусков) отсутствуют. Заменим все пропуски на 11, т.к. восстановить истинное значение пропусков затруднительно.

In [None]:
#for i in cat:
    #htrain[i] = htrain[i].fillna(11)
    #htest[i] = htest[i].fillna(11)

In [None]:
temp_tj = htrain.copy()      
missing_tj = (pd.DataFrame({'Кол-во пропусков': temp_tj.isnull().sum(), 'Доля пропусков': temp_tj.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing_tj

In [None]:
temp = htest.copy()      
missing = (pd.DataFrame({'Кол-во пропусков': temp.isnull().sum(), 'Доля пропусков': temp.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing

#### Проведена оценка пропусков, дубликатов и аномальных значений в датафрейме.

### Исследовательский анализ данных

In [None]:
def desboxshaptrain(a, b):
    display(b)
    display(a[b].describe())
    display(px.box(a, y=b, width=400, height=400, title=b))
    display(px.box(htrain, x= 'Heart Attack Risk (Binary)', y=b, color = 'Heart Attack Risk (Binary)', width=800, height=500, title='Зависимость риска сердечного приступа от фактора'))

In [None]:
def desboxshaptest(a, b):
    display(a[b].describe())
    display(px.box(a, y=b, width=400, height=400, title=b))
    display(shapiro(a[b]))
    stat, p_value = shapiro(a[b])
    if p_value > 0.05:
        display('Нулевая гипотеза (Н0) о нормальности распределения данных не отвергается.')
    else:
        display('Нулевая гипотеза (Н0) о нормальности распределения данных отвергается.')

In [None]:
numer = ['Age', 'Cholesterol',	'Heart rate', 'Exercise Hours Per Week', 'Sedentary Hours Per Day',
                                                          'Income', 'BMI', 'Triglycerides','Physical Activity Days Per Week', 'Sleep Hours Per Day',
                                                         'Blood sugar', 'CK-MB', 'Troponin', 'Systolic blood pressure', 'Diastolic blood pressure']
for i in numer:
    desboxshaptrain(htrain, i)

Т.к. числовые данные нормализованы, смысла расписывать все в деталях нет. Но опредленные закономерности отметить можно:\
1 Age: пациенты с риском имеют возраст в диапазоне 0.044-0.854, пациенты без риска - 0-1.\
2 Hear rate: пациенты с риском имеют показатель в диапазоне 0.018-0.082, пациенты без риска - 0-0.105.\
3 Physical Activity Days Per Week: половина значений показателя у пациентов с риском находится в диапазоне 1-6, у пациентов без риска - 2-6.\
4 Blood sugar: как минимум половина всех значений равна медиане (0.227). Так не бывает, скорее всего так заполняли пропуски.\
5 Systolic blood pressure: пациенты с риском имеют показатель в диапазоне 0.161-0.742, пациенты без риска - 0-1.\
6 Diastolic blood pressure: пациенты с риском имеют показатель в диапазоне 0.209-0.791, пациенты без риска - 0-1.

In [None]:
numer = ['Age', 'Cholesterol',	'Heart rate', 'Exercise Hours Per Week', 'Sedentary Hours Per Day',
                                                          'Income', 'BMI', 'Triglycerides','Physical Activity Days Per Week', 'Sleep Hours Per Day',
                                                         'Blood sugar', 'CK-MB', 'Troponin', 'Systolic blood pressure', 'Diastolic blood pressure']
for i in numer:
    desboxshaptest(htest, i)

In [None]:
display(htrain['Heart Attack Risk (Binary)'].value_counts())
display(htrain['Heart Attack Risk (Binary)'].value_counts(normalize=True))
display(px.pie(htrain, names='Heart Attack Risk (Binary)', title='Heart Attack Risk (Binary)'))

Соотношение пациентов с риском к пациентам без риска примерно 1:2.

In [None]:
def valuepietrain(a, b):
    display(b)
    display(a[b].value_counts())
    display(a[b].value_counts(normalize=True))
    display(px.pie(a, names=b, title=b))
    display(px.density_heatmap(a, x='Heart Attack Risk (Binary)', y=b,
                         color_continuous_scale='Viridis',
                         title=b))

In [None]:
cat = ['Gender', 'Diabetes', 'Diet', 'Family History', 'Smoking', 'Obesity', 'Alcohol Consumption', 'Previous Heart Problems',	'Medication Use',	'Stress Level', 'Physical Activity Days Per Week']
for i in cat:
    valuepietrain(htrain, i)

Определенные наблюдения по категориальным признакам:\
1 Diabetes: самая большая группа датафрейма - пациенты без риска и с сахарным диабетом, самая маленькая группа - пациенты с риском и без сахарного диабета.\
2 Diet: есть 4 диеты (0, 1, 2, 3). У пациентов на диете 3 риска нет.\
3 Smoking - большинство пациентов в датафрейме (4908) - курят.

### Удалим из датафреймов столбцы №, id (они будут мешать моделям обучаться), Troponin, CK-MB (т.к. эти показатели используются для диагностики пациентов уже после приступа). Также удалим из htrain все строки, где Blood sugar равен медиане:

In [None]:
dftrain=htrain.drop(['CK-MB', 'Troponin', '№', 'id'], axis=1)

dftrain = dftrain[dftrain['Blood sugar'] != dftrain['Blood sugar'].median()]

infohead(dftrain)

In [None]:
dftest=htest.drop(['CK-MB', 'Troponin', '№', 'id'], axis=1)
infohead(dftest)

In [None]:
fig = px.scatter_matrix(dftrain,dftrain.drop('Heart Attack Risk (Binary)', axis=1),height=1250,width=1100,template='plotly_white',opacity=0.7,
                       color_discrete_sequence=[color_red, colors_blue[3]],color='Heart Attack Risk (Binary)',
                       symbol='Heart Attack Risk (Binary)',color_continuous_scale=[color_red, colors_blue[3]])
fig.update_layout(font_family='monospace',font_size=10,
                  coloraxis_showscale=False,
                 legend=dict(x=0.02,y=1.07,bgcolor=colors_dark[4]),
                 title=dict(text='Точечный график признаков',x=0.5,y=0.97,
                   font=dict(color=colors_dark[2],size=24)))
fig.show()

### Проведем оценку мультиколлинеарности в показателях датафрейма:

In [None]:
htrain.drop(columns=['Gender']).corr(method='spearman').style.background_gradient(cmap='coolwarm')

In [None]:
htrain.dropna().drop(columns=['№', 'id']).phik_matrix(interval_cols=['Age', 'Cholesterol',	'Heart rate', 'Exercise Hours Per Week', 'Sedentary Hours Per Day',
                                                          'Income', 'BMI', 'Triglycerides', 'Sleep Hours Per Day',
                                                         'Blood sugar', 'CK-MB', 'Troponin', 'Systolic blood pressure', 'Diastolic blood pressure']).style.background_gradient(cmap='coolwarm')

Мультиколлинеарность в данных отсутствует.

## Обучение моделей

Будет обучено несколько моделей. Где возможно будет проведен тюнинг гиперпараметров при помощи Otuna. В качестве основых метрик оценки будут f1 (т.к. нам важно и Recall и Precision) и Accuracy.

In [None]:
dftrain = dftrain.drop_duplicates()

In [None]:
RANDOM_STATE = 42

X_train25, X_test25, y_train25, y_test25 = train_test_split(
    dftrain.drop(columns=['Heart Attack Risk (Binary)']),
    dftrain['Heart Attack Risk (Binary)'],
    test_size = 0.25, 
    random_state = RANDOM_STATE,
    stratify = dftrain['Heart Attack Risk (Binary)'])


X_test = dftest

label_encoder = LabelEncoder()

# обучите модель и трансформируйте тренировочную выборку 
y_train25 = label_encoder.fit_transform(y_train25)
# трансформируем тестовую выборку
y_test25 = label_encoder.transform(y_test25)

display(X_train25.shape)
display(X_test25.shape)
display(y_train25.shape)
display(y_test25.shape)

# создаём списки с названиями признаков
ohe_columns = ['Gender', 'Diabetes', 'Diet', 'Family History', 'Smoking', 'Obesity', 'Alcohol Consumption', 'Previous Heart Problems',	'Medication Use', 'Physical Activity Days Per Week']
ord_columns = ['Stress Level', 'Physical Activity Days Per Week']
num_columns = ['Age', 'Cholesterol', 'Heart rate', 'Exercise Hours Per Week', 'Sedentary Hours Per Day',
                                                          'Income', 'BMI', 'Triglycerides', 'Sleep Hours Per Day',
                                                         'Blood sugar', 'Systolic blood pressure', 'Diastolic blood pressure']

ohe_pipe = Pipeline(
    [('simpleImputer_ohe', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ohe', OneHotEncoder(drop='first', handle_unknown='ignore'))
    ])

ord_pipe = Pipeline(
    [('simpleImputer_before_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ord',  OrdinalEncoder(
                categories=[
                    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
                    [0, 1, 2, 3, 4, 5, 6, 7]
                ], 
                handle_unknown='use_encoded_value', unknown_value=np.nan
            )
        ),
     ('simpleImputer_after_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent'))
    ]
)



# создаём общий пайплайн для подготовки данных
data_preprocessor = ColumnTransformer(
    [('ohe', ohe_pipe, ohe_columns),
     ('ord', ord_pipe, ord_columns),
     ('num', [MinMaxScaler(), StandardScaler(), RobustScaler()], num_columns)
    ], 
    remainder='passthrough'
)

# создаём итоговый пайплайн: подготовка данных и модель
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

param_grid1 = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 40),
        'models__max_features': range(2, 40),
        'models__min_samples_split': range(2, 40),
        'models__criterion': ['gini', 'entropy'],
        'models__class_weight': ['balanced', None],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    }
]
    
    # словарь для модели KNeighborsClassifier() 
param_grid2 = [    
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 40),
        'models__weights': ['uniform', 'distance'],
        'models__metric': ['euclidean', 'manhattan', 'minkowski'],
        'models__leaf_size': range(10, 60),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    }
]
    

    # словарь для модели LogisticRegression()
param_grid3 = [
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE)],
        'models__penalty': ['l1', 'l2', 'elasticnet'],
        'models__C': range(1, 40),
        'models__solver': ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'],
        'models__max_iter': [1200],
        'models__class_weight': ['balanced', None],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    }
]



In [None]:
data_preprocessor1 = ColumnTransformer(
    [
        ('ohe', ohe_pipe, ohe_columns),
        ('ord', ord_pipe, ord_columns),
        ('num', StandardScaler(), num_columns)
    ], 
    remainder='passthrough'
)

f1_scorer = make_scorer(f1_score)

Т.к. целевой признак несбалансирован, установим в настройки метрик average='weighted':

In [None]:
def cv_metrics(y_train25, y_train_pred):
    cv_f1 = f1_score(y_train25, y_train_pred, average='weighted')
    cv_accuracy = accuracy_score(y_train25, y_train_pred)
    cv_recall = recall_score(y_train25, y_train_pred, average='weighted')
    cv_precision = precision_score(y_train25, y_train_pred, average='weighted')
    cv_roc_auc = roc_auc_score(y_train25, y_train_pred, average='weighted', multi_class='ovr')

    display(f"Метрики на кросс-валидации:")
    display(f"F1 score: {cv_f1:.4f}")
    display(f"Accuracy: {cv_accuracy:.4f}")
    display(f"Recall: {cv_recall:.4f}")
    display(f"Precision: {cv_precision:.4f}")
    display(f"ROC AUC: {cv_roc_auc:.4f}")

In [None]:
def metrics(y_test25, y_pred):
    f1 = f1_score(y_test25, y_pred, average='weighted')
    accuracy = accuracy_score(y_test25, y_pred)
    recall = recall_score(y_test25, y_pred, average='weighted')
    precision = precision_score(y_test25, y_pred, average='weighted')
    roc_auc = roc_auc_score(y_test25, y_pred, average='weighted', multi_class='ovr')
    
    display(f"Метрики по результатам тестовой выборки:")
    display(f"F1 score: {f1:.4f}")
    display(f"Accuracy: {accuracy:.4f}")
    display(f"Recall: {recall:.4f}")
    display(f"Precision: {precision:.4f}")
    display(f"ROC AUC: {roc_auc:.4f}")
    

Первичная оценка модели будет проводится по метрикам f1 (т.к. нам важны и recall и precision) и accuracy.

### Обучение модели DecisionTreeClassifier

In [None]:
randomized_search1 = RandomizedSearchCV(
    pipe_final, 
    param_grid1, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search1.fit(X_train25, y_train25)

y_train_pred1 = cross_val_predict(
    randomized_search1.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)



display('Лучшая модель и её параметры DecisionTreeClassifier:\n\n', randomized_search1.best_estimator_)


cv_metrics(y_train25, y_train_pred1)


best_model1 = randomized_search1.best_estimator_
y_pred1 = best_model1.predict(X_test25)

metrics(y_test25, y_pred1)

cm1 = confusion_matrix(y_test25, y_pred1)

disp1 = ConfusionMatrixDisplay(confusion_matrix=cm1, display_labels=best_model1.classes_)
disp1.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок DecisionTreeClassifier')
plt.show()


In [None]:
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('decision_tree', DecisionTreeClassifier(random_state=42))
    ]
)

 

# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    max_depth = trial.suggest_int('max_depth', 2, 40)
    max_features = trial.suggest_categorical('max_features', ['auto', 'sqrt', 'log2', None])
    min_samples_split = trial.suggest_int('min_samples_split', 2, 40)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 40)
    criterion = trial.suggest_categorical('criterion', ['gini', 'entropy'])
    class_weight = trial.suggest_categorical('class_weight', [None, 'balanced'])
    
    # настраиваем параметры Decision Tree
    pipeline.set_params(
        decision_tree__max_depth=max_depth,
        decision_tree__max_features=max_features,
        decision_tree__min_samples_split=min_samples_split,
        decision_tree__min_samples_leaf=min_samples_leaf,
        decision_tree__criterion=criterion,
        decision_tree__class_weight=class_weight,
        decision_tree__random_state=RANDOM_STATE
    )
    
    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0

# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

# Выводим лучшие параметры
display("Лучшие параметры DecisionTreeClassifier + Optuna:")
display(study.best_params)

y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)

# настраиваем параметры пайплайна
pipeline.set_params(
    decision_tree__max_depth=study.best_params['max_depth'],
    decision_tree__max_features=study.best_params['max_features'],
    decision_tree__min_samples_split=study.best_params['min_samples_split'],
    decision_tree__min_samples_leaf=study.best_params.get('min_samples_leaf', 1),
    decision_tree__criterion=study.best_params['criterion'],
    decision_tree__class_weight=study.best_params['class_weight'],
    decision_tree__random_state=RANDOM_STATE
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем F1 на тестовой выборке
y_pred = pipeline.predict(X_test25)
metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['decision_tree'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок DecisionTreeClassifier + Optuna')
plt.show()

# Сохраняем модель
model1 = pipeline

Модель 1 (DecisionTreeClassifier):

'Метрики на кросс-валидации:'
'F1 score: 0.6674'\
'Accuracy: 0.6543'\
'Recall: 0.6543'\
'Precision: 0.6989'\
'ROC AUC: 0.6452'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.6658'\
'Accuracy: 0.6554'\
'Recall: 0.6554'\
'Precision: 0.6851'\
'ROC AUC: 0.6288'

Модель 2 (DecisionTreeClassifier + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.5876'\
'Accuracy: 0.7033'\
'Recall: 0.7033'\
'Precision: 0.6441'\
'ROC AUC: 0.5037'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.6791'\
'Accuracy: 0.6704'\
'Recall: 0.6704'\
'Precision: 0.6940'\
'ROC AUC: 0.6396'

Лучшая модель по выбранным метрика - установить трудно. Посмотрим, что покажут другие модели.

### Обучение KNeighborsClassifier

In [None]:
randomized_search2 = RandomizedSearchCV(
    pipe_final, 
    param_grid2, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search2.fit(X_train25, y_train25)

y_train_pred2 = cross_val_predict(
    randomized_search2.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)



display('Лучшая модель и её параметры KNeighborsClassifier:\n\n', randomized_search2.best_estimator_)


cv_metrics(y_train25, y_train_pred2)


best_model2 = randomized_search2.best_estimator_
y_pred2 = best_model2.predict(X_test25)

metrics(y_test25, y_pred2)

cm2 = confusion_matrix(y_test25, y_pred2)

disp2 = ConfusionMatrixDisplay(confusion_matrix=cm2, display_labels=best_model2.classes_)
disp2.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок KNeighborsClassifier')
plt.show()

In [None]:
# Создаем пайплайн
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('knn', KNeighborsClassifier()) 
    ]
)


# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    n_neighbors = trial.suggest_int('n_neighbors', 1, 40)
    weights = trial.suggest_categorical('weights', ['uniform', 'distance'])
    algorithm = trial.suggest_categorical('algorithm', ['auto', 'ball_tree', 'kd_tree', 'brute'])
    leaf_size = trial.suggest_int('leaf_size', 10, 60)
    metric = trial.suggest_categorical('metric', ['euclidean', 'manhattan', 'minkowski'])
    
    # Для метрики Минковского нужен параметр p
    if metric == 'minkowski':
        p = trial.suggest_int('p', 1, 3)
    else:
        p = 2  # значение по умолчанию для евклидова расстояния
    
    # указываем путь к параметрам KNN
    pipeline.set_params(
        knn__n_neighbors=n_neighbors,
        knn__weights=weights,
        knn__algorithm=algorithm,
        knn__leaf_size=leaf_size,
        knn__metric=metric,
        knn__p=p
    )
    
    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0

# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

# Выводим лучшие параметры
display("Лучшие параметры KNeighborsClassifier + Optuna:")
display(study.best_params)

y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)

# настраиваем параметры пайплайна
pipeline.set_params(
    knn__n_neighbors=study.best_params['n_neighbors'],
    knn__weights=study.best_params['weights'],
    knn__algorithm=study.best_params['algorithm'],
    knn__leaf_size=study.best_params['leaf_size'],
    knn__metric=study.best_params['metric'],
    knn__p=study.best_params.get('p', 2)  # Если p не найден, используем значение по умолчанию
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем F1 на тестовой выборке
y_pred = pipeline.predict(X_test25)
metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['knn'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок KNeighborsClassifier + Optuna')
plt.show()

model2 = pipeline

Модель 3 (KNeighborsClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7446'\
'Accuracy: 0.7687'\
'Recall: 0.7687'\
'Precision: 0.7581'\
'ROC AUC: 0.6567'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7353'\
'Accuracy: 0.7571'\
'Recall: 0.7571'\
'Precision: 0.7421'\
'ROC AUC: 0.6501'

Модель 4 (KNeighborsClassifier + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.7367'\
'Accuracy: 0.7385'\
'Recall: 0.7385'\
'Precision: 0.7351'\
'ROC AUC: 0.6800'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7352'\
'Accuracy: 0.7345'\
'Recall: 0.7345'\
'Precision: 0.7359'\
'ROC AUC: 0.6851'

Модели № 3 и № 4 ощутимо лучше моделей № 1 и № 2.

### Обучение модели LogisticRegression

In [None]:
randomized_search3 = RandomizedSearchCV(
    pipe_final, 
    param_grid3, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search3.fit(X_train25, y_train25)

display('Лучшая модель и её параметры LogisticRegression:\n\n', randomized_search3.best_estimator_)

y_train_pred3 = cross_val_predict(
    randomized_search3.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred3)


best_model3 = randomized_search3.best_estimator_
y_pred3 = best_model3.predict(X_test25)

metrics(y_test25, y_pred3)

cm3 = confusion_matrix(y_test25, y_pred3)

disp3 = ConfusionMatrixDisplay(confusion_matrix=cm3, display_labels=best_model3.classes_)
disp3.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок LogisticRegression')
plt.show()

In [None]:
# Создаем пайплайн
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('logistic', LogisticRegression(max_iter=1000, random_state=42))  # Увеличиваем max_iter для стабильности
    ]
)


# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    penalty = trial.suggest_categorical('penalty', ['l1', 'l2', 'elasticnet'])
    C = trial.suggest_loguniform('C', 1e-4, 1e4)
    solver = trial.suggest_categorical('solver', ['liblinear', 'saga', 'newton-cg', 'lbfgs', 'sag', 'newton-cholesky'])
    max_iter = trial.suggest_int('max_iter', 100, 1200)
    class_weight = trial.suggest_categorical('class_weight', ['balanced', None])
    
    # настраиваем параметры Logistic Regression
    pipeline.set_params(
        logistic__penalty=penalty,
        logistic__C=C,
        logistic__solver=solver,
        logistic__max_iter=max_iter,
        logistic__class_weight=class_weight
    )
    
    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0

# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

# Выводим лучшие параметры
display("Лучшие параметры LogisticRegression + Optuna:")
display(study.best_params)

y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)

# настраиваем параметры пайплайна
pipeline.set_params(
    logistic__penalty=study.best_params['penalty'],
    logistic__C=study.best_params['C'],
    logistic__solver=study.best_params['solver'],
    logistic__max_iter=study.best_params['max_iter'],
    logistic__class_weight=study.best_params['class_weight']
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем F1 на тестовой выборке
y_pred = pipeline.predict(X_test25)
metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['logistic'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок LogisticRegression + Optuna')
plt.show()

# Сохраняем модель
model3 = pipeline

Модель 5 (LogisticRegression):

'Метрики на кросс-валидации:'\
'F1 score: 0.5545'\
'Accuracy: 0.5374'\
'Recall: 0.5374'\
'Precision: 0.6541'\
'ROC AUC: 0.5793'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.5440'\
'Accuracy: 0.5292'\
'Recall: 0.5292'\
'Precision: 0.6598'\
'ROC AUC: 0.5828'



Модель 6 (LogisticRegression + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.5608'\
'Accuracy: 0.5424'\
'Recall: 0.5424'\
'Precision: 0.6471'\
'ROC AUC: 0.5736'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.5803'\
'Accuracy: 0.5631'\
'Recall: 0.5631'\
'Precision: 0.6695'\
'ROC AUC: 0.5996'

Модели № 5 и № 6 уступают моделям № 3 и № 4 по выбранным метрикам.

### Обучение модели SVC

In [None]:
param_grid4 = [
{
        'models__kernel': ['rbf'],
        'models__C': [0.1, 1, 10, 100, 1000], 
        'models__gamma': [1, 0.1, 0.01, 0.001, 0.0001],
        'models__degree': range(0, 40),
        'models__class_weight': ['balanced', None],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
        
    }
]

pipe_final4 = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', SVC(random_state=RANDOM_STATE, probability=True))  # Указываем базовую модель
])

randomized_search4 = RandomizedSearchCV(
    pipe_final4, 
    param_grid4, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search4.fit(X_train25, y_train25)

best_model4 = randomized_search4.best_estimator_

display('Лучшая модель и её параметры SVC:\n\n', randomized_search4.best_estimator_)

y_train_pred4 = cross_val_predict(
    randomized_search4.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred4)

y_pred4 = best_model4.predict(X_test25)

metrics(y_test25, y_pred4)

cm4 = confusion_matrix(y_test25, y_pred4)

disp4 = ConfusionMatrixDisplay(confusion_matrix=cm4, display_labels=best_model4.classes_)
disp4.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок SVC')
plt.show()

In [None]:
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('svc', SVC(random_state=42))  # Добавляем random_state для воспроизводимости
    ]
)



# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    kernel = trial.suggest_categorical('kernel', ['poly', 'rbf'])
    C = trial.suggest_loguniform('C', 1e-4, 1e4)
    gamma = trial.suggest_categorical('gamma', ['scale', 'auto'])
    degree = trial.suggest_int('degree', 2, 40)  # Только для полиномиального ядра
    class_weight = trial.suggest_categorical('class_weight', ['balanced', None])
    
    # Настраиваем параметры SVC
    pipeline.set_params(
        svc__kernel=kernel,
        svc__C=C,
        svc__gamma=gamma,
        svc__degree=degree,
        svc__class_weight=class_weight,
        svc__random_state=42  # Устанавливаем random_state
    )
    
    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0

# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

# Выводим лучшие параметры
display("Лучшие параметры SVC+Optuna:")
display(study.best_params)

y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)

# Настраиваем параметры пайплайна
pipeline.set_params(
    svc__kernel=study.best_params['kernel'],
    svc__C=study.best_params['C'],
    svc__gamma=study.best_params['gamma'],
    svc__degree=study.best_params['degree'],
    svc__class_weight=study.best_params['class_weight'],
    svc__random_state=42  # Устанавливаем random_state
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем F1 на тестовой выборке
y_pred = pipeline.predict(X_test25)
metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['svc'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок SVC+Optuna')
plt.show()

# Сохраняем модель
model4 = pipeline

Модель 7 (SVC):

'Метрики на кросс-валидации:'\
'F1 score: 0.7188'\
'Accuracy: 0.7184'\
'Recall: 0.7184'\
'Precision: 0.7191'\
'ROC AUC: 0.6638'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7250'\
'Accuracy: 0.7250'\
'Recall: 0.7250'\
'Precision: 0.7250'\
'ROC AUC: 0.6711'

Модель 8 (SVC + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.6380'\
'Accuracy: 0.6223'\
'Recall: 0.6223'\
'Precision: 0.6817'\
'ROC AUC: 0.6224'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7186'\
'Accuracy: 0.7194'\
'Recall: 0.7194'\
'Precision: 0.7179'\
'ROC AUC: 0.6616'

Модели № 7 и № 8 уступают моделям № 3 и № 4. Таким образом, среди небустинговых моделей лучшими оказались модели KNeighborsClassifier.

### Обучение модели LGBMClassifier

In [None]:
param_grid5 = [    
    {   'models': [LGBMClassifier(random_state=RANDOM_STATE)],
        'models__n_estimators': [125, 250, 370],
        'models__max_depth': range(-1, 16),
        'models__learning_rate': [0.01, 0.1, 0.2, 0.3, 0.4],
        'models__num_leaves': range(15, 120),
        'models__min_child_samples': range(1, 15),
        'models__min_split_gain': [0.0, 0.1],
        'models__class_weight': ['balanced', None],
        'models__verbose': [-1],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }
]

randomized_search5 = RandomizedSearchCV(
    pipe_final, 
    param_grid5, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search5.fit(X_train25, y_train25)

display('Лучшая модель и её параметры LGBMClassifier:\n\n', randomized_search5.best_estimator_)

y_train_pred5 = cross_val_predict(
    randomized_search5.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred5)


best_model5 = randomized_search5.best_estimator_
y_pred5 = best_model5.predict(X_test25)

metrics(y_test25, y_pred5)

cm5 = confusion_matrix(y_test25, y_pred5)

disp5 = ConfusionMatrixDisplay(confusion_matrix=cm5, display_labels=best_model5.classes_)
disp5.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок LGBMClassifier')
plt.show()

In [None]:
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('lgbm', LGBMClassifier(random_state=42))  # Добавляем random_state
    ]
)

# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    n_estimators = trial.suggest_int('n_estimators', 50, 1000)
    max_depth = trial.suggest_int('max_depth', -1, 16)
    learning_rate = trial.suggest_loguniform('learning_rate', 1e-3, 1e-1)
    num_leaves = trial.suggest_int('num_leaves', 8, 128)
    min_child_samples = trial.suggest_int('min_child_samples', 1, 100)
    min_split_gain = trial.suggest_loguniform('min_split_gain', 1e-8, 1.0)
    class_weight = trial.suggest_categorical('class_weight', ['balanced', None])
    verbose = trial.suggest_categorical('verbose', [-1])  # 0 - без вывода
    
    # Настраиваем параметры LGBM
    pipeline.set_params(
        lgbm__n_estimators=n_estimators,
        lgbm__max_depth=max_depth,
        lgbm__learning_rate=learning_rate,
        lgbm__num_leaves=num_leaves,
        lgbm__min_child_samples=min_child_samples,
        lgbm__min_split_gain=min_split_gain,
        lgbm__class_weight=class_weight,
        lgbm__random_state=42,
        lgbm__verbose=verbose
    )
    
    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0

# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

display("Лучшие параметры LGBMClassifier+Optuna:")
display(study.best_params)

y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)




# Настраиваем параметры пайплайна
pipeline.set_params(
    lgbm__n_estimators=study.best_params['n_estimators'],
    lgbm__max_depth=study.best_params['max_depth'],
    lgbm__learning_rate=study.best_params['learning_rate'],
    lgbm__num_leaves=study.best_params['num_leaves'],
    lgbm__min_child_samples=study.best_params['min_child_samples'],
    lgbm__min_split_gain=study.best_params['min_split_gain'],
    lgbm__class_weight=study.best_params['class_weight'],
    lgbm__random_state=42,
    lgbm__verbose=study.best_params['verbose']
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем F1 на тестовой выборке
y_pred = pipeline.predict(X_test25)
metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['lgbm'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок LGBMClassifier + Optuna')
plt.show()

model5 = pipeline

Модель № 9 (LGBMClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7402'\
'Accuracy: 0.7505'\
'Recall: 0.7505'\
'Precision: 0.7376'\
'ROC AUC: 0.6683'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7555'\
'Accuracy: 0.7665'\
'Recall: 0.7665'\
'Precision: 0.7546'\
'ROC AUC: 0.6842'

Модель № 10 (LGBMClassifier + Optuna):\
'Метрики на кросс-валидации:'\
'F1 score: 0.7261'\
'Accuracy: 0.7379'\
'Recall: 0.7379'\
'Precision: 0.7229'\
'ROC AUC: 0.6507'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7300'\
'Accuracy: 0.7326'\
'Recall: 0.7326'\
'Precision: 0.7279'\
'ROC AUC: 0.6710'

В паре модель № 9 и модель № 10 лучшей оказывается простая модель без тюнинга (№ 9). Она сопоставима с моделями № 3 и № 4.

### Обучение модели RandomForestClassifier

In [None]:
param_grid7 =  {    
        'models': [RandomForestClassifier(random_state=RANDOM_STATE)],
        'models__n_estimators': [125, 250, 375],
        'models__max_depth': [5, 10, 15, 20, 25, None],
        'models__min_samples_split': range(2, 40),
        'models__min_samples_leaf': range(2, 40),
        'models__class_weight': ['balanced', None],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }



randomized_search7 = RandomizedSearchCV(
    pipe_final, 
    param_grid7, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search7.fit(X_train25, y_train25)

display('Лучшая модель и её параметры RandomForestClassifier:\n\n', randomized_search7.best_estimator_)

y_train_pred7 = cross_val_predict(
    randomized_search7.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred7)

best_model7 = randomized_search7.best_estimator_
y_pred7 = best_model7.predict(X_test25)

metrics(y_test25, y_pred7)

cm7 = confusion_matrix(y_test25, y_pred7)

disp7 = ConfusionMatrixDisplay(confusion_matrix=cm7, display_labels=best_model7.classes_)
disp7.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок RandomForestClassifier')
plt.show()

In [None]:
# Создаем пайплайн
pipeline = Pipeline(
    [
        ('preprocessor', data_preprocessor1),
        ('rf', RandomForestClassifier(random_state=42)) 
    ]
)

# Функция для оптимизации
def objective(trial):
    # Определяем пространство поиска гиперпараметров
    n_estimators = trial.suggest_int('n_estimators', 50, 500)
    max_depth = trial.suggest_int('max_depth', 0, 25)
    min_samples_split = trial.suggest_int('min_samples_split', 2, 40)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 40)
    class_weight = trial.suggest_categorical('class_weight', ['balanced', None])
    
    # Настраиваем параметры RandomForest
    pipeline.set_params(
        rf__n_estimators=n_estimators,
        rf__max_depth=max_depth,
        rf__min_samples_split=min_samples_split,
        rf__min_samples_leaf=min_samples_leaf,
        rf__class_weight=class_weight,
        rf__random_state=42
    )

    try:
        # Вычисляем оценку F1
        scores = cross_val_score(pipeline, X_train25, y_train25, cv=5, scoring=f1_scorer)
        return scores.mean()
    except Exception as e:
        print(f"Ошибка при кросс-валидации: {e}")
        return 0.0
    
# Запускаем оптимизацию
sampler = optuna.samplers.TPESampler(seed=42)
study = optuna.create_study(direction='maximize', sampler=sampler)
study.optimize(objective, n_trials=100)

# Выводим лучшие параметры
display("Лучшие параметры RandomForestClassifier + Optuna:")
display(study.best_params)

# Метрики на кросс-валидации
y_train_pred = cross_val_predict(pipeline, X_train25, y_train25, cv=5)

cv_metrics(y_train25, y_train_pred)

# Настраиваем параметры пайплайна
pipeline.set_params(
    rf__n_estimators=study.best_params['n_estimators'],
    rf__max_depth=study.best_params['max_depth'],
    rf__min_samples_split=study.best_params['min_samples_split'],
    rf__min_samples_leaf=study.best_params['min_samples_leaf'],
    rf__class_weight=study.best_params['class_weight'],
    rf__random_state=42
)

# Обучаем модель
pipeline.fit(X_train25, y_train25)

# Вычисляем метрики на тестовой выборке
y_pred = pipeline.predict(X_test25)

metrics(y_test25, y_pred)

# Матрица ошибок
cm = confusion_matrix(y_test25, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=pipeline.named_steps['rf'].classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок RandomForestClassifier + Optuna')
plt.show()

# Сохраняем модель
model7 = pipeline

Модель № 11 (RandomForestClassifier): 

'Метрики на кросс-валидации:'\
'F1 score: 0.7018'\
'Accuracy: 0.6996'\
'Recall: 0.6996'\
'Precision: 0.7045'\
'ROC AUC: 0.6480'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7202'\
'Accuracy: 0.7232'\
'Recall: 0.7232'\
'Precision: 0.7178'\
'ROC AUC: 0.6588'

Модель № 12 (RandomForestClassifier + Optuna): 
'Метрики на кросс-валидации:'\
'F1 score: 0.5958'\
'Accuracy: 0.5795'\
'Recall: 0.5795'\
'Precision: 0.6926'\
'ROC AUC: 0.6239'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.6008'\
'Accuracy: 0.5838'\
'Recall: 0.5838'\
'Precision: 0.6841'\
'ROC AUC: 0.6180'

Модели № 11 и № 12 уступают модели № 9.

### Обучение модели GradientBoostingClassifier

In [None]:
param_grid8 = {    
        'models': [GradientBoostingClassifier(random_state=RANDOM_STATE)],
        'models__n_estimators': [50, 100, 200],
        'models__learning_rate': [0.01, 0.1, 0.2],
        'models__max_depth': range(2, 11),
        'models__subsample': [0.8, 1.0],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }


randomized_search8 = RandomizedSearchCV(
    pipe_final, 
    param_grid8, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search8.fit(X_train25, y_train25)

display('Лучшая модель и её параметры GradientBoostingClassifier:\n\n', randomized_search8.best_estimator_)

y_train_pred8 = cross_val_predict(
    randomized_search8.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred8)

best_model8 = randomized_search8.best_estimator_
y_pred8 = best_model8.predict(X_test25)

metrics(y_test25, y_pred8)

cm8 = confusion_matrix(y_test25, y_pred8)

disp8 = ConfusionMatrixDisplay(confusion_matrix=cm8, display_labels=best_model8.classes_)
disp8.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок GradientBoostingClassifier')
plt.show()

Модель № 13 (GradientBoostingClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7369'\
'Accuracy: 0.7574'\
'Recall: 0.7574'\
'Precision: 0.7421'\
'ROC AUC: 0.6524'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7584'\
'Accuracy: 0.7759'\
'Recall: 0.7759'\
'Precision: 0.7651'\
'ROC AUC: 0.6781'

Модель № 14 (GradientBoostingClassifier + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.7295'\
'Accuracy: 0.7762'\
'Recall: 0.7762'\
'Precision: 0.8094'\
'ROC AUC: 0.6296'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7730'\
'Accuracy: 0.7947'\
'Recall: 0.7947'\
'Precision: 0.7937'\
'ROC AUC: 0.6879'

### Обучение модели CatBoostClassifier

In [None]:
param_grid6 = [    
    {   'models': [CatBoostClassifier(random_state=RANDOM_STATE, verbose=False)],
        'models__iterations': [125, 250, 500],
        'models__depth': range(3, 10),
        'models__learning_rate': [0.01, 0.05, 0.1],
        'models__l2_leaf_reg': range(1, 10),
        'models__border_count': range(32, 64),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }
]


randomized_search6 = RandomizedSearchCV(
    pipe_final, 
    param_grid6, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search6.fit(X_train25, y_train25)

display('Лучшая модель и её параметры CatBoostClassifier:\n\n', randomized_search6.best_estimator_)

y_train_pred6 = cross_val_predict(
    randomized_search6.best_estimator_, 
    X_train25, 
    y_train25, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train25, y_train_pred6)


best_model6 = randomized_search6.best_estimator_
y_pred6 = best_model6.predict(X_test25)

metrics(y_test25, y_pred6)

cm6 = confusion_matrix(y_test25, y_pred6)

disp6 = ConfusionMatrixDisplay(confusion_matrix=cm6, display_labels=best_model6.classes_)
disp6.plot(cmap=plt.cm.Blues)
plt.title('Матрица ошибок CatBoostClassifier')
plt.show()

Тюнинговать модели GradientBoostingClassifier и CatBoostClassifier мы не будем, т.к. это ОЧЕНЬ долго.

Модель № 13 (GradientBoostingClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7369'\
'Accuracy: 0.7574'\
'Recall: 0.7574'\
'Precision: 0.7421'\
'ROC AUC: 0.6524'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7584'\
'Accuracy: 0.7759'\
'Recall: 0.7759'\
'Precision: 0.7651'\
'ROC AUC: 0.6781'

Модель № 14 (CatBoostClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7408'\
'Accuracy: 0.7674'\
'Recall: 0.7674'\
'Precision: 0.7578'\
'ROC AUC: 0.6509'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7360'\
'Accuracy: 0.7589'\
'Recall: 0.7589'\
'Precision: 0.7447'\
'ROC AUC: 0.6497'

Модели № 13 и № 14 сопоставимы по качеству с моделями № 3, № 4 и № 9.

### Метрики лучших моделей:

Модель № 3 (KNeighborsClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7446'\
'Accuracy: 0.7687'\
'Recall: 0.7687'\
'Precision: 0.7581'\
'ROC AUC: 0.6567'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7353'\
'Accuracy: 0.7571'\
'Recall: 0.7571'\
'Precision: 0.7421'\
'ROC AUC: 0.6501'

Модель № 4 (KNeighborsClassifier + Optuna):

'Метрики на кросс-валидации:'\
'F1 score: 0.7367'\
'Accuracy: 0.7385'\
'Recall: 0.7385'\
'Precision: 0.7351'\
'ROC AUC: 0.6800'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7352'\
'Accuracy: 0.7345'\
'Recall: 0.7345'\
'Precision: 0.7359'\
'ROC AUC: 0.6851'

Модель № 9 (LGBMClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7402'\
'Accuracy: 0.7505'\
'Recall: 0.7505'\
'Precision: 0.7376'\
'ROC AUC: 0.6683'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7555'\
'Accuracy: 0.7665'\
'Recall: 0.7665'\
'Precision: 0.7546'\
'ROC AUC: 0.6842'

Модель № 13 (GradientBoostingClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7369'\
'Accuracy: 0.7574'\
'Recall: 0.7574'\
'Precision: 0.7421'\
'ROC AUC: 0.6524'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7584'\
'Accuracy: 0.7759'\
'Recall: 0.7759'\
'Precision: 0.7651'\
'ROC AUC: 0.6781'

Модель № 14 (CatBoostClassifier):

'Метрики на кросс-валидации:'\
'F1 score: 0.7408'\
'Accuracy: 0.7674'\
'Recall: 0.7674'\
'Precision: 0.7578'\
'ROC AUC: 0.6509'

'Метрики по результатам тестовой выборки:'\
'F1 score: 0.7360'\
'Accuracy: 0.7589'\
'Recall: 0.7589'\
'Precision: 0.7447'\
'ROC AUC: 0.6497'

Т.к. метрики f1 и accuracy у всех моделей примерно на одном уровне, выберем лучшую модель по метрике ROC AUC (т.к. наш целевой признак несбалансирован).
По этой логике лучшей моделью оказывается: модель № 9 (LGBMClassifier) со следующеми характеристиками: LGBMClassifier(class_weight='balanced', learning_rate=0.2, max_depth=7, min_child_samples=14, n_estimators=125, num_leaves=76, random_state=42, verbose=-1).

### Оценим лучшую модель при помощи dummy-модели:

In [None]:
dummy_model25 = DummyClassifier(random_state=RANDOM_STATE)
dummy_model25.fit(X_train25, y_train25)

# предсказание на тестовых данных
dummy_model_preds25 = dummy_model25.predict(X_test25)
dummy_model_preds25 = dummy_model_preds25.reshape(len(dummy_model_preds25),1)

# оценка качества модели по метрикам
metrics(y_test25, dummy_model_preds25)


Лучшая модель по пметрикам лучше dummy-модели.

### Оценим важность факторов лучшей модели:

In [None]:
def shapvalue(randomized_search, X_train, X_test):
    bp = randomized_search.best_estimator_
    fno = bp.named_steps['preprocessor'].get_feature_names_out()
    X_train_bp = bp.named_steps['preprocessor'].transform(X_train) 
    X_test_bp = bp.named_steps['preprocessor'].transform(X_test)
    bm = bp.named_steps['models']
    explainer = shap.Explainer(bm, X_train_bp, feature_names=fno)
    shap_values = explainer(X_test_bp)
    return shap_values

In [None]:
shap.plots.bar(shapvalue(randomized_search5, X_train25, X_test25), max_display=17, show=False)
plt.xlabel("Среднее SHAP-значение признака")
plt.ylabel("Признак")
plt.title("График общей значимости признаков")
plt.show()

In [None]:
shap.plots.beeswarm(shapvalue(randomized_search5, X_train25, X_test25), max_display=16, show=False)
plt.xlabel("SHAP-значение признака")
plt.ylabel("Признак")
plt.title("График влияния признаков на предсказание модели")
plt.show()

Наиболее важные признаки для модели:\
1 Diet (0.7) - а именно тип 3 (пациенты на этой диете не имеют риска сердечного приступа).\
2 Systilic Blood Presuure (0.46) - чем оно ниже, тем меньше риск.\
3 Sedentary Hours Per Day (0.39).\
4 Exercise Hours Per Week (0.36).\
5 Cholesterol (0.35).\
6 Triglycerides (0.34).\
7 Heart Rate (0.29) - чем оно меньше, тем меньше риск.\
8 Diastolic Blood Pressure (0.29).\
9 BMI (0.28)\
10 Income (0.28)\
11 Stress Level (0.27) - неожиданно, чем лн выше, тем меньше риск сердечного приступа.\
12 Blood Sugar (0.23).\
13 Age (0.22) - чем меньше возраст, тем меньше риск.\
14 Family History 1.0 (0.21) - если она известна, то риск сердечного приступа выше (либо потому что такие пациенты лучше изучены, либо генетика).\
15 Sleep Hours Per Day (0.2) - чем меньше человек спит, тем выше риск.

Несколько частных случаев предсказания для иллюстрации:

In [None]:
shap.plots.waterfall(shapvalue(randomized_search5, X_train25, X_test25)[5], show=False)
plt.xlabel("SHAP-значение признака")
plt.ylabel("Признак")
plt.title("Вклад каждого признака в модель для сотрудника")
plt.show()

In [None]:
shap.plots.waterfall(shapvalue(randomized_search5, X_train25, X_test25)[58], show=False)
plt.xlabel("SHAP-значение признака")
plt.ylabel("Признак")
plt.title("Вклад каждого признака в модель для сотрудника")
plt.show()

In [None]:
shap.plots.waterfall(shapvalue(randomized_search5, X_train25, X_test25)[181], show=False)
plt.xlabel("SHAP-значение признака")
plt.ylabel("Признак")
plt.title("Вклад каждого признака в модель для сотрудника")
plt.show()

### Сохранение лучшей модели:

Переобучим лучшую модель на тестовую выборку:

In [None]:
RANDOM_STATE = 42

X_train = dftrain.drop(columns=['Heart Attack Risk (Binary)'])
y_train = dftrain['Heart Attack Risk (Binary)']
X_test = dftest

label_encoder = LabelEncoder()

# обучите модель и трансформируйте тренировочную выборку 
y_train = label_encoder.fit_transform(y_train)


display(X_train.shape)
display(X_test.shape)
display(y_train.shape)

# создаём списки с названиями признаков
ohe_columns = ['Gender', 'Diabetes', 'Diet', 'Family History', 'Smoking', 'Obesity', 'Alcohol Consumption', 'Previous Heart Problems',	'Medication Use', 'Physical Activity Days Per Week']
ord_columns = ['Stress Level', 'Physical Activity Days Per Week']
num_columns = ['Age', 'Cholesterol', 'Heart rate', 'Exercise Hours Per Week', 'Sedentary Hours Per Day',
                                                          'Income', 'BMI', 'Triglycerides', 'Sleep Hours Per Day',
                                                         'Blood sugar', 'Systolic blood pressure', 'Diastolic blood pressure']

ohe_pipe = Pipeline(
    [('simpleImputer_ohe', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ohe', OneHotEncoder(drop='first', handle_unknown='ignore'))
    ])

ord_pipe = Pipeline(
    [('simpleImputer_before_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ord',  OrdinalEncoder(
                categories=[
                    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
                    [0, 1, 2, 3, 4, 5, 6, 7]
                ], 
                handle_unknown='use_encoded_value', unknown_value=np.nan
            )
        ),
     ('simpleImputer_after_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent'))
    ]
)



# создаём общий пайплайн для подготовки данных
data_preprocessor = ColumnTransformer(
    [('ohe', ohe_pipe, ohe_columns),
     ('ord', ord_pipe, ord_columns),
     ('num', [MinMaxScaler(), StandardScaler(), RobustScaler()], num_columns)
    ], 
    remainder='passthrough'
)

# создаём итоговый пайплайн: подготовка данных и модель
pipe_final_best = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', LGBMClassifier(random_state=RANDOM_STATE))
])


In [None]:
randomized_search_best = RandomizedSearchCV(
    pipe_final_best, 
    param_grid5, 
    cv=6,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search_best.fit(X_train, y_train)

display('Лучшая модель и её параметры LGBMClassifier:\n\n', randomized_search_best.best_estimator_)

y_train_pred = cross_val_predict(
    randomized_search5.best_estimator_, 
    X_train, 
    y_train, 
    cv=6, 
    method='predict'
)


cv_metrics(y_train, y_train_pred)



best_model = randomized_search_best.best_estimator_
y_pred = best_model.predict(X_test)

display(y_pred)

In [None]:
heart_pred=htest[['№', 'id']]

In [None]:
heart_pred['prediction'] = y_pred
infohead(heart_pred)

In [None]:
heart_pred = heart_pred.drop(columns=['№'])
infohead(heart_pred)

In [None]:
heart_pred.to_csv('heart_pred.csv', index=False)

In [None]:
try:
    joblib.dump(best_model, 'model9.pkl');
    display("Модель сохранена!")
except:
    display("Ошибка сохранения модели!")

## Общий вывод:

1 Датафреймы сохранены в htrain и htest.

2 Проведена оценка пропусков, дубликатов и аномальных значений в датафрейме.

3 Проведен исследовательский анализ данных:
3.1 Age: пациенты с риском имеют возраст в диапазоне 0.044-0.854, пациенты без риска - 0-1.\
3.2 Hear rate: пациенты с риском имеют показатель в диапазоне 0.018-0.082, пациенты без риска - 0-0.105.\
3.3 Physical Activity Days Per Week: половина значений показателя у пациентов с риском находится в диапазоне 1-6, у пациентов без риска - 2-6.\
3.4 Blood sugar: как минимум половина всех значений равна медиане (0.227). Так не бывает, скорее всего так заполняли пропуски.\
3.5 Systolic blood pressure: пациенты с риском имеют показатель в диапазоне 0.161-0.742, пациенты без риска - 0-1.\
3.6 Diastolic blood pressure: пациенты с риском имеют показатель в диапазоне 0.209-0.791, пациенты без риска - 0-1.\
3.7 Diabetes: самая большая группа датафрейма - пациенты без риска и с сахарным диабетом, самая маленькая группа - пациенты с риском и без сахарного диабета.\
3.8 Diet: есть 4 диеты (0, 1, 2, 3). У пациентов на диете 3 риска нет.\
3.9 Smoking - большинство пациентов в датафрейме (4908) - курят.

4 Проведено обучение 14 моделей машинного обучения. В качестве основых метрик оценки были f1 (т.к. нам важно и Recall и Precision) и Accuracy. Среди всех моделей выбрана лучшая: модель № 9 (LGBMClassifier) со следующеми характеристиками: LGBMClassifier(class_weight='balanced', learning_rate=0.2, max_depth=7, min_child_samples=14, n_estimators=125, num_leaves=76, random_state=42, verbose=-1).\

5 Проведен анализ важности факторов модели:\
5.1 Diet (0.7) - а именно тип 3 (пациенты на этой диете не имеют риска сердечного приступа).\
5.2 Systilic Blood Presuure (0.46) - чем оно ниже, тем меньше риск.\
5.3 Sedentary Hours Per Day (0.39).\
5.4 Exercise Hours Per Week (0.36).\
5.5 Cholesterol (0.35).\
5.6 Triglycerides (0.34).\
5.7 Heart Rate (0.29) - чем оно меньше, тем меньше риск.\
5.8 Diastolic Blood Pressure (0.29).\
5.9 BMI (0.28)\
5.10 Income (0.28)\
5.11 Stress Level (0.27) - неожиданно, чем лн выше, тем меньше риск сердечного приступа.\
5.12 Blood Sugar (0.23).\
5.13 Age (0.22) - чем меньше возраст, тем меньше риск.\
5.14 Family History 1.0 (0.21) - если она известна, то риск сердечного приступа выше (либо потому что такие пациенты лучше изучены, либо генетика).\
5.15 Sleep Hours Per Day (0.2) - чем меньше человек спит, тем выше риск.

6 Проведено обучние лучшей модели на тестовой выборке, сохранение предсказанных результатов (heart_pred) и лучшей модели (model9.pkl).