# Учебный проект 10_Прогноз заболевания сердца у пациентов

## Содержание

* [Описание проекта](#Описание)
* [Импорт библиотек Python](#Импорт)
* [Задача 1_Предсказание уровня удовлетворенности сотрудника](#Задача1)
    * [Загрузка данных](#Задача1_Загрузка)
    * [Предобработка данных](#Задача1_Предобработка)
    * [Исследовательский анализ данных](#Задача1_Исследование)
    * [Корреляционный анализ данных](#Задача1_Корреляция)
    * [Построение моделей прогнозирования удовлетворенности сотрудника рабочим местом](#Задача1_Моделирование)
        * [Подготовка данных и построение пайплайна МО](#Задача1_Моделирование_Пайплайн)
        * [Выбор оптимальной модели](#Задача1_Моделирование_Выбор)
* [Задача 2_Предсказание увольнения сотрудника из компании](#Задача2)
    * [Загрузка данных](#Задача2_Загрузка)
    * [Предобработка данных](#Задача2_Предобработка)
    * [Исследовательский анализ данных](#Задача2_Исследование)
    * [Добавление нового входного признака](#Задача2_ДобавлениеПризнака)
    * [Построение моделей прогнозирования ухода сотрудника](#Задача2_Моделирование)
        * [Подготовка данных и построение пайплайна МО](#Задача2_Моделирование_Пайплайн)
        * [Выбор оптимальной модели](#Задача2_Моделирование_Выбор)
        * [Анализ важности признаков в работе модели](#Задача2_Моделирование_Признаки)
* [Общий вывод](#ОбщийВывод)

На исследовании находятся данные с `информацией о пациентах клиники и наличием у них заболеваний сердца`, которые были взяты из открытого источника Kaggle.


---

`Задача`

1. Разработать модели машинного обучения для **прогноза у пациента высокого или низкого риска поражения сердца**;
2. Разработка **приложения для автоматизированного прогнозирования риска поражения сердца на FastAPI**.

---

`Путь решения`

1. Собрать данные по сотрудникам в следующем ключе:
    * Данные о пациентах клиники - конкретно об их физиологических показателях и образе жизни:
        * Данные для обучения моделей;
        * Данные для тестирования качества моделей.
2. Исследовать датасет на предмет лучшего понимания сути данных;
3. Провести предобработку значений в наборах данных;
4. Провести исследовательский анализ данных для выявления закономерностей, применимых к последующей настройке моделей МО;
5. Построить и выбрать лучшую модель, которая `сделает прогноз высокого или низкого риска поражения сердца` (задача может решаться моделями классификации);
6. Оценить качество моделей на метриках. Оценить важность признаков для получения результатов прогноза;
7. Сформировать вывод о подготовленных решениях. Предложить заказчику лучшие модели для решения обозначенной задачи;
8. Подготовить скрипты и библиотеки для автоматизированной обработки данных и построения прогноза в приложении.

---

`Располагаемые данные`

**Данные обучающей выборки (характеристики работников и оценка удовлетворенности работников работой в компании) - train_data**

* id - уникальный идентификатор сотрудника;
* dept — отдел, в котором работает сотрудник;
* level — уровень занимаемой должности;
* workload — уровень загруженности сотрудника;
* employment_years — длительность работы в компании (в годах);
* last_year_promo — показывает, было ли повышение за последний год;
* last_year_violations — показывает, нарушал ли сотрудник трудовой договор за последний год;
* supervisor_evaluation — оценка качества работы сотрудника, которую дал руководитель;
* salary — ежемесячная зарплата сотрудника;
* job_satisfaction_rate — уровень удовлетворенности сотрудника работой в компании, целевой признак.

**Признаки тестовой выборки (характеристики работников) - test_features**

* id - уникальный идентификатор сотрудника;
* dept — отдел, в котором работает сотрудник;
* level — уровень занимаемой должности;
* workload — уровень загруженности сотрудника;
* employment_years — длительность работы в компании (в годах);
* last_year_promo — показывает, было ли повышение за последний год;
* last_year_violations — показывает, нарушал ли сотрудник трудовой договор за последний год;
* supervisor_evaluation — оценка качества работы сотрудника, которую дал руководитель;
* salary — ежемесячная зарплата сотрудника.

## Импорт библиотек Python <a class = 'anchor' id = 'Импорт'></a>

1. Импорт библиотек Python:
    * для манипулирования данными;
    * для визуализации данных;
    * для решения задач машинного обучения:
        * модели классификации;
        * метрики оценки эффективности моделей;
        * механизмы отбора данных и подбора параметров моделей;
        * механизмы подготовки данных;
        * механизмы построения пайплайнов;
        * механизм заполнения пустых значений;
        * механизм анализха влияния признаков.
2. Инициализация переменных-констант для последующего использования на этапе построения моделей МО;
3. Формирование вывода по итогам данного этапа.

In [1]:
# импорт библиотек python

# для манипулирования данными
import pandas as pd
# установка параметров для отображения табличных данных
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_colwidth', 100)
# установка параметров для отображения числовых значений
pd.set_option('display.float_format', '{:.2f}'.format)
# для работы с массивами данных
import numpy as np

# для визуализации данных
import matplotlib.pyplot as plt
import seaborn as sns
# установка размеров для последующих графиков в проекте
plt.rcParams['figure.figsize'] = (10, 5)

# для решения задач машинного обучения
# модели классификации
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

import numpy as np

# для визуализации данных
import matplotlib.pyplot as plt
import seaborn as sns
# установка размеров для последующих графиков в проекте
plt.rcParams['figure.figsize'] = (10, 5)


# модели классификации
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

# метрики оценки эффективности моделей
from sklearn.metrics import (recall_score,
                             precision_score,
                             confusion_matrix,
                             fbeta_score,
                             roc_auc_score,
                             make_scorer)

# механизмы отбора данных и подбора параметров моделей
from sklearn.model_selection import GridSearchCV

# механизмы подготовки данных
from sklearn.preprocessing import (StandardScaler,
                                   MinMaxScaler,
                                   OneHotEncoder,
                                   OrdinalEncoder,
                                   LabelEncoder)

# механизмы построения пайплайнов
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# механизм заполнения пустых значений
from sklearn.impute import SimpleImputer

# механизм анализа влияния признаков
import shap

In [2]:
# инициализация констант для дальнейшего использования в проекте
# инициализация переменной RANDOM_STATE для фиксирования "случайности"
RANDOM_STATE = 42

**Вывод**

1. Импортированы библиотеки Python:
    * для манипулирования данными:
        * pandas;
        * numpy.
    * для визуализации данных:
        * matplotlib.pyplot;
        * seaborn.
    * для решения задач машинного обучения:
        * LogisticRegression - модель логистической регрессии;
        * KNeighborsClassifier - модель k-ближайших соседей;
        * SVC - машина опорных векторов;
        * DecisionTreeClassifier - модель дерева принятия решений для классификации данных;
        * DecisionTreeRegressor - модель дерева принятия решений для задач регрессии;
        * метрики оценки эффективности моделей классификации;
        * train_test_split - механизм разделения данных;
        * GridSearchCV - механизм поиска гиперпараметров с перебором по "сетке";
        * StandardScaler - стандартизация данных;
        * MinMaxScaler - нормализация данных;
        * OneHotEncoder - one-hot кодирование категориальных признаков;
        * LabelEncoder - кодирование значений целевой переменной;
        * Pipeline - механизм построения пайплайнов;
        * ColumnTransformer - механизм объединения шагов пайплайна;
        * SimpleImputer - механизм заполнения пустых значений;
        * SHAP - механизм анализа важности признаков.
2. Инициализирована переменная **RANDOM_STATE** для фиксирования "случайности".

## Загрузка данных <a class = 'anchor' id = 'Загрузка'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Загрузка данных в рабочую среду Jupyter Notebook. Инициализация переменных в соответствие с названиями загружаемых датасетов:
    * **train_data**;
    * **test_features**.
2. Вывод на экран параметров датасетов:
    * вывод общей структуры набора данных - демонстрация первых 5 строк;
    * общей информации о наборе данных;
    * визуализация распределений количественных показателей.
3. Формирование вывода по итогам данного этапа.

In [3]:
# загрузка данных в рабочую среду

try:
    train_data = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/heart_train.csv') # тренировочная выборка
    test_features = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/heart_test.csv') # входные признаки тестовой выборки
except:
    train_data = pd.read_csv('/datasets/heart_train.csv')
    test_features = pd.read_csv('/datasets/heart_test.csv')

In [4]:
# инициализация пользовательской функции для первичного изучения содержимого наборов данных
def  first_meeting (df : pd.DataFrame, df_name : str) -> None:
    print(f'Структура набора данных {df_name}')
    display(df.head())
    print('Общая информация о наборе')
    print(df.info())
    print()

In [5]:
# инициализация пользовательской функции построения распределений количественных непрерывных показателей
def num_distribution(df : pd.DataFrame, column : str, bins : int):
    plt.subplot(1, 2, 1)
    plt.xlabel(f'Значения признака {column}')
    plt.ylabel(f'Частота значений признака')
    plt.title(f'Гистограмма значений {column}', fontsize = 10)
    sns.histplot(df, x = column, bins = bins)
    plt.subplot(1, 2, 2)
    plt.xlabel(f'Значения признака {column}')
    plt.title(f'Диаграмма размаха значений {column}', fontsize = 10)
    sns.boxplot(df, x = column)
    plt.grid(False)
    plt.show()

In [6]:
# инициализация пользовательской функции построения диаграмм количественных дискретных показателей
def num_countplot(df : pd.DataFrame, column : str):
    sns.countplot(df, x = column)
    plt.title(f'Столбчатая диаграмма значений признака {column}', fontsize = 12)
    plt.xlabel(f'Признак {column}')
    plt.ylabel(f'Количество значений признака')
    plt.show()

In [7]:
# вывод на экран параметров датасета 'train_data'
first_meeting(train_data, 'train_data')

Структура набора данных train_data


Unnamed: 0.1,Unnamed: 0,Age,Cholesterol,Heart rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,Exercise Hours Per Week,Diet,Previous Heart Problems,Medication Use,Stress Level,Sedentary Hours Per Day,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Heart Attack Risk (Binary),Blood sugar,CK-MB,Troponin,Gender,Systolic blood pressure,Diastolic blood pressure,id
0,0,0.36,0.73,0.07,1.0,1.0,1.0,1.0,1.0,0.54,1,1.0,0.0,8.0,0.23,0.11,0.46,0.98,3.0,0.33,0.0,0.23,0.05,0.04,Male,0.21,0.71,2664
1,1,0.2,0.33,0.05,1.0,1.0,0.0,0.0,1.0,0.07,2,1.0,0.0,9.0,0.29,0.16,0.12,0.52,3.0,0.83,0.0,0.15,0.02,0.0,Female,0.41,0.57,9287
2,2,0.61,0.86,0.06,1.0,0.0,1.0,1.0,1.0,0.94,2,1.0,1.0,6.0,0.55,0.6,0.37,0.01,2.0,1.0,0.0,0.23,0.05,0.04,Female,0.24,0.22,5379
3,3,0.73,0.01,0.05,0.0,0.0,1.0,0.0,1.0,0.7,0,0.0,1.0,3.0,0.33,0.08,0.05,0.13,0.0,0.33,1.0,0.23,0.05,0.04,Female,0.35,0.27,8222
4,4,0.78,0.76,0.02,0.0,0.0,1.0,0.0,1.0,0.41,1,0.0,0.0,8.0,0.52,0.34,0.83,0.07,5.0,1.0,1.0,0.23,0.05,0.04,Male,0.62,0.44,4047


Общая информация о наборе
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8685 entries, 0 to 8684
Data columns (total 28 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Unnamed: 0                       8685 non-null   int64  
 1   Age                              8685 non-null   float64
 2   Cholesterol                      8685 non-null   float64
 3   Heart rate                       8685 non-null   float64
 4   Diabetes                         8442 non-null   float64
 5   Family History                   8442 non-null   float64
 6   Smoking                          8442 non-null   float64
 7   Obesity                          8442 non-null   float64
 8   Alcohol Consumption              8442 non-null   float64
 9   Exercise Hours Per Week          8685 non-null   float64
 10  Diet                             8685 non-null   int64  
 11  Previous Heart Problems          8442 non-null   float64