# Задание: 
Прогнозирование вероятности диабета у пациентов

# Описание:
Вы работаете в медицинской клинике и вам предоставлен набор данных о пациентах, включающий информацию о различных медицинских параметрах и наличии или отсутствии диабета. Ваша задача - построить модель логистической регрессии для прогнозирования вероятности наличия диабета у пациентов.

# Шаги:

Импорт данных: Загрузите данные в DataFrame (например, из CSV-файла).

Исследование данных: Изучите данные, чтобы понять их структуру, типы признаков, наличие пропущенных значений и т. д.

Подготовка данных: Проведите необходимую предобработку данных, включая заполнение пропущенных значений, кодирование категориальных признаков и масштабирование признаков.

Разделение данных: Разделите данные на обучающую и тестовую выборки.

Обучение модели: Обучите модель логистической регрессии на обучающих данных.

Оценка модели: Оцените производительность модели на тестовых данных, используя метрики классификации, такие как точность, полнота, F1-мера и ROC AUC.

Интерпретация результатов: Проанализируйте коэффициенты модели, чтобы понять, какие медицинские параметры оказывают наибольшее влияние на вероятность наличия диабета.

# Дополнительные задачи:

Попробуйте улучшить модель, используя методы выбора признаков, регуляризацию или инженерию признаков.
Исследуйте важность признаков и попробуйте объяснить, какие медицинские параметры оказывают наибольшее влияние на вероятность наличия диабета.

In [15]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import seaborn as sns

In [21]:
df = pd.read_csv('diabetes.csv')
df.head(10)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1


In [18]:
corr = df.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Pregnancies,1.0,0.129459,0.141282,-0.081672,-0.073535,0.017683,-0.033523,0.544341,0.221898
Glucose,0.129459,1.0,0.15259,0.057328,0.331357,0.221071,0.137337,0.263514,0.466581
BloodPressure,0.141282,0.15259,1.0,0.207371,0.088933,0.281805,0.041265,0.239528,0.065068
SkinThickness,-0.081672,0.057328,0.207371,1.0,0.436783,0.392573,0.183928,-0.11397,0.074752
Insulin,-0.073535,0.331357,0.088933,0.436783,1.0,0.197859,0.185071,-0.042163,0.130548
BMI,0.017683,0.221071,0.281805,0.392573,0.197859,1.0,0.140647,0.036242,0.292695
DiabetesPedigreeFunction,-0.033523,0.137337,0.041265,0.183928,0.185071,0.140647,1.0,0.033561,0.173844
Age,0.544341,0.263514,0.239528,-0.11397,-0.042163,0.036242,0.033561,1.0,0.238356
Outcome,0.221898,0.466581,0.065068,0.074752,0.130548,0.292695,0.173844,0.238356,1.0


In [22]:
df.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [23]:
X = df[['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']].values
Y = df['Outcome'].values

array([[  6.   , 148.   ,  72.   , ...,  33.6  ,   0.627,  50.   ],
       [  1.   ,  85.   ,  66.   , ...,  26.6  ,   0.351,  31.   ],
       [  8.   , 183.   ,  64.   , ...,  23.3  ,   0.672,  32.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,  26.2  ,   0.245,  30.   ],
       [  1.   , 126.   ,  60.   , ...,  30.1  ,   0.349,  47.   ],
       [  1.   ,  93.   ,  70.   , ...,  30.4  ,   0.315,  23.   ]])