Будем работать с датасетом Pima Indian Diabetes - это набор данных из Национального института диабета, болезней органов пищеварения и почек. Целью набора данных является диагностическое прогнозирование наличия диабета у пациента. Несколько ограничений были наложены на выбор этих экземпляров из большой базы данных. В частности, все пациенты здесь - женщины в возрасте от 21 года, индийского происхождения.

Описание данных:Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, Age

- __Pregnancies__ - данная единица отображает количество беременностей, единицы измерения - целые числа от 0 до N. Тип переменной - количественная, дискретная.
- __Glucose__ - данная единица отображает уровень глюкозы в крови, единицы измерения - целые числа. Тип переменной - количественная, дискретная.
- __BloodPressure__ - данная единица отображает артериальное давление, единицы измерения - миллиметры р/с, целые числа. Тип переменной - количественная, дискретная.
- __SkinThickness__ - данная единица отображает обхват трицепса в миллиметрах, целые числа. Тип переменной - количественная, дискретная.
- __Insulin__ - данная единица отображает уровень инсулина в крови, целые числа. Тип переменной - количественная, дискретная.
- __BMI__ - данная единица отображает индекс массы тела. Тип переменной - количественная, непрерывная.
- __DiabetesPedigreeFunction__ - данная единица отображает риск наследственного диабета в зависимости наличия диабета у родственников. Выражается десятичной дробью от 0 до 1. Тип переменной - количественная, непрерывная.
- __Age__ - данная единица отражает возраст в целых числах. Тип переменной - количественная, дискретная.
- __Class__ - данная единица отражает наличие диабета у субъекта, выражена 0(здоров) или 1(болен). Тип переменной - категориальная, бинарная.

In [19]:
import pandas as pd
import numpy as np


**Задание 1.** Посчитайте количество пропусков в каждом из столбцов.

In [10]:
df = pd.read_csv('/content/dataset_diabet.csv')
df.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
0,6,148.0,72.0,35.0,,33.6,0.627,50,1
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1


In [11]:
df.isna().sum()   #1 вариант поиска пропусков

Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Class                         0
dtype: int64

In [None]:
df.isnull().sum()    #2 вариант поиска пропусков

Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Class                         0
dtype: int64

**Задание 2.** Замените все пропуски дискретных признаков соответствующими медианами, непрерывных признаков - средними значениями.

In [63]:
df.fillna(round(df[['BMI', 'DiabetesPedigreeFunction']].mean(),2), inplace=True)
df.fillna(round(df[['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness',
                    'Insulin', 'Age']].median(),2), inplace=True)

**Задание 3.** Вычислите основные статистики (минимум, максимум, среднее, дисперсию, квантили) для всех столбцов.

In [None]:
df.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
count,768.0,763.0,733.0,541.0,394.0,757.0,768.0,768.0,768.0
mean,3.845052,121.686763,72.405184,29.15342,155.548223,32.457464,0.471876,33.240885,0.348958
std,3.369578,30.535641,12.382158,10.476982,118.775855,6.924988,0.331329,11.760232,0.476951
min,0.0,44.0,24.0,7.0,14.0,18.2,0.078,21.0,0.0
25%,1.0,99.0,64.0,22.0,76.25,27.5,0.24375,24.0,0.0
50%,3.0,117.0,72.0,29.0,125.0,32.3,0.3725,29.0,0.0
75%,6.0,141.0,80.0,36.0,190.0,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [64]:
df.agg(['min', 'max', 'mean', 'var']) #2 вариант

  df.agg(['min', 'max', 'mean', 'var']) #2 вариант


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
min,0.0,44.0,24.0,7.0,14.0,18.2,0.078,21.0,0.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0
mean,3.845052,121.65625,72.386719,29.108073,140.671875,32.4575,0.471876,33.240885,0.348958
var,11.354056,926.489244,146.328741,77.285567,7462.033002,47.267706,0.109779,138.303046,0.227483


In [21]:
np.nanpercentile(df.Pregnancies, 75)

6.0

**Задание 4.** У скольких женщин старше 50 лет обнаружен диабет?

In [65]:
#1 вариант
df_age_class = df.loc[(df.Age > 50) & (df.Class == 1)]
df_age_class.Class.sum()

38

In [66]:
#2 вариант
df_age_class = df.loc[(df.Age > 50) & (df.Class == 1)]
df_age_class.Class.value_counts()

1    38
Name: Class, dtype: int64

**Задание 5.** Найдите трех женщин с наибольшим числом беременностей.

In [67]:
Top_3 = df.sort_values(by = 'Pregnancies', ascending=False).head(3)
Top_3

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class,new_clmns,давление
159,17,163.0,72.0,41.0,114.0,40.9,0.817,47,1,,
88,15,136.0,70.0,32.0,110.0,37.1,0.153,43,1,,
298,14,100.0,78.0,25.0,184.0,36.6,0.412,46,1,,


In [68]:
df.nlargest(3,['Pregnancies']) #2 способ


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class,new_clmns,давление
159,17,163.0,72.0,41.0,114.0,40.9,0.817,47,1,,
88,15,136.0,70.0,32.0,110.0,37.1,0.153,43,1,,
298,14,100.0,78.0,25.0,184.0,36.6,0.412,46,1,,


**Задание 6.** Сколько женщин возраста между 30 и 40 успело родить 3 или более детей?

In [69]:
age_p = (df.Age.between(30,40)) & (df.Pregnancies >= 3)
df.loc[age_p, 'new_clmns'] = 'более 3-х детей'
a = df.new_clmns == 'более 3-х детей'


print(df.loc[age_p, 'new_clmns']) #перепроверка
a.sum()

2      более 3-х детей
5      более 3-х детей
10     более 3-х детей
11     более 3-х детей
15     более 3-х детей
            ...       
744    более 3-х детей
748    более 3-х детей
756    более 3-х детей
762    более 3-х детей
765    более 3-х детей
Name: new_clmns, Length: 142, dtype: object


142

In [70]:
df.loc[age_p, 'new_clmns'].shape #еще перепроверка)

(142,)

**Задание 7.** Нормальным кровяным давлением будем считать давление в диапазоне [80-89]. У какого процента женщин давление нормальное?

In [71]:
bp = (df.BloodPressure.between(80,89))
p = round(df.loc[bp, 'давление'].shape[0]/len(df)*100, 2)
p

18.88

**Задание 8.** Считается, что BMI >= 30 - это признак ожирения.
У скольких женщин с признаками ожирения кровяное давление выше среднего?

In [72]:
req = (df.BMI >= 30) & (df.BloodPressure > df.BloodPressure.mean())
df.loc[req].shape[0]



251

**Задание 9.** Сравните средние значения для признаков __Glucose,	BloodPressure,	Insulin__ среди тех, у кого обнаружен диабет, и тех, у кого его нет.

In [73]:
pd.pivot_table(data = df,
               index = 'Class',
               values = ['Glucose', 'BloodPressure', 'Insulin'],
               aggfunc = 'mean').round(2)

Unnamed: 0_level_0,BloodPressure,Glucose,Insulin
Class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,70.92,110.68,127.79
1,75.12,142.13,164.7


**Задание 10.** Добавьте новый бинарный признак:

__wasPregnant__ $\in$ {0,1} - была женщина беременна (1) или нет (0)

In [79]:
def wasPregnant(x):
    if x > 0:
        return 1
    else:
        return 2

In [80]:
df['wasPregnant'] = df.Pregnancies.apply(wasPregnant)
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class,new_clmns,давление,wasPregant,wasPregnant
0,6,148.0,72.0,35.0,125.0,33.6,0.627,50,1,,,1,1
1,1,85.0,66.0,29.0,125.0,26.6,0.351,31,0,,,1,1


**Задание 11.** Сравните процент больных диабетом среди женщин, которые были беременны и не были.

In [None]:
#Ваш код здесь

**Задание 12.** Добавьте новый категориальный признак __bodyType__ на основе столбца BMI:

__BMI Categories:__

Underweight = <18.5

Normal weight = 18.5–24.9

Overweight = 25–29.9

Obesity = BMI of 30 or greater

Признак должен принимать значения Underweight, Normal weight, Overweight и Obesity.

In [88]:
def func_bodyType(x):
    if x <= 18.5:
        return 'Underweight'
    elif (x > 18.5) & (x <= 24.9):
        return 'Normal weight'
    elif (x > 25) & (x<=29.9):
        return 'Overweight'
    else:
        return 'Obesity'

In [112]:
df['bodyType'] = df.BMI.apply(func_bodyType)
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class,new_clmns,давление,wasPregant,wasPregnant,bodyType
0,6,148.0,72.0,35.0,125.0,33.6,0.627,50,1,,,1,1,Obesity
1,1,85.0,66.0,29.0,125.0,26.6,0.351,31,0,,,1,1,Overweight
2,8,183.0,64.0,29.0,125.0,23.3,0.672,32,1,более 3-х детей,,1,1,Normal weight
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,,,1,1,Overweight
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,,,2,2,Obesity
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
763,10,101.0,76.0,48.0,180.0,32.9,0.171,63,0,,,1,1,Obesity
764,2,122.0,70.0,27.0,125.0,36.8,0.340,27,0,,,1,1,Obesity
765,5,121.0,72.0,23.0,112.0,26.2,0.245,30,0,более 3-х детей,,1,1,Overweight
766,1,126.0,60.0,29.0,125.0,30.1,0.349,47,1,,,1,1,Obesity


**Задание 13.** Будем считать "здоровыми" тех, у кого нормальный вес и кровяное давление. Какой процент "здоровых" женщин больны диабетом?

In [114]:
req1 = (df.Class == 1)
req2 = (
    (df.bodyType == 'Normal weight') &
     (df.BloodPressure.between(80,89)) &
      (df.Class == 1)
)

In [116]:
df.loc[req2].shape[0] / df[req1].shape[0]*100

0.3731343283582089