Будем работать с датасетом Pima Indian Diabetes - это набор данных из Национального института диабета, болезней органов пищеварения и почек. Целью набора данных является диагностическое прогнозирование наличия диабета у пациента. Несколько ограничений были наложены на выбор этих экземпляров из большой базы данных. В частности, все пациенты здесь - женщины в возрасте от 21 года, индийского происхождения.

Описание данных:Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, Age

- __Pregnancies__ - данная единица отображает количество беременностей, единицы измерения - целые числа от 0 до N. Тип переменной - количественная, дискретная.
- __Glucose__ - данная единица отображает уровень глюкозы в крови, единицы измерения - целые числа. Тип переменной - количественная, дискретная.
- __BloodPressure__ - данная единица отображает артериальное давление, единицы измерения - миллиметры р/с, целые числа. Тип переменной - количественная, дискретная.
- __SkinThickness__ - данная единица отображает обхват трицепса в миллиметрах, целые числа. Тип переменной - количественная, дискретная.
- __Insulin__ - данная единица отображает уровень инсулина в крови, целые числа. Тип переменной - количественная, дискретная.
- __BMI__ - данная единица отображает индекс массы тела. Тип переменной - количественная, непрерывная.
- __DiabetesPedigreeFunction__ - данная единица отображает риск наследственного диабета в зависимости наличия диабета у родственников. Выражается десятичной дробью от 0 до 1. Тип переменной - количественная, непрерывная.
- __Age__ - данная единица отражает возраст в целых числах. Тип переменной - количественная, дискретная.
- __Class__ - данная единица отражает наличие диабета у субъекта, выражена 0(здоров) или 1(болен). Тип переменной - категориальная, бинарная.

In [1]:
# Подключение библиотек
import pandas as pd
import numpy as np

In [2]:
filename='diabetes.cvs'

In [3]:
df = pd.read_csv('/content/diabetes.csv')
df  

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
0,6,148.0,72.0,35.0,,33.6,0.627,50,True
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101.0,76.0,48.0,180.0,32.9,0.171,63,0
764,2,122.0,70.0,27.0,,36.8,0.340,27,0
765,5,121.0,72.0,23.0,112.0,26.2,0.245,30,0
766,1,126.0,60.0,,,30.1,0.349,47,1


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   763 non-null    float64
 2   BloodPressure             733 non-null    float64
 3   SkinThickness             541 non-null    float64
 4   Insulin                   394 non-null    float64
 5   BMI                       757 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Class                     768 non-null    object 
dtypes: float64(6), int64(2), object(1)
memory usage: 54.1+ KB


In [5]:
# просмотр уникальных значений категориальных признаков
for col in df.select_dtypes('object'):
    print('+++'*10)
    print(df[col].unique()) 
    print('---'*10)

++++++++++++++++++++++++++++++
['True' '0' '1']
------------------------------


**Задание 1.** Посчитайте количество пропусков в каждом из столбцов.

In [6]:
#Ваш код здесь
df.isnull().sum()

Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Class                         0
dtype: int64

**Задание 2.** Замените все пропуски дискретных признаков соответствующими медианами, непрерывных признаков - средними значениями.

In [8]:
from pandas.compat.numpy.function import validate_argmin_with_skipna
#Ваш код здесь
df.Class[0]=1
df=df.astype({'Class':'int64'},
       errors='ignore'
       )
values={'Glucose':df.Glucose.median(),
        "BloodPressure":df.BloodPressure.median(),
        'SkinThickness':df.SkinThickness.median(),
        'Insulin':df.Insulin.median()}
df.fillna(value=values, inplace=True) 
print(df.info())      

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    float64
 2   BloodPressure             768 non-null    float64
 3   SkinThickness             768 non-null    float64
 4   Insulin                   768 non-null    float64
 5   BMI                       757 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Class                     768 non-null    int64  
dtypes: float64(6), int64(3)
memory usage: 54.1 KB
None


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.Class[0]=1


**Задание 3.** Вычислите основные статистики (минимум, максимум, среднее, дисперсию, квантили) для всех столбцов.

In [9]:
#Ваш код здесь

df.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
count,768.0,768.0,768.0,768.0,768.0,757.0,768.0,768.0,768.0
mean,3.845052,121.65625,72.386719,29.108073,140.671875,32.457464,0.471876,33.240885,0.348958
std,3.369578,30.438286,12.096642,8.791221,86.38306,6.924988,0.331329,11.760232,0.476951
min,0.0,44.0,24.0,7.0,14.0,18.2,0.078,21.0,0.0
25%,1.0,99.75,64.0,25.0,121.5,27.5,0.24375,24.0,0.0
50%,3.0,117.0,72.0,29.0,125.0,32.3,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


**Задание 4.** У скольких женщин старше 50 лет обнаружен диабет?

In [10]:
#Ваш код здесь
len(df. query('(Age>50) & (Class==1)'))

38

**Задание 5.** Найдите трех женщин с наибольшим числом беременностей.

In [9]:
#Ваш код здесь
df.sort_values(by='Pregnancies', ascending=False).head(n=3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Class
159,17,163.0,72.0,41.0,114.0,40.9,0.817,47,1
88,15,136.0,70.0,32.0,110.0,37.1,0.153,43,1
298,14,100.0,78.0,25.0,184.0,36.6,0.412,46,1


**Задание 6.** Сколько женщин возраста между 30 и 40 успело родить 3 или более детей?

In [11]:

#Ваш код здесь
df.loc[(df.Age.between(30,40)) & (df.Pregnancies >= 3)].shape[0]


142

**Задание 7.** Нормальным кровяным давлением будем считать давление в диапазоне [80-89]. У какого процента женщин давление нормальное?

In [14]:
#Ваш код здесь
women=df[(df.BloodPressure.between(80,89))]
print('{}  Процентов женщин с нормальным кровяным давлением'.format(float(len(women)*100/(len(df)))))

18.880208333333332  Процентов женщин с нормальным кровяным давлением


**Задание 8.** Считается, что BMI >= 30 - это признак ожирения. 
У скольких женщин с признаками ожирения кровяное давление выше среднего?

In [15]:
 len(df[(df.BMI >= 30) & (df.BloodPressure > df.BloodPressure.mean())])

248

**Задание 9.** Сравните средние значения для признаков __Glucose,	BloodPressure,	Insulin__ среди тех, у кого обнаружен диабет, и тех, у кого его нет. 

In [15]:
#Ваш код здесь
df.groupby('Class')[['Glucose','BloodPressure','Insulin']].mean().round(2).reset_index()


Unnamed: 0,Class,Glucose,BloodPressure,Insulin
0,0,110.64,70.88,130.29
1,1,142.3,75.33,206.85
2,True,148.0,72.0,


In [14]:
df.groupby('Class')[['Glucose','BloodPressure','Insulin']].mean()

Unnamed: 0_level_0,Glucose,BloodPressure,Insulin
Class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,110.643863,70.877339,130.287879
1,142.298113,75.334661,206.846154
True,148.0,72.0,


**Задание 10.** Добавьте новый бинарный признак:

__wasPregnant__ $\in$ {0,1} - была женщина беременна (1) или нет (0)

In [16]:
#Ваш код здесь
def pregnancies(x):
    if x > 0:
        return 1
    else:
        return 0
df['wasPregnant'] = df.Pregnancies.apply(pregnancies)


**Задание 11.** Сравните процент больных диабетом среди женщин, которые были беременны и не были.

In [17]:
#Ваш код здесь

display(df[df.wasPregnant == 0].groupby('Class').Class.count()/df[df.wasPregnant == 0].shape[0])
display(df[df.wasPregnant == 1].groupby('Class').Class.count()/df[df.wasPregnant == 1].shape[0])


Class
0    0.657658
1    0.342342
Name: Class, dtype: float64

Class
0    0.649924
1    0.350076
Name: Class, dtype: float64

**Задание 12.** Добавьте новый категориальный признак __bodyType__ на основе столбца BMI:

__BMI Categories:__ 

Underweight = <18.5

Normal weight = 18.5–24.9 

Overweight = 25–29.9 

Obesity = BMI of 30 or greater

Признак должен принимать значения Underweight, Normal weight, Overweight и Obesity.

In [26]:

#Ваш код здесь
def bodyType(value):
    if value <= 18.5:
        return "Underweight"
    elif value <= 24.9:
        return "Normal weight"
    elif value <= 29.9:
        return "Overweight"
    else:
        return "Obesity"
df['bodyType'] = df.BMI.apply(bodyType)

In [28]:
bodyType(24.95)

'Overweight'

In [27]:
df[['BMI', 'bodyType']].head(10)

Unnamed: 0,BMI,bodyType
0,33.6,Obesity
1,26.6,Overweight
2,23.3,Normal weight
3,28.1,Overweight
4,43.1,Obesity
5,25.6,Overweight
6,31.0,Obesity
7,35.3,Obesity
8,30.5,Obesity
9,,Obesity


**Задание 13.** Будем считать "здоровыми" тех, у кого нормальный вес и кровяное давление. Какой процент "здоровых" женщин больны диабетом?

In [25]:
#Ваш код здесь
(df[df.Class == 1].loc[(df.bodyType == 'Normal weight') & 
                      (df.BloodPressure.between(80,89))].shape[0] / 
df.loc[(df.bodyType == 'Normal weight') 
& (df.BloodPressure.between(80,89))].shape[0] * 100
)

10.0