## Описание данных.

Датасет сформирован из реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:

### Объективные признаки:

* Возраст (age)
* Рост (height)
* Вес (weight)
* Пол (gender)

### Результаты измерения:

* Артериальное давление верхнее и нижнее (ap_hi, ap_lo)
* Холестерин (cholesterol)
* Глюкоза (gluc)

### Субъективные признаки (со слов пациентов):

* Курение (smoke)
* Употребление алкоголя (alco)
* Физическая активность (active)
* Целевой признак (который интересно будет прогнозировать): 
наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра (cardio)

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_csv('mlbootcamp5_train.csv', sep=',', 
                 index_col='id')

In [4]:
df.head()

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,17474,1,156,56.0,100,60,1,1,0,0,0,0


___Сколько мужчин и женщин представлено в этом наборе данных? Не было дано расшифровки признака "пол" (какому полу соответствует 1, а какому – 2 в признаке gender) – это определите, посмотрев также на рост при разумном предположении, что в среднем мужчины выше (здесь и далее под средним понимается среднее арифметическое).___


* 45470 женщин и 24530 мужчин
* 45470 мужчин и 24530 женщин
* __45530 женщин и 24470 мужчин__
* 45530 мужчин и 24470 женщин

In [5]:
df[df['gender'] == 1]['height'].mean()

161.35561168460356

In [6]:
df[df['gender'] == 2]['height'].mean()

169.94789538210054

In [7]:
df[df['gender'] == 2]['gender'].count()

24470

In [8]:
df[df['gender'] == 1]['gender'].count()

45530

___Кто в среднем реже указывает, что употребляет алкоголь – мужчины или женщины?___


* мужчины
* __женщины__

In [9]:
df[(df['gender'] == 1) & (df['alco'] == 1)]['alco'].count()

1161

In [10]:
df[(df['gender'] == 2) & (df['alco'] == 1)]['alco'].count()

2603

___Во сколько раз (округленно, round) процент курящих среди мужчин больше, чем процент курящих среди женщин (по крайней мере, по этим анкетным данным)?___


* 4
* 8
* __12__
* 16

In [11]:
s_w = df[(df['gender'] == 1) & (df['smoke'] == 1)]['smoke'].count()/df[df['gender'] == 1]['gender'].count() * 100
s_m = df[(df['gender'] == 2) & (df['smoke'] == 1)]['smoke'].count()/df[df['gender'] == 2]['gender'].count()* 100
print(round(s_m / s_w,0))

12.0


___Вы наверняка заметили, что значения возраста какие-то странные. Догадайтесь, в чём здесь измеряется возраст, и ответьте, на сколько месяцев (примерно) отличаются медианные значения возраста курящих и некурящих.___


* 10
* 15
* 20
* __25__

In [12]:
df['age_years'] = round(df['age']/365, 0)
df[df['smoke'] == 0]['age_years'].mean()

53.43939465150162

In [13]:
df[df['smoke'] == 1]['age_years'].mean()

52.29664451288701

In [14]:
print(round((df[df['smoke'] == 0]['age_years'].median()*12 - df[df['smoke'] == 1]['age_years'].median() *12)))


24


In [15]:
df.head()

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,age_years
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,18393,2,168,62.0,110,80,1,1,0,0,1,0,50.0
1,20228,1,156,85.0,140,90,3,1,0,0,1,1,55.0
2,18857,1,165,64.0,130,70,3,1,0,0,0,1,52.0
3,17623,2,169,82.0,150,100,1,1,0,0,1,1,48.0
4,17474,1,156,56.0,100,60,1,1,0,0,0,0,48.0


#### Создайте новый признак age_years – возраст в годах, округлив до целых (round).
* Для данного примера отберите курящих мужчин от 60 до 64 лет включительно
* Категории уровня холестрина на рисунке и в наших данных отличаются. Отображение значений на картинке в значения признака cholesterol следующее: 4 ммоль/л $\rightarrow$ 1, 5-7 ммоль/л $\rightarrow$ 2, 8 ммоль/л $\rightarrow$ 3.

___Интересуют 2 подвыборки курящих мужчин возраста от 60 до 64 лет включительно: первая с верхним артериальным давлением строго меньше 120 мм рт.ст. и концентрацией холестерина – 4 ммоль/л, а вторая – с верхним артериальным давлением от 160 (включительно) до 180 мм рт.ст. (не включительно) и концентрацией холестерина – 8 ммоль/л.
Во сколько раз (округленно, round) отличаются доли больных людей (согласно целевому признаку, cardio) в этих двух подвыборках? Посчитайте на наших данных.___


* 2
* __3__
* 4
* 5

In [16]:
v1 = df[(df['gender'] == 2) & (df['age_years'] >= 60) & (df['age_years'] <= 64) & (df['smoke'] == 1) & (df['ap_hi'] < 120) & (df['cholesterol'] == 1)]['cardio']
v2 = df[(df['gender'] == 2) & (df['age_years'] >= 60) & (df['age_years'] <= 64) & (df['smoke'] == 1) &(df['ap_hi'] >= 160) & (df['ap_hi'] < 180) & (df['cholesterol'] == 1)] ['cardio']
print(round((100 * v2.mean()) / (100 * v1.mean())))

3


___Постройте новый признак – BMI (Body Mass Index). Для этого надо вес в килограммах поделить на квадрат роста в метрах. Нормальными считаются значения BMI от 18.5 до 25. Выберите верные утверждения.___


* __Медианный BMI по выборке превышает норму__
* У женщин в среднем BMI ниже, чем у мужчин
* У здоровых в среднем BMI выше, чем у больных
* __В сегменте здоровых и непьющих мужчин в среднем BMI ближе к норме, чем в сегменте здоровых и непьющих женщин__

In [18]:
df['height_m'] = (df['height']/100)**2
df['BMI'] = (df['weight'])/(df['height_m'])
print('Медианное значение BMI', round(df['BMI'].median(),2))


Медианное значение BMI 26.37


In [19]:
print('Среднее значение BMI женщин :', round(df[df['gender'] == 1]['BMI'].mean(),2))
print('Среднее значение BMI мужчин :', round(df[df['gender'] == 2]['BMI'].mean(),2))

Среднее значение BMI женщин : 27.99
Среднее значение BMI мужчин : 26.75


In [20]:
print('BMI здоровых', df[df['cardio'] == 0] ['BMI'].mean())
print('BMI больных', df[df['cardio'] == 1] ['BMI'].mean())

BMI здоровых 26.54817520679475
BMI больных 28.566060627015435


In [21]:
print('BMI здоровых и непьющих мужчин :', 
      round(df[(df['gender'] == 2) & (df['alco'] == 0) & (df['cardio'] == 0)]['BMI']. mean(),2))
print('BMI здоровых и непьющих женщин :',
      round(df[(df['gender'] == 1) & (df['alco'] == 0) & (df['cardio'] == 0)]['BMI']. mean(),2))

BMI здоровых и непьющих мужчин : 25.87
BMI здоровых и непьющих женщин : 26.85


___Отфильтруйте следующие сегменты пациентов (считаем это ошибками в данных)___

* указанное нижнее значение артериального давления строго выше верхнего
* рост строго меньше 2.5%-перцентили или строго больше 97.5%-перцентили (используйте pd.Series.quantile, если не знаете, что это такое – прочитайте)
* вес строго меньше 2.5%-перцентили или строго больше 97.5%-перцентили

Это вовсе не вся чистка данных, которую можно было проделать, но пока остановимся на этом.

___Сколько процентов данных (округленно, round) мы выбросили?___


* 8
* 9
* __10__
* 11

In [22]:
new_df = df[(df['ap_hi'] >=  df['ap_lo']) & (df['height'] >= df['height'].quantile(0.025)) & (df['height'] <= df['height'].quantile(0.975)) 
           & (df['weight'] >= df['weight'].quantile(0.025)) & (df['weight'] <= df['weight'].quantile(0.975))] ['BMI'].count()
first_df = df['BMI'].count()
s = round( new_df/ first_df *100, 0)
print(100-s)


10.0
