# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('horse_data.csv', names=['surgery', 'age', 'hospital_number', 'rectal_temperature', 'pulse',
                                          'respiratory_rate', 'temperature_of_extremities', 'peripheral_pulse', 
                                          'mucous_membranes', 'capillary_refill_time', 'pain', 'peristalsis', 
                                          'abdominal_distension', 'nasogastric_tube', 'nasogastric_reflux',
                                          'nasogastric_reflux_ph', 'rectal_examination_feces', 'abdomen',
                                          'packed_cell_volume', 'total_protein', 'abdominocentesis_appearance',
                                          'abdomcentesis_total_protein', 'outcome', 'surgical_lesion', 'type_of_lesion_1',
                                          'type_of_lesion_2', 'type_of_lesion_3', 'cp_data'], na_values='?')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 28 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   surgery                      299 non-null    float64
 1   age                          300 non-null    int64  
 2   hospital_number              300 non-null    int64  
 3   rectal_temperature           240 non-null    float64
 4   pulse                        276 non-null    float64
 5   respiratory_rate             242 non-null    float64
 6   temperature_of_extremities   244 non-null    float64
 7   peripheral_pulse             231 non-null    float64
 8   mucous_membranes             253 non-null    float64
 9   capillary_refill_time        268 non-null    float64
 10  pain                         245 non-null    float64
 11  peristalsis                  256 non-null    float64
 12  abdominal_distension         244 non-null    float64
 13  nasogastric_tube    

In [4]:
df['outcome'].value_counts()

1.0    178
2.0     77
3.0     44
Name: outcome, dtype: int64

In [5]:
df['outcome'] = df['outcome'].apply(str).replace('1.0', 'lived').replace('2.0', 'died').replace('3.0', 'euthanized')

Более половины лошадей успешно прошли лечение. Около 15% были усыплены

In [6]:
df['surgery'] = df['surgery'].apply(str).str.replace('1.0', 'yes').replace('2.0', 'no')

In [7]:
df['surgery'].value_counts()

yes    180
no     119
nan      1
Name: surgery, dtype: int64

В 60% случаев на лошадях проводилась операция

In [8]:
df['age'] = df['age'].apply(str).replace('1', 'adult').replace('9', 'young')

In [9]:
df['age'].value_counts()

adult    276
young     24
Name: age, dtype: int64

Подавляющее большинство лошадей были взрослыми

In [10]:
df['hospital_number'] = df['hospital_number'].apply(str)

In [11]:
df['hospital_number'].isna().sum()

0

In [12]:
print(df['hospital_number'].value_counts().count())
print(df['hospital_number'].value_counts()[df['hospital_number'].value_counts() == 1].count())
print(df[df['hospital_number'].isin(
    df['hospital_number'].value_counts()[df['hospital_number'].value_counts() > 1].index)]['outcome'].value_counts())

284
268
lived         16
died          13
euthanized     3
Name: outcome, dtype: int64


16 лошадей попадали в больницу дважды, 268 - только 1 раз. Смертность лошадей не зависит от количества госпитализаций

In [13]:
df['rectal_temperature'].isna().sum()

60

In [14]:
print(df['rectal_temperature'].mean()) #среднее арифметическое
print(df['rectal_temperature'].median()) #медиана
print(df['rectal_temperature'].mode()[0]) #мода
print(df['rectal_temperature'].std()) #стаднартное отклонение
print(df['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df['rectal_temperature'].min())
print(df['rectal_temperature'].max())

38.16791666666669
38.2
38.0
0.7322886641121578
0.5362466875871686
35.4
40.8


In [15]:
print(df[df['rectal_temperature'] == df['rectal_temperature'].median()]['outcome'].value_counts())
print(df[df['rectal_temperature'] == df['rectal_temperature'].mode()[0]]['outcome'].value_counts())
print(df[df['rectal_temperature'].isna()]['outcome'].value_counts())

lived         14
euthanized     1
died           1
Name: outcome, dtype: int64
lived         17
died           6
euthanized     2
nan            1
Name: outcome, dtype: int64
lived         26
died          24
euthanized    10
Name: outcome, dtype: int64


Для пропущенных значений характерно большое количество смертей. Для сохранения общей картины, избавиться от этих значений нельзя.

Проанализируем выбросы

In [16]:
q1 = df['rectal_temperature'].quantile(0.25)
print(q1)
q3 = df['rectal_temperature'].quantile(0.75)
print(q3)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df[df['rectal_temperature'].between(lower_bound, upper_bound, inclusive=True)].sort_values('outcome')
rt_outliers = pd.concat([df, remove_outliers]).drop_duplicates(keep=False)
rt_outliers['outcome'].value_counts()

37.8
38.5


died          30
lived         30
euthanized    14
Name: outcome, dtype: int64

А вот выбросы показывают аналогичную для пропущенных значений картину. Очевидно, "выброс" температуры является показателем тяжёлого состояния лошади. Согласно описанию, пониженная температура может свидетельствовать о шоковом состоянии, а повышенная - об инфекции

In [17]:
print(df[df['rectal_temperature'] <= lower_bound]['outcome'].value_counts())
print(df[df['rectal_temperature'] >= upper_bound]['outcome'].value_counts())

died          3
euthanized    2
lived         2
Name: outcome, dtype: int64
died          3
euthanized    2
lived         2
Name: outcome, dtype: int64


Для поиска пропущенных значений обратимся к температуре конечностей. Низкая температура указывает на шоковое состояние, а высокая - указывать на повышенную ректальную температуру. Как следствие, между ними должна сохраняться корелляция. Проверим

In [18]:
df['temperature_of_extremities'] = (df['temperature_of_extremities'].apply(str).replace('1.0', 'Normal')
                                    .replace('2.0', 'Warm')
                                    .replace('3.0', 'Cool')
                                    .replace('4.0', 'Cold'))
df['temperature_of_extremities'].value_counts()

Cool      109
Normal     78
nan        56
Warm       30
Cold       27
Name: temperature_of_extremities, dtype: int64

In [19]:
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].mean()) #среднее арифметическое
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].median()) #медиана
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].mode()[0]) #мода
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].std()) #стаднартное отклонение
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].min())
print(df[df['temperature_of_extremities']=='Normal']['rectal_temperature'].max())

38.12638888888889
38.150000000000006
37.8
0.5352353847214355
0.2864769170579031
36.5
39.9


In [20]:
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].mean()) #среднее арифметическое
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].median()) #медиана
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].mode()[0]) #мода
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].std()) #стаднартное отклонение
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].min())
print(df[df['temperature_of_extremities']=='Warm']['rectal_temperature'].max())

38.20384615384615
38.2
38.6
0.6212766013496847
0.385984615384615
36.9
39.3


In [21]:
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].mean()) #среднее арифметическое
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].median()) #медиана
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].mode()[0]) #мода
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].std()) #стаднартное отклонение
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].min())
print(df[df['temperature_of_extremities']=='Cool']['rectal_temperature'].max())

38.1875
38.1
38.0
0.9213879184157618
0.8489556962025306
35.4
40.8


In [22]:
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].mean()) #среднее арифметическое
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].median()) #медиана
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].mode()[0]) #мода
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].std()) #стаднартное отклонение
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].min())
print(df[df['temperature_of_extremities']=='Cold']['rectal_temperature'].max())

38.455
38.349999999999994
37.5
0.626162077555341
0.3920789473684209
37.5
39.4


In [23]:
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].mean()) #среднее арифметическое
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].median()) #медиана
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].mode()[0]) #мода
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].std()) #стаднартное отклонение
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].min())
print(df[df['temperature_of_extremities']=='nan']['rectal_temperature'].max())

38.04285714285713
38.05
38.3
0.7184478042187619
0.5161672473867605
36.0
39.5


В группах, где указана температура конечностей, есть наиболее характерные значения моды, которые указывают на корелляцию между температурой конечностей и ректальной температурой. Разобьём пропуски на квантили и заполним их соответствующими значениями.

In [24]:
q1 = df[df['temperature_of_extremities']=='nan']['rectal_temperature'].quantile(0.25)
q2 = df[df['temperature_of_extremities']=='nan']['rectal_temperature'].quantile(0.5)
q3 = df[df['temperature_of_extremities']=='nan']['rectal_temperature'].quantile(0.75)
df.loc[(df['temperature_of_extremities']=='nan') & (df['rectal_temperature'] <= q1), 
       'temperature_of_extremities'] = 'Cold'
df.loc[(df['temperature_of_extremities']=='nan') & (df['rectal_temperature'] <= q2), 
       'temperature_of_extremities'] = 'Cool'
df.loc[(df['temperature_of_extremities']=='nan') & (df['rectal_temperature'] <= q3), 
       'temperature_of_extremities'] = 'Normal'
df.loc[(df['temperature_of_extremities']=='nan'), 
       'temperature_of_extremities'] = 'Warm'
df['temperature_of_extremities'].value_counts()

Cool      119
Normal     88
Warm       55
Cold       38
Name: temperature_of_extremities, dtype: int64

Теперь интерполируем значения моды на пропущенные температуры

In [25]:
df['rectal_temperature'] = df.apply(
    lambda row: df[df['temperature_of_extremities']==row['temperature_of_extremities']]['rectal_temperature'].mode()[0] if pd.isna(row['rectal_temperature']) else row['rectal_temperature'], axis = 1)


In [26]:
print(df['rectal_temperature'].mean()) #среднее арифметическое
print(df['rectal_temperature'].median()) #медиана
print(df['rectal_temperature'].mode()[0]) #мода
print(df['rectal_temperature'].std()) #стаднартное отклонение
print(df['rectal_temperature'].var()) #дисперсия (квадрат отклонения)
print(df['rectal_temperature'].min())
print(df['rectal_temperature'].max())

38.16466666666669
38.1
38.0
0.6733470201816547
0.4533962095875137
35.4
40.8


Пропущенные значения заполнены, меры изменились незначительно

In [27]:
print(df['pulse'].mean()) #среднее арифметическое
print(df['pulse'].median()) #медиана
print(df['pulse'].mode()[0]) #мода
print(df['pulse'].std()) #стаднартное отклонение
print(df['pulse'].var()) #дисперсия (квадрат отклонения)
print(df['pulse'].min())
print(df['pulse'].max())
print(df['pulse'].isna().sum())

71.91304347826087
64.0
48.0
28.630556660735003
819.7087747035575
30.0
184.0
24


Для пульса характерен большой размер стандартных отклонений. При этом, основных факторов два:
* Для взрослых лошадей нормальный пульс - 30-40, но у спортивных лошадей он может быть пониженным до 20-25
* Повышенный пульс характерен для шока или для болевого синдрома

Для начала нормализуем поле pain

In [28]:
df['pain'] = (df['pain'].apply(str)
              .replace('1.0', 'no pain')
              .replace('2.0', 'depressed')
              .replace('3.0', 'mild')
              .replace('4.0', 'severe')
              .replace('5.0', 'cont severe'))
df['pain'].value_counts()

mild           67
depressed      59
nan            55
cont severe    42
severe         39
no pain        38
Name: pain, dtype: int64

Также обращаем внимание на зависимость пульса от возраста

In [29]:
print(df[df['age'] == 'young']['pulse'].mean())
print(df[df['age'] == 'young']['pulse'].median())
print(df[df['age'] == 'young']['pulse'].std())
print(df[df['age'] == 'adult']['pulse'].mean())
print(df[df['age'] == 'adult']['pulse'].median())
print(df[df['age'] == 'adult']['pulse'].std())

123.36363636363636
124.0
28.62823357414421
67.45669291338582
60.0
23.933952566649694


Очевидно, при такой разнице, их надо рассматривать как две отдельные группы

Рассмотрим зависимость пульса от температуры и боли, температуры и периферического пульса, боли и периферического пульса

In [30]:
df_a = df.loc[df['age'] == 'adult', ['pain', 'temperature_of_extremities', 'pulse']]
pd.concat([
    df_a.groupby(['temperature_of_extremities', 'pain']).mean(),
    df_a.groupby(['temperature_of_extremities', 'pain']).median(),
    df_a.groupby(['temperature_of_extremities', 'pain']).std()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse
temperature_of_extremities,pain,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cold,cont severe,95.6,90.0,25.234896
Cold,depressed,94.0,96.0,28.936713
Cold,mild,59.0,60.0,17.606817
Cold,,66.8,48.0,31.399929
Cold,severe,77.75,73.5,18.661458
Cool,cont severe,87.2,91.0,18.64234
Cool,depressed,79.041667,79.0,24.702542
Cool,mild,62.1,60.0,17.332355
Cool,,64.692308,60.0,21.437446
Cool,no pain,45.142857,48.0,4.298394


In [31]:
df['peripheral_pulse'] = df['peripheral_pulse'].apply(str).replace('1.0', 'normal').replace('2.0', 'increased').replace('3.0', 'reduced').replace('4.0', 'absent')

In [32]:
df_a = df.loc[df['age'] == 'adult', ['pain', 'peripheral_pulse', 'pulse']]
pd.concat([
    df_a.groupby(['peripheral_pulse', 'pain']).mean(),
    df_a.groupby(['peripheral_pulse', 'pain']).median(),
    df_a.groupby(['peripheral_pulse', 'pain']).std(),
    df_a.groupby(['peripheral_pulse', 'pain']).count()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse,pulse
peripheral_pulse,pain,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
absent,cont severe,88.0,88.0,,1
absent,depressed,88.0,85.0,21.354157,4
absent,severe,100.0,100.0,28.284271,2
increased,depressed,40.0,40.0,,1
increased,no pain,61.333333,60.0,6.110101,3
increased,severe,72.0,72.0,,1
,cont severe,71.571429,65.0,19.077536,7
,depressed,73.0,71.0,27.820855,6
,mild,62.285714,60.0,17.104719,7
,,58.565217,52.0,23.305922,23


In [33]:
df_a = df.loc[df['age'] == 'adult', ['temperature_of_extremities', 'peripheral_pulse', 'pulse']]
pd.concat([
    df_a.groupby(['peripheral_pulse', 'temperature_of_extremities']).mean(),
    df_a.groupby(['peripheral_pulse', 'temperature_of_extremities']).median(),
    df_a.groupby(['peripheral_pulse', 'temperature_of_extremities']).std(),
    df_a.groupby(['peripheral_pulse', 'temperature_of_extremities']).count()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse,pulse
peripheral_pulse,temperature_of_extremities,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
absent,Cold,100.0,100.0,12.0,3
absent,Cool,85.0,75.0,23.804761,4
increased,Cool,72.0,72.0,,1
increased,Normal,48.0,48.0,11.313708,2
increased,Warm,64.0,64.0,5.656854,2
,Cold,69.0,60.0,28.7663,9
,Cool,59.0,60.0,18.228183,16
,Normal,62.846154,60.0,17.281233,13
,Warm,61.928571,58.0,23.782554,14
normal,Cold,45.2,48.0,3.898718,5


внутри каждой группы есть корелляция, но разброс слишком высок

In [34]:
df_a = df.loc[df['age'] == 'adult', ['outcome', 'peripheral_pulse', 'pulse']]
pd.concat([
    df_a.groupby(['peripheral_pulse', 'outcome']).mean(),
    df_a.groupby(['peripheral_pulse', 'outcome']).median(),
    df_a.groupby(['peripheral_pulse', 'outcome']).std(),
    df_a.groupby(['peripheral_pulse', 'outcome']).count()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse,pulse
peripheral_pulse,outcome,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
absent,died,70.0,70.0,0.0,2
absent,euthanized,97.0,94.0,17.397318,4
absent,lived,112.0,112.0,,1
increased,euthanized,56.0,56.0,22.627417,2
increased,lived,61.333333,60.0,6.110101,3
,died,65.416667,62.0,22.621222,12
,euthanized,74.583333,72.5,27.430767,12
,lived,56.035714,50.5,15.144935,28
normal,died,68.909091,68.0,20.69519,11
normal,euthanized,60.571429,60.0,15.608301,7


In [35]:
df_a = df.loc[df['age'] == 'adult', ['pain', 'temperature_of_extremities', 'pulse']]
q1 = df_a['pulse'].quantile(0.25)
q3 = df_a['pulse'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_a[df_a['pulse'].between(lower_bound, upper_bound, inclusive=True)].sort_values('pulse')
pd.concat([
    remove_outliers.groupby(['temperature_of_extremities', 'pain']).mean(),
    remove_outliers.groupby(['temperature_of_extremities', 'pain']).median(),
    remove_outliers.groupby(['temperature_of_extremities', 'pain']).std()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse
temperature_of_extremities,pain,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cold,cont severe,95.6,90.0,25.234896
Cold,depressed,94.0,96.0,28.936713
Cold,mild,59.0,60.0,17.606817
Cold,,66.8,48.0,31.399929
Cold,severe,77.75,73.5,18.661458
Cool,cont severe,87.2,91.0,18.64234
Cool,depressed,79.041667,79.0,24.702542
Cool,mild,62.1,60.0,17.332355
Cool,,64.692308,60.0,21.437446
Cool,no pain,45.142857,48.0,4.298394


В полученных результатах можно заметить, что при отсутствии боли пульс стабилен при любой температуре конечностей, в то время как для тёплых и нормальных конечностей пульс меняется не так сильно, как для охлаждённых. Выбивается только комбинация повышенной температуры и выраженной боли. Рассмотрим подробнее

In [36]:
df.loc[(df['age'] == 'adult') & (df['outcome']=='died'), 
       ['pulse', 'peripheral_pulse', 'temperature_of_extremities', 'pain']].sort_values('pulse', ascending=False).head(50)

Unnamed: 0,pulse,peripheral_pulse,temperature_of_extremities,pain
226,120.0,reduced,Cold,depressed
45,120.0,reduced,Cold,cont severe
142,120.0,reduced,Cold,cont severe
273,120.0,reduced,Cool,cont severe
91,114.0,reduced,Cool,depressed
173,104.0,reduced,Cool,depressed
4,104.0,,Cold,
134,100.0,,Cool,cont severe
80,98.0,reduced,Cool,severe
15,96.0,normal,Cool,cont severe


Пульс становится сверхвысоким (>70) при комбинации следующих факторов:
* перифиерический пульс понижен или отсутствует
* конечности холодные
* болевой синдром высокий либо подавленный

In [37]:
df.loc[df['pulse'].isna(), ['peripheral_pulse', 'pain', 'temperature_of_extremities']]

Unnamed: 0,peripheral_pulse,pain,temperature_of_extremities
5,normal,depressed,Warm
28,,,Warm
52,normal,no pain,Normal
56,,,Warm
58,reduced,cont severe,Cold
74,,,Warm
78,reduced,cont severe,Cool
83,reduced,cont severe,Cool
93,reduced,cont severe,Cool
115,normal,mild,Cool


In [39]:
df_p1 = df.loc[(
    df['peripheral_pulse'].isin(['reduced', 'absent']) 
    & df['temperature_of_extremities'].isin(['Cool', 'Cold'])
    & df['pain'].isin(['severe', 'cont severe', 'mild'])
    & (df['age'] == 'adult')), 'pulse']
print(df_p1.mean())
print(df_p1.median())
print(df_p1.mode()[0])
print(df_p1.std())

86.31818181818181
88.0
60.0
21.686747348803248


In [40]:
df.loc[(
    (df['age'] == 'adult') 
    & df['pulse'].isna() 
    & df['peripheral_pulse'].isin(['reduced', 'absent']) 
    & df['pain'].isin(['severe', 'cont severe', 'mild'])
    & df['temperature_of_extremities'].isin(['Cool', 'Cold'])), 'pulse'] = df_p1.median()

In [41]:
df.loc[df['pulse'].isna(), ['peripheral_pulse', 'temperature_of_extremities', 'pain']]

Unnamed: 0,peripheral_pulse,temperature_of_extremities,pain
5,normal,Warm,depressed
28,,Warm,
52,normal,Normal,no pain
56,,Warm,
74,,Warm,
115,normal,Cool,mild
126,normal,Cool,cont severe
159,normal,Normal,depressed
160,,Warm,severe
175,,Warm,


In [43]:
df_p2 = df.loc[(
    (df['age'] =='adult') 
    & (df['peripheral_pulse'] == 'normal') 
    & df['temperature_of_extremities'].isin(['Cool','Normal', 'Warm']) 
    & df['pain'].isin(['depressed', 'mild', 'severe', 'cont severe'])), 'pulse']
print(df_p2.mean())
print(df_p2.median())
print(df_p2.mode()[0])
print(df_p2.std())

57.594202898550726
54.0
60.0
15.753915330873923


In [46]:
df.loc[((df['age'] == 'adult') 
       & (df['peripheral_pulse'] == 'normal') 
       & df['temperature_of_extremities'].isin(['Normal', 'Cool', 'Warm']) 
        & df['pain'].isin(['depressed', 'mild', 'severe', 'cont severe'])
       & df['pulse'].isna()), 'pulse'] = df_p2.median()

In [47]:
df.loc[df['pulse'].isna(), ['peripheral_pulse', 'temperature_of_extremities', 'pain']]

Unnamed: 0,peripheral_pulse,temperature_of_extremities,pain
28,,Warm,
52,normal,Normal,no pain
56,,Warm,
74,,Warm,
160,,Warm,severe
175,,Warm,
207,,Warm,
216,,Warm,
227,,Warm,
288,,Warm,


По оставшимся данным не хватает заполненных полей, поэтому их мы опустим

In [54]:
df.dropna(subset=['pulse'], inplace=True)

In [55]:
pd.concat([
    df.loc[df['age'] == 'adult', ['capillary_refill_time', 'pulse']].groupby('capillary_refill_time').mean(),
    df.loc[df['age'] == 'adult', ['capillary_refill_time', 'pulse']].groupby('capillary_refill_time').median(),
    df.loc[df['age'] == 'adult', ['capillary_refill_time', 'pulse']].groupby('capillary_refill_time').std()
], axis=1)

Unnamed: 0_level_0,pulse,pulse,pulse
capillary_refill_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.0,60.574713,54.0,19.83203
2.0,87.726027,88.0,21.217302
3.0,71.0,71.0,24.041631


Для значения 3 характерен пульс, аналогичный 1. Для 2 характерно более высокое значение. Заменим 3 на 2, и нормализуем значения.

In [56]:
df['capillary_refill_time'] = df['capillary_refill_time'].apply(str).replace('1.0', '< 3').replace('2.0', '>= 3').replace('3.0', '< 3')

In [57]:
df['capillary_refill_time'].value_counts()

< 3     189
>= 3     78
nan      23
Name: capillary_refill_time, dtype: int64

In [58]:
df_a = df.loc[df['age'] == 'adult', ['pain', 'temperature_of_extremities', 'capillary_refill_time', 'pulse']]
q1 = df_a['pulse'].quantile(0.25)
q3 = df_a['pulse'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_a[df_a['pulse'].between(lower_bound, upper_bound, inclusive=True)].sort_values('pulse')
pd.concat([
    remove_outliers.groupby(['temperature_of_extremities', 'capillary_refill_time']).mean(),
    remove_outliers.groupby(['temperature_of_extremities', 'capillary_refill_time']).median(),
    remove_outliers.groupby(['temperature_of_extremities', 'capillary_refill_time']).std(),
    remove_outliers.groupby(['temperature_of_extremities', 'capillary_refill_time']).count()
], axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,pulse,pulse,pulse,pain,pulse
temperature_of_extremities,capillary_refill_time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Cold,< 3,66.0,56.0,24.611263,15,15
Cold,>= 3,96.4375,97.0,23.818673,16,16
Cold,,65.666667,54.0,27.493029,6,6
Cool,< 3,66.454545,60.0,22.322243,66,66
Cool,>= 3,89.179487,88.0,17.869221,39,39
Cool,,57.142857,52.0,21.965341,7,7
Normal,< 3,53.190476,52.0,12.707449,63,63
Normal,>= 3,78.266667,72.0,22.307803,15,15
Normal,,72.0,72.0,,1,1
Warm,< 3,61.09375,56.0,19.502455,32,32


Отсюда можно сделать следующие выводы:
1. Чем ниже температура конечностей, тем выше скорость наполняемости капилляров
2. При низкой скорости, пульс учащается

Следует использовать температуру конечностей и заполняемость капилляров в качестве индикатора. Ввиду достаточно высокого отклонения, будем использовать медиану в качестве значения

In [70]:
df_c1 = df.loc[((df['age'] == 'adult') 
                & df['temperature_of_extremities'].isin(['Cold', 'Cool'])
               & (df['capillary_refill_time'] == '< 3')), 
               'pulse']
q1 = df_c1.quantile(0.25)
q3 = df_c1.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_c1[df_c1.between(lower_bound, upper_bound, inclusive=True)]
print(remove_outliers.mean())
print(remove_outliers.median())
print(remove_outliers.mode()[0])
print(remove_outliers.std())

66.37037037037037
60.0
48.0
22.602789896628053


In [71]:
df.loc[((df['age'] == 'adult')
        & df['temperature_of_extremities'].isin(['Cold', 'Cool'])
        & (df['capillary_refill_time'] == 'nan')
        & df['pulse'].between(lower_bound, upper_bound, inclusive=True)
), 'capillary_refill_time'] = '< 3'

In [72]:
df_c2 = df.loc[((df['age'] == 'adult') 
                & df['temperature_of_extremities'].isin(['Cold', 'Cool'])
               & (df['capillary_refill_time'] == '>= 3')), 
               'pulse']
q1 = df_c2.quantile(0.25)
q3 = df_c2.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_c2[df_c2.between(lower_bound, upper_bound, inclusive=True)]
print(remove_outliers.mean())
print(remove_outliers.median())
print(remove_outliers.mode()[0])
print(remove_outliers.std())

91.2909090909091
88.0
88.0
19.83326118312995


In [73]:
df.loc[((df['age'] == 'adult')
        & df['temperature_of_extremities'].isin(['Cold', 'Cool'])
        & (df['capillary_refill_time'] == 'nan')
        & df['pulse'].between(lower_bound, upper_bound, inclusive=True)
), 'capillary_refill_time'] = '>= 3'

In [75]:
df.loc[df['capillary_refill_time'] == 'nan', ['temperature_of_extremities', 'pulse']]

Unnamed: 0,temperature_of_extremities,pulse
22,Warm,42.0
39,Warm,146.0
41,Warm,150.0
149,Warm,48.0
229,Warm,120.0
232,Warm,30.0
262,Warm,88.0
274,Warm,76.0
280,Warm,48.0
283,Normal,72.0


In [78]:
df_c3 = df.loc[(df['temperature_of_extremities'].isin(['Warm', 'Normal'])
               & (df['capillary_refill_time'] == '< 3')), 
               'pulse']
q1 = df_c3.quantile(0.25)
q3 = df_c3.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_c3[df_c3.between(lower_bound, upper_bound, inclusive=True)]
print(remove_outliers.mean())
print(remove_outliers.median())
print(remove_outliers.mode()[0])
print(remove_outliers.std())

55.1578947368421
52.0
48.0
13.524851664324947


In [79]:
df.loc[(df['temperature_of_extremities'].isin(['Warm', 'Normal'])
        & (df['capillary_refill_time'] == 'nan')
        & df['pulse'].between(lower_bound, upper_bound, inclusive=True)
), 'capillary_refill_time'] = '< 3'

In [80]:
df_c4 = df.loc[(df['temperature_of_extremities'].isin(['Warm', 'Normal'])
               & (df['capillary_refill_time'] == '>= 3')), 
               'pulse']
q1 = df_c4.quantile(0.25)
q3 = df_c4.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
remove_outliers = df_c4[df_c4.between(lower_bound, upper_bound, inclusive=True)]
print(remove_outliers.mean())
print(remove_outliers.median())
print(remove_outliers.mode()[0])
print(remove_outliers.std())

82.65
74.0
60.0
27.981713953749754


In [81]:
df.loc[(df['temperature_of_extremities'].isin(['Warm', 'Normal'])
        & (df['capillary_refill_time'] == 'nan')
        & df['pulse'].between(lower_bound, upper_bound, inclusive=True)
), 'capillary_refill_time'] = '>= 3'

In [82]:
df.loc[df['capillary_refill_time'] == 'nan', ['temperature_of_extremities', 'pulse']]

Unnamed: 0,temperature_of_extremities,pulse


Для частоты дыхания характерен большой разброс. Кроме того, в пояснениях указывается сомнительная полезность признака. Разумно будет избавиться от колонки и не учитывать в дальнейшем анализе.

In [87]:
df.drop(columns=['respiratory_rate'], inplace=True)

In [84]:
df['peripheral_pulse'].value_counts()

normal       114
reduced      103
nan           60
absent         8
increased      5
Name: peripheral_pulse, dtype: int64

In [85]:
output = df.loc[:, ['surgery', 'age', 'hospital_number', 'rectal_temperature', 'pulse', 'respiratory_rate',
                   'temperature_of_extremities', 'outcome']]
output

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,outcome
0,no,adult,530101,38.5,66.0,28.0,Cool,died
1,yes,adult,534817,39.2,88.0,20.0,Warm,euthanized
2,no,adult,530334,38.3,40.0,24.0,Normal,lived
3,yes,young,5290409,39.1,164.0,84.0,Cold,died
4,no,adult,530255,37.3,104.0,35.0,Cold,died
...,...,...,...,...,...,...,...,...
295,yes,adult,533886,37.5,120.0,70.0,Cold,euthanized
296,no,adult,527702,37.2,72.0,24.0,Cool,euthanized
297,yes,adult,529386,37.5,72.0,30.0,Cold,died
298,yes,adult,530612,36.5,100.0,24.0,Cool,lived


## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам
Прежде чем задать вопрос, попробуйте найти ответ в интернете. Навык самостоятельного поиска информации — один из важнейших. Каждый практикующий специалист любого уровня делает это ежедневно.

Сформулируйте вопрос по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности прикрепите к вопросу скриншоты либо ссылки на код. Не выкладывайте все решение, оставляйте только проблемный и воспроизводимый участок кода.