## Домашнее задание к лекции "Базовые понятия статистики"

Обязательная часть

Будем осуществлять работу с непростым набором данных о состоянии здоровья лошадей, испытывающих кишечные колики.

In [1]:
import pandas as pd
import numpy as np
from collections import Counter
import random
from copy import deepcopy

In [2]:
# Создаем список названий колонок для будущего фрейма с лошадьми
df_horses_col_names = [
    'surgery',
    'age',
    'hospital_number',
    'rectal_temperature',
    'pulse',
    'respiratory_rate',
    'temperature_of_extremities',
    'peripheral_pulse',
    'mucous_membranes',
    'capillary_refill_time',
    'pain',
    'peristalsis',
    'abdominal_distension',
    'nasogastric_tube',
    'nasogastric_reflux',
    'nasogastric_reflux_PH',
    'rectal_examination',
    'abdomen',
    'packed_cell_volume',
    'total_protein',
    'abdominocentesis_appearance',
    'abdomcentesis_total_protein',
    'outcome',
    'surgical_lesion',
    'type_of_lesion_1',
    'type_of_lesion_2',
    'type_of_lesion_3',
    'cp_data'    
]
# Сверяемся с файлом horse_data.names
for i, k in enumerate(df_horses_col_names, 1):
    print(i, k)

1 surgery
2 age
3 hospital_number
4 rectal_temperature
5 pulse
6 respiratory_rate
7 temperature_of_extremities
8 peripheral_pulse
9 mucous_membranes
10 capillary_refill_time
11 pain
12 peristalsis
13 abdominal_distension
14 nasogastric_tube
15 nasogastric_reflux
16 nasogastric_reflux_PH
17 rectal_examination
18 abdomen
19 packed_cell_volume
20 total_protein
21 abdominocentesis_appearance
22 abdomcentesis_total_protein
23 outcome
24 surgical_lesion
25 type_of_lesion_1
26 type_of_lesion_2
27 type_of_lesion_3
28 cp_data


In [3]:
df_horses = pd.read_csv('horse_data.csv', na_values='?', names=df_horses_col_names)
df_horses[:5]

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse,mucous_membranes,capillary_refill_time,...,packed_cell_volume,total_protein,abdominocentesis_appearance,abdomcentesis_total_protein,outcome,surgical_lesion,type_of_lesion_1,type_of_lesion_2,type_of_lesion_3,cp_data
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0,,2.0,...,45.0,8.4,,,2.0,2,11300,0,0,2
1,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
4,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2


In [4]:
# Смотрим на статистику пропущенных значений в каждом столбце
for col_name in df_horses.columns:
    pct_missing = df_horses[col_name].isnull().mean()
    print(f'{col_name} - {pct_missing :.1%}')

surgery - 0.3%
age - 0.0%
hospital_number - 0.0%
rectal_temperature - 20.0%
pulse - 8.0%
respiratory_rate - 19.3%
temperature_of_extremities - 18.7%
peripheral_pulse - 23.0%
mucous_membranes - 15.7%
capillary_refill_time - 10.7%
pain - 18.3%
peristalsis - 14.7%
abdominal_distension - 18.7%
nasogastric_tube - 34.7%
nasogastric_reflux - 35.3%
nasogastric_reflux_PH - 82.3%
rectal_examination - 34.0%
abdomen - 39.3%
packed_cell_volume - 9.7%
total_protein - 11.0%
abdominocentesis_appearance - 55.0%
abdomcentesis_total_protein - 66.0%
outcome - 0.3%
surgical_lesion - 0.0%
type_of_lesion_1 - 0.0%
type_of_lesion_2 - 0.0%
type_of_lesion_3 - 0.0%
cp_data - 0.0%


## Задание 1. Базовое изучение

Изучить представленный набор данных на основе описания его столбцов и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

In [5]:
# Для выполнения обязательной части возьмем первые 8 столбцов
df_horses_p1 = df_horses.iloc[:, 0:8]
df_horses_p1_orig = deepcopy(df_horses_p1)
df_horses_p1[:5]

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0
1,1.0,1,534817,39.2,88.0,20.0,,
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0
4,2.0,1,530255,37.3,104.0,35.0,,


In [6]:
def get_df_base_stats(df):
    """
    Функция для расчета базовых статистических методов датафрейма больных лошадей + мода
    
    Входные параметры:
        df  -- датафрейм с больными лошадьми и корректными названиями столбцов
        
    Результат: датафрейм с базовой статистикой
    """
    # Расчет базовых метрик, кроме моды
    base_stat = df.describe()

    # Добавим в датафрейм базовых показателей моду
    mods = {}
    for col_name in df.columns:
        # Для ректальной температуры принято решение не округлять значения, так как нам важны десятые части
        if col_name == 'rectal_temperature':
            mods[col_name] = df[col_name].mode().values[0]
        mods[col_name] = df[col_name].round().mode().values[0]
    base_stat = pd.concat([base_stat, pd.DataFrame(mods, index=['mode'])])
    
    return base_stat

In [7]:
# Получаем базовую статистику для датафрейма
display(get_df_base_stats(df_horses_p1))

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,299.0,300.0,300.0,240.0,276.0,242.0,244.0,231.0
mean,1.397993,1.64,1085889.0,38.167917,71.913043,30.417355,2.348361,2.017316
std,0.490305,2.173972,1529801.0,0.732289,28.630557,17.642231,1.045054,1.042428
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.8,48.0,18.5,1.0,1.0
50%,1.0,1.0,530305.5,38.2,64.0,24.5,3.0,2.0
75%,2.0,1.0,534727.5,38.5,88.0,36.0,3.0,3.0
max,2.0,9.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,48.0,20.0,3.0,1.0


In [8]:
# Проверяем на корректность все категориальные индикаторы

# Проверка корректности заполненных значений столбца surgery, значения должны принимать либо 1, либо 2
if all(df_horses_p1['surgery'].dropna().isin([1,2])):
    print('Заполненные значения столбца surgery корректны.')
else:
    print('ПРЕДУПРЕЖДЕНИЕ: Присутствуют некорректные данные в столбце surgery.')
    display(df_horses_p1[~df_horses_p1['surgery'].isin([1,2])].surgery.value_counts())
    
# Проверка корректности заполненных значений столбца age, значения должны принимать либо 1, либо 2
if all(df_horses_p1['age'].dropna().isin([1,2])):
    print('Заполненные значения столбца age корректны.')
else:
    print('ПРЕДУПРЕЖДЕНИЕ: Присутствуют некорректные данные в столбце age.')
    display(df_horses_p1[~df_horses_p1['age'].isin([1,2])].age.value_counts())
    
# Проверка корректности заполненных значений столбца temperature_of_extremities, значения должны принимать 1,2,3 или 4
if all(df_horses_p1['temperature_of_extremities'].dropna().isin([1,2,3,4])):
    print('Заполненные значения столбца temperature_of_extremities корректны.')
else:
    print('ПРЕДУПРЕЖДЕНИЕ: Присутствуют некорректные данные в столбце peripheral_pulse.')
    (display(df_horses_p1[~df_horses_p1['temperature_of_extremities'].isin([1,2,3,4])]
             .temperature_of_extremities.value_counts()))
    
# Проверка корректности заполненных значений столбца age, значения должны принимать 1,2,3 или 4
if all(df_horses_p1['peripheral_pulse'].dropna().isin([1,2,3,4])):
    print('Заполненные значения столбца peripheral_pulse корректны.')
else:
    print('ПРЕДУПРЕЖДЕНИЕ: Присутствуют некорректные данные в столбце peripheral_pulse.')
    display(df_horses_p1[~df_horses_p1['peripheral_pulse'].isin([1,2,3,4])].peripheral_pulse.value_counts())  

Заполненные значения столбца surgery корректны.
ПРЕДУПРЕЖДЕНИЕ: Присутствуют некорректные данные в столбце age.


9    24
Name: age, dtype: int64

Заполненные значения столбца temperature_of_extremities корректны.
Заполненные значения столбца peripheral_pulse корректны.


### Краткое описание результатов базовым показателей:

**1. Атрибут surgery (факт наличия операции)**

1 - Лошадь прооперирована  
2 - Лечение прошло без хирургического вмешательства  

Качественный, порядковый, заполненные данные корректны, процент незаполненных - 0.3%.  
По показателю моды можно сказать, что большинство лошадей были прооперированы.

**2. Атрибут Age (признак возраста)**

1 - Взрослая лошадь  
2 - Молодая лошадь (<6 месяцев)  

Качественный, порядковый, часть данных заполнено некорректными значениями 9, число строк с некорректными значениями - 24, все строки заполнены.

**3. Атрибут Hospital Number (номер больничного листа)**

Качественный, номинальный, все строки заполнены.

**4. Атрибут rectal temperature (ректальная температура)**

- нормальная температура - 37.8
- атрибут в градусах Цельсия

Количественный,непрерывный, процент незаполненных - 20.0%

По атрибутам min и max можно сказать, что серьезных выбросов и некорректных значений температуры нет. Также по моде, среднему значению и по 3 квартали можно сказать, что около половины лошадей имеют нормальную температуру с учетом того, что +-0.4 градуса от 37.8 тоже можно считать нормой. Так как разброс значений небольшой, средняя температура вполне отображает реальную действительность.

У части лошадей испытывает поздний шок, так как температура понижена.

**5. Атрибут pulsee (пульс)**

Норма: 30-40 ударов в минуту, но у спортивных лошадей может иметь 20-25  
Повышенный пульс сигнализирует о болезненных поражениях

Количественный, дискретный, процент незаполненных - 8.0%

По моде можно сказать, что наиболее встречаемая частота пульса - 48 ударов в минуту. Исходя из квартальных значений можно сказать, что как минимум половина лошадей имеют пульс отличный от нормы. При этом среднее значение не отображает реальной действительности, так как превосходит более половины значений. Есть выбросы в виде максимального значения в 184 удара в минуту, такие выбросы могут исказить статистику, при этом такой размер пульса вполне возможен.
Также по минимальному размеру пульса можно сказать, что спортивных лошадей нет.

**6. Атрибут respiratory rate (частота дыхания)**

- нормальная оценка от 8 до 10
- полезность сомнительна из-за больших колебаний

Количественный, дискретный, процент незаполненных - 23.0%

По моде можно сказать, что наиболее встречаемая частота дыхания - 20. При этотм как минимум 75% лошадений имеют отклонения от нормы по показателю.

**7. Атрибут temperature of extremities (температура конечностей)**

Возможные значения:  
1 = Нормальный  
2 = Горячий  
3 = Прохладный  
4 = Холодный  

Качественный, порядковый
   
Прохладные и холодные конечности указывают на возможный шок. горячие конечности должны корелировать с ректальной температурой

По моде можно сказать, что лошади с прохладными конечностями встречаются чаще всего, скорее всего они в шоковом состоянии. И судя по квартальным значениям таких лошадей не менее 1/4.

**8. Атрибут peripheral pulse (периферический пульс)**

возможные значения:  
1 = нормальный    
2 = повышенный  
3 = пониженный  
4 = отсутствует  

Качественный, порядковый
   
Нормальный или повышенный п.п. указывают на адекватное кровообращение

По моде можно сказать, что лошади с нормальным периферическим пульсом встречаются чаще всего, а по квартальным значениям можно сказать, что не менее половины лошадей имеют адекватное кровообращение, так как у них пульс либо нормальный, либо повышенный.

## Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Анализ значений пульса

In [9]:
# Найдем выбросы по формуле
Q1 = df_horses_p1['pulse'].quantile(0.25)
Q3 = df_horses_p1['pulse'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5*IQR
upper = Q3 + 1.5*IQR
display(df_horses_p1[(df_horses_p1['pulse']>upper) | (df_horses_p1['pulse']<lower)]['pulse'])

3      164.0
41     150.0
55     160.0
255    184.0
275    150.0
Name: pulse, dtype: float64

Исходя из квартальных значений видно, что 75% лошадей имеют пульс не более 88 ударов в минуту. А максимальный пульс - 184 удара в минуту. Так как значения от 90 и до 184 вполне реальны, то такие выбросы нельзя удалять. Можно попробовать разбить лошадей на 2 группы: 

- Группа 1 - лошади с пульсом до 100 ударов в минуту
- Группа 2 - лошади с пульсом от 100 и выше ударов в минуту

In [10]:
df_horses_p1_pulse_1 = df_horses_p1[(df_horses_p1['pulse']<100)]
df_horses_p1_pulse_2 = df_horses_p1[~(df_horses_p1['pulse']<100)]
print(f'Процент лошадей из группы пульса 1 - {len(df_horses_p1_pulse_1)/len(df_horses_p1) :.1%}')
print(f'Процент лошадей из группы пульса 2 - {len(df_horses_p1_pulse_2)/len(df_horses_p1) :.1%}')

Процент лошадей из группы пульса 1 - 75.0%
Процент лошадей из группы пульса 2 - 25.0%


Посмотрим как изменились наши базовые статистические параметры

In [11]:
print('Группа 1 - лошади с пульсом до 100 ударов в минуту')
display(get_df_base_stats(df_horses_p1_pulse_1)['pulse'])

Группа 1 - лошади с пульсом до 100 ударов в минуту


count    225.000000
mean      61.168889
std       17.258743
min       30.000000
25%       48.000000
50%       60.000000
75%       72.000000
max       98.000000
mode      48.000000
Name: pulse, dtype: float64

In [12]:
print('Группа 2 - лошади с пульсом от 100 и выше ударов в минуту')
display(get_df_base_stats(df_horses_p1_pulse_2)['pulse'])

Группа 2 - лошади с пульсом от 100 и выше ударов в минуту


count     51.000000
mean     119.313725
std       19.045724
min      100.000000
25%      104.000000
50%      120.000000
75%      128.500000
max      184.000000
mode     100.000000
Name: pulse, dtype: float64

Из полученных данных видно, что после деления лошадей на группы у нас выровналось значение среднего и стало практически равно медиане.

### Анализ значений ректальной температуры

Исходя из значений максимума, минимума, средней и медианы можно сказать об отсутствии выбросов в этих значениях.

In [13]:
display(get_df_base_stats(df_horses_p1)['rectal_temperature'])

count    240.000000
mean      38.167917
std        0.732289
min       35.400000
25%       37.800000
50%       38.200000
75%       38.500000
max       40.800000
mode      38.000000
Name: rectal_temperature, dtype: float64

### Анализ значений частоты дыхания

In [14]:
display(get_df_base_stats(df_horses_p1)['respiratory_rate'])

count    242.000000
mean      30.417355
std       17.642231
min        8.000000
25%       18.500000
50%       24.500000
75%       36.000000
max       96.000000
mode      20.000000
Name: respiratory_rate, dtype: float64

Как видно из базовой статистики, 75% лошадей имеют частоту дыхания не более 36. Как видно из статистики ниже в значения больше 40 попадают уже единицы лошадей и эти значения можно считать выбросами. 

In [15]:
sorted(df_horses_p1['respiratory_rate'].value_counts().items())

[(8.0, 1),
 (9.0, 2),
 (10.0, 3),
 (12.0, 19),
 (13.0, 1),
 (14.0, 4),
 (15.0, 1),
 (16.0, 22),
 (18.0, 8),
 (20.0, 28),
 (21.0, 2),
 (22.0, 2),
 (23.0, 1),
 (24.0, 27),
 (25.0, 1),
 (26.0, 1),
 (28.0, 13),
 (30.0, 19),
 (32.0, 11),
 (34.0, 1),
 (35.0, 3),
 (36.0, 16),
 (40.0, 17),
 (42.0, 3),
 (44.0, 3),
 (48.0, 6),
 (50.0, 2),
 (51.0, 2),
 (52.0, 1),
 (58.0, 1),
 (60.0, 4),
 (66.0, 1),
 (68.0, 3),
 (70.0, 2),
 (72.0, 1),
 (80.0, 3),
 (84.0, 2),
 (88.0, 1),
 (90.0, 2),
 (96.0, 2)]

Сама по себе метрика является сомнительной, так как у лошади могут быть большие перепады скорости дыхания в разные моменты времени. При этом отсутствуют данные, по которым можно найти кореляцию скорости дахыния (сжатие сосудов, уменьшение объема циркулирующей крови, дефицит кислорода). Поэтому эти данные можно исключить из анализа полностью.

## Задание 3. Работа с пропусками

Рассчитать количество выбросов для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

### Заполнение данными поля surgery (факт проведения операции)

Процент пропущенных значений - 0.3%

Для начала опередим зависимость факта операции от возраста. Как будет видно ниже, операции делают только старым лошадям.

In [16]:
young_horse_surgery = len(df_horses_p1.loc[(df_horses_p1.surgery == 1) & (df_horses_p1.age == 2)])
print(f'Количество операций у молодых лошадей: {young_horse_surgery}')

Количество операций у молодых лошадей: 0


Теперь требуется понять в какой ситуации старой лошади могут сделать операцию. Для этого посмотрим на стандартные показатели.

Проверяем стандартные метрики для старых лошадей, которым сделали операцию

In [17]:
display(get_df_base_stats(df_horses_p1.loc[(df_horses_p1.age == 1) & (df_horses_p1.surgery == 1), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']].describe()))

Unnamed: 0,surgery,pulse,rectal_temperature,temperature_of_extremities
count,8.0,8.0,8.0,8.0
mean,21.0,77.056794,44.275446,17.817437
std,56.973678,46.347524,35.170418,44.130555
min,0.0,24.055701,0.718764,1.0
25%,1.0,45.0,37.125,1.0562
50%,1.0,68.199324,38.0924,2.732283
75%,1.0,101.0,39.0,3.25
max,162.0,148.0,125.0,127.0
mode,1.0,24.0,38.0,1.0


Проверяем стандартные метрики для старых лошадей, которым не сделали операцию

In [18]:
display(get_df_base_stats(df_horses_p1.loc[(df_horses_p1.age == 1) & (df_horses_p1.surgery == 2), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']].describe()))

Unnamed: 0,surgery,pulse,rectal_temperature,temperature_of_extremities
count,8.0,8.0,8.0,8.0
mean,15.625,67.47682,40.480159,14.277933
std,39.351665,35.839854,25.307199,34.653561
min,0.0,23.319323,0.762547,0.993463
25%,2.0,45.0,37.35,1.0
50%,2.0,58.747619,38.189362,2.115
75%,2.0,86.25,39.025,3.25
max,113.0,130.0,94.0,100.0
mode,2.0,23.0,38.0,1.0


Как видно в обоих ситуациях размер пульса и ректальной температуры не особо влияет на факт проведения операции, есть только определенная зависимость от температуры конечностей. Теперь посмотрим насколько больше старых лошадей с прохладными и холодными конечностями оперируют

In [19]:
# Количество лошадей с холодными коннечностями без операции
len(df_horses_p1.loc[(df_horses_p1.age == 1) & 
                 (df_horses_p1.surgery == 2) & 
                 (df_horses_p1.temperature_of_extremities.isin([3,4])), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']])

49

In [20]:
# Количество прооперированных лошадей с холодными конечностями
len(df_horses_p1.loc[(df_horses_p1.age == 1) & 
                 (df_horses_p1.surgery == 1) & 
                 (df_horses_p1.temperature_of_extremities.isin([3,4])), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']])

78

In [21]:
78*100/(78+49)

61.41732283464567

Как видно из расчета, 61% старых лошадей с холодными и прохладными конечностями попадают на операцию

In [22]:
78/(49+78)

0.6141732283464567

In [23]:
# Количество лошадей с нормальными и горячими конечностями без операции
len(df_horses_p1.loc[(df_horses_p1.age == 1) & 
                 (df_horses_p1.surgery == 2) & 
                 (df_horses_p1.temperature_of_extremities.isin([1,2])), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']])

51

In [24]:
len(df_horses_p1.loc[(df_horses_p1.age == 1) & 
                 (df_horses_p1.surgery == 1) & 
                 (df_horses_p1.temperature_of_extremities.isin([1,2])), 
                 ['surgery', 'pulse', 'rectal_temperature', 'temperature_of_extremities']])

49

Как видно из расчета, 49% старых лошадей с нормальными или горячими конечностями попадают на операцию. При этом если посмотреть на вероятности только нормальных или только горячих конечностей, то они сильно не отличаются от совокупности этих параметров.

Таким образом выведем формулу заполнения пустого значения факта проведения операции.
- молодым лошадям операцию не делают
- если лошадть старая и у нее прохладные или теплые конечности, то на операцио она попадет с вероятностью 61%
- если лошадь старая и у нее нормальные или горячие конечности, то на операцию 49%.

Применяем условие для молодых лошадей

In [25]:
df_horses_p1.loc[(df_horses_p1.surgery.isnull()) & (df_horses_p1.age == 2), 'surgery'] = 2

Применяем условие для старых лошадей с прохладными и холодными конечностями

In [26]:
# Переменная с распределением значений 1 - 61% массива, 2 - 39% массива. Это число будет использовано для заполнения
# отсутствующего значения случайным выбором
values_for_random = list(np.full(61, 1)) + list(np.full(39, 2))

df_horses_p1.loc[(df_horses_p1.surgery.isnull()) & 
                 (df_horses_p1.age == 1) &
                 (df_horses_p1.temperature_of_extremities.isin([3,4])), 'surgery'] = random.choice(values_for_random)

Применяем условие для старых лошадей с нормальными и горячими конечностями

In [27]:
# Переменная с распределением значений 1 - 49% массива, 2 - 51% массива.
values_for_random = list(np.full(49, 1)) + list(np.full(51, 2))
df_horses_p1.loc[(df_horses_p1.surgery.isnull()) & 
                 (df_horses_p1.age == 1) &
                 (df_horses_p1.temperature_of_extremities.isin([1,2])), 'surgery'] = random.choice(values_for_random)

Проверяем процент незаполненных полей в surgery

In [28]:
pct_missing = df_horses_p1['surgery'].isnull().mean()
print(f'surgery - {pct_missing :.1%}')

surgery - 0.0%


### Заполнение данными поля Age (возраст)

Все значения этой метрики заполнены, но есть некорректные значения в виде 9. 

Первое условие для замены нам уже известно - если лошадь оперировали, значит она точно старая. Требуется выяснить условия распределения возраста, если операции не было.

Проверим количество молодых лошадей в нашем списке.

In [29]:
len(df_horses_p1[df_horses_p1.age == 2])

0

Проверим количество строк с некорректными данными

In [30]:
df_horses_p1[~df_horses_p1['age'].isin([1,2])].age.value_counts()

9    24
Name: age, dtype: int64

Как видно из результата в данных в принципе нет молодых лошадей, поэтому можно предположить, что молодые лошади до 6 месяцев не болеют и так как ошибочных данных относительно немного, то такая замена не сильно повлияет на статистику. Поэтому заменяем все некорректные данные на значение 1.

In [31]:
df_horses_p1.loc[~df_horses_p1['age'].isin([1,2]), 'age'] = 1

Проверяем процент незаполненных полей в age

In [32]:
pct_missing = df_horses_p1['age'].isnull().mean()
print(f'age - {pct_missing :.1%}')

age - 0.0%


### Заполнение данными поля Hospital Number (номер больничгого листа)

Все значения этой метрики заполнены

In [33]:
pct_missing = df_horses_p1['hospital_number'].isnull().mean()
print(f'hospital_number - {pct_missing :.1%}')

hospital_number - 0.0%


### Заполнение данными поля rectal temperature (ректальная температура)

Процент пропущенных значений - 18.7%

Как видно из базовых параметров разброс значений температуры маленький, выбросов нет, среднее значение практически соответствует медиане. Поэтому отсутствующие значения можно бы заполнить средним, но мы не можем так сделать, так как наша температура делится на 2 категории: выше нормы и ниже нормы. В случае выбора среднего у нас у всех лошадей будет температура выше нормы.

In [34]:
df_horses_p1['rectal_temperature'].describe()

count    240.000000
mean      38.167917
std        0.732289
min       35.400000
25%       37.800000
50%       38.200000
75%       38.500000
max       40.800000
Name: rectal_temperature, dtype: float64

Пробуем посмотреть как зависит температура от факта проведения операции

In [35]:
# Смотрим статисктику прооперированных лошадей, у которых температура ниже нормы
sorted(df_horses_p1[df_horses_p1['rectal_temperature'] < 37.8].surgery.value_counts().items())

[(1.0, 33), (2.0, 23)]

In [36]:
# Смотрим статисктику прооперированных лошадей, у которых температура выше нормы
sorted(df_horses_p1[df_horses_p1['rectal_temperature'] > 37.8].surgery.value_counts().items())

[(1.0, 97), (2.0, 70)]

Как видно из статистики, если среди прооперированных и непрооперированных лошадей вероятность получить температуру выше нормы примерно в 3 раза больше, чем ниже нормы. Поэтому заполним температуру случайным значением из области температур выше и ниже нормы и учтем, что вероятность получить температуру выше нормы в 3 раза больше, чем получить температуру ниже нормы.

In [37]:
low_t_range = np.arange(df_horses_p1.rectal_temperature.min(), 37.8, 0.1)
high_t_range = np.arange(37.8, df_horses_p1.rectal_temperature.max(), 0.1)

# Температуру будем заполнять случайным числом между min и max? учитываем, что вероятность получить температуру выше 
# нормы в три раза больше как у прооперированных, так и у лошадей без операций
random_array = np.concatenate((low_t_range, high_t_range, high_t_range, high_t_range))

In [38]:
df_horses_p1.loc[df_horses_p1.rectal_temperature.isnull(), 'rectal_temperature'] = random.choice(random_array)

Проверяем процент незаполненных полей в rectal_temperature

In [39]:
pct_missing = df_horses_p1['rectal_temperature'].isnull().mean()
print(f'rectal_temperature - {pct_missing :.1%}')

rectal_temperature - 0.0%


### Заполнение данными поля pulse (пульс)

Процент пропущенных значений - 8.0%

In [40]:
df_horses_p1['pulse'].describe()

count    276.000000
mean      71.913043
std       28.630557
min       30.000000
25%       48.000000
50%       64.000000
75%       88.000000
max      184.000000
Name: pulse, dtype: float64

In [41]:
# Подбираем оптимальный размер пульса, который можно считать выбросом
len(df_horses_p1[df_horses_p1.pulse > 120].sort_values(by='pulse'))

16

Так как в данных есть выбросы и 75% лошадей имеют пульс не более 88 ударов в минуту, а кол-во лошадей с пульсом более 120 всего 16, то будем считать значения больше 120 выбросами. Так как не удалось обнаружить какой-либо кореляции пульса между остальными данными во фрейме, то заполним пустые значения средними без учета выбросов.

In [42]:
df_horses_p1.loc[df_horses_p1.pulse.isnull(), 'pulse'] = df_horses_p1[df_horses_p1.pulse < 120].pulse.mean()

Проверяем процент незаполненных полей в pulse

In [43]:
pct_missing = df_horses_p1['pulse'].isnull().mean()
print(f'pulse - {pct_missing :.1%}')

pulse - 0.0%


### Заполнение данными поля respiratory rate (частота дыхания)

Процент незаполненных - 23.0%

In [44]:
display(get_df_base_stats(df_horses_p1))

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,300.0,300.0,300.0,300.0,300.0,242.0,244.0,231.0
mean,1.396667,1.0,1085889.0,37.634333,71.40192,30.417355,2.348361,2.017316
std,0.490023,0.0,1529801.0,1.253512,27.512309,17.642231,1.045054,1.042428
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.2,48.0,18.5,1.0,1.0
50%,1.0,1.0,530305.5,38.0,65.524,24.5,3.0,2.0
75%,2.0,1.0,534727.5,38.5,88.0,36.0,3.0,3.0
max,2.0,1.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,66.0,20.0,3.0,1.0


Так как не удалось найти зависимость между частотой дыхания и остальными метриками, а так же сами авторы дата сета утверждают о бесполезности данных в этом столбце, заполним пустые значения медианой из датасета без выбросов.

In [45]:
# Найдем выбросы по формуле
Q1 = df_horses_p1['respiratory_rate'].quantile(0.25)
Q3 = df_horses_p1['respiratory_rate'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5*IQR
upper = Q3 + 1.5*IQR
# Находим медианное значение без выбросов
respiratory_rate_median = df_horses_p1[(df_horses_p1['respiratory_rate'] < upper) & 
                                        (df_horses_p1['respiratory_rate'] > lower)]['respiratory_rate'].median()
df_horses_p1.loc[df_horses_p1.respiratory_rate.isnull(), 'respiratory_rate'] = respiratory_rate_median

Проверяем процент незаполненных полей в respiratory_rate

In [46]:
pct_missing = df_horses_p1['respiratory_rate'].isnull().mean()
print(f'respiratory_rate - {pct_missing :.1%}')

respiratory_rate - 0.0%


### Заполнение данными поля temperature of extremities (частота дыхания)

Процент незаполненных - 18.7%

In [47]:
display(get_df_base_stats(df_horses_p1))

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,300.0,300.0,300.0,300.0,300.0,300.0,244.0,231.0
mean,1.396667,1.0,1085889.0,37.634333,71.40192,29.176667,2.348361,2.017316
std,0.490023,0.0,1529801.0,1.253512,27.512309,16.041088,1.045054,1.042428
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.2,48.0,20.0,1.0,1.0
50%,1.0,1.0,530305.5,38.0,65.524,24.0,3.0,2.0
75%,2.0,1.0,534727.5,38.5,88.0,34.25,3.0,3.0
max,2.0,1.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,66.0,24.0,3.0,1.0


Попробуем проверить как зависит температура конечностей от ректальной температуры, найдем количество каждого значения temperature_of_extremities для следующих диапазонов:
- ректальная температура меньше 37.8
- ректальная температура от 37.8 до 39
- ректальная температура от 39 и выше

In [48]:
# ректальная температура меньше 37.8
sorted(df_horses_p1.loc[(df_horses_p1.rectal_temperature < 37.8), 
                        'temperature_of_extremities'].value_counts().items())

[(1.0, 18), (2.0, 10), (3.0, 52), (4.0, 10)]

In [49]:
# ректальная температура от 37.8 до 39
sorted(df_horses_p1.loc[(df_horses_p1.rectal_temperature >= 37.8) &
                        (df_horses_p1.rectal_temperature < 39), 
                        'temperature_of_extremities'].value_counts().items())

[(1.0, 57), (2.0, 17), (3.0, 45), (4.0, 11)]

In [50]:
# ректальная температура от 39 и выше
sorted(df_horses_p1.loc[(df_horses_p1.rectal_temperature >= 39), 
                        'temperature_of_extremities'].value_counts().items())

[(1.0, 3), (2.0, 3), (3.0, 12), (4.0, 6)]

Как видно из полученных диапазонов во всех группах преобладает значение 3. Так как не удалось найти иной зависимости температуры конечностей от других данных, имеет смысл заполнить пустые значения модой со значением 3

In [51]:
df_horses_p1.loc[df_horses_p1.temperature_of_extremities.isnull(), 'temperature_of_extremities'] = 3

Проверяем процент незаполненных полей в temperature_of_extremities

In [52]:
pct_missing = df_horses_p1['temperature_of_extremities'].isnull().mean()
print(f'temperature_of_extremities - {pct_missing :.1%}')

temperature_of_extremities - 0.0%


### Заполнение данными поля peripheral pulse (периферический пульс)

Процент незаполненных - 23.0%

In [53]:
display(get_df_base_stats(df_horses_p1))

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,300.0,300.0,300.0,300.0,300.0,300.0,300.0,231.0
mean,1.396667,1.0,1085889.0,37.634333,71.40192,29.176667,2.47,2.017316
std,0.490023,0.0,1529801.0,1.253512,27.512309,16.041088,0.975845,1.042428
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.2,48.0,20.0,1.0,1.0
50%,1.0,1.0,530305.5,38.0,65.524,24.0,3.0,2.0
75%,2.0,1.0,534727.5,38.5,88.0,34.25,3.0,3.0
max,2.0,1.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,66.0,24.0,3.0,1.0


Так как не удалось найти определённой зависимости периферического пульса от других данных, имеет смысл заполнить пустые значения модой со значением 1

In [54]:
df_horses_p1.loc[df_horses_p1.peripheral_pulse.isnull(), 'peripheral_pulse'] = 1

Проверяем процент незаполненных полей в temperature_of_extremities

In [55]:
pct_missing = df_horses_p1['temperature_of_extremities'].isnull().mean()
print(f'temperature_of_extremities - {pct_missing :.1%}')

temperature_of_extremities - 0.0%


# Итоговые результаты

In [56]:
# Исходные данные
display(get_df_base_stats(df_horses_p1_orig))
print(f'Кол-во пропусков: {sum(len(df_horses_p1_orig) - df_horses_p1_orig.count())}')

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,299.0,300.0,300.0,240.0,276.0,242.0,244.0,231.0
mean,1.397993,1.64,1085889.0,38.167917,71.913043,30.417355,2.348361,2.017316
std,0.490305,2.173972,1529801.0,0.732289,28.630557,17.642231,1.045054,1.042428
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.8,48.0,18.5,1.0,1.0
50%,1.0,1.0,530305.5,38.2,64.0,24.5,3.0,2.0
75%,2.0,1.0,534727.5,38.5,88.0,36.0,3.0,3.0
max,2.0,9.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,48.0,20.0,3.0,1.0


Кол-во пропусков: 268


In [57]:
# Результирующие данные
display(get_df_base_stats(df_horses_p1))
print(f'Кол-во пропусков: {sum(len(df_horses_p1) - df_horses_p1.count())}')

Unnamed: 0,surgery,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse
count,300.0,300.0,300.0,300.0,300.0,300.0,300.0,300.0
mean,1.396667,1.0,1085889.0,37.634333,71.40192,29.176667,2.47,1.783333
std,0.490023,0.0,1529801.0,1.253512,27.512309,16.041088,0.975845,1.009846
min,1.0,1.0,518476.0,35.4,30.0,8.0,1.0,1.0
25%,1.0,1.0,528904.0,37.2,48.0,20.0,1.0,1.0
50%,1.0,1.0,530305.5,38.0,65.524,24.0,3.0,1.0
75%,2.0,1.0,534727.5,38.5,88.0,34.25,3.0,3.0
max,2.0,1.0,5305629.0,40.8,184.0,96.0,4.0,4.0
mode,1.0,1.0,527544.0,38.0,66.0,24.0,3.0,1.0


Кол-во пропусков: 0
