# Базовые понятия математической статистики
Будем осуществлять работу с непростым набором данных о состоянии здоровья лошадей, испытывающих кишечные колики. Цель – максимально корректно заполнить пропуски.

### Загрузка данных
Изучим представленный набор данных на основе описания его столбцов, загрузим его и оставим 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.

In [1]:
# загрузим необходимые библиотеки
import pandas as pd
import numpy as np

In [2]:
# загрузим датасет
df = pd.read_csv('C:\\Users\\HP\\Desktop\\DataAnalitics\\Python\\Notebook\\statistics\\horse_data.csv', sep=',', na_values='?', names = ['surgery?', 'age', 'hospital_number', 'rectal_temperature', 'pulse', 'respiratory_rate', 'temperature_of_extremities', 'peripheral_pulse', 'mucous_membranes', 'capillary_refill_time', 'pain', 'peristalsis', 'abdominal_distension', 'nasogastric_tube', 'nasogastric_reflux', 'nasogastric_reflux_PH', 'rectal_examination', 'abdomen', 'packed_cell_volume', 'total_protein', 'abdominocentesis_appearance', 'abdomcentesis_total_protein', 'outcome', 'surgical lesion?', '1type of lesion', '2type of lesion', '3type of lesion', 'cp_data'])

In [3]:
df.head()

Unnamed: 0,surgery?,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse,mucous_membranes,capillary_refill_time,...,packed_cell_volume,total_protein,abdominocentesis_appearance,abdomcentesis_total_protein,outcome,surgical lesion?,1type of lesion,2type of lesion,3type of lesion,cp_data
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0,,2.0,...,45.0,8.4,,,2.0,2,11300,0,0,2
1,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
4,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2


In [4]:
df.columns

Index(['surgery?', 'age', 'hospital_number', 'rectal_temperature', 'pulse',
       'respiratory_rate', 'temperature_of_extremities', 'peripheral_pulse',
       'mucous_membranes', 'capillary_refill_time', 'pain', 'peristalsis',
       'abdominal_distension', 'nasogastric_tube', 'nasogastric_reflux',
       'nasogastric_reflux_PH', 'rectal_examination', 'abdomen',
       'packed_cell_volume', 'total_protein', 'abdominocentesis_appearance',
       'abdomcentesis_total_protein', 'outcome', 'surgical lesion?',
       '1type of lesion', '2type of lesion', '3type of lesion', 'cp_data'],
      dtype='object')

In [5]:
# оставим только необходимые колонки
df_horse = df[['surgery?', 'age', 'rectal_temperature', 'pulse', 'respiratory_rate', 'temperature_of_extremities', 'pain', 'outcome']]

In [6]:
df_horse.head()

Unnamed: 0,surgery?,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,,,2.0


### Первичное изучение данных
Проанализируем значения по столбцам, рассчитаем базовые статистики, найдем выбросы.

In [7]:
# посчитаем базовые статистики
df_horse.describe()

Unnamed: 0,surgery?,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
count,299.0,300.0,240.0,276.0,242.0,244.0,245.0,299.0
mean,1.397993,1.64,38.167917,71.913043,30.417355,2.348361,2.95102,1.551839
std,0.490305,2.173972,0.732289,28.630557,17.642231,1.045054,1.30794,0.737187
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.8,48.0,18.5,1.0,2.0,1.0
50%,1.0,1.0,38.2,64.0,24.5,3.0,3.0,1.0
75%,2.0,1.0,38.5,88.0,36.0,3.0,4.0,2.0
max,2.0,9.0,40.8,184.0,96.0,4.0,5.0,3.0


In [8]:
# посчитаем размах, где это имеет смысл – разница между минимальным и максимальным значением
rectal_temperature_range = df_horse['rectal_temperature'].max() - df_horse['rectal_temperature'].min()
pulse_range = df_horse['pulse'].max() - df_horse['pulse'].min()
respiratory_rate_range = df_horse['respiratory_rate'].max() - df_horse['respiratory_rate'].min()
print(rectal_temperature_range)
print(pulse_range)
print(respiratory_rate_range)

5.399999999999999
154.0
88.0


In [9]:
# посчитаем моду: "была ли операция?"" (1 = Да, была операция, 2 = Лечение прошло без хирургического вмешательства)
df_horse['surgery?'].round().mode()[0]

1.0

In [10]:
# посчитаем моду на "возраст" (1 = взрослая лошадь, 2 = Молодой (<6 месяцев))
df_horse['age'].round().mode()[0]

1

In [11]:
# посчитаем моду на "боль"
if df_horse['pain'].round().mode()[0] == 1:
    print('Большинство значений уровня боли лошади: тревога, без боли')
elif df_horse['pain'].round().mode()[0] == 2:
    print('Большинство значений уровня боли лошади: депрессия')
elif df_horse['pain'].round().mode()[0] == 3:
    print('Большинство значений уровня боли лошади: прерывистая легкая боль') 
elif df_horse['pain'].round().mode()[0] == 4:
    print('Большинство значений уровня боли лошади: периодическая сильная боль')
elif df_horse['pain'].round().mode()[0] == 5:
    print('Большинство значений уровня боли лошади: постоянная сильная боль')

Большинство значений уровня боли лошади: прерывистая легкая боль


In [12]:
# посчитаем моду на "результат"
if df_horse['outcome'].round().mode()[0] == 1:
    print('Самые популярные значения исхода: лошадь жива')
elif df_horse['outcome'].round().mode()[0] == 2:
    print('Самые популярные значения исхода: лошадь умерла')
elif df_horse['outcome'].round().mode()[0] == 3:
    print('Самые популярные значения исхода: лошадь была усыплена') 

Самые популярные значения исхода: лошадь жива


In [13]:
# посчитаем медиану
df_horse[['rectal_temperature', 'pulse', 'respiratory_rate']].median()

rectal_temperature    38.2
pulse                 64.0
respiratory_rate      24.5
dtype: float64

In [14]:
# посчитаем дисперсию
df_horse[['rectal_temperature', 'pulse', 'respiratory_rate']].var()

rectal_temperature      0.536247
pulse                 819.708775
respiratory_rate      311.248328
dtype: float64

In [15]:
# найдем выбросы через межквартильный размах
q1 = df_horse[['surgery?', 'age', 'rectal_temperature', 'pulse', 'respiratory_rate', 'temperature_of_extremities', 'pain', 'outcome']].quantile(0.25)
q3 = df_horse[['surgery?', 'age', 'rectal_temperature', 'pulse', 'respiratory_rate', 'temperature_of_extremities', 'pain', 'outcome']].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = upper_bound - lower_bound
remove_outliers

surgery?                        4.0
age                             0.0
rectal_temperature              2.8
pulse                         160.0
respiratory_rate               70.0
temperature_of_extremities      8.0
pain                            8.0
outcome                         4.0
dtype: float64

In [16]:
# что это за выброс?
pd.concat([df_horse, remove_outliers]).drop_duplicates(keep=False)

Unnamed: 0,0,age,outcome,pain,pulse,rectal_temperature,respiratory_rate,surgery?,temperature_of_extremities
0,,1.0,2.0,5.0,66.0,38.5,28.0,2.0,3.0
1,,1.0,3.0,3.0,88.0,39.2,20.0,1.0,
2,,1.0,1.0,3.0,40.0,38.3,24.0,2.0,1.0
3,,9.0,2.0,2.0,164.0,39.1,84.0,1.0,4.0
4,,1.0,2.0,,104.0,37.3,35.0,2.0,
...,...,...,...,...,...,...,...,...,...
299,,1.0,3.0,,40.0,37.2,20.0,1.0,
age,0.0,,,,,,,,
rectal_temperature,2.8,,,,,,,,
pulse,160.0,,,,,,,,


### Работа с пропусками
Рассчитаем количество пропусков для всех выбранных столбцов. Примем и обоснуем решение о методе заполнения пропусков по каждому столбцу на основе рассчитанных статистик и возможной взаимосвязи значений в них. Сформируем датафрейм, в котором пропуски будут отсутствовать.

In [17]:
# найдем пропуски
(df_horse.isna().mean() * 100).round(2)

surgery?                       0.33
age                            0.00
rectal_temperature            20.00
pulse                          8.00
respiratory_rate              19.33
temperature_of_extremities    18.67
pain                          18.33
outcome                        0.33
dtype: float64

In [18]:
# заполним пропуск в surgery? модой
df_horse['surgery?'].fillna(df_horse['surgery?'].round().mode()[0], inplace=True)
df_horse['surgery?'].count()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


300

In [19]:
# заполним пропуски в rectal_temperature нормальной температурой 37,8 в градусах Цельсия, если лошадь жива и не имела боли, 
# и медианой в зависимости от возраста лошади и исхода.
if 1 in df_horse[['pain', 'outcome']]:
    df_horse['rectal_temperature'].fillna(37.8, inplace=True)
else:
    df_horse['rectal_temperature'].fillna(df_horse.groupby(['age', 'outcome'])['rectal_temperature'].transform('median'), inplace=True)
df_horse['rectal_temperature'].count()

300

In [20]:
# заполним пропуски в pulse нормальной частотой для взрослых лошадей (30 ударов) 
# и медианой в зависимости от частоты дыхания, уровня боли, исхода.
if 1 in df_horse['age']:
    df_horse['pulse'].fillna(30, inplace=True)
else:
    df_horse['pulse'].fillna(df_horse.groupby(['respiratory_rate', 'pain', 'outcome'])['pulse'].transform('median'), inplace=True)
df_horse['pulse'].count()

300

In [21]:
# заполним пропуски в respiratory_rate нормальной частотой 9, если лошадь жива и не имела боли, 
# в остальных случаях проставим моду, так как полезность сомнительна из-за больших колебаний.
if 1 in df_horse[['pain', 'outcome']]:
    df_horse['respiratory_rate'].fillna(9, inplace=True)
else:
    df_horse['respiratory_rate'].fillna(df_horse['respiratory_rate'].round().mode()[0], inplace=True)
df_horse['respiratory_rate'].count()

300

In [22]:
# заполним пропуски в temperature_of_extremities медианой в зависимости от ректальной температуры, если лошадь жива
# в остальных случаях в зависимоти от исхода.
if '1' in df_horse['outcome']:
    df_horse['temperature_of_extremities'].fillna(df_horse.groupby(['rectal_temperature'])['temperature_of_extremities'].transform('median'), inplace=True)
else:
    df_horse['temperature_of_extremities'].fillna(df_horse.groupby(['outcome'])['temperature_of_extremities'].transform('median'), inplace=True)
df_horse['temperature_of_extremities'].count()

300

In [23]:
# заполним пропуски в pain медианой в зависимости от операции и ректальной температуры.
df_horse['pain'].fillna(df_horse.groupby(['surgery?'])['pain'].transform('median'), inplace=True)
df_horse['pain'].count()

300

In [24]:
# заполним пропуски в outcome медианой в зависимости от операции и ректальной температуры.
df_horse['outcome'].fillna(df_horse.groupby(['surgery?', 'pain'])['outcome'].transform('median'), inplace=True)
df_horse['outcome'].count()

300

In [25]:
(df_horse.isna().mean() * 100).round(2)

surgery?                      0.0
age                           0.0
rectal_temperature            0.0
pulse                         0.0
respiratory_rate              0.0
temperature_of_extremities    0.0
pain                          0.0
outcome                       0.0
dtype: float64

In [26]:
df_horse.head()

Unnamed: 0,surgery?,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,3.0,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,3.0,2.0,2.0
