# Домашнее задание к лекции "Базовые понятия статистики"

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [3]:
import pandas as pd
attributes_all = ['surgery?', 'age', 'hosp_num','rec_t', 'pulse', 'resp_rate', 't_extr', 'periph_pulse', 'muc_memb', 'cap_refill_time', 'pain', 'perist', 'abd_dist', 'nasog_tube', 'nasog_reflux', 'PH', 'rec_exam', 'abd', 'cell_volume', 'tot_prot', 'abd_app', 'abd_tot_prot', 'outcome', 'surg_les?', 'type_lesion_1', 'type_lesion_2', 'type_lesion_3', 'cp_data' ]
attributes_selected = ['hosp_num','rec_t', 'pulse', 't_extr', 'muc_memb', 'abd_dist', 'abd', 'outcome']
df_selected = pd.read_csv('horse_data.csv', names = attributes_all, usecols = attributes_selected, na_values = '?')

# Записываем базовые метрики в отдельный датафрейм:
df_stat = df_selected.describe()
df_stat


Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
count,300.0,240.0,276.0,244.0,253.0,244.0,182.0,299.0
mean,1085889.0,38.167917,71.913043,2.348361,2.853755,2.266393,3.692308,1.551839
std,1529801.0,0.732289,28.630557,1.045054,1.620294,1.065131,1.491725,0.737187
min,518476.0,35.4,30.0,1.0,1.0,1.0,1.0,1.0
25%,528904.0,37.8,48.0,1.0,1.0,1.0,2.0,1.0
50%,530305.5,38.2,64.0,3.0,3.0,2.0,4.0,1.0
75%,534727.5,38.5,88.0,3.0,4.0,3.0,5.0,2.0
max,5305629.0,40.8,184.0,4.0,6.0,4.0,5.0,3.0


In [5]:
# Дополнение датафрейма со статистикой

# Размах:
def get_range(date_frame, column_name):
    return date_frame[column_name].max() - date_frame[column_name].min()

# Мода:
def get_mode(data_frame, column_name):
    return data_frame[column_name].round().mode()[0]

df_stat.loc['range'] = ['NaN', get_range(df_selected, 'rec_t'), get_range(df_selected, 'pulse'), get_range(df_selected, 't_extr'), 'NaN', 'NaN', 'NaN', 'NaN' ]
df_stat.loc['mode'] = ['NaN', get_mode(df_selected, 'rec_t'), get_mode(df_selected, 'pulse'), get_mode(df_selected, 't_extr'),'NaN', 'NaN', 'NaN', 'NaN' ]
df_stat.loc['median'] = ['NaN', df_selected.rec_t.median(), df_selected.pulse.median(), df_selected.t_extr.median(), 'NaN', 'NaN', 'NaN', 'NaN' ]
df_stat.loc['disp'] = ['NaN', df_selected.rec_t.var(), df_selected.pulse.var(), df_selected.t_extr.var(), 'NaN', 'NaN', 'NaN', 'NaN' ]
df_stat


Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
count,300.0,240.0,276.0,244.0,253.0,244.0,182.0,299.0
mean,1085890.0,38.167917,71.913043,2.348361,2.85375,2.26639,3.69231,1.55184
std,1529800.0,0.732289,28.630557,1.045054,1.62029,1.06513,1.49173,0.737187
min,518476.0,35.4,30.0,1.0,1.0,1.0,1.0,1.0
25%,528904.0,37.8,48.0,1.0,1.0,1.0,2.0,1.0
50%,530306.0,38.2,64.0,3.0,3.0,2.0,4.0,1.0
75%,534728.0,38.5,88.0,3.0,4.0,3.0,5.0,2.0
max,5305630.0,40.8,184.0,4.0,6.0,4.0,5.0,3.0
range,,5.4,154.0,3.0,,,,
mode,,38.0,48.0,3.0,,,,


In [None]:
# Большинство значений температуры лежит в области 38 градусов со средним отклонением 0,7,
# что не сильно отличается от температуры здоровых лошадей.
# Среднее отклонение пульса равно 28, что указывает на большой разброс данных.
# Минимальные и максимальные значения в столбцах с категориальным значениями указывают на то, что выбросов в них нет.

In [6]:
# Функции для проверки выбросов:
def get_outlier_bounds(data_frame, column_name, quantile_low = 0.25, quantile_high = 0.75):
    q_low = data_frame[column_name].quantile(quantile_low)
    q_high = data_frame[column_name].quantile(quantile_high)
    range_ = q_high - q_low
    return (q_low - 1.5 * range_, q_high + 1.5 * range_)

def get_outliers(data_frame, column_name, lower_bound, upper_bound):
    return pd.concat([data_frame[ data_frame[column_name] < lower_bound ], data_frame[ data_frame[column_name] > upper_bound ]])

In [7]:
# Создандание копии данных, чтобы не повлиять датафрейм с базовыми метриками
df_refined = df_selected.copy()
df_refined.sort_values('rec_t')

Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
44,535407,35.4,140.0,3.0,4.0,,5.0,3.0
141,522979,36.0,42.0,,5.0,,,2.0
238,528702,36.1,88.0,3.0,3.0,2.0,4.0,3.0
80,527518,36.4,98.0,3.0,4.0,2.0,4.0,2.0
118,533983,36.5,78.0,1.0,1.0,1.0,,1.0
...,...,...,...,...,...,...,...,...
274,534624,,76.0,,,4.0,5.0,3.0
282,527544,,70.0,3.0,5.0,2.0,5.0,2.0
288,529428,,,,,,,1.0
293,534004,,78.0,3.0,3.0,,4.0,3.0


In [8]:
# Создание датафрейма с выбросами по температуре: все значения могли быть зафиксированы у лошадей, сильных выбросов нет
# данные не удаляем
lower_bound, upper_bound = get_outlier_bounds(df_selected, 'rec_t')
get_outliers(df_refined, 'rec_t', lower_bound, upper_bound).sort_values('rec_t')

Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
44,535407,35.4,140.0,3.0,4.0,,5.0,3.0
141,522979,36.0,42.0,,5.0,,,2.0
238,528702,36.1,88.0,3.0,3.0,2.0,4.0,3.0
80,527518,36.4,98.0,3.0,4.0,2.0,4.0,2.0
118,533983,36.5,78.0,1.0,1.0,1.0,,1.0
298,530612,36.5,100.0,3.0,3.0,3.0,4.0,1.0
251,527940,36.6,42.0,3.0,2.0,1.0,5.0,2.0
99,530002,39.6,108.0,3.0,6.0,3.0,5.0,1.0
75,534092,39.7,100.0,3.0,5.0,,,3.0
20,530157,39.9,72.0,1.0,5.0,4.0,4.0,1.0


In [9]:
# Рассматриваем выбросы по пульсу: максимальное значение в строке 255 (184.0) 
# не коррелирует с другими показателями здоровья, они в норме.
# Могло быть измерено у лошади после тренировки, но не в условиях поступления на лечение.
lower_bound, upper_bound = get_outlier_bounds(df_selected, 'pulse')
get_outliers(df_refined, 'pulse', lower_bound, upper_bound).sort_values('pulse')

Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
41,5288249,39.0,150.0,,,,,1.0
275,5297159,38.8,150.0,1.0,6.0,2.0,,2.0
55,5282839,38.6,160.0,3.0,5.0,4.0,,2.0
3,5290409,39.1,164.0,4.0,6.0,4.0,,2.0
255,5294539,38.8,184.0,1.0,1.0,3.0,,2.0


In [42]:
#Удаляем выброс:
df_refined = df_refined[ df_refined.pulse != 184.0 ]
df_refined

Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
0,530101,38.5,66.0,3.0,,4.0,5.0,2.0
1,534817,39.2,88.0,,4.0,2.0,2.0,3.0
2,530334,38.3,40.0,1.0,3.0,1.0,1.0,1.0
3,5290409,39.1,164.0,4.0,6.0,4.0,,2.0
4,530255,37.3,104.0,,6.0,,,2.0
...,...,...,...,...,...,...,...,...
295,533886,,120.0,4.0,4.0,,5.0,3.0
296,527702,37.2,72.0,3.0,4.0,3.0,4.0,3.0
297,529386,37.5,72.0,4.0,4.0,3.0,5.0,2.0
298,530612,36.5,100.0,3.0,3.0,3.0,4.0,1.0


In [10]:
# Смотрим долю пропусков:
for col in df_refined.columns:
    pct_missing = df_refined[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

hosp_num - 0.0%
rec_t - 20.0%
pulse - 8.0%
t_extr - 18.7%
muc_memb - 15.7%
abd_dist - 18.7%
abd - 39.3%
outcome - 0.3%


In [11]:
# Удалить строки, где отсутствует свыше 80% информации
df_refined.dropna(thresh = 7, inplace=True)

# Заполнение остальных столбцов показателями моды и медианы
df_refined.rec_t.fillna(df_refined.rec_t.median(), inplace=True)
df_refined.pulse.fillna(df_refined.pulse.mode()[0], inplace=True)
df_refined.t_extr.fillna(df_refined.t_extr.mode()[0], inplace=True)
df_refined.muc_memb.fillna(df_refined.muc_memb.mode()[0], inplace=True)
df_refined.abd_dist.fillna(df_refined.abd_dist.mode()[0], inplace=True)
df_refined.abd.fillna(df_refined.abd.mode()[0], inplace=True)
df_refined.outcome.fillna(df_refined.outcome.mode()[0], inplace=True)
df_refined

Unnamed: 0,hosp_num,rec_t,pulse,t_extr,muc_memb,abd_dist,abd,outcome
0,530101,38.5,66.0,3.0,1.0,4.0,5.0,2.0
1,534817,39.2,88.0,3.0,4.0,2.0,2.0,3.0
2,530334,38.3,40.0,1.0,3.0,1.0,1.0,1.0
3,5290409,39.1,164.0,4.0,6.0,4.0,5.0,2.0
6,526802,37.9,48.0,1.0,1.0,3.0,5.0,1.0
...,...,...,...,...,...,...,...,...
292,530034,37.0,66.0,1.0,2.0,3.0,5.0,2.0
294,533902,38.5,40.0,1.0,1.0,1.0,2.0,1.0
296,527702,37.2,72.0,3.0,4.0,3.0,4.0,3.0
297,529386,37.5,72.0,4.0,4.0,3.0,5.0,2.0
