
Обязательная часть
Будем осуществлять работу с непростым набором данных о состоянии здоровья лошадей, испытывающих кишечные колики.

In [2]:
import pandas as pd
import numpy as np

Задание 1. Базовое изучение¶
Изучить представленный набор данных на основе описания его столбцов и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

In [61]:
df = pd.read_csv('horse_data.csv',  header=None, na_values='?')
# Для начала введём названия колонок в соотв. с легендой: 
df.columns = ['Surgery', 'Age', 'Hospital number', 'rectal temperature', 'pulse', 
                 'respiratory rate', 'temp of extremities', 'peripheral pulse', 'mucous membranes', 'capillary refill time',
                 'pain', 'peristalsis', 'abdominal distension', 'nasogastric tube', 'nasogastric reflux',
                 'nasogastric reflux PH', 'rectal examination', 'abdomen', 'packed cell volume', 'total protein',\
                 'abdominocentesis appearance', 'abdomcentesis total protein', 'outcome', 'surgical lesion', 'type of lesion',
                 'type of lesion2','type of lesion3', 'cp_data']


def calculate_metrics(df):
    # Определим числовые показатели наших данных
    numeric_metrics = ['rectal temperature', 'pulse',  'respiratory rate', 'nasogastric reflux PH', 'packed cell volume', 'total protein', 'abdomcentesis total protein']
    # Посчитаем основные метрики: 
    metrics_dict = {}
    for column in df.columns:
        if column != 'Hospital number':
            metrics_values = {}
        #Если метрики числовые, будем смотреть минимальное и максимальное значение, размах, среднее и медиану: 
            if column in numeric_metrics:
                metrics_values['min'] = min(df[column])
                metrics_values['max'] = max(df[column])
                metrics_values['range'] = max(df[column]) - min(df[column])
                metrics_values['mean'] = df[column].mean()
                metrics_values['median'] = df[column].median()
                metrics_values['std'] = df[column].std()
        #ДЛя всех метрик посчитаем также моду: 
            metrics_values['mode'] = df[column].mode()
            metrics_dict[column] = metrics_values
    result = pd.DataFrame.from_dict(metrics_dict, orient='index')
    return result
result = calculate_metrics(df)
result

Unnamed: 0,mode,min,max,range,mean,median,std
Surgery,0 1.0 dtype: float64,,,,,,
Age,0 1 dtype: int64,,,,,,
rectal temperature,0 38.0 dtype: float64,35.4,40.8,5.4,38.167917,38.2,0.732289
pulse,0 48.0 dtype: float64,30.0,184.0,154.0,71.913043,64.0,28.630557
respiratory rate,0 20.0 dtype: float64,8.0,96.0,88.0,30.417355,24.5,17.642231
temp of extremities,0 3.0 dtype: float64,,,,,,
peripheral pulse,0 1.0 dtype: float64,,,,,,
mucous membranes,0 1.0 dtype: float64,,,,,,
capillary refill time,0 1.0 dtype: float64,,,,,,
pain,0 3.0 dtype: float64,,,,,,


Первый вывод, который можно сделать по данным - в них слишком много категориальных признаков, по которым бесссысленно считать большинство стандартных показателей. Возможно, стоит модифицировать датафрейм так, чтобы превратить категориальные признаки в числовые.
По имеющимся данным можно сделать следующие выводы: 
Температура: Температура здоровой лошади составляет 38,5 градусов, и судя по средней, моде и медиане - она держится примерно в таком же спектре у лошадей. отклонение при этом незначительное. 
Пульс: У здоровой лошади этот показатель находится в пределах 28-45 ударов в минуту, при это средние показатели показывают значения выше, в районе 68-72. При этом даже мода находится выше нормы (48), что может нам говорить о том, что возможно колики вызывают учащённое сердцебиение. 
Частота дыхания: Аналогично пульсу. Частота дыхания здоровой лошади не превышает 24, при этом средние и медианные значения находятся выше нормального. 
Гематокрит - у здоровой лошади составляет от 35 до 50%. Здесь все показатели не сильно отличаются от средних, поэтому говорить об индикативности данного показателя не приходится. 
Общий белок брюшной полости - не нашёл нормативных значений по этому показателю, а по текущим показателям сделать выводы проблематичено. 

 Задание 2. Работа с выбросами¶
В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

In [46]:
remove_outliers = df
for column in df.columns:
    if column in numeric_metrics:
        q1 = df[column].quantile(0.25)
        q3 = df[column].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - (1.5 * iqr) 
        upper_bound = q3 + (1.5 * iqr)
        remove_outliers = remove_outliers[remove_outliers[column].between(lower_bound, upper_bound, inclusive=True)]
result = calculate_metrics(remove_outliers)
result

Unnamed: 0,mode,min,max,range,mean,median,std
Surgery,0 1.0 dtype: float64,,,,,,
Age,0 1 dtype: int64,,,,,,
rectal temperature,0 38.1 dtype: float64,37.1,39.3,2.2,38.216667,38.1,0.555687
pulse,0 52.0 dtype: float64,36.0,136.0,100.0,73.166667,62.0,31.791461
respiratory rate,0 24.0 dtype: float64,12.0,51.0,39.0,31.25,30.0,13.705507
temp of extremities,0 3.0 dtype: float64,,,,,,
peripheral pulse,0 1.0 1 3.0 dtype: float64,,,,,,
mucous membranes,0 3.0 dtype: float64,,,,,,
capillary refill time,0 1.0 dtype: float64,,,,,,
pain,0 4.0 dtype: float64,,,,,,


Можно увидеть, что даже с учётом того, что строка удалялась полность в случае даже если один показатель показался нам выбросом и выборка получилось очень небольшой (всего 12 элементов), средние отклонились не сильно. Безусловно, этот способ абсолютно не явлется применимым, и лучше выбросы мониторить и работать с ними "поколоночно". Посмотрим на температуру например: 

In [47]:
q1 = df['rectal temperature'].quantile(0.25)
q3 = df['rectal temperature'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
print(lower_bound, upper_bound)
remove_outliers = df[df['rectal temperature'].between(lower_bound, upper_bound, inclusive=True)]
result = calculate_metrics(remove_outliers)
result        

36.74999999999999 39.550000000000004


Unnamed: 0,mode,min,max,range,mean,median,std
Surgery,0 1.0 dtype: float64,,,,,,
Age,0 1 dtype: int64,,,,,,
rectal temperature,0 38.0 dtype: float64,36.8,39.5,2.7,38.169027,38.2,0.571949
pulse,0 48.0 dtype: float64,30.0,184.0,154.0,69.040909,60.0,28.673778
respiratory rate,0 20.0 dtype: float64,8.0,96.0,88.0,30.170854,24.0,18.425963
temp of extremities,0 1.0 dtype: float64,,,,,,
peripheral pulse,0 1.0 dtype: float64,,,,,,
mucous membranes,0 1.0 dtype: float64,,,,,,
capillary refill time,0 1.0 dtype: float64,,,,,,
pain,0 3.0 dtype: float64,,,,,,


Как мы видим, по сравнению с первичным дата-фреймом, показатели средних практически не изменились. При этом, если мы посмотрим на значения выбросов - можем увидеть, что на самом деле это и не выбросы вовсе- температура в 40 или в 35,5 - может быть вполне. Поэтому в данном случае я бы не рекомендовал в принципе исключать выбросы из выборки. 


Задание 3. Работа с пропусками¶
Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [50]:
for col in df.columns:
    pct_missing = df[col].isnull().mean()
    print(f'{col} - {pct_missing*100}%')

Surgery - 0.33333333333333337%
Age - 0.0%
Hospital number - 0.0%
rectal temperature - 20.0%
pulse - 8.0%
respiratory rate - 19.333333333333332%
temp of extremities - 18.666666666666668%
peripheral pulse - 23.0%
mucous membranes - 15.666666666666668%
capillary refill time - 10.666666666666668%
pain - 18.333333333333332%
peristalsis - 14.666666666666666%
abdominal distension - 18.666666666666668%
nasogastric tube - 34.66666666666667%
nasogastric reflux - 35.333333333333336%
nasogastric reflux PH - 82.33333333333334%
rectal examination - 34.0%
abdomen - 39.33333333333333%
packed cell volume - 9.666666666666666%
total protein - 11.0%
abdominocentesis appearance - 55.00000000000001%
abdomcentesis total protein - 66.0%
outcome - 0.33333333333333337%
surgical lesion - 0.0%
type of lesion - 0.0%
type of lesion2 - 0.0%
type of lesion3 - 0.0%
cp_data - 0.0%


В данном случае можем увидеть, что показатель nasogastric reflux PH не заполнен в 82% случаев,а по abdomcentesis total protein в 66% случаев. Не уверен, что по такой маленькой выборке можно делать выводы, поэтому лучше эти столбцы удалить. 

In [56]:
df_adv = df.drop(['nasogastric reflux PH', 'abdomcentesis total protein'], axis=1)

Остальные пропуски заполним медианными значниями в зависимости от возрастной группы лошади: 

In [59]:
for column in df_adv.columns:
    df_adv[column].fillna(df_adv.groupby(['Age'])[column].transform('median'), inplace=True)

In [64]:
result = calculate_metrics(df_adv)
result

Unnamed: 0,mode,min,max,range,mean,median,std
Surgery,0 1.0 dtype: float64,,,,,,
Age,0 1 dtype: int64,,,,,,
rectal temperature,0 38.1 dtype: float64,35.4,40.8,5.4,38.161,38.1,0.657231
pulse,0 60.0 dtype: float64,30.0,184.0,154.0,71.386667,60.0,27.968278
respiratory rate,0 24.0 dtype: float64,8.0,96.0,88.0,29.51,24.0,16.189613
temp of extremities,0 3.0 dtype: float64,,,,,,
peripheral pulse,0 1.0 dtype: float64,,,,,,
mucous membranes,0 3.0 dtype: float64,,,,,,
capillary refill time,0 1.0 dtype: float64,,,,,,
pain,0 3.0 dtype: float64,,,,,,
