# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [1]:
import pandas as pd
import numpy as np

In [2]:
header_names = [
    'surgery?',
    'age',
    'hospital_number',
    'rectal_temperature',
    'pulse',
    'respiratory_rate',
    'temperature_of_extremities',
    'peripheral_pulse',
    'mucous_membranes',
    'capillary_refill_time',
    'pain',
    'peristalsis',
    'abdominal_distension',
    'nasogastric_tube',
    'nasogastric_reflux',
    'nasogastric_reflux_PH',
    'rectal_examination',
    'abdomen',
    'packed_cell_volume',
    'total_protein',
    'abdominocentesis_appearance',
    'abdomcentesis_total_protein',
    'outcome',
    'surgical_lesion',
    'site_of_lesion',
    'type_of_lesion',
    'subtype_of_lesion',
#     'specific_code_lesion',
    'cp_data'
]
df = pd.read_csv('horse_data.csv', names=header_names, dtype=object)
df = df.replace('?', np.nan)

In [3]:
# Task 1
# Оставляем: 
#     Y:
#     - abdominal_distension         --categorical value (взудите живота)
#     Xs:
#     - rectal_temperature           --continuous value  (ректальная температура)
#     - pulse                        --discrete quantity (пульс)
#     - peripheral_pulse             --categorical value (переферический пульс)
#     - capillary_refill_time        --discrete quantity (время наполнения капиляров)
#     - peristalsis                  --categorical value (перестальтика)
#     - nasogastric_tube             --categorical value (назогастральный зонд)
#     - nasogastric_reflux           --categorical value (назогастральный рефлюкс)
#     - surgical_lesion              --categorical value (гирургическое поражение)
    
#     Остальне параметры являются следтсвием болезни, или слишком субьективны, или их слишком мало (100 значений из 300).
    
filtered_df = df[[
                    'abdominal_distension',
                    'rectal_temperature',
                    'pulse',
                    'peripheral_pulse',
                    'capillary_refill_time',
                    'peristalsis',
                    'nasogastric_tube',
                    'nasogastric_reflux',
                    'surgical_lesion',
                 ]]
filtered_df = filtered_df.replace('?', np.nan).astype('float')

In [4]:
filtered_df.groupby(['abdominal_distension']).rectal_temperature.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,69.0,38.173913,0.673588,36.5,37.8,38.1,38.4,40.8
2.0,56.0,38.103571,0.733104,36.1,37.6,38.0,38.6,39.5
3.0,52.0,38.215385,0.809596,36.5,37.675,38.2,38.5,40.3
4.0,23.0,38.286957,0.575487,37.1,38.0,38.2,38.55,39.9


In [5]:
# Вывод:
# С ростом вздутия живота растет температура (среднее и медиана), но рост не значительный, в рамках погрешности измерения, поэтому
# ректальная температура скорее всего не определяет уровень тяжести вздутия живота

In [6]:
filtered_df.groupby(['abdominal_distension']).pulse.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,75.0,59.453333,18.184708,36.0,48.0,54.0,67.0,112.0
2.0,59.0,66.711864,26.039791,36.0,48.0,60.0,80.0,150.0
3.0,60.0,82.916667,29.061765,36.0,60.0,84.0,101.0,184.0
4.0,35.0,90.428571,29.721537,48.0,65.5,90.0,102.0,164.0


In [7]:
# Вывод:
# С ростом уровня вздутия живота возрастает и пульс, 
# поэтому с уверенностью можно сказать рост пульса является одним из симптомов коликов.

In [8]:
filtered_df.groupby(['abdominal_distension']).peripheral_pulse.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,68.0,1.5,0.906033,1.0,1.0,1.0,1.25,4.0
2.0,56.0,1.696429,1.007601,1.0,1.0,1.0,3.0,4.0
3.0,56.0,2.446429,0.892792,1.0,1.0,3.0,3.0,3.0
4.0,33.0,2.787879,0.819969,1.0,3.0,3.0,3.0,4.0


In [9]:
# Вывод:
# С ростом уровня вздутия живота возрастает и переферический пульс, 
# поэтому с уверенностью можно сказать рост переферического пульса является одним из симптомов коликов.

In [10]:
filtered_df.groupby(['abdominal_distension']).capillary_refill_time.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,75.0,1.093333,0.292858,1.0,1.0,1.0,1.0,2.0
2.0,64.0,1.28125,0.486932,1.0,1.0,1.0,2.0,3.0
3.0,61.0,1.409836,0.528427,1.0,1.0,1.0,2.0,3.0
4.0,36.0,1.638889,0.487136,1.0,1.0,2.0,2.0,2.0


In [11]:
# Вывод:
# С ростом вздутия живота увеличивается время наполнения капиляров, время наполнения капиляров является значимой характеристикой, как 
# один из симптомов влияния на тяжесть вздутия живота

In [12]:
filtered_df.groupby(['abdominal_distension']).peristalsis.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,74.0,2.418919,1.020432,1.0,1.0,3.0,3.0,4.0
2.0,63.0,2.904762,0.89288,1.0,3.0,3.0,3.0,4.0
3.0,63.0,3.190476,0.737414,1.0,3.0,3.0,4.0,4.0
4.0,34.0,3.647059,0.597081,2.0,3.0,4.0,4.0,4.0


In [13]:
# Вывод:
# С ростом вздутия живота увеличивается перестальтика, перестальтика является значимой характеристикой, как 
# один из симптомов влияния на тяжесть вздутия живота

In [14]:
filtered_df.groupby(['abdominal_distension']).nasogastric_tube.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,55.0,1.6,0.530548,1.0,1.0,2.0,2.0,3.0
2.0,47.0,1.744681,0.641604,1.0,1.0,2.0,2.0,3.0
3.0,54.0,1.944444,0.656367,1.0,2.0,2.0,2.0,3.0
4.0,27.0,1.851852,0.818239,1.0,1.0,2.0,2.5,3.0


In [15]:
# Вывод:
# С ростом вздутия живота увеличивается уровень назогастрального зонда - является значимой характеристикой, как 
# один из симптомов влияния на тяжесть вздутия живота

In [16]:
filtered_df.groupby(['abdominal_distension']).nasogastric_reflux.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,57.0,1.385965,0.725908,1.0,1.0,1.0,1.0,3.0
2.0,43.0,1.674419,0.865226,1.0,1.0,1.0,2.5,3.0
3.0,54.0,1.759259,0.822678,1.0,1.0,2.0,2.0,3.0
4.0,26.0,1.576923,0.757526,1.0,1.0,1.0,2.0,3.0


In [17]:
# Вывод:
# Не является значимой характеристикой

In [18]:
filtered_df.groupby(['abdominal_distension']).surgical_lesion.describe(include='all')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
abdominal_distension,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1.0,76.0,1.526316,0.502625,1.0,1.0,2.0,2.0,2.0
2.0,65.0,1.492308,0.503831,1.0,1.0,1.0,2.0,2.0
3.0,65.0,1.138462,0.348072,1.0,1.0,1.0,1.0,2.0
4.0,38.0,1.131579,0.34257,1.0,1.0,1.0,1.0,2.0


In [19]:
# Вывод:
# Тяжелая форма вздутия живота как правило часто определяет проведение хирургической операции, но также есть случаи, когда хирургическое
# вмешательство сопровождается отсутсвием симптомов взудития живота, что косвенно может говорить о некачественной диагностие 
# заболеваний и принятия решения об операциях

In [20]:
# Task 2
def remove_outliers_from_dataframe(df):
    remove_outliers = df
    for column in df.columns:  
        q1 = df[column].quantile(0.25)
        q3 = df[column].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - (1.5 * iqr) 
        upper_bound = q3 + (1.5 * iqr)
        remove_outliers = remove_outliers[remove_outliers[column].between(lower_bound, upper_bound, inclusive=True)]
    return remove_outliers
new_df = remove_outliers_from_dataframe(filtered_df)

def dfs_mean_comparison(new_df, source_df):
    for i, column in enumerate(new_df.columns):
        if i == 0:
            pass
        else:
            print('new df: ', column, new_df.groupby(['abdominal_distension'])[column].median())
            print('source df: ', column, source_df.groupby(['abdominal_distension'])[column].median())
dfs_mean_comparison(new_df, filtered_df)

new df:  rectal_temperature abdominal_distension
1.0    38.1
2.0    38.3
3.0    38.2
4.0    38.2
Name: rectal_temperature, dtype: float64
source df:  rectal_temperature abdominal_distension
1.0    38.1
2.0    38.0
3.0    38.2
4.0    38.2
Name: rectal_temperature, dtype: float64
new df:  pulse abdominal_distension
1.0    55.0
2.0    52.0
3.0    72.0
4.0    96.0
Name: pulse, dtype: float64
source df:  pulse abdominal_distension
1.0    54.0
2.0    60.0
3.0    84.0
4.0    90.0
Name: pulse, dtype: float64
new df:  peripheral_pulse abdominal_distension
1.0    1.0
2.0    1.0
3.0    3.0
4.0    3.0
Name: peripheral_pulse, dtype: float64
source df:  peripheral_pulse abdominal_distension
1.0    1.0
2.0    1.0
3.0    3.0
4.0    3.0
Name: peripheral_pulse, dtype: float64
new df:  capillary_refill_time abdominal_distension
1.0    1.0
2.0    1.0
3.0    1.0
4.0    1.0
Name: capillary_refill_time, dtype: float64
source df:  capillary_refill_time abdominal_distension
1.0    1.0
2.0    1.0
3.0    1.0
4.0

In [21]:
# Вывод:
# Результаты сравнения очищенных и неочищенных данных показывают, что зависимости не сильно низменились (если
# оринтироваться на медиану в зависимости от вздутия живота, но удаление выборосов не лесообразно:
#     1. Все выбросы являеются нормальными и заранее определенными (в описании к данных) величинами.
#     2. Удаление выбросов приведет к 3-х кратному сокращению данных.

In [22]:
# Task 3
# Исходный массив
filtered_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   abdominal_distension   244 non-null    float64
 1   rectal_temperature     240 non-null    float64
 2   pulse                  276 non-null    float64
 3   peripheral_pulse       231 non-null    float64
 4   capillary_refill_time  268 non-null    float64
 5   peristalsis            256 non-null    float64
 6   nasogastric_tube       196 non-null    float64
 7   nasogastric_reflux     194 non-null    float64
 8   surgical_lesion        300 non-null    float64
dtypes: float64(9)
memory usage: 21.2 KB


In [26]:
# Новый массив
def fill_nan_in_dataframe(df):
    for column in df.columns:
        df[column].fillna(df[column].median(), inplace=True)
    return df
        
df_wo_nan = fill_nan_in_dataframe(filtered_df)
df_wo_nan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   abdominal_distension   300 non-null    float64
 1   rectal_temperature     300 non-null    float64
 2   pulse                  300 non-null    float64
 3   peripheral_pulse       300 non-null    float64
 4   capillary_refill_time  300 non-null    float64
 5   peristalsis            300 non-null    float64
 6   nasogastric_tube       300 non-null    float64
 7   nasogastric_reflux     300 non-null    float64
 8   surgical_lesion        300 non-null    float64
dtypes: float64(9)
memory usage: 21.2 KB


In [None]:
dfs_mean_comparison(df_wo_nan, filtered_df)

In [None]:
# Вывод:
# Наиболее опитмальным способом замены пропусков является замена на значение медианы для группы, которая характеризует 
# степень вздутия живота.
# Замена пропусков практически не влияет на изменение описательной статистики - это еще одна причина в качестве выбора 
# решения о замене.

In [24]:
## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.

new df:  rectal_temperature abdominal_distension
1.0    38.1
2.0    38.0
3.0    38.2
4.0    38.2
Name: rectal_temperature, dtype: float64
source df:  rectal_temperature abdominal_distension
1.0    38.1
2.0    38.0
3.0    38.2
4.0    38.2
Name: rectal_temperature, dtype: float64
new df:  pulse abdominal_distension
1.0    54.0
2.0    60.0
3.0    84.0
4.0    90.0
Name: pulse, dtype: float64
source df:  pulse abdominal_distension
1.0    54.0
2.0    60.0
3.0    84.0
4.0    90.0
Name: pulse, dtype: float64
new df:  peripheral_pulse abdominal_distension
1.0    1.0
2.0    1.0
3.0    3.0
4.0    3.0
Name: peripheral_pulse, dtype: float64
source df:  peripheral_pulse abdominal_distension
1.0    1.0
2.0    1.0
3.0    3.0
4.0    3.0
Name: peripheral_pulse, dtype: float64
new df:  capillary_refill_time abdominal_distension
1.0    1.0
2.0    1.0
3.0    1.0
4.0    2.0
Name: capillary_refill_time, dtype: float64
source df:  capillary_refill_time abdominal_distension
1.0    1.0
2.0    1.0
3.0    1.0
4.0

In [25]:
# Вывод:
# Наиболее опитмальным способом замены пропусков является замена на значение медианы для группы, которая характеризует 
# степень вздутия живота.
# Замена пропусков практически не влияет на изменение описательной статистики - это еще одна причина в качестве выбора 
# решения о замене.

## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам
Прежде чем задать вопрос, попробуйте найти ответ в интернете. Навык самостоятельного поиска информации — один из важнейших. Каждый практикующий специалист любого уровня делает это ежедневно.

Сформулируйте вопрос по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности прикрепите к вопросу скриншоты либо ссылки на код. Не выкладывайте все решение, оставляйте только проблемный и воспроизводимый участок кода.