### Домашнее задание к лекции "Базовые понятия статистики"

#### Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

##### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

##### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

##### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [1]:
#Подключаем библиотеки
import pandas as pd
import numpy as np

In [2]:
#Решение по заданию №1, отбоор 8 столюцов для изучения:

#Отобранные атрибуты преобразуем в словарь
ATTR = {'f1':  {'descript': 'операция', 
                'type':     'category', 
                'value':    {1:'да', 2:'нет'}},
        'f2':  {'descript': 'возраст', 
                'type':     'category',  
                'value':    {1: 'взрослая осыбь', 2: 'Молодая'}},
        'f4':  {'descript': 'ректальная температура',
                'type':     'numeric',
                'value':    37.8},
        'f5':  {'descript': 'пульс',
                'type':     'numeric',
                'value':    35},
        'f6':  {'descript': 'частота дыхания', 
                'type':     'numeric',
                'value':     9},
        'f7':  {'descript': 'температура конечностей', 
                'type':     'category', 
                'value':    {1: 'нормальный', 2: 'теплый', 3: 'прохладный', 4: 'холодный'}},
        'f11': {'descript': 'боль', 
                'type':     'category', 
                'value':    {1:'тревога, без боли',2:'депрессия',3:'периодическая легкая боль', 
                             4:'периодическая сильная боль', 5: 'постоянная сильная боль'}},
        'f23': {'descript': 'результат',
                'type':     'category',
                'value':   {1: 'жил', 2: 'умер', 3: 'усыплен'}}}

df_attr = pd.DataFrame(ATTR)

#Загрузка датафрейма, поля таблицы именуют f1..f28
columns = [ 'f'+str(i) for i in list(range(1,29)) ]
df = pd.read_csv('horse_data.csv', header = 0, names = columns, na_values = '?', decimal = '.')

# Базовые метрики: минимум, максимум, размах, мода, среднее, ср.кв.отклонение, медиана, 1 и 3 квантили
# Функция для расчета базовых показателей, в качестве параметра анализируемый датафрейм.
def get_stat_metrics(df_):
    rez = {'метрики': ['норма', 'количество', 'минимум', 'максимум', 'размах', 'мода', 'среднее', 
                       'ср.кв.отклонение', '1 квартиль', 'медиана', '3 квартиль']}
    for field in list(df_.columns):
        cnt    = df_[field].count()
        min_   = df_[field].min()
        max_   = df_[field].max()
        scope_ = round(max_ - min_, 2)
        mode_  = df_[field].mode()[0]
        mean_  = round(df_[field].mean(), 2)
        std_   = round(df_[field].std(), 2)
        quant25= df_[field].quantile(0.25)
        median_= round(df_[field].median(), 2)
        quant75= df_[field].quantile(0.75)
        
        rez[ATTR[field]['descript']] = [ATTR[field]['value'], cnt, min_, max_, scope_, mode_, mean_, 
                                                              std_, quant25, median_, quant75]
    
    return rez
    
#df[list(ATTR.keys())].describe()
pd.DataFrame(get_stat_metrics(df[list(ATTR.keys())]))

Unnamed: 0,метрики,операция,возраст,ректальная температура,пульс,частота дыхания,температура конечностей,боль,результат
0,норма,"{1: 'да', 2: 'нет'}","{1: 'взрослая осыбь', 2: 'Молодая'}",37.8,35.0,9.0,"{1: 'нормальный', 2: 'теплый', 3: 'прохладный'...","{1: 'тревога, без боли', 2: 'депрессия', 3: 'п...","{1: 'жил', 2: 'умер', 3: 'усыплен'}"
1,количество,298,299,239.0,275.0,241.0,243,244,298
2,минимум,1,1,35.4,30.0,8.0,1,1,1
3,максимум,2,9,40.8,184.0,96.0,4,5,3
4,размах,1,8,5.4,154.0,88.0,3,4,2
5,мода,1,1,38.0,48.0,20.0,3,3,1
6,среднее,1.4,1.64,38.17,71.93,30.43,2.35,2.94,1.55
7,ср.кв.отклонение,0.49,2.18,0.73,28.68,17.68,1.05,1.3,0.74
8,1 квартиль,1,1,37.8,48.0,18.0,1,2,1
9,медиана,1,1,38.2,64.0,24.0,3,3,1


###### Описание

Большинство осыбей попавших в выборку:
    - имеют недуги, связанные со значительно повышенными значениями: пульс и частота дыхания;
    - перенесли хирургическую операцию;
    - взрослые;
    - испытывают периодические легкие боли;
    - имеют пониженную температуру конечностей;
    - живы.

In [3]:
#Решение по заданию №2

#Функция для определения нижних и верхних порогов выбросов
def get_discharge(df_, field):
    q1  = df_[field].quantile(0.25)
    q3  = df_[field].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - (1.5 * iqr) 
    upper_bound = q3 + (1.5 * iqr)
    return [lower_bound, upper_bound]

#Функция возращает датафрейм за пределеми нижних и верхних порогов выбросов
def filter_discharge(df_, field, criteria):
    return df_[ ( df_[field] < criteria[0]  ) | (df_[field] > criteria[1]  ) ]

#Выбираем числовые поля для анализа выбросов
field_num = list(df_attr.T[(df_attr.T['type'] == 'numeric')].reset_index()['index'])

#Словарь выбросов
discharge_dict = {}

#Перебираем все числовые значения отобранных атрибутов
print('---- Выбросы ----')
for field in field_num:
    discharge  = get_discharge(df, field)
    discharge_dict[field] = discharge
    print(ATTR[field],'\n\n', filter_discharge(df, field, discharge)[field], '\n')

discharge_dict

---- Выбросы ----
{'descript': 'ректальная температура', 'type': 'numeric', 'value': 37.8} 

 19     39.9
43     35.4
53     40.3
74     39.7
79     36.4
90     40.3
98     39.6
117    36.5
140    36.0
237    36.1
250    36.6
258    40.8
280    40.0
297    36.5
Name: f4, dtype: float64 

{'descript': 'пульс', 'type': 'numeric', 'value': 35} 

 2      164.0
40     150.0
54     160.0
254    184.0
274    150.0
Name: f5, dtype: float64 

{'descript': 'частота дыхания', 'type': 'numeric', 'value': 9} 

 2      84.0
38     96.0
40     72.0
81     80.0
83     80.0
102    68.0
105    96.0
119    66.0
124    68.0
185    90.0
207    80.0
228    70.0
243    88.0
254    84.0
264    68.0
268    90.0
294    70.0
Name: f6, dtype: float64 



{'f4': [36.74999999999999, 39.550000000000004],
 'f5': [-12.0, 148.0],
 'f6': [-9.0, 63.0]}

###### Описание
Выбросы:
- ректальная температура (выбросы нормальные значения, учитываем в анализе);
- пульс(f5) (выбросы заменяем модой, значения аномальные)
- частота дыхания(f6) (выбросы заменяем модой, значения аномальные)

In [4]:
#Решение по заданию №3

#Определяем новый датафрейм для исправления выбросов и пустых значений
df_new = df.copy()

#Функция возвращает начение mode_ если x выходит за пределы значений dict_
def setmode(x, dict_, mode_):
    if (x < dict_[0]) | (x > dict_[1]): 
        return(mode_)
    else:
        return(x)

#Отобранные поля для исправления выбросов
select_field_upd_discharge = ['f5', 'f6']
    
#Блок замены аномальных значений (выбросы)
for field in select_field_upd_discharge:
    df_new[field] = df_new[field].apply( setmode, dict_ = discharge_dict[field], mode_ = df_new[field].mode()[0] )

print('\n','---- Анализ исправления выбросов ---- (ДАТАФРЕЙМЫ ПУСТ?)')
for field in select_field_upd_discharge:
    print(ATTR[field],'\n\n', filter_discharge(df_new, field, discharge_dict[field])[field], '\n')    

field_nan_list = []

print('\n','---- Анализ пустых занчений ---- (ДОЛЯ ПУСТЫХ)')
for col in list(ATTR.keys()):
    print(col, ATTR[col]['descript'], df_new[col].isnull().mean().round(2) )
    if df_new[col].isnull().mean() != 0:
        field_nan_list.append(col)

#Заполнение модой пустых значений
for field in field_nan_list:
    df_new[field].fillna(df_new[field].mode()[0], inplace=True)


print('\n','---- Результат заполнения пустых полей ---- ', field_nan_list)
df_new[list(ATTR.keys())].info()



 ---- Анализ исправления выбросов ---- (ДАТАФРЕЙМЫ ПУСТ?)
{'descript': 'пульс', 'type': 'numeric', 'value': 35} 

 Series([], Name: f5, dtype: float64) 

{'descript': 'частота дыхания', 'type': 'numeric', 'value': 9} 

 Series([], Name: f6, dtype: float64) 


 ---- Анализ пустых занчений ---- (ДОЛЯ ПУСТЫХ)
f1 операция 0.0
f2 возраст 0.0
f4 ректальная температура 0.2
f5 пульс 0.08
f6 частота дыхания 0.19
f7 температура конечностей 0.19
f11 боль 0.18
f23 результат 0.0

 ---- Результат заполнения пустых полей ----  ['f1', 'f4', 'f5', 'f6', 'f7', 'f11', 'f23']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   f1      299 non-null    float64
 1   f2      299 non-null    int64  
 2   f4      299 non-null    float64
 3   f5      299 non-null    float64
 4   f6      299 non-null    float64
 5   f7      299 non-null    float64
 6   f11     299 non-null    float64

In [5]:
print('После исправления')
pd.DataFrame(get_stat_metrics(df_new[list(ATTR.keys())]))

После исправления


Unnamed: 0,метрики,операция,возраст,ректальная температура,пульс,частота дыхания,температура конечностей,боль,результат
0,норма,"{1: 'да', 2: 'нет'}","{1: 'взрослая осыбь', 2: 'Молодая'}",37.8,35.0,9.0,"{1: 'нормальный', 2: 'теплый', 3: 'прохладный'...","{1: 'тревога, без боли', 2: 'депрессия', 3: 'п...","{1: 'жил', 2: 'умер', 3: 'усыплен'}"
1,количество,299,299,299.0,299.0,299.0,299,299,299
2,минимум,1,1,35.4,30.0,8.0,1,1,1
3,максимум,2,9,40.8,146.0,60.0,4,5,3
4,размах,1,8,5.4,116.0,52.0,3,4,2
5,мода,1,1,38.0,48.0,20.0,3,3,1
6,среднее,1.39,1.64,38.13,68.11,25.03,2.47,2.95,1.55
7,ср.кв.отклонение,0.49,2.18,0.66,25.69,10.36,0.98,1.18,0.74
8,1 квартиль,1,1,37.9,48.0,20.0,1,2,1
9,медиана,1,1,38.0,60.0,20.0,3,3,1
