# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение
Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

Изучить представленный набор данных на основе описания его столбцов, загрузить его и оставить 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.

In [35]:
import pandas as pd
import numpy as np

In [36]:
df = pd.read_csv('https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv', usecols = [0, 1, 3, 4, 5, 6 , 10, 22],  names=['surgery', 'age', 'rectal_temperature', 'pulse', 'respiratory_rate', 'temperature_of_extremities', 'pain', 'outcome'], na_values='?') 
## так как нет заголовка, то мы указываем что его нет, что бы потом переименовать, так же зная, что в данных есть пропуски в виде "?" , то используем аргумент na_values при чтении файла. 

df.head()

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,,,2.0


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     299 non-null    float64
 1   age                         300 non-null    int64  
 2   rectal_temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory_rate            242 non-null    float64
 5   temperature_of_extremities  244 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     299 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 18.9 KB


In [None]:
# df['surgery'] = df['surgery'].astype('Int64')
# df['temperature_of_extremities'] = df['temperature_of_extremities'].astype('Int64')
# df['pain'] = df['pain'].astype('Int64')
# df['outcome'] = df['outcome'].astype('Int64')

Описание столбцов:
1. Age
    - 1 = Adult horse
    - 2 = Young (< 6 months)
2. surgery
    - 1 = Yes, it had surgery
    - 2 = It was treated without surgery
3. rectal temperature
    - linear
    - in degrees celsius.
    - An elevated temp may occur due to infection.
    - temperature may be reduced when the animal is in late shock
    - normal temp is 37.8
    - this parameter will usually change as the problem progresses (eg. may start out normal, then become elevated because of
    the lesion, passing back through the normal range as the horse goes into shock)
4. pulse
    - linear
    - the heart rate in beats per minute
    - is a reflection of the heart condition: 30 -40 is normal for adults
    - rare to have a lower than normal rate although athletic horses may have a rate of 20-25
    - animals with painful lesions or suffering from circulatory shock may have an elevated heart rate
5. respiratory rate
    - linear
    - normal rate is 8 to 10
    - usefulness is doubtful due to the great fluctuations
6. temperature of extremities
    - a subjective indication of peripheral circulation
    - possible values:
        - 1 = Normal
        - 2 = Warm
        - 3 = Cool
        - 4 = Cold
     - cool to cold extremities indicate possible shock
     - hot extremities should correlate with an elevated rectal temp.
7. pain - a subjective judgement of the horse's pain level
    - possible values:
        - 1 = alert, no pain
        - 2 = depressed
        - 3 = intermittent mild pain
        - 4 = intermittent severe pain
        - 5 = continuous severe pain
    - should NOT be treated as a ordered or discrete variable!
    - In general, the more painful, the more likely it is to require surgery
    - prior treatment of pain may mask the pain level to some extent
8. outcome
    - what eventually happened to the horse?
    - possible values:
        - 1 = lived
        - 2 = died
        - 3 = was euthanized
    

### Задание 2. Работа с выбросами

Проанализировать значения по столбцам, рассчитать базовые статистики, найти выбросы.

In [38]:
df.describe()

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
count,299.0,300.0,240.0,276.0,242.0,244.0,245.0,299.0
mean,1.397993,1.64,38.167917,71.913043,30.417355,2.348361,2.95102,1.551839
std,0.490305,2.173972,0.732289,28.630557,17.642231,1.045054,1.30794,0.737187
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.8,48.0,18.5,1.0,2.0,1.0
50%,1.0,1.0,38.2,64.0,24.5,3.0,3.0,1.0
75%,2.0,1.0,38.5,88.0,36.0,3.0,4.0,2.0
max,2.0,9.0,40.8,184.0,96.0,4.0,5.0,3.0


In [39]:
q1 = df['rectal_temperature'].quantile(0.25)
q3 = df['rectal_temperature'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = df[df['rectal_temperature'].between(lower_bound, upper_bound, inclusive=True)]
remove_outliers


  remove_outliers = df[df['rectal_temperature'].between(lower_bound, upper_bound, inclusive=True)]


Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,,,2.0
...,...,...,...,...,...,...,...,...
292,1.0,1,37.0,66.0,20.0,1.0,4.0,2.0
294,2.0,1,38.5,40.0,16.0,1.0,2.0,1.0
296,2.0,1,37.2,72.0,24.0,3.0,4.0,3.0
297,1.0,1,37.5,72.0,30.0,4.0,4.0,2.0


In [40]:
df[~df['rectal_temperature'].between(lower_bound, upper_bound, inclusive=True)]


  df[~df['rectal_temperature'].between(lower_bound, upper_bound, inclusive=True)]


Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
5,2.0,1,,,,2.0,2.0,1.0
7,1.0,1,,60.0,,3.0,,2.0
8,2.0,1,,80.0,36.0,3.0,4.0,3.0
16,1.0,9,,128.0,36.0,3.0,4.0,2.0
20,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
...,...,...,...,...,...,...,...,...
282,1.0,1,,70.0,16.0,3.0,2.0,2.0
288,1.0,1,,,,,,1.0
293,1.0,1,,78.0,24.0,3.0,,3.0
295,1.0,1,,120.0,70.0,4.0,2.0,3.0


In [41]:
q1 = df['pulse'].quantile(0.25)
q3 = df['pulse'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = df[df['pulse'].between(lower_bound, upper_bound, inclusive=True)]
remove_outliers

  remove_outliers = df[df['pulse'].between(lower_bound, upper_bound, inclusive=True)]


Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
4,2.0,1,37.3,104.0,35.0,,,2.0
6,1.0,1,37.9,48.0,16.0,1.0,3.0,1.0
...,...,...,...,...,...,...,...,...
295,1.0,1,,120.0,70.0,4.0,2.0,3.0
296,2.0,1,37.2,72.0,24.0,3.0,4.0,3.0
297,1.0,1,37.5,72.0,30.0,4.0,4.0,2.0
298,1.0,1,36.5,100.0,24.0,3.0,3.0,1.0


In [42]:
df[~df['pulse'].between(lower_bound, upper_bound, inclusive=True)]

  df[~df['pulse'].between(lower_bound, upper_bound, inclusive=True)]


Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
5,2.0,1,,,,2.0,2.0,1.0
28,1.0,1,,,,,,2.0
41,2.0,9,39.0,150.0,72.0,,,1.0
52,2.0,1,,,,1.0,1.0,1.0
55,1.0,9,38.6,160.0,20.0,3.0,3.0,2.0
56,1.0,1,,,,,,1.0
58,1.0,1,,,20.0,4.0,5.0,2.0
74,1.0,9,,,,,,2.0
78,1.0,1,,,,3.0,5.0,2.0


### Проходим по параметрам с 1 по 8 и получаем следующее:
1. Age - в данных может быть всего два параметра 1 и 2, в данных задания есть параметр 9, который скорее всего является ошибкой ввода
2. surgery - имеет всего два параметра, других данных в таблице нет
3. rectal temperature - нормальная темпераутра 37.8 - вбросов более или менее разумных температур не обнаружил
4. pulse - кроме Nan не обнаружил существенных вбросов, которые можно было бы исключить
5. respiratory rate - из задания и описания понятно, что существенного влияния не оказывает (usefulness is doubtful due to the great fluctuations)
6.  temperature of extremities - не выходит за пределы устанволенные в описании от 1 до 4
7. pain - в пределах нормы выбросов нет
8. outcome - - в пределах нормы выбросов нет




### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе заполнения пропусков по каждому столбцу на основе рассчитанных статистик и возможной взаимосвязи значений в них. Сформировать датафрейм, в котором пропуски будут отсутствовать.

In [43]:
## процентное содержание пропусков в колонках
(df.isna().mean() * 100).round(2)

surgery                        0.33
age                            0.00
rectal_temperature            20.00
pulse                          8.00
respiratory_rate              19.33
temperature_of_extremities    18.67
pain                          18.33
outcome                        0.33
dtype: float64

1. По данным выше мы видим сразу что не все данные заполнены, далее мы будем работать с пропусками.
2. Вывеk процентное отношение пропусков по кажому параметру. 
2. В данных возраста есть видимая ошибка или опечатка, согласно условия, в данных стоит 9 - что мы можем проанализировать и принять либо как опечатка и должна быть равна 2, либо 1, для удобства будем считать что все 9 это 2-ки - молодые особи.

In [44]:
# Для начала меняем в исходном ДФ тоже 9 на 2 в полях Age
df.loc[(df['age'] == 9.0), 'age'] = 2.0

In [93]:
# ищем все Nan в surgery для возраста 1

df[(df['surgery'].isnull()) & (df['age'] == 1)]
# Пропуск только для age = 1

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
132,,1,38.0,48.0,20.0,3.0,4.0,


In [90]:
# Анализируем все с возрастом 1
df[(df['age'] == 1)].describe() 

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
count,275.0,276.0,220.0,254.0,222.0,228.0,228.0,275.0
mean,1.410909,1.0,38.124545,67.456693,28.238739,2.364035,2.938596,1.552727
std,0.492896,0.0,0.735988,23.933953,15.251192,1.042669,1.316015,0.74966
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.7,48.0,18.0,1.0,2.0,1.0
50%,1.0,1.0,38.1,60.0,24.0,3.0,3.0,1.0
75%,2.0,1.0,38.5,84.0,36.0,3.0,4.0,2.0
max,2.0,1.0,40.8,140.0,96.0,4.0,5.0,3.0


In [227]:
# Исходя из моего анализа, получается что с такими параметрами, surgery и outcome попадают в квантиль 75%
df_var = df.copy()

df_var['surgery'] = df_var['surgery'].fillna(df['surgery'].quantile(0.75))


In [228]:
print(df.describe())
print('-----------------------------------')
print(df_var.describe())

# Изменения в рамках 0,1%  так что считаю что изменения корректные

          surgery         age  rectal_temperature       pulse  \
count  299.000000  300.000000          240.000000  276.000000   
mean     1.397993    1.080000           38.167917   71.913043   
std      0.490305    0.271746            0.732289   28.630557   
min      1.000000    1.000000           35.400000   30.000000   
25%      1.000000    1.000000           37.800000   48.000000   
50%      1.000000    1.000000           38.200000   64.000000   
75%      2.000000    1.000000           38.500000   88.000000   
max      2.000000    2.000000           40.800000  184.000000   

       respiratory_rate  temperature_of_extremities       pain     outcome  
count        242.000000                  244.000000  245.00000  299.000000  
mean          30.417355                    2.348361    2.95102    1.551839  
std           17.642231                    1.045054    1.30794    0.737187  
min            8.000000                    1.000000    1.00000    1.000000  
25%           18.500000      

In [229]:
# ищем все Nan в surgery для возраста 1

df_var[(df_var['outcome'].isnull())]
# Пропуск только для age = 1

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
132,2.0,1,38.0,48.0,20.0,3.0,4.0,


In [230]:
df_var.median()

surgery                        1.0
age                            1.0
rectal_temperature            38.2
pulse                         64.0
respiratory_rate              24.5
temperature_of_extremities     3.0
pain                           3.0
outcome                        1.0
dtype: float64

In [231]:
# Заменяем все пропуски в outcome используя медиану
df_var['outcome'] = df_var['outcome'].fillna(df['outcome'].median())

print(df.describe())
print('-----------------------------------')
print(df_var.describe())

# Видим что изменения коснулись только среднего значения на 0.1% что укладывается в наши рамки

          surgery         age  rectal_temperature       pulse  \
count  299.000000  300.000000          240.000000  276.000000   
mean     1.397993    1.080000           38.167917   71.913043   
std      0.490305    0.271746            0.732289   28.630557   
min      1.000000    1.000000           35.400000   30.000000   
25%      1.000000    1.000000           37.800000   48.000000   
50%      1.000000    1.000000           38.200000   64.000000   
75%      2.000000    1.000000           38.500000   88.000000   
max      2.000000    2.000000           40.800000  184.000000   

       respiratory_rate  temperature_of_extremities       pain     outcome  
count        242.000000                  244.000000  245.00000  299.000000  
mean          30.417355                    2.348361    2.95102    1.551839  
std           17.642231                    1.045054    1.30794    0.737187  
min            8.000000                    1.000000    1.00000    1.000000  
25%           18.500000      

In [232]:
df_var[(df_var['pulse'].isnull())]

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
5,2.0,1,,,,2.0,2.0,1.0
28,1.0,1,,,,,,2.0
52,2.0,1,,,,1.0,1.0,1.0
56,1.0,1,,,,,,1.0
58,1.0,1,,,20.0,4.0,5.0,2.0
74,1.0,2,,,,,,2.0
78,1.0,1,,,,3.0,5.0,2.0
83,1.0,1,38.0,,24.0,3.0,5.0,2.0
93,2.0,1,,,,3.0,5.0,2.0
115,2.0,1,,,40.0,3.0,3.0,1.0


In [233]:
df_var.median()

surgery                        1.0
age                            1.0
rectal_temperature            38.2
pulse                         64.0
respiratory_rate              24.5
temperature_of_extremities     3.0
pain                           3.0
outcome                        1.0
dtype: float64

In [234]:
# Найдем зависимость между, возрастом, гсопитализацией и пульсом и заменим пустые значения медианой

df_var['pulse'] = df_var['pulse'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'temperature_of_extremities'])['pulse'].transform('median'))

In [235]:
# df_var[(df_var['pulse'].isnull())] 

# при проверке видим, что есть данные, по которым нет возможности проставить данные базируюясь на других данных, их не много, так что
# вместо них, можно проставить средние значения, что бы не потерять в кол-ве

df_var['pulse'] = df_var['pulse'].fillna(df_var.groupby(['age', 'surgery', 'outcome'])['pulse'].transform('mean'))

In [215]:
(df_var.isna().mean() * 100).round(2)

surgery                        0.00
age                            0.00
rectal_temperature            20.00
pulse                          0.00
respiratory_rate              19.33
temperature_of_extremities    18.67
pain                          18.33
outcome                        0.00
dtype: float64

In [236]:
# Сделаем и проверим осьальные показатели по медиане и проверим расхождения
df_var['rectal_temperature'] = df_var['rectal_temperature'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'pulse'])['rectal_temperature'].transform('median'))
df_var['temperature_of_extremities'] = df_var['temperature_of_extremities'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'pulse'])['temperature_of_extremities'].transform('median'))

In [237]:
(df_var.isna().mean() * 100).round(2)

surgery                        0.00
age                            0.00
rectal_temperature            11.67
pulse                          0.00
respiratory_rate              19.33
temperature_of_extremities    10.67
pain                          18.33
outcome                        0.00
dtype: float64

In [238]:
# df_var[(df_var['pain'].isnull())] 
df_var['pain'] = df_var['pain'].fillna(df_var.groupby(['age', 'surgery', 'outcome'])['pain'].transform('median'))
df_var['respiratory_rate'] = df_var['respiratory_rate'].fillna(df['respiratory_rate'].median())

In [241]:
# У нас остётся только два показателя в которых есть пропущенные значения: rectal_temperature, temperature_of_extremities, 
# зависимость температур есть, так что сначала мы делаем замену исходя из температур        
df_var[(df_var['rectal_temperature'].isnull())] 
df_var['rectal_temperature'] = df_var['rectal_temperature'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'temperature_of_extremities'])['rectal_temperature'].transform('median'))
df_var['temperature_of_extremities'] = df_var['temperature_of_extremities'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'rectal_temperature'])['temperature_of_extremities'].transform('median'))

In [243]:
print(df.describe())
print('-----------------------------------')
print(df_var.describe())

          surgery         age  rectal_temperature       pulse  \
count  299.000000  300.000000          240.000000  276.000000   
mean     1.397993    1.080000           38.167917   71.913043   
std      0.490305    0.271746            0.732289   28.630557   
min      1.000000    1.000000           35.400000   30.000000   
25%      1.000000    1.000000           37.800000   48.000000   
50%      1.000000    1.000000           38.200000   64.000000   
75%      2.000000    1.000000           38.500000   88.000000   
max      2.000000    2.000000           40.800000  184.000000   

       respiratory_rate  temperature_of_extremities       pain     outcome  
count        242.000000                  244.000000  245.00000  299.000000  
mean          30.417355                    2.348361    2.95102    1.551839  
std           17.642231                    1.045054    1.30794    0.737187  
min            8.000000                    1.000000    1.00000    1.000000  
25%           18.500000      

In [249]:
# Так как часть данных не попадает ни в одну группу, то необходимо изменить подход, для оставшихся данных, т.е. оставить 'age', 'surgery', 'outcome', добавить 'pain'
df_var[(df_var['rectal_temperature'].isnull())] 
df_var['rectal_temperature'] = df_var['rectal_temperature'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'pain'])['rectal_temperature'].transform('median'))
df_var['temperature_of_extremities'] = df_var['temperature_of_extremities'].fillna(df_var.groupby(['age', 'surgery', 'outcome', 'pain'])['temperature_of_extremities'].transform('median'))

Unnamed: 0,surgery,age,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,pain,outcome
191,2.0,2,,100.0,44.0,2.0,4.0,1.0


In [250]:
# И для оставшихся заменяю так же без pain
df_var['rectal_temperature'] = df_var['rectal_temperature'].fillna(df_var.groupby(['age', 'surgery', 'outcome'])['rectal_temperature'].transform('median'))
df_var['temperature_of_extremities'] = df_var['temperature_of_extremities'].fillna(df_var.groupby(['age', 'surgery', 'outcome'])['temperature_of_extremities'].transform('median'))

In [251]:
print(df.describe())
print('-----------------------------------')
print(df_var.describe())

          surgery         age  rectal_temperature       pulse  \
count  299.000000  300.000000          240.000000  276.000000   
mean     1.397993    1.080000           38.167917   71.913043   
std      0.490305    0.271746            0.732289   28.630557   
min      1.000000    1.000000           35.400000   30.000000   
25%      1.000000    1.000000           37.800000   48.000000   
50%      1.000000    1.000000           38.200000   64.000000   
75%      2.000000    1.000000           38.500000   88.000000   
max      2.000000    2.000000           40.800000  184.000000   

       respiratory_rate  temperature_of_extremities       pain     outcome  
count        242.000000                  244.000000  245.00000  299.000000  
mean          30.417355                    2.348361    2.95102    1.551839  
std           17.642231                    1.045054    1.30794    0.737187  
min            8.000000                    1.000000    1.00000    1.000000  
25%           18.500000      

Из полученных данных видно, что для большинства данных мы сделали приблизительно корректные замены, для respiratory rate по условиям данные не являются критическими и именно по ним у нас наибильшее расхождение.
Сложности были с данными, которые не попадали в группировку, но при сравнении двух ДФ видно что замена привевла к не существенным изменениям в базовых статистиках.