# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Задание 3. Работа с пропусками

Рассчитать количество выбросов для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [1]:
import pandas as pd
import numpy as np

In [2]:
colnames=['surgery?', 'Age', 'Hospital Number', 'rectal temperature', 
          'pulse', 'respiratory rate', 'temperature of extremities', 'peripheral pulse', 
          'mucous membranes', 'capillary refill time', 'pain', 'peristalsis', 
          'abdominal distension', 'nasogastric tube', 'nasogastric reflux', 'nasogastric reflux PH', 
          'rectal examination', 'abdomen', 'packed cell volume', 'total protein', 
          'abdominocentesis appearance', 'abdomcentesis total protein', 'outcome','surgical lesion?',
          'type of lesion', 'subtype', 'specific code', 'cp_data']
df = pd.read_csv('horse_data.csv', names=colnames, header=None,  na_values=['?'])

df.head()

Unnamed: 0,surgery?,Age,Hospital Number,rectal temperature,pulse,respiratory rate,temperature of extremities,peripheral pulse,mucous membranes,capillary refill time,...,packed cell volume,total protein,abdominocentesis appearance,abdomcentesis total protein,outcome,surgical lesion?,type of lesion,subtype,specific code,cp_data
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0,,2.0,...,45.0,8.4,,,2.0,2,11300,0,0,2
1,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
4,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2


In [3]:
df = df.iloc[:,0:8] # это будет мой датасет

df

Unnamed: 0,surgery?,Age,Hospital Number,rectal temperature,pulse,respiratory rate,temperature of extremities,peripheral pulse
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0
1,1.0,1,534817,39.2,88.0,20.0,,
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0
4,2.0,1,530255,37.3,104.0,35.0,,
...,...,...,...,...,...,...,...,...
295,1.0,1,533886,,120.0,70.0,4.0,
296,2.0,1,527702,37.2,72.0,24.0,3.0,2.0
297,1.0,1,529386,37.5,72.0,30.0,4.0,3.0
298,1.0,1,530612,36.5,100.0,24.0,3.0,3.0


In [4]:
dictionary = {}

dictionary['metrics'] = ['max','min', 'mean', 'mode', 'median', 'std', 'var']
for x in df.columns.values[3:6]: #ищем базовые метрики для столбцов rectal temperature, pulse, respiratory rate
    dictionary[x] = [df[x].max(), df[x].min(), df[x].mean(), df[x].mode()[0], df[x].median(), df[x].std(), df[x].var()]

df2 = pd.DataFrame(dictionary)

df2 

Unnamed: 0,metrics,rectal temperature,pulse,respiratory rate
0,max,40.8,184.0,96.0
1,min,35.4,30.0,8.0
2,mean,38.167917,71.913043,30.417355
3,mode,38.0,48.0,20.0
4,median,38.2,64.0,24.5
5,std,0.732289,28.630557,17.642231
6,var,0.536247,819.708775,311.248328


Не очень понятно про кратко описать результаты: просто формулы применили к числовым данным. Естественно, что многие величины отличаются от базовых для лошади, т.к. сама БД сформированная для больных лошадей.
Можно с уверенностью сказать, что для столбца rectal temperature характерен небольшой размах данных (ср. квадратичное 0,5), когда для столбцов pulse и respiratory rate значения внутри множества сильно расходятся со средним значением.

In [5]:
q1 = df['rectal temperature'].quantile(0.25)
q3 = df['rectal temperature'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers1 = df[df['rectal temperature'].between(lower_bound, upper_bound, inclusive=True)]

outliers1 = pd.concat([df, remove_outliers1]).drop_duplicates(keep=False)
outliers1['rectal temperature'].dropna()

20     39.9
44     35.4
75     39.7
80     36.4
99     39.6
118    36.5
141    36.0
238    36.1
251    36.6
259    40.8
281    40.0
298    36.5
Name: rectal temperature, dtype: float64

Мы видим, что для rectal temperature выбросами являются либо пустые значения, либо крайние низкие и высокие значения скорее всего соответствующие действительности. Если над значениями Nan мы будем работать при борьбе с пропусками, то относить остальные данные к выбросам в данном столбце не имеет смысла и их можно проигнорировать.

In [6]:
q1 = df['pulse'].quantile(0.25)
q3 = df['pulse'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers2 = df[df['pulse'].between(lower_bound, upper_bound, inclusive=True)]

outliers2 = pd.concat([df, remove_outliers2]).drop_duplicates(keep=False)
outliers2['pulse'].dropna()

3      164.0
41     150.0
55     160.0
255    184.0
275    150.0
Name: pulse, dtype: float64

Для столбца pulse в выбросы помимо пустых значений попадают так же сврхвысокие, если мы допускаем возможность их существования, то такие случаи необходимо рассматривать отдельно от основной выборки, поэтому в дальнейшем их рассматривать не будем

In [7]:
q1 = remove_outliers2['respiratory rate'].quantile(0.25)
q3 = remove_outliers2['respiratory rate'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers3 = remove_outliers2[remove_outliers2['respiratory rate'].between(lower_bound, upper_bound, inclusive=True)]

outliers3 = pd.concat([remove_outliers2, remove_outliers3]).drop_duplicates(keep=False)
outliers3['respiratory rate'].dropna().value_counts()

68.0    3
80.0    3
70.0    2
90.0    2
96.0    2
88.0    1
66.0    1
Name: respiratory rate, dtype: int64

Явных ошибок в столбце respiratory rate нет, но как и написанно в описании нашего датасета: "полезность сомнительна из-за больших колебаний" (std > 17), поэтому данный столбец не корректно использовать в анализе и соответственно не имеет смысла обрабатывать выбросы в нем.

In [8]:
df3 = remove_outliers2 #для дальнейшей работы берем датасет в котором мы опустили выбросы в столбце pulse

In [9]:
dictionary2 = {}

dictionary2['metrics'] = ['max','min', 'mean', 'mode', 'median', 'std', 'var']
for x in df3.columns.values[3:6]: #ищем базовые метрики для столбцов rectal temperature, pulse, respiratory rate
    dictionary2[x] = [df3[x].max(), df3[x].min(), df3[x].mean(), df3[x].mode()[0], df3[x].median(), df3[x].std(), df3[x].var()]

df4 = pd.DataFrame(dictionary2)

df4

Unnamed: 0,metrics,rectal temperature,pulse,respiratory rate
0,max,40.8,146.0,96.0
1,min,35.4,30.0,8.0
2,mean,38.136681,70.258303,29.904762
3,mode,38.0,48.0,20.0
4,median,38.1,64.0,25.0
5,std,0.728288,26.082484,16.979515
6,var,0.530403,680.295996,288.303934


In [10]:
df4['pulse'] - df2['pulse'] #изменение базовых метрик для столбца pulse

0    -38.000000
1      0.000000
2     -1.654741
3      0.000000
4      0.000000
5     -2.548072
6   -139.412779
Name: pulse, dtype: float64

3 задание про пропуски начинается так: "Рассчитать количество выбросов для всех выбранных столбцов." - не очень понятно, вроде бы как мы с выбросами разобрались выше...

    Для столбцов surgery?, Age, Hospital Number - пропуски существенны, эти данные невозможно дополнить из остальных. Их не должно быть.
    Для столбцов rectal temperature, pulse - пропуски в одном столбце, не исключают значения в другом. Т.к. базовые метрики в pandas игнорируют пропуски, то этими пропусками можно пренебречь. Однако если пропуск допущен одновременно в двух этих столбцах, то такая строка не несет смысловой нагрузки в рамках нашего датасета. (стоит сделать ремарку, что для столбца pulse мы избавились от пропусков в ходе работы с выбросами).
    Столбцы temperature of extremities,	peripheral pulse - в нашем случае это дополнительные данные и пропуски в них возможны, можно их проигнорировать.

In [11]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 271 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    270 non-null    float64
 1   Age                         271 non-null    int64  
 2   Hospital Number             271 non-null    int64  
 3   rectal temperature          229 non-null    float64
 4   pulse                       271 non-null    float64
 5   respiratory rate            231 non-null    float64
 6   temperature of extremities  225 non-null    float64
 7   peripheral pulse            214 non-null    float64
dtypes: float64(6), int64(2)
memory usage: 19.1 KB


In [12]:
df5 = df3.dropna(subset = {'surgery?'}) #строка с пустым статусом проведения операции удалена
df5.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 270 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    270 non-null    float64
 1   Age                         270 non-null    int64  
 2   Hospital Number             270 non-null    int64  
 3   rectal temperature          228 non-null    float64
 4   pulse                       270 non-null    float64
 5   respiratory rate            230 non-null    float64
 6   temperature of extremities  224 non-null    float64
 7   peripheral pulse            213 non-null    float64
dtypes: float64(6), int64(2)
memory usage: 19.0 KB


Исходя из информации выше, после удаления пропуска в столбце surgery? остались пропуски в столбцах: rectal temperature, respiratory rate, temperature of extremities, peripheral pulse. Данные пропуски необходимо заполнить значениями.

In [13]:
##rectal temperature - предположим, что пустые значения - это нормальная температура лошади, заменим пропуски на 37,8
df5['rectal temperature'].fillna(37.8, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [14]:
##respiratory rate - нормальная оценка от 8 до 10, т.к. исходя из описания: полезность сомнительна из-за больших колебаний
##заменяем на пропуски на минимальное значение: 8
df5['respiratory rate'].fillna(df5['respiratory rate'].min(), inplace=True)

In [15]:
##temperature of extremities - по описанию должна коррелировать с ректальной температурой, т.е. необходима группировка
##и поиск среднего для конкретного значения температуры
df5['temperature of extremities'].fillna(df5.groupby('rectal temperature')['temperature of extremities'].transform('median'), inplace=True)

In [16]:
##после данного шага в столбце temperature of extremities еще остались два пропуска:
df5[df5['temperature of extremities'].isnull()]

Unnamed: 0,surgery?,Age,Hospital Number,rectal temperature,pulse,respiratory rate,temperature of extremities,peripheral pulse
113,1.0,1,527933,36.8,60.0,28.0,,
141,2.0,1,522979,36.0,42.0,30.0,,


In [17]:
##очевидно, что при пониженной температуре конечности останутся холодными, заменим пропуски на 4 - Холодный
df5.loc[(df5['rectal temperature'] < 37.8) & (df5['temperature of extremities'].isnull()), 'temperature of extremities'] = 4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)


In [18]:
##приступаем к работе с последним столбцом содержащим пропуски: peripheral pulse
## т.к. это субъективная оценка, то можно взять моду значений данного столбца и заменить ей пропуски
df5['peripheral pulse'].fillna(df5['peripheral pulse'].mode()[0], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [19]:
df5.info() #итоговый датафрейм 270 строк против 300 изначальных, пропуски в данных отсутствуют

<class 'pandas.core.frame.DataFrame'>
Int64Index: 270 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    270 non-null    float64
 1   Age                         270 non-null    int64  
 2   Hospital Number             270 non-null    int64  
 3   rectal temperature          270 non-null    float64
 4   pulse                       270 non-null    float64
 5   respiratory rate            270 non-null    float64
 6   temperature of extremities  270 non-null    float64
 7   peripheral pulse            270 non-null    float64
dtypes: float64(6), int64(2)
memory usage: 19.0 KB


In [20]:
dictionary3 = {}

dictionary3['metrics'] = ['max','min', 'mean', 'mode', 'median', 'std', 'var']
for x in df5.columns.values[3:6]: #ищем базовые метрики для столбцов rectal temperature, pulse, respiratory rate
    dictionary3[x] = [df5[x].max(), df5[x].min(), df5[x].mean(), df5[x].mode()[0], df5[x].median(), df5[x].std(), df5[x].var()]

df6 = pd.DataFrame(dictionary3)

df6

Unnamed: 0,metrics,rectal temperature,pulse,respiratory rate
0,max,40.8,146.0,96.0
1,min,35.4,30.0,8.0
2,mean,38.084815,70.340741,26.696296
3,mode,37.8,48.0,8.0
4,median,38.0,64.0,24.0
5,std,0.681535,26.095525,17.525881
6,var,0.46449,680.976401,307.156492


## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.