In [1]:
import pandas as pd
import numpy as np

# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики.

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome. Провести расчет базовых метрик для них, кратко описать результаты.

In [2]:
horse_data = pd.read_csv('horse_data.csv', header=None, usecols=[0,1,3,4,5,6,10,22], na_values=['?'])

In [3]:
horse_data.columns = ['surgery', 'Age', 'rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities', 'pain', 'outcome']

In [4]:
horse_data.head()

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,,,2.0


Замена пустых значений "?" на NaN, чтобы иметь возможность смотреть статистику по непрерывным признакам

In [5]:
numeric_features = ['rectal temperature', 'pulse', 'respiratory rate']
categorical_features = ['surgery', 'Age', 'temperature of extremities', 'pain', 'outcome']

In [6]:
horse_data.loc[:, numeric_features].describe()

Unnamed: 0,rectal temperature,pulse,respiratory rate
count,240.0,276.0,242.0
mean,38.167917,71.913043,30.417355
std,0.732289,28.630557,17.642231
min,35.4,30.0,8.0
25%,37.8,48.0,18.5
50%,38.2,64.0,24.5
75%,38.5,88.0,36.0
max,40.8,184.0,96.0


Средние значения, как медиана, так и среднее арифметическое по показателям "rectal temperature", "pulse" и "respiratory rate" выше нормы. Высокий разброс значений у показателей "pulse" и "respiratory rate", что может свидетельствовать о выбросах. У показателя "rectal temperature" самая высокая доля пропусков - 30%

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

Изучим показатель "pulse". Для него наблюдается смещение вправо, высокое значение максимальной границы.

In [7]:
q1 = horse_data['pulse'].quantile(0.25)
q3 = horse_data['pulse'].quantile(0.75)
iqr = q3 - q1
upper_bound = q3 + (1.5 * iqr)
remove_pulse_outliers = horse_data[horse_data['pulse'] >= upper_bound]
remove_pulse_outliers

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
41,2.0,9,39.0,150.0,72.0,,,1.0
55,1.0,9,38.6,160.0,20.0,3.0,3.0,2.0
255,1.0,9,38.8,184.0,84.0,1.0,4.0,2.0
275,1.0,9,38.8,150.0,50.0,1.0,5.0,2.0


In [8]:
# расчет доли выбросов
len(remove_pulse_outliers) / horse_data['pulse'].count() * 100

1.8115942028985508

Судя по всему в описании была неточность. Возраст может быть 1 (взрослая лошадь) и 2 (молодая лошадь). Но тут вместо 2 значение 9. Наверное тут речь шла о молодой лошади. 

Большинство из молодых лошадей, имеющих сверхвысокий пульс - умерло. Высокий пульс судя по описанию данных, свидетельствует о сильной боли, испытываемой животным во время снятия показаний, возможно в следствии проводимой над ними операции. Только одну удалось спасти, при этом без операции. Видимо ее состояние было в целом лучше, чем у остальных. 

Таких выбросов во всех данных 5 штук, это 1.8% от всех показаний пульса. Не думаю, что эти выбросы стоит удалять, просто учесть, что они есть и при исследовании средний пульс считать по медиане. Так же в этих строках может быть другая полезная информация по другим показателям.

Исследование показателя "respiratory rate". В описании к нему написано, что данный показатель имеет высокие колебания и может быть ненадежным для исследования.

In [9]:
q1 = horse_data['respiratory rate'].quantile(0.25)
q3 = horse_data['respiratory rate'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_rr_outliers = horse_data[horse_data['respiratory rate'] >= upper_bound]
remove_rr_outliers

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
39,1.0,9,39.2,146.0,96.0,,,2.0
41,2.0,9,39.0,150.0,72.0,,,1.0
82,1.0,9,38.1,100.0,80.0,3.0,3.0,1.0
84,1.0,1,37.8,60.0,80.0,1.0,2.0,1.0
103,1.0,9,38.0,140.0,68.0,1.0,3.0,1.0
106,1.0,1,38.3,52.0,96.0,,,1.0
120,1.0,1,39.4,54.0,66.0,1.0,2.0,1.0
125,1.0,1,38.0,42.0,68.0,4.0,3.0,1.0
186,1.0,1,39.3,64.0,90.0,2.0,,1.0


In [10]:
# расчет доли выбросов
len(remove_rr_outliers) / horse_data['respiratory rate'].count() * 100

7.024793388429752

In [11]:
# данные, для который показатель в норме
horse_data[(horse_data['respiratory rate'] >= 8) & (horse_data['respiratory rate'] <= 10)]

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
89,2.0,1,38.3,42.0,10.0,1.0,1.0,1.0
140,1.0,1,38.1,44.0,9.0,3.0,2.0,1.0
162,2.0,1,39.5,60.0,10.0,3.0,3.0,1.0
190,1.0,1,37.1,40.0,8.0,,3.0,1.0
203,2.0,1,37.2,36.0,9.0,1.0,2.0,1.0
209,2.0,1,37.5,44.0,10.0,3.0,3.0,1.0


Данных с показателем "respiratory rate", превышающим верхнюю границу межквартильного размаха, 7% от всех данных по показателю. И низкая доля данных, где этот показатель в норме. Так что тут вариантом было бы - полностью исключить данный показатель из исследования.

### Задание 3. Работа с пропусками

Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [12]:
horse_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     299 non-null    float64
 1   Age                         300 non-null    int64  
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  244 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     299 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 18.9 KB


Расчет пропусков в категориальных признаках

In [13]:
row_count = horse_data.shape[0]

for feature in categorical_features:
    n = horse_data[feature].isnull().sum()
    print(f'Кол-во пропусков в признаке {feature} равно {n}, доля {round(n/row_count*100, 2)}%')

Кол-во пропусков в признаке surgery равно 1, доля 0.33%
Кол-во пропусков в признаке Age равно 0, доля 0.0%
Кол-во пропусков в признаке temperature of extremities равно 56, доля 18.67%
Кол-во пропусков в признаке pain равно 55, доля 18.33%
Кол-во пропусков в признаке outcome равно 1, доля 0.33%


Расчет пропусков в числовых признаках

In [14]:
for feature in numeric_features:
    n = horse_data[feature].isnull().sum()
    print(f'Кол-во пропусков в признаке {feature} равно {n}, доля {round(n/row_count*100, 2)}%')

Кол-во пропусков в признаке rectal temperature равно 60, доля 20.0%
Кол-во пропусков в признаке pulse равно 24, доля 8.0%
Кол-во пропусков в признаке respiratory rate равно 58, доля 19.33%


Пропуски в колонке "surgery". Тут всего одна строка, поэтому ее можно удалить, так как из данных непонятно, как заполнить пропуск о том, была ли операция или нет.

In [15]:
horse_data = horse_data.dropna(subset = ['surgery'])

Пропуски в "outcome". Данный показатель не заполнен всего лишь в одной строке. Его проще удалить, чем пытаться найти взаимосвязь между другими характеристиками и этим показателем.

In [16]:
horse_data = horse_data.dropna(subset = ['outcome'])

Пропуски в колонке "rectal temperature". Данный показатель можно заполнить усредненными значениями показателя в других строках данных. В описании показателя сказано, что он может снижаться в связи с болевым состоянием лошади. Поэтому его можно заполнить по усредненным значениям в разрезе признака "pain" там, где он заполнен. В остальных случах просто средним значением (средним арифметическим) по всем строкам.

In [17]:
horse_data['rectal temperature'].fillna(horse_data.groupby('pain')['rectal temperature'].transform('mean'), inplace=True)

In [18]:
horse_data['rectal temperature'].fillna(horse_data['rectal temperature'].mean(), inplace=True)

Пропуски в колонке "pulse". Так как пульс может зависеть от возраста лошади и ее болевого состояния, можно также заполнить этот показатель усредненными значениями (медианой, так как в выборке есть выбросы по этому показателю).

In [19]:
horse_data['pulse'].fillna(horse_data.groupby('Age')['pulse'].transform('median'), inplace=True)

Пропуски в "respiratory rate". Данный показатель из-за сильных колебяний можно исключить из исследования, удалив колонку данных.

In [20]:
horse_data = horse_data.drop(['respiratory rate'], axis=1)

Пропуски в "temperature of extremities".В описании к показателю сказано, что он коррелирует с показателем "rectal temperature". Можно например посчитать средние показатели "rectal temperature" для каждой категории "temperature of extremities". И потом если у лошади заполнен "rectal temperature", то находить ближайший к нему средний показатель и подставлять соответствующую ему категорию. Если значение "rectal temperature" неизвестно, то поставить значение "Normal".

In [50]:
# поиск медианных значений в разрезе категории "temperature of extremities"
median_rt = horse_data.groupby('temperature of extremities')['rectal temperature'].median()

In [51]:
median_rt

temperature of extremities
1.0    38.167189
2.0    38.200000
3.0    38.100000
4.0    38.400000
Name: rectal temperature, dtype: float64

In [52]:
def find_temperature_of_extremities(row, median_rt):
    '''
    Поиск категории, для которой значение 'rectal temperature' в текущей строке ближе всего
    '''
    if pd.isna(row['temperature of extremities']):
        idx = (np.abs(median_rt - row['rectal temperature'])).idxmin()
        return idx
    else:
        return row['temperature of extremities']

In [46]:
horse_data['temperature of extremities'] = horse_data.apply(find_temperature_of_extremities, median_rt = median_rt, axis = 1)

Пропуски в "pain". Можно ориентировать на пульс, чем он выше, тем выше будет показатель. Заполнять можно похожим методом, который был применен для заполнения 'temperature of extremities'.

In [61]:
# поиск медианных значений в разрезе категории "pain"
median_pulse = horse_data.groupby('pain')['pulse'].median()

In [62]:
median_pulse

pain
1.0    48.0
2.0    72.0
3.0    60.0
4.0    77.5
5.0    84.0
Name: pulse, dtype: float64

In [63]:
def find_pain_level(row, median_pulse):
    '''
    Поиск категории, для которой значение 'pulse' в текущей строке ближе всего
    '''
    if pd.isna(row['pain']):
        idx = (np.abs(median_pulse - row['pulse'])).idxmin()
        return idx
    else:
        return row['pain']

In [64]:
horse_data['pain'] = horse_data.apply(find_pain_level, median_pulse = median_pulse, axis = 1)

Выведем информацию по обработанному датасету

In [65]:
horse_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 299 entries, 0 to 299
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     299 non-null    float64
 1   Age                         299 non-null    int64  
 2   rectal temperature          299 non-null    float64
 3   pulse                       299 non-null    float64
 4   temperature of extremities  299 non-null    float64
 5   pain                        299 non-null    float64
 6   outcome                     299 non-null    float64
dtypes: float64(6), int64(1)
memory usage: 18.7 KB


In [49]:
horse_data.loc[:, ['rectal temperature', 'pulse']].describe()

Unnamed: 0,rectal temperature,pulse
count,299.0,299.0
mean,38.167189,71.464883
std,0.659133,27.98228
min,35.4,30.0
25%,37.9,48.5
50%,38.165217,60.0
75%,38.5,88.0
max,40.8,184.0


## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам
Прежде чем задать вопрос, попробуйте найти ответ в интернете. Навык самостоятельного поиска информации — один из важнейших. Каждый практикующий специалист любого уровня делает это ежедневно.

Сформулируйте вопрос по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности прикрепите к вопросу скриншоты либо ссылки на код. Не выкладывайте все решение, оставляйте только проблемный и воспроизводимый участок кода.