In [None]:
import pandas as pd
import numpy as np

#### Примечание
Все задания сразу выполнены для всего набора данных

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе описания его столбцов и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

In [None]:
df_horses = pd.read_csv('практика_и_дз\horse_data.csv', header=None, na_values='?', 
                        names=['surgery',  'Age',  'Hospital_Number', 'rectal_temperature', 'pulse', 'respiratory_rate', 
                               'temperature_of_extremities', 'peripheral_pulse', 'mucous_membranes', 'capillary_refill_time',
                               'pain', 'peristalsis', 'abdominal_distension', 'nasogastric_tube', 'nasogastric_reflux',
                               'nasogastric_reflux PH', 'rectal_examination', 'abdomen', 'packed_cell_volume', 'total_protein',
                               'abdominocentesis_appearance', 'abdomcentesis_total_protein', 'outcome', 'surgical_lesion',
                               'type_of_lesion_1', 'type_of_lesion_2', 'type_of_lesion_3', 'cp_data'])
df_horses.head()

Проанализириуем весь набор данных

In [None]:
df_horses.shape

In [None]:
df_horses.info()

In [None]:
for col in df_horses.columns:
    pct_missing = df_horses[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

#### Обзор набора данных

Имеем 300 записей. 

Все признаки представлены в виде целых и дробных чисел.

В наборе данных есть признаки без пропущенных значений (7 признаков.), признаки с долей пропущенных значений меньше 50% (18 признаков) и признаки с долей пропущенных значений больше 50% (3 признака).

##### Обзор признаков
Проанилизируем информацию в каждом из столбцов

In [None]:
df_horses_desc = df_horses.describe()

metrics = {}
for col in df_horses:
    metrics[col] = df_horses[col].mode()[0]
df_horses_desc = pd.concat([df_horses_desc, pd.DataFrame([metrics], index = ['mode'])])

metrics = {}
for col in df_horses:
    metrics[col] = df_horses[col].max() - df_horses[col].min()
df_horses_desc = pd.concat([df_horses_desc, pd.DataFrame([metrics], index = ['swipe'])])


df_horses_desc

In [None]:
df_horses['surgery'].value_counts(normalize = True)

###### Признак surgery
Данный признак отображет информацию о факте хирургического вмешательства и является категориальным.

В столбце, соответствующем данному признаку, отсутсвует менее 1% значений.

Лечение около 60% лошадей было сопряжено с операцией.



###### Признак Age
Данный признак отображет информацию о возрасте болеюищх лошадей и является дискретным.

В столбце, соответствующем данному признаку, нет отсутствующих значений.

Средний возраст лошадей составляет 1.6 года, при том, что лошади младше 1 года в выборке отсутствуют. С учетом стандартного отклонения, равного 2.17 (очевидно, как правило, в большую сторону от среднего) можно сделать вывод, что количество больных лошадей обратнопропорционально их возрасту.

In [None]:
df_horses['Hospital_Number'].value_counts().value_counts(normalize=True)

###### Признак Hospital Number
Данный признак является идентификатором, присовенным пациенту(лошади) и является категориальным.

В столбце, соответствующем данному признаку, нет отсутствующих значений.

Анализ данного признака целесообразен только с точки зрения частоты встречаемости значений. 94% пациентов подвергались лечению единожды.

###### Признак rectal_temperature
Данный признак отображает информацию о температуре тела лошади в некоторый момент времени и является непрерывным.

В столбце, соответствующем данному признаку, отсутствуюет 20% значений.

Температура 75% лошадей выше нормы, но, как правило, отклоняется от нормы не более чем на 1 градус.

###### Признак pulse
Данный признак отображает информацию о количестве ударов сердца в минуту и является дискретным.

В столбце, соответствующем данному признаку, отсутствуюет 8% значений.

Пульс почти всех лошадей значительно повышен, причем разброс значений весьма велик. Такие значения свидетельствует о нарушенном кровообращении или болевом шоке.

In [None]:
df_horses[df_horses['respiratory_rate'] <= 10].shape[0] / df_horses[~df_horses['respiratory_rate'].isnull()].shape[0]

###### Признак respiratory_rate
Данный признак отображает информацию о частоте дыхания и является дискретным.

В столбце, соответствующем данному признаку, отсутствуюет 19.3% значений.

Частота дыхания почти всех лошадей значительно повышена, причем разброс значений весьма велик. Только у 2.4% лошадей частота укладывается в нормальный диапазаон. Можно предположить, что данный признак сильно коррелирует с признаком pulse.

In [None]:
df_horses.temperature_of_extremities.value_counts(normalize=True)

###### Признак temperature_of_extremities
Данный признак отображает субъективную оценку температуры конечностей лошадей и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 18.7% значений.

Менее чем у трети лошадей температура конечностей оценена как нормальная

In [None]:
df_horses.peripheral_pulse.value_counts(normalize=True)

###### Признак peripheral_pulse
Данный признак отображает субъективную оценку частоты переферийного пульcа и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 23% значений.

Примерно у половины лошадей данный показатель оценен как соответствующий норме. Сильные отклонения от нормы встречаются крайне редко.

In [None]:
df_horses.mucous_membranes.value_counts(normalize=True)

###### Признак mucous_membranes
Данный признак отображает субъективную оценку цвета слизистой оболочки и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 15.7% значений.

Отклонения от нормы найдены у 58% лошадей.

In [None]:
df_horses.capillary_refill_time.value_counts(normalize=True)

###### Признак capillary_refill_time
Данный признак отображает информацию о скорости наполнения капиляров и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 15.7% значений.

Для 70% лошадей показатель соответствует норме. Необходимо отметить, что среди значений присутствует значение "3", что может свидетельствовать о нарушениях при сборе данных или их описании.

In [None]:
df_horses.pain.value_counts(normalize=True)

###### Признак pain
Данный признак отображает субъективную оценку болевых ощущений лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 18.3% значений.

85% лошадей испытывают боль в том или ином виде. Сильные боли испытывает треть лошадей.

In [None]:
df_horses.peristalsis.value_counts(normalize=True)

###### Признак peristalsis
Данный признак отображает информацию об активности в кишечнике лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 14.7% значений.

Почти у всех лошадей кишечник находится не в нормальном состоянии. Половина значений соответствует диагнозу "гипомотиль"

In [None]:
df_horses.abdominal_distension.value_counts(normalize=True)

###### Признак abdominal_distension 
Данный признак отображает информацию вздутии живота лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 18.7% значений.

Более чем у двух третей лошадей замечено вздутие живота. У 15% из них данное вздутие свидетельствует о крайне остром течении болезни.

In [None]:
df_horses.nasogastric_tube.value_counts(normalize=True)

###### Признак nasogastric_tube  
Данный признак отображает информацию количестве газа в кишечнике лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 34.7% значений. В связи с этим выводы, основывающиеся на значении данного признака, необходимо делать острожно.

Газы отсутствуют в кишечниках 36% лошадей. 11% это доставляет сильный дискомфорт.

In [None]:
df_horses.nasogastric_reflux.value_counts(normalize=True)

###### Признак nasogastric_reflux   
Данный признак отображает информацию количестве инородной жидкости в кишечнике лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 35.3% значений. В связи с этим выводы, основывающиеся на значении данного признака, необходимо делать острожно.

Чуть менее 20% лошадей находятся в критическом состоянии в связи с наличием большого объема инородной жидкости в кишечнике.

###### Признак nasogastric_reflux PH  
Данный признак отображает информацию количестве инородной жидкости в кишечнике лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 82.3% значений, что делает его фактически непригодным в качестве основы для выводов.

In [None]:
df_horses.rectal_examination.value_counts(normalize=True)

###### Признак rectal_examination
Данный признак отображает информацию количестве кала лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 34% значений. В связи с этим выводы, основывающиеся на значении данного признака, необходимо делать острожно.

Почти у 40% лошадей наблюдается запор.

In [None]:
df_horses.abdomen.value_counts(normalize=True)

###### Признак abdomen
Данный признак отображает информацию о состоянии брюха лошади и является категориальным.

В столбце, соответствующем данному признаку, отсутствуюет 39.3% значений. В связи с этим выводы, основывающиеся на значении данного признака, необходимо делать острожно.

Брюшная полость около двух третей лошадей свидетельствует о хирургическом поражении.

###### Признак packed_cell_volume 
Данный признак отображает информацию об объеме эретроцитов в крови лошади и является непрерывным.

В столбце, соответствующем данному признаку, отсутствуюет 9.7% значений.

Объем эретроцитов в крови у большинства лошадей соответствует норме. Отклонения, в случае их наличия, незначительны.

###### Признак total_protein 
Данный признак отображает информацию об объеме протеина в организме лошади и является непрерывным.

В столбце, соответствующем данному признаку, отсутствуюет 11% значений.

У половины лошадей данный показатель многократно завышен.Средний разброс значений огромен по сравнению с нормальным диапазоном значений.

###### Признак abdominocentesis_appearance 
Данный признак отображает информацию о консистенции жидкостей в кишечнике лошади и является категорильным.

В столбце, соответствующем данному признаку, отсутствуюет 55% значений .В связи с этим выводы, основывающиеся на значении данного признака, делать не рекомендуется.

###### Признак abdomcentesis_total_protein
Данный признак отображает информацию об объеме протеина в брюшной полости лошади и является непрерывным.

В столбце, соответствующем данному признаку, отсутствуюет 66% значений .В связи с этим выводы, основывающиеся на значении данного признака, делать не рекомендуется.

###### Признак abdomcentesis_total_protein
Данный признак отображает информацию об объеме протеина в брюшной полости лошади и является непрерывным.

В столбце, соответствующем данному признаку, отсутствуюет 66% значений .В связи с этим выводы, основывающиеся на значении данного признака, делать не рекомендуется.

In [None]:
df_horses.outcome.value_counts(normalize=True)

###### Признак outcome   
Данный признак отображает информацию об итогах клинического случая и является категорильным.

В столбце, соответствующем данному признаку, отсутствуюет 0.3% значений.

Жизнь около 40% лошадей так или иначе прекратилась.

In [None]:
df_horses.surgical_lesion.value_counts(normalize=True)

###### Признак surgical_lesion  
Данный признак отображает информацию о том, являлось ли поражение лошади хирургическим и является категорильным.

В столбце, соответствующем данному признаку, нет отсутствующих значений.

Примерно в 2 из 3 случаев поражение являлось хирургическим.

In [None]:
df_horses.type_of_lesion_1.value_counts(normalize=True)

In [None]:
df_horses.type_of_lesion_2.value_counts(normalize=True)

###### Признаки type_of_lesion
Группа данных признаков отображает информацию о типе хирургического поражения и являются категорильными.

В столбцах, соответствующих данным признакам, нет отсутствующих значений.

Для 18% лошадей данный тип не был установлен. Для менее, чем 3% лошадей было установлено сразу два или более типа поражения.

###### Признаки cp_data 
Группа данных признаков отображает информацию о том, имеют ли отношение патологические данные к данному клиническому случаю и являются категорильными.

В столбце, соответствующем данному признаку, нет отсутствующих значений.

В описании данных данный признак указан как несущественный.

In [None]:
df_horses

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

In [None]:
def outliers (data):
    outlier = {}
    q1 = data.quantile(0.25)
    q3 = data.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - (1.5 * iqr) 
    upper_bound = q3 + (1.5 * iqr)
    outlier[data.name] = data[(~data.isnull()) & (~data.between(lower_bound, upper_bound, inclusive=True))].values
    if len(outlier[data.name])>0:
        print(outlier)

In [None]:
df_horses.apply(outliers)
print()

In [None]:
df_horses[df_horses['pulse'] == 184]

In [None]:
df_horses[df_horses['packed_cell_volume'] > 60].shape

В нашем случае о выбросах целесообразно говорить, имея в виду **только значения дискретных и непрерывных величин**.
В целом анализ выбросов значительно затруднен полным отсутствием знаний в предметной области.

Рассмотрим выбросы для каждого из соответствующих признаков:

- **Age** Значение 9 не является выбросом. Лошади вполне могут жить 9 лет.
- **rectal_temperature** Как минимальное значение (35.4), так и максимальное значение (40.8) не являются выбросами - у лошадей могут быть такие температуры тела.
- **pulse** Значение от 150 до 164 не являются выбросами. Что касается значения 184 - оно выглядит действительно подозрительно. Тем не менее, оно также не является выбросом, ибо у лошади, для которой было зафиксированно данное значние, наблюдается также экстремально высокая частота дыхания, низкое значение протеина, сильные болевые ощущения, некоторое вздутие живота. Вполне вероятно, что она находилась в критическом состоянии, чем объясняется высокое значение пульса. Это подтверждает её смерть в итоге. Поэтому с данным значением также предлагается ничего не делать.
- **respiratory_rate** Судя по крайне высокому стандартному отклонению данного признака, значения выше 70 не являются выбросами. С другой стороны, нормальные значения данного признака находятся в области 8-10; им соответствует менее 3% лошадей, что само по себе довольно подозрительно. Хотелось бы уточнить информацию о способе измерения и измерительном приборе. В противном случае, я бы поостерегся использовать значения данного столбца для анализа данных.
- **packed_cell_volume** Значения больше 74 не похожи на выбросы, рядом с ними находится довольно много близких значений.
- **abdomcentesis_total_protein** Значения больше 7 не похожи на выбросы, рядом с ними находится довольно много близких значений.

### Задание 3. Работа с пропусками
Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

In [None]:
for col in df_horses.columns:
    pct_missing = df_horses[col].isnull().mean()
    if pct_missing>0:
        print(f'{col} - {pct_missing :.1%}')

Рассмотрим пропуски для каждого из соответствующих признаков:

- **surgery** Так как в данном столбце содержится меньше 10% пропусков, их замена на моду кажется оправданной и не внесет существенного искажения в статистические показатели.
- **rectal_temperature** Так как значения моды, медианы и среднего находятся близко друг к другу, целесообразно заменить отсутствующие значения значениями из нормального распределения, сгруппированными вокруг среднего.
- **pulse** Так как в данном столбце содержится меньше 10% пропусков, а стандартное отклонение велико, их замена на среднее значение кажется оправданной и не внесет существенного искажения в статистические показатели.
- **respiratory_rate** Так как значения моды, медианы и среднего отличаются достаточно сильно, целесообразно заменить отсутствующие значения значениями из нормального распределения, сгруппированными вокруг медианы. Кроме того, учитывая большое значение размаха, к результату предлагается прибавить ещё половину стандартного отклонения.
- **temperature_of_extremities** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **peripheral_pulse** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **mucous_membranes** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **capillary_refill_time** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **pain** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **peristalsis** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **abdominal_distension** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **nasogastric_tube** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **nasogastric_reflux** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **nasogastric_reflux PH** Количество пропусков в данном столбце слишком велико. Предлагается не использовать данный столбец при анализе данных.
- **rectal_examination** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **abdomen** Так как признак является категориальным, целесообразно добавить отдельную категорию, соответствующую отсутсвующим значениям.
- **packed_cell_volume** Так как в данном столбце содержится меньше 10% пропусков, а среднее арифметическое почти совпадает с медианой, их замена на среднее значение кажется оправданной и не внесет существенного искажения в статистические показатели.
- **total_protein** Так как мода и медиана находятся довольно близко друг к другу, а среднее арифметическое находится от них весьма далеко, заполнение отсутствующих значений представляется затруднительной задачей. Предполагается, что распределение имеющихся величин описывается чем-то похожим на гамма-распределение.
- **abdominocentesis_appearance** Количество пропусков в данном столбце слишком велико. Предлагается не использовать данный столбец при анализе данных.
- **abdomcentesis_total_protein** Количество пропусков в данном столбце слишком велико. Предлагается не использовать данный столбец при анализе данных.
- **outcome** Так как в данном столбце содержится меньше 5% пропусков, их замена на моду кажется оправданной и не внесет существенного искажения в статистические показатели.


In [None]:
df_horses['surgery'].fillna(df_horses['surgery'].mode()[0], inplace = True)
df_horses['outcome'].fillna(df_horses['outcome'].mode()[0], inplace = True)

df_horses['pulse'].fillna(df_horses['pulse'].mean(), inplace = True)
df_horses['packed_cell_volume'].fillna(df_horses['packed_cell_volume'].mean(), inplace = True)

random_values = {}
for index in df_horses[df_horses['rectal_temperature'].isnull()].index:
    random_values[index] = np.random.normal(df_horses['rectal_temperature'].mean(), df_horses['rectal_temperature'].std())
df_horses['rectal_temperature'].fillna(random_values, inplace = True)
    
random_values = {}
for index in df_horses[df_horses['respiratory_rate'].isnull()].index:
    random_values[index] = np.random.normal(df_horses['respiratory_rate'].median(), df_horses['respiratory_rate'].std()) + 0.5*df_horses['respiratory_rate'].std()
df_horses['respiratory_rate'].fillna(random_values, inplace = True)
    
random_values = {}
for index in df_horses[df_horses['total_protein'].isnull()].index:
    #коэффиценты для гамма-распределения были подобраны эксперементально
    random_values[index] = np.random.gamma(2, 5)
df_horses['total_protein'].fillna(random_values, inplace = True)

df_horses['pain'].fillna('-999', inplace = True)
df_horses['temperature_of_extremities'].fillna('-999', inplace = True)
df_horses['peripheral_pulse'].fillna('-999', inplace = True)
df_horses['mucous_membranes'].fillna('-999', inplace = True)
df_horses['capillary_refill_time'].fillna('-999', inplace = True)
df_horses['peristalsis'].fillna('-999', inplace = True)
df_horses['abdominal_distension'].fillna('-999', inplace = True)
df_horses['nasogastric_tube'].fillna('-999', inplace = True)
df_horses['nasogastric_reflux'].fillna('-999', inplace = True)
df_horses['rectal_examination'].fillna('-999', inplace = True)
df_horses['abdomen'].fillna('-999', inplace = True)

df_horses.drop(['abdominocentesis_appearance', 'abdomcentesis_total_protein', 'nasogastric_reflux PH'], axis=1, inplace=True)

In [None]:
# s = np.random.gamma(2, 5, 10000)

# import matplotlib.pyplot as plt
# import scipy.special as sps  
# count, bins, ignored = plt.hist(s, 50, density=True)
# y = bins**(shape-1)*(np.exp(-bins/scale) /  
#                      (sps.gamma(shape)*scale**shape))
# plt.plot(bins, y, linewidth=2, color='r')  
# plt.show()

# print(np.median(s), s.mean(), s.max())

Основные статистические показатели для всех дискретных и непрерывных признаков до и после заполнения пропущенных значений отличаются незначительно, что подтверждает правильность выбора методов заполнения данных признаков

In [None]:
df_horses_desc

In [None]:
df_horses.describe()