# Базовые понятия статистики
## Задание 1. Базовое изучение

In [None]:
import pandas as pd

horse_data = pd.read_csv('horse_data.csv', na_values='?', usecols=[0, 1, 4, 10, 12, 20, 22, 23]) #, usecols=list(range(8)))
horse_data.columns = ['Surgery', 'Age', 'Pulse', 'Pain',
                      'Abdominal distension', 'Abdominocentesis appearance', 'Outcome', 'Surgical lesion']
# Общая информация
print(horse_data.info())
# Основные статистические характеристики
print(horse_data.describe())
for col in horse_data.columns:
    print(col, ':', horse_data[col].unique())

### Анализ данных
1. Характеристика значений по столбцам:
   Surgery, Pain, Abdominal distension, Abdominocentesis appearance, Outcome, Surgical lesion - категориальные
   Age - дискретные
   Pulse - непрерывные
2. В столбцах Age и Surgical lesion пропусков нет. Несмотря на то, что столбец Age содержит дискретные значения, в данном наборе данных он может принимать всего 2 значения. Столбец Surgical lesion также может принимать только два значения. Поэтому метрики данных столбцов нас не интересуют.
   Столбец Pulse содержит неприрывные значения, поэтому нас интересуют стандартное (28.68) отклонение, среднее (71.93) и медиана (64). Стандартное отклонение достаточно большое (сопоставимо с "расстоянием" между квартилями), поэтому более показательна в данном случае медиана.
   В остальных столбцах категориальные значения, поэтому следует использовать моду как главную характеристику значений. Однако в описании набора данных указано на наличие взаимосвязи между столбцами, поэтому мода для всего набора данных не является показательной, а ориентироваться следует на моду значений, сгруппированных по тем значениям, от которых они зависят. Например, столбец Surgery в разрезе Pain, так как между данными значениями есть зависимость: чем больше значение Pain (уровень боли), тем чаще в Surgery встречается значение 1 (Решение выполнить операцию), чем меньше - тем чаще встречается значение 2 (Решение операцию не выполнять). Ниже это продемонстрировано.

In [None]:
print(horse_data.pivot_table(index=['Pain'], columns=['Surgery'], values=['Outcome'], aggfunc = ['count']))

## Задание 2. Выбросы

In [None]:
def find_outliers(df):
    outliers_dict = {}
    for column in df.columns:
        q1 = df[column].quantile(0.25)
        q3 = df[column].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - (1.5 * iqr)
        upper_bound = q3 + (1.5 * iqr)
        # Удаляем выбросы
        df_without_outliers = df[(df[column].between(lower_bound, upper_bound, inclusive=True)) | (df[column].isna())]
        outliers = pd.concat([df_without_outliers, df]).drop_duplicates(keep=False)
        if outliers.empty:
            continue
        outliers_dict[column] = outliers
        print(f'> Выбросов в столбце {column} всего {len(outliers)}. Уникальные значения:\n', outliers[column].value_counts())
    
    return outliers_dict

outliers = find_outliers(horse_data)

### Анализ выбросов
1. В столбце Age (в данном наборе данных) встречается всего два значения: 1 и 9, которые значительно отличаются друг от друга, но главное - также значительно отличается и их количество в наборе данных. Значение 1 встречается 275, тогда как 9 - всего 24. Поэтому значение 9 будет считаться выбросом. Этот выброс можно считать естественным, т.к. лошадь может прожить 9 лет. Отбрасывать (удалять) строки с данным значением нецелесообразно, т.к. это приведет к потери 24 строк (8% от общего количества), что негативно скажется на репрезентативности выборки.
2. Значения выбросов в столбце Pulse выше среднего более чем в 2 раза, а нормы - в 4 раза. Высокие значения данного показателя можно интерпретировать как симптом заболевания/критического состояния здоровья. С высокими значениями в данном столбце должны коррелировать значения в столбцах Pain, Abdominal distension, Abdominocentesis appearance и Outcome. Это действительно так (см. блок ниже). Наиболее наглядна корреляция со значениями столбца Outcome: практически все лошади с высокими значениями Pulse умерли. Значит, выбросы в данном случае можно считать естественными. Выбросов всего 5, и их удаление (см. блок ниже) не влияет существенным образом на общую статистику. Кроме того, в строках с выбросами мало пропусков. Значит, если строки с выбросами не удалять, то они точно не окажут негативного влияния на общую статистику и, возможно, помогут заполнить пропуски в других строках наиболее адекватными значениями.
3. **Вывод**: принято решение не удалять строки с выбросами, так как они имеют ествественный характер и не искажают общее статистическое представление о выборке.

In [None]:
# Строки с выбросами по столбцу Pulse
print(outliers['Pulse'])
# Влияние удаления строк с выбросами в столбце Pulse на общую статистику
print(horse_data.describe() - horse_data[~horse_data.index.isin(outliers['Pulse'].index)].describe())

## Задание 3. Пропуски

In [None]:
# Скопируем DataFrame, чтобы иметь возможность обращаться к данным без пропусков
original_horse_data = horse_data.copy()

In [None]:
# Количество пропусков
print((horse_data.isna().mean() * 100).round(2).sort_values())

Начнем с заполнения пустых значений в столбцах, содержащих меньшее количество пропусков. В столбцах Surgery и Outcome крайне незначительное количество пропусков, поэтому их можно как удалить, чтобы не тратить лишнюю вычислительную мощность, что наиболее догично в случае большой выборки и ограниченных ресурсов.
## Surgery и Outcome

In [None]:
horse_data.dropna(subset=['Surgery', 'Outcome'], inplace=True)

## Pain
Данный столбец содержит 18% пропусков, но он имеет связь как минимум с тремя столбцами без пропусков, а также может быть использован для заполнения пропусков еще в двух столбцах (Pulse и Abdominal distension). Поэтому имеет смысл заполнить его пропуски значениями из связанных с ним столбцов без пропусков.
Столбец принимает категориальные значения, поэтому пропуски заполняем модой.

In [None]:
horse_data['Pain'] = horse_data.groupby(['Surgery', 'Outcome', 'Surgical lesion'])['Pain'].\
    apply(lambda x: x.fillna(x.mode().iloc[0]))

### Pulse
Данный столбец содержит 8% пропусков, является одним из базовых показателей общего состояния организма, а также имеет зависимость со столбцами Age и Pain. Следовательно, можно заполнить его пропуски на основе ищеющихся данных.
Столбец содержит непрерывные значения, поэтому заполняем его медианой.

In [None]:
horse_data['Pulse'].fillna(horse_data.groupby(['Age', 'Pain'])['Pulse'].transform('median'), inplace=True)

## Abdominal distension
Значения в данном столбце имеют слабую связь со столбцом Surgery (при значении 4 значение Surgery с большой вероятностью (75% судя по блокам ниже) будет = 1, но более сильной, прямой зависимости не наблюдается), а также со столбцом Pain (прямая зависимость). Однако при изначально приблизительно сопоставимом количестве пропусков в столбцах Pain и Abdominal distension, больше половины из них - совместные, что снижает вероятность точного предсказания значений по столбцу Pain.
Однако в описании данных показатель Abdominal distension отмечен как важный, а количество пропусков в нем около 19%.
Учитывая, что:
1) Данный показатель важен;
2) Достоверно заполнить пропуски мы не можем;
3) Количество пропусков составляет 19%
будет логично удалить строки с пропусками в данном столбце.

In [None]:
horse_data.groupby(['Surgery', 'Abdominal distension'])['Outcome'].count()

In [None]:
horse_data.groupby(['Pain', 'Abdominal distension'])['Outcome'].count()

In [None]:
print('Пропусков в Pain:', original_horse_data[original_horse_data['Pain'].isna()]['Outcome'].count())
print('Пропусков в Abdominal distension:', original_horse_data[original_horse_data['Abdominal distension'].isna()]['Outcome'].count())
print('Совместных пропусков:', original_horse_data[original_horse_data['Pain'].isna() & original_horse_data['Abdominal distension'].isna()]['Outcome'].count())

In [None]:
# Решение по столбцу
horse_data.dropna(subset=['Abdominal distension'], inplace=True)

## Abdominocentesis appearance
Из сказанного об этом столбце в описании данных мы не можем сделать выводов о его связи с другими столбцами. Кроме того, в данном столбце 55% значений отсутствует. Следовательно, в рамках нашей выборки этот столбец нельзя считать значимым и в целях избавления от лишних данных его можно удалить. Учитывая, что это последний столбец с пропусками, его можно удалить командой, приведенной ниже: 

In [None]:
horse_data.dropna(axis='columns', inplace=True)
horse_data.count()