### Задание 1. Загрузка данных
Изучить представленный набор данных на основе описания его столбцов, загрузить его и оставить 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.

In [1]:
import pandas as pd
from numpy import NaN

In [2]:
df = pd.read_csv('horse_data.csv', 
                 names=['surgery?', 'Age', '3', 'rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities',
                        '8', '9', '10', 'pain', '12', '13', '14', '15', '16','17','18', '19', '20', '21', '22', 'outcome', '24',
                        '25', '26', '27', '28'], 
                 usecols=['surgery?', 'Age', 'rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities',
                          'pain', 'outcome'])


In [3]:
df

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,2,1,38.50,66,28,3,5,2
1,1,1,39.2,88,20,?,3,3
2,2,1,38.30,40,24,1,3,1
3,1,9,39.10,164,84,4,2,2
4,2,1,37.30,104,35,?,?,2
...,...,...,...,...,...,...,...,...
295,1,1,?,120,70,4,2,3
296,2,1,37.20,72,24,3,4,3
297,1,1,37.50,72,30,4,4,2
298,1,1,36.50,100,24,3,3,1


In [4]:
df = df.replace('?', 1111)   # заменим пропуски "?" на 1111, чтобы переопределение типов не вызвало ошибку
                             # преварительно убедившись, что ? - это и только это является пропуском
df = df.astype({'surgery?': int,
                'Age': int,
                'rectal temperature': float,
                'pulse': int,
                'respiratory rate': int,
                'temperature of extremities': float,
                'pain': int,
                'outcome': int
               })

df = df.replace(1111, NaN)   # заменим пропуски "1111" на NaN для удобства работы
                            # по непонятной причине после replace(1111, NaN)
                            # все ранее целочисленные столбцы стали float

### Задание 2. Первичное изучение данных
Проанализировать значения по столбцам, рассчитать базовые статистики, найти выбросы.

In [5]:
categories = ['surgery?', 'Age', 'temperature of extremities', 'pain', 'outcome']
# проверим, все ли категориальные столбцы содержат допустимые значения
for col in categories:
    print(df[col].groupby(df[col]).count())

surgery?
1.0    180
2.0    119
Name: surgery?, dtype: int64
Age
1    276
9     24
Name: Age, dtype: int64
temperature of extremities
1.0     78
2.0     30
3.0    109
4.0     27
Name: temperature of extremities, dtype: int64
pain
1.0    38
2.0    59
3.0    67
4.0    39
5.0    42
Name: pain, dtype: int64
outcome
1.0    178
2.0     77
3.0     44
Name: outcome, dtype: int64


In [6]:
# выброс в столбце возраст, скорее всего это опечатка, допустимый список значений [1, 2]
# присутствуют значения [1, 9]. Скорее всего вместо 9 должно быть 2. Заменим
df.loc[df['Age']>2, ['Age']]=2
# в остальных категориальных столбцах значения в рамках допустимых значений

In [7]:
# далее проверяем на выбросы количественные столбцы  (межквартильный размах)
linear = {'rectal temperature': 0, 'pulse': 0, 'respiratory rate': 0}
outliers = set()                        # сюда вернем множество индексов выбросов по всем количественным колонкам
for col in linear.keys():
    stats = df[col].describe()
    IQR = stats['75%'] - stats['25%'] 
    LO = stats['25%'] - 1.5 * IQR
    HO = stats['75%'] + 1.5 * IQR
    col_outliers = set(df.index[df[col]>HO]).union(set(df.index[df[col]<LO]))
    linear[col] = len(col_outliers)     # посчитаем выбросы по столбцам (для работы с пропусками)
    outliers = (outliers.union(col_outliers))
               
print(outliers)

{259, 3, 265, 75, 141, 269, 80, 208, 82, 275, 20, 55, 84, 281, 91, 99, 229, 39, 103, 41, 298, 106, 44, 295, 238, 244, 54, 118, 120, 186, 251, 125, 255}


### Задание 3. Работа с пропусками
Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе заполнения пропусков по каждому столбцу на основе рассчитанных статистик и возможной взаимосвязи значений в них. Сформировать датафрейм, в котором пропуски будут отсутствовать.

In [8]:
print(df.isna().mean()*100) # % пропусков для каждой колонки


surgery?                       0.333333
Age                            0.000000
rectal temperature            20.000000
pulse                          8.000000
respiratory rate              19.333333
temperature of extremities    18.666667
pain                          18.333333
outcome                        0.333333
dtype: float64


In [9]:
#процент пропусков небольшой, поэтому можем оставить все столбцы
# Age убираем из выборки, так как пропусков там нет
categories = ['surgery?', 'temperature of extremities', 'pain', 'outcome']
# пропуски в категориальных столбцах заполняем модой, как наиболее вероятным значением
fill_missing = df.copy()
for col in categories:
    fill_missing[col].fillna(fill_missing[col].mode()[0], inplace=True)    

In [10]:
# для количественных значений смотрим, есть ли в колонках выбросы
linear

{'rectal temperature': 14, 'pulse': 5, 'respiratory rate': 17}

In [11]:
# выбросы есть, значит рациональнее заполнить медианой, так как она менее чувствительна к выбросам

In [12]:
for col in linear:
    fill_missing[col].fillna(fill_missing[col].median(), inplace=True)

In [13]:
# сравниваем исходный DF и результат
for col in list(linear.keys()) + categories :
    print(pd.concat([df[col].describe(),
                     fill_missing[col].describe()
                    ],
                    axis=1
                   )
         )

       rectal temperature  rectal temperature
count          240.000000          300.000000
mean            38.167917           38.174333
std              0.732289            0.654831
min             35.400000           35.400000
25%             37.800000           37.900000
50%             38.200000           38.200000
75%             38.500000           38.500000
max             40.800000           40.800000
            pulse       pulse
count  276.000000  300.000000
mean    71.913043   71.280000
std     28.630557   27.541545
min     30.000000   30.000000
25%     48.000000   48.000000
50%     64.000000   64.000000
75%     88.000000   88.000000
max    184.000000  184.000000
       respiratory rate  respiratory rate
count        242.000000        300.000000
mean          30.417355         29.273333
std           17.642231         16.010979
min            8.000000          8.000000
25%           18.500000         20.000000
50%           24.500000         24.500000
75%           36.00000

In [14]:
print(fill_missing.isna().mean()*100) # проверяем, все ли заполнено

surgery?                      0.0
Age                           0.0
rectal temperature            0.0
pulse                         0.0
respiratory rate              0.0
temperature of extremities    0.0
pain                          0.0
outcome                       0.0
dtype: float64


In [15]:
# в начале работы, насколько я понял, из-за присутствия NaN df не получалось привести к целым типам
# теперь все работает правильно

fill_missing = fill_missing.astype({'surgery?': int,
                'Age': int,
                'rectal temperature': float,
                'pulse': int,
                'respiratory rate': int,
                'temperature of extremities': float,
                'pain': int,
                'outcome': int
               })
    

In [16]:
print(df.info())
print(fill_missing.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    299 non-null    float64
 1   Age                         300 non-null    int32  
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  244 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     299 non-null    float64
dtypes: float64(7), int32(1)
memory usage: 17.7 KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    300 non-null    int