In [1]:
import pandas as pd
import numpy as np

# Задание 1. Загрузка данных

In [2]:
horse = pd.read_csv('horse_data.csv', header = None, na_values = '?').iloc[:,[0, 1, 3, 4, 5, 6, 10, 22]]
horse.columns = ['surgery?', 'age', 'rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities', 'pain', 'outcome']
horse

Unnamed: 0,surgery?,age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,2.0,1,38.5,66.0,28.0,3.0,5.0,2.0
1,1.0,1,39.2,88.0,20.0,,3.0,3.0
2,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
4,2.0,1,37.3,104.0,35.0,,,2.0
...,...,...,...,...,...,...,...,...
295,1.0,1,,120.0,70.0,4.0,2.0,3.0
296,2.0,1,37.2,72.0,24.0,3.0,4.0,3.0
297,1.0,1,37.5,72.0,30.0,4.0,4.0,2.0
298,1.0,1,36.5,100.0,24.0,3.0,3.0,1.0


# Задание 2. Первичное изучение данных

In [3]:
# уникальные значения
for name in horse.columns:
    print(f'unique {name} : {horse[name].unique()}')

unique surgery? : [ 2.  1. nan]
unique age : [1 9]
unique rectal temperature : [38.5 39.2 38.3 39.1 37.3  nan 37.9 38.1 37.2 38.  38.2 37.6 37.5 39.4
 39.9 38.4 38.6 37.8 37.7 39.  35.4 38.9 37.4 40.3 37.  39.7 38.7 36.4
 38.8 39.6 36.8 39.5 36.5 36.  37.1 39.3 36.1 36.6 40.8 36.9 40. ]
unique pulse : [ 66.  88.  40. 164. 104.  nan  48.  60.  80.  90.  72.  42.  92.  76.
  96. 128.  64. 110. 130. 108. 100. 112.  52. 146. 150. 120. 140.  84.
  46. 114. 160.  54.  56.  38.  98.  50.  44.  70.  78.  49.  30. 136.
 132.  65.  86. 129.  68.  36.  45. 124. 184.  75.  82.]
unique respiratory rate : [28. 20. 24. 84. 35. nan 16. 36. 12. 52. 48. 21. 60. 34. 42. 30. 96. 72.
 15. 44. 32. 22. 18. 80. 40. 10. 51. 68. 66.  9. 14. 90.  8. 23. 58. 13.
 70. 26. 88. 25. 50.]
unique temperature of extremities : [ 3. nan  1.  4.  2.]
unique pain : [ 5.  3.  2. nan  4.  1.]
unique outcome : [ 2.  3.  1. nan]


Проанализировав уникальные значения и описание столбцов набора данных, можно выделить ошибку в значении стобца "age", где вместо "2" наблюдается "9". Поэтому выполним соответствующую замену.

In [4]:
horse.loc[horse['age'] == 9, 'age'] = 2

In [5]:
# базовые статистики
stats = horse.describe().append(horse.mode()).rename(index={0: 'mode'})
stats.loc['IQR'] = stats.loc['75%', :] - stats.loc['25%', :]
stats.loc['lower outlier'] = stats.loc['25%', :] - 1.5 * (stats.loc['IQR', :])
stats.loc['higher outlier'] = stats.loc['75%', :] + 1.5 * (stats.loc['IQR', :])
stats

Unnamed: 0,surgery?,age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
count,299.0,300.0,240.0,276.0,242.0,244.0,245.0,299.0
mean,1.397993,1.08,38.167917,71.913043,30.417355,2.348361,2.95102,1.551839
std,0.490305,0.271746,0.732289,28.630557,17.642231,1.045054,1.30794,0.737187
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.8,48.0,18.5,1.0,2.0,1.0
50%,1.0,1.0,38.2,64.0,24.5,3.0,3.0,1.0
75%,2.0,1.0,38.5,88.0,36.0,3.0,4.0,2.0
max,2.0,2.0,40.8,184.0,96.0,4.0,5.0,3.0
mode,1.0,1.0,38.0,48.0,20.0,3.0,3.0,1.0
IQR,1.0,0.0,0.7,40.0,17.5,2.0,2.0,1.0


In [6]:
# выбросы
outliers = {}

for name in horse.columns:
    outliers[name] = pd.concat([horse, horse[horse[name].between(stats.loc['lower outlier', name], stats.loc['higher outlier', name], inclusive = True)]]).drop_duplicates(keep = False)

In [7]:
outliers['rectal temperature']

Unnamed: 0,surgery?,age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
5,2.0,1,,,,2.0,2.0,1.0
7,1.0,1,,60.0,,3.0,,2.0
8,2.0,1,,80.0,36.0,3.0,4.0,3.0
16,1.0,2,,128.0,36.0,3.0,4.0,2.0
20,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
...,...,...,...,...,...,...,...,...
274,1.0,1,,76.0,,,,3.0
281,2.0,1,40.0,78.0,,3.0,2.0,2.0
293,1.0,1,,78.0,24.0,3.0,,3.0
295,1.0,1,,120.0,70.0,4.0,2.0,3.0


# Задание 3. Работа с пропусками

In [8]:
# информация по пропускам
horse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    299 non-null    float64
 1   age                         300 non-null    int64  
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  244 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     299 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 18.9 KB


Начнём с заполнения столбцов, где наблюдается всего по одному пропуску. Такими столбцами являются "surgery?" и "outcome". При этом оба пропуска находятся в 132 строке. 

In [9]:
horse[horse['surgery?'].isna()]

Unnamed: 0,surgery?,age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
132,,1,38.0,48.0,20.0,3.0,4.0,


In [10]:
horse[horse['outcome'].isna()]

Unnamed: 0,surgery?,age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
132,,1,38.0,48.0,20.0,3.0,4.0,


Характеристики по этим столбцам являются категориальными дискретными.

Заполним пропуски модой по следующим критериям: 
1. обе возрастные группы, поскольку возраст не должен влиять на решении по проведению операции и исходу при схожих показателях;
2. показатели ректальной температуры в диапозе от 37.5 до 38.5, то есть отличающиеся от исходного значения на 5 пунктов;
3. показатели пульса в диапозе от 38 до 58, то есть отличающиеся от исходного значения на 10 пунктов;
4. показатели частоты в диапозе от 15 до 30, то есть отличающиеся от исходного значения на 5 пунктов;
5. температуру конченостей для 3 и 4 группы из-за схожести в значениях (прохладный, холодный) 
6. с 3 по 5 группы боли, посколько в каждой из пречисленных групп у пациента присутствует боль.

In [11]:
for name in ['surgery?', 'outcome']:
    horse[name].fillna(horse.loc[(horse['age'].between(1, 2)) & (horse['rectal temperature'].between(37.5, 38.5)) & (horse['pulse'].between(38, 58)) & (horse['respiratory rate'].between(15, 30)) & (horse['temperature of extremities'].between(3, 4)) & (horse['pain'].between(3, 5))][name].mode()[0], inplace = True)

Перейдем к заполнению третьего столбца "rectal temperature" при помощи его среднего значения по группе операция-исход, как наиболее подходящей.

In [12]:
horse['rectal temperature'] = horse['rectal temperature'].fillna(horse.groupby(['surgery?', 'outcome'])['rectal temperature'].transform('mean'))

Далее, используя среднее значение по столбцу "pulse", заполним в нем пропуски по группе возраст, как наиболее подходящей.

In [13]:
horse['pulse'] = horse['pulse'].fillna(horse.groupby('age')['pulse'].transform('mean'))

На основе взаимосвязи частоты дыхания с показателями пульса (1. меньше нормы; 2. норма; 3. больше нормы) и возраста заполним пропуски средней в столбце "respiratory rate".

In [14]:
def puclass(p):
    if p < 20:
        return 'less'
    elif 20 <= p <=40:
        return 'normal'
    else:
        return 'more'
    
horse['pu class'] = horse['pulse'].apply(puclass)

In [15]:
horse['respiratory rate'] = horse['respiratory rate'].fillna(horse.groupby(['pu class', 'age'])['respiratory rate'].transform('mean'))

Вернёмся к заполнению других категориальных дискретных данных. 

Рассмотрим три случая для столбца "temperature of extremities", учитывая корреляцию температуры конечностей с ректальной температуры и исход: 1. меньше нормы; 2. норма; 3. выше нормы. 

In [16]:
def rtclass(rt):
    if rt < 37.8:
        return 'less'
    elif rt == 37.8:
        return 'normal'
    else:
        return 'more'
    
horse['rt class'] = horse['rectal temperature'].apply(rtclass)

In [17]:
horse['temperature of extremities'] = horse['temperature of extremities'].fillna(horse.groupby(['rt class', 'outcome'])['temperature of extremities'].transform(lambda x: x.mode().iloc[0]))

In [18]:
horse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 10 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    300 non-null    float64
 1   age                         300 non-null    int64  
 2   rectal temperature          300 non-null    float64
 3   pulse                       300 non-null    float64
 4   respiratory rate            300 non-null    float64
 5   temperature of extremities  300 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     300 non-null    float64
 8   pu class                    300 non-null    object 
 9   rt class                    300 non-null    object 
dtypes: float64(7), int64(1), object(2)
memory usage: 23.6+ KB


Заполним последний столбец "pain" модой по группе ректальная температура-пульс-температура конечностей

In [66]:
horse['pain'] = horse['pain'].fillna(horse.groupby(['pu class', 'rt class', 'temperature of extremities'])['pain'].transform(lambda x: x.mode().iloc[0]))

In [67]:
horse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    300 non-null    float64
 1   age                         300 non-null    int64  
 2   rectal temperature          300 non-null    float64
 3   pulse                       300 non-null    float64
 4   respiratory rate            300 non-null    float64
 5   temperature of extremities  300 non-null    float64
 6   pain                        300 non-null    float64
 7   outcome                     300 non-null    float64
 8   pu class                    300 non-null    object 
 9   respiratory rate            300 non-null    float64
 10  rt class                    300 non-null    object 
dtypes: float64(8), int64(1), object(2)
memory usage: 25.9+ KB
