In [1]:
import pandas as pd
import numpy as np


In [2]:
df = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])
#Оставляем только строки, в которых количество пропусков во всех колонках, кроме 'respiratory rate', не больше одного
len(df)

248

In [3]:
#Базовые статистики
df.describe()

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
count,248.0,248.0,215.0,242.0,210.0,230.0,232.0,248.0
mean,1.403226,1.548387,38.175349,72.173554,30.161905,2.334783,2.905172,1.532258
std,0.491537,2.025565,0.725694,28.234107,16.89632,1.051557,1.292526,0.735843
min,1.0,1.0,35.4,36.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.8,48.0,20.0,1.0,2.0,1.0
50%,1.0,1.0,38.2,64.0,27.0,3.0,3.0,1.0
75%,2.0,1.0,38.5,88.0,36.0,3.0,4.0,2.0
max,2.0,9.0,40.8,184.0,90.0,4.0,5.0,3.0


In [4]:
max_count = len(df)
max_count

248

In [5]:
#Определяем моды для категорий
modes = {
    'surgery?': df['surgery?'].mode()[0],
    'Age': df['Age'].mode()[0],
    'temperature of extremities': df['temperature of extremities'].mode()[0],
    'pain': df['pain'].mode()[0],
    'outcome': df['outcome'].mode()[0]
}
modes

{'surgery?': 1.0,
 'Age': 1,
 'temperature of extremities': 3.0,
 'pain': 3.0,
 'outcome': 1.0}

In [7]:
#Определяем выбросы ректальной температуры
rec_temp_q1 = df['rectal temperature'].quantile(0.25)
rec_temp_q3 = df['rectal temperature'].quantile(0.75)
rec_temp_iqr = rec_temp_q3 - rec_temp_q1

In [8]:
#Верхние выбросы ректальной температуры
rec_temp_upper_outliers = df[df['rectal temperature'] > rec_temp_q3 + 1.5 * rec_temp_iqr]
rec_temp_upper_outliers

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
20,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
54,2.0,1,40.3,114.0,36.0,3.0,2.0,3.0
75,1.0,9,39.7,100.0,,3.0,2.0,3.0
91,2.0,1,40.3,114.0,36.0,3.0,2.0,2.0
99,2.0,1,39.6,108.0,51.0,3.0,2.0,1.0
259,1.0,1,40.8,72.0,42.0,3.0,2.0,2.0
281,2.0,1,40.0,78.0,,3.0,2.0,2.0


In [9]:
#Нижние выбросы ректальной температуры
rec_temp_lower_outliers = df[df['rectal temperature'] < rec_temp_q1 - 1.5 * rec_temp_iqr]
rec_temp_lower_outliers

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
44,1.0,1,35.4,140.0,24.0,3.0,4.0,3.0
80,1.0,1,36.4,98.0,35.0,3.0,4.0,2.0
118,1.0,1,36.5,78.0,30.0,1.0,5.0,1.0
238,2.0,1,36.1,88.0,,3.0,3.0,3.0
251,2.0,1,36.6,42.0,18.0,3.0,1.0,2.0
298,1.0,1,36.5,100.0,24.0,3.0,3.0,1.0


In [None]:
#Верхние и нижние выбросы ректальной температуры не выглядят ошибочными данными

In [11]:
#Определяем выбросы пульса
pulse_q1 = df['pulse'].quantile(0.25)
pulse_q3 = df['pulse'].quantile(0.75)
pulse_iqr = pulse_q3 - pulse_q1

In [None]:
#Минимальное значение пульса в выборке лежит в пределах нормы, указанной в описании, и не требует внимания.

In [12]:
#Верхние выбросы пульса
pulse_upper_outliers = df[df['pulse'] > pulse_q3 + 1.5 * pulse_iqr]
pulse_upper_outliers

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
55,1.0,9,38.6,160.0,20.0,3.0,3.0,2.0
255,1.0,9,38.8,184.0,84.0,1.0,4.0,2.0
275,1.0,9,38.8,150.0,50.0,1.0,5.0,2.0


In [None]:
#Выбросы значений пульса похожи на корректные данные

In [13]:
#проверим выбросы частоты дыхания
resp_q1 = df['respiratory rate'].quantile(0.25)
resp_q3 = df['respiratory rate'].quantile(0.75)
resp_iqr = resp_q3 - resp_q1

In [14]:
resp_lower_outliers = df[df['respiratory rate'] < resp_q1 - 1.5 * resp_iqr]
resp_lower_outliers

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome


In [15]:
resp_upper_outliers = df[df['respiratory rate'] > resp_q3 + 1.5 * resp_iqr]
resp_upper_outliers

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
82,1.0,9,38.1,100.0,80.0,3.0,3.0,1.0
84,1.0,1,37.8,60.0,80.0,1.0,2.0,1.0
103,1.0,9,38.0,140.0,68.0,1.0,3.0,1.0
120,1.0,1,39.4,54.0,66.0,1.0,2.0,1.0
125,1.0,1,38.0,42.0,68.0,4.0,3.0,1.0
186,1.0,1,39.3,64.0,90.0,2.0,,1.0
208,1.0,1,37.8,88.0,80.0,3.0,,3.0
244,1.0,9,38.2,124.0,88.0,1.0,2.0,1.0
255,1.0,9,38.8,184.0,84.0,1.0,4.0,2.0


In [None]:
#Нет ни одной записи, которую можно было бы расценивать как нижний выброс.
#Верхние выбросы в 10+- раз превышают норму, но довольно многочисленны.
#Кроме того, как указано в описании, частота дыхания подвержена сильным флуктуациям.
#Не вижу причин сомневаться в качестве этих данных.

In [16]:
#Считаем колчество пустых значений.
num_of_nulls = {
    'surgery?': max_count - df['surgery?'].count(),
    'Age': max_count - df['Age'].count(),
    'rectal temperature': max_count - df['rectal temperature'].count(),
    'pulse': max_count - df['pulse'].count(),
    'respiratory rate': max_count - df['respiratory rate'].count(),
    'temperature of extremities': max_count - df['temperature of extremities'].count(),
    'pain': max_count - df['pain'].count(),
    'outcome': max_count - df['outcome'].count()
}
num_of_nulls

{'surgery?': 0,
 'Age': 0,
 'rectal temperature': 33,
 'pulse': 6,
 'respiratory rate': 38,
 'temperature of extremities': 18,
 'pain': 16,
 'outcome': 0}

In [17]:
#Определяем взаимосвязи переменных
corr_spearman = df.corr(method='spearman')
corr_spearman

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
surgery?,1.0,-0.1254,0.042761,-0.230105,-0.18536,-0.099674,-0.303516,-0.11912
Age,-0.1254,1.0,0.169739,0.386018,0.297438,-0.052965,0.046103,0.075028
rectal temperature,0.042761,0.169739,1.0,0.204841,0.230949,0.098182,-0.093264,-0.032829
pulse,-0.230105,0.386018,0.204841,1.0,0.467288,0.364869,0.349662,0.440255
respiratory rate,-0.18536,0.297438,0.230949,0.467288,1.0,0.151168,0.208969,0.167884
temperature of extremities,-0.099674,-0.052965,0.098182,0.364869,0.151168,1.0,0.239266,0.356392
pain,-0.303516,0.046103,-0.093264,0.349662,0.208969,0.239266,1.0,0.314109
outcome,-0.11912,0.075028,-0.032829,0.440255,0.167884,0.356392,0.314109,1.0


In [18]:
#Заполним пропуски
#1. 'rectal temperature': признак теснее всего связан с частотой дыхания,
#но т.к. последний имеет слишком большой разброс, не будем использовать его
#для заполнения пропущенных значений.
#Используем для группировки 'pulse', 'age'

fill_rec_temp = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])

In [None]:
#Использование pulse с точностью до единиц не позволяет запронить все пропуски. Округлим до десятков

In [19]:
fill_rec_temp['pulse_r'] = fill_rec_temp['pulse'].round(-1)
fill_rec_temp['rectal temperature'].\
       fillna(fill_rec_temp.groupby(['Age', 'pulse_r'])['rectal temperature']\
       .transform('median'), inplace=True)
print(len(fill_rec_temp[fill_rec_temp['rectal temperature'].isna()]))
print(len(df[df['rectal temperature'].isna()]))
print(fill_rec_temp['rectal temperature'].mean())
print(df['rectal temperature'].mean())
print(fill_rec_temp['rectal temperature'].median())
print(df['rectal temperature'].median())
print(fill_rec_temp['rectal temperature'].std())
print(df['rectal temperature'].std())

0
33
38.197983870967754
38.17534883720932
38.2
38.2
0.6912670755788151
0.7256944751077498


In [20]:
#2. 'pulse': Связь с частотой дыхания проигнорируем по тем же причинам
#Из оставшихся переменных возьмем те, связь с которыми наиболее выражена:
#'Age', 'outcome', 'temperature of extremities'

fill_pulse = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])

fill_pulse['pulse'].\
       fillna(fill_pulse.groupby(['Age', 'outcome', 'temperature of extremities'])['pulse']\
       .transform('median'), inplace=True)
print(len(fill_pulse[fill_pulse['pulse'].isna()]))
print(len(df[df['pulse'].isna()]))
print(fill_pulse['pulse'].mean())
print(df['pulse'].mean())
print(fill_pulse['pulse'].median())
print(df['pulse'].median())
print(fill_pulse['pulse'].std())
print(df['pulse'].std())

0
6
72.3991935483871
72.17355371900827
64.0
64.0
28.04200722821904
28.23410658885006


In [21]:
#3. 'respiratory rate': исходя из коэффициентов корреляции, выберем параметры группировки:
#'Age', 'rectal temperature', 'pulse' (с округлением до десятков)

fill_rr = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])
fill_rr['pulse_r'] = fill_rr['pulse'].round(-1)

fill_rr['respiratory rate']\
       .fillna(fill_rr.groupby(['Age', 'pulse_r'])['respiratory rate'].\
       transform('median'), inplace=True)\
#Группировка по указанным признакам, как и по округленной переменной pulse не позволяет запонить все значения.
fill_rr['respiratory rate']\
       .fillna(fill_rr.groupby(['rectal temperature'])['respiratory rate']\
       .transform('median'), inplace=True)

print(len(fill_rr[fill_rr['respiratory rate'].isna()]))
print(len(df[df['respiratory rate'].isna()]))
print(fill_rr['respiratory rate'].mean())
print(df['respiratory rate'].mean())
print(fill_rr['respiratory rate'].median())
print(df['respiratory rate'].median())
print(fill_rr['respiratory rate'].std())
print(df['respiratory rate'].std())

0
38
30.241935483870968
30.16190476190476
28.0
27.0
16.389673339946487
16.896319810798474


In [22]:
#4. 'temperature of extremities': исходя из коэффициентов корреляции, выберем параметры группировки:
#'pulse' (с округлением до десятков), 'outcome' (использование третьей переменной для группировки - 'pain'
#не позволяет запонить все пропуски, поэтому используем две переменных.

fill_toe = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])
fill_toe['pulse_r'] = fill_toe['pulse'].round(-1)

fill_toe['pulse_r'].fillna(-100, inplace=True)
fill_toe[ 'outcome'].fillna(-100, inplace=True)
f = lambda x: x.mode().iloc[0]
fill_toe['temperature of extremities']\
       .fillna(fill_toe.groupby(['pulse_r', 'outcome'])['temperature of extremities']\
       .transform(f), inplace=True)\

print(len(fill_toe[fill_toe['temperature of extremities'].isna()]))
print(len(df[df['temperature of extremities'].isna()]))
print(df['temperature of extremities'].mean())
print(fill_toe['temperature of extremities'].mean())
print(df['temperature of extremities'].median())
print(fill_toe['temperature of extremities'].median())
print(df['temperature of extremities'].std())
print(fill_toe['temperature of extremities'].std())

0
18
2.3347826086956522
2.2943548387096775
3.0
3.0
1.051556839450815
1.0561408950414342


In [23]:
#5. 'pain': исходя из коэффициентов корреляции, выберем параметры группировки:
#'pulse' (с округлением до десятков), 'outcome', 'surgery?'

fill_pain = pd.read_csv('horse_data.csv', 
                 usecols=[0, 1, 3, 4, 5, 6, 10, 22],
                 names=[
                     'surgery?',
                     'Age',
                     'rectal temperature',
                     'pulse',
                     'respiratory rate',
                     'temperature of extremities',
                     'pain',
                     'outcome'],
                 na_values='?')\
                 .dropna(thresh=6,
                         subset=[
                             'surgery?',
                             'Age',
                             'rectal temperature',
                             'pulse',
                             'temperature of extremities',
                             'pain',
                             'outcome'
                         ])
fill_pain['pulse_r'] = fill_pain['pulse'].round(-1)
fill_pain['pulse_r'].fillna(-100, inplace=True)
fill_pain['outcome'].fillna(-100, inplace=True)
fill_pain['surgery?'].fillna(-100, inplace=True)

fill_pain['pain']\
       .fillna(fill_pain.groupby(['pulse_r', 'outcome', 'surgery?'])['pain']\
       .transform(f), inplace=True)\

print(len(fill_pain[fill_pain['pain'].isna()]))
print(len(df[df['pain'].isna()]))
print(df['pain'].mean())
print(fill_pain['pain'].mean())
print(df['pain'].median())
print(fill_pain['pain'].median())
print(df['pain'].std())
print(fill_pain['pain'].std())

0
16
2.9051724137931036
2.903225806451613
3.0
3.0
1.2925256210100096
1.2815688439726711
