In [1]:
import pandas as pd
import numpy as np

In [2]:
# Чтение файла, для категориальных столбцов  задан тип данных строка, 
# поскольку действий с ними производить нельзя, а потеря символа 0 может иметь значение
# символ ? - приобретает значение NaN

df = pd.read_csv('horse_data.csv', names = ['surgery', 'age', 'hospital_number', 'rectal_temp', 
              'pulse', 'resp_rate', 'temp_extremities', 'peripheral_pulse',
             'mucous_membr', 'capillary_refill_time', 'pain', 'peristalsis',
              'abdominal_distension', 'nasogastric_tube', 'nasogastric_reflux',
             'nasogastric_reflux_PH', 'rectal_examination', 'abdomen',
             'packed_cell_volume', 'total_protein', 'abdominocentesis_appearance',
             'abdomcentesis_total_protein', 'outcome', 'surgical_lesion',
             'site_lesion', 'site_lesion2', 'site_lesion3', 'cp_data'], dtype = {'surgery':str, 'hospital_number':str,
             'temp_extremities':str, 'peripheral_pulse':str, 'mucous_membr':str, 'capillary_refill_time':str, 'pain':str,
             'peristalsis':str, 'abdominal_distension':str, 'nasogastric_tube':str, 'nasogastric_reflux':str,
             'rectal_examination':str, 'abdomen':str, 'abdominocentesis_appearance':str, 'outcome':str,
             'surgical_lesion':str, 'site_lesion':str, 'site_lesion2':str, 'site_lesion3':str, 'cp_data':str}, na_values ='?')

In [31]:
# ВЫбор тестовых столбцов

df_test = df[['surgery', 'age', 'hospital_number', 'rectal_temp', 'pulse', 'total_protein', 'outcome', 'surgical_lesion', 'site_lesion']]


In [4]:
df_test.head()

Unnamed: 0,surgery,age,hospital_number,rectal_temp,pulse,total_protein,outcome,surgical_lesion,site_lesion
0,2,1,530101,38.5,66.0,8.4,2,2,11300
1,1,1,534817,39.2,88.0,85.0,3,2,2208
2,2,1,530334,38.3,40.0,6.7,1,2,0
3,1,9,5290409,39.1,164.0,7.2,2,1,2208
4,2,1,530255,37.3,104.0,7.4,2,2,4300


In [5]:
print('Число лошадей, которым сделали операцию: ', (df_test.surgery == '1').sum())
print('Число лошадей, лечившихся без хирургического вмешательства: ', (df_test.surgery == '2').sum())

Число лошадей, которым сделали операцию:  180
Число лошадей, лечившихся без хирургического вмешательства:  119


In [6]:
print('Максимальный возраст пацентов:', df_test.age.max())
print('Минимальный возраст пацентов:', df_test.age.min())
print('Самый часто встречающийся возраст пациентов:', df_test.age.value_counts().index[0])

Максимальный возраст пацентов: 9
Минимальный возраст пацентов: 1
Самый часто встречающийся возраст пациентов: 1


In [7]:
# Возраст и количество пациентов. Подсчет медианы, среднеариф. возраста или моды в данном случае не имеет смысла
df_test.age.value_counts()

1    276
9     24
Name: age, dtype: int64

### Среднее, мода, медиана

In [8]:
print('Средняя температура по больнице ', df_test.rectal_temp.mean())
print('Мода значений температуры ', df_test.rectal_temp.round().mode()[0])
print('Медиана значений температуры', df_test.rectal_temp.median())

Средняя температура по больнице  38.16791666666669
Мода значений температуры  38.0
Медиана значений температуры 38.2


In [9]:
print('Среднее пульса по больнице ', df_test.pulse.mean())
print('Мода значений пульса ', df_test.pulse.round().mode()[0])
print('Медиана значений пульса', df_test.pulse.median())

Среднее пульса по больнице  71.91304347826087
Мода значений пульса  48.0
Медиана значений пульса 64.0


In [10]:

print('Среднее общий белок по больнице ', df_test.total_protein.mean())
print('Мода значений общий белок ', df_test.total_protein.round().mode()[0])
print('Медиана значений общий белок', df_test.total_protein.median())

Среднее общий белок по больнице  24.456928838951317
Мода значений общий белок  7.0
Медиана значений общий белок 7.5


### СКО и дисперсия

In [11]:
print('СКО и диспресия')
print('Температура')
print(df_test.rectal_temp.std(), '/', df_test.rectal_temp.var())
print('Пульс')
print(df_test.pulse.std(), '/', df_test.pulse.var())
print('Общий белок')
print(df_test.total_protein.std(), '/', df_test.total_protein.var())

СКО и диспресия
Температура
0.7322886641121578 / 0.5362466875871686
Пульс
28.630556660735003 / 819.7087747035575
Общий белок
27.475009470785064 / 754.8761454197289


In [12]:
Q1_T = df_test.rectal_temp.quantile(0.25)
Q3_T = df_test.rectal_temp.quantile(0.75)
IQR_T = Q3_T - Q1_T
print('Температура \nIQR: ', IQR_T, '\n25ый квантиль: ', Q1_T, '\n75ый квантиль', Q3_T)

Температура 
IQR:  0.7000000000000028 
25ый квантиль:  37.8 
75ый квантиль 38.5


In [13]:
Q1_P = df_test.pulse.quantile(0.25)
Q3_P = df_test.pulse.quantile(0.75)
IQR_P = Q3_P - Q1_P
print('Пульс \nIQR: ', IQR_P, '\n25ый квантиль: ', Q1_P, '\n75ый квантиль', Q3_P)

Пульс 
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0


In [14]:
Q1_TP = df_test.total_protein.quantile(0.25)
Q3_TP = df_test.total_protein.quantile(0.75)
IQR_TP = Q3_TP - Q1_TP
print('Общий белок \nIQR: ', IQR_TP, '\n25ый квантиль: ', Q1_TP, '\n75ый квантиль', Q3_TP)

Общий белок 
IQR:  50.5 
25ый квантиль:  6.5 
75ый квантиль 57.0


In [32]:
df_test.describe()

Unnamed: 0,age,rectal_temp,pulse,total_protein
count,300.0,240.0,276.0,267.0
mean,1.64,38.167917,71.913043,24.456929
std,2.173972,0.732289,28.630557,27.475009
min,1.0,35.4,30.0,3.3
25%,1.0,37.8,48.0,6.5
50%,1.0,38.2,64.0,7.5
75%,1.0,38.5,88.0,57.0
max,9.0,40.8,184.0,89.0


### Выбросы 

In [16]:
# выбросы температура
# В данном случае все значения температуры находятся в пределах разумного, поэтому данные из расчетов я бы никакие не убирала
# При ректальной температуре ниже 36.5 - летальный исход, что закономерно, поскольку низкие температуры у лошади
# зачастую говорят о состоянии шока. Высокие температуры у жеребят (а лошадь в 1 год еще жеребенок) в районе 40 также вполне 
# обоснованы, поскольку норма температуры у жеребенка до 39гр, при температуре выше 40 опять же летальный исход.
# Данных, выбивающихся из общих медицинских представлений, не обнаружила, поэтому считаю возможным сохранить все строки

lower_bound_T = Q1_T - (1.5 * IQR_T) 
upper_bound_T = Q3_T + (1.5 * IQR_T)
remove_outliers_T = df_test[df_test.rectal_temp.between(lower_bound_T, upper_bound_T, inclusive=True)].sort_values('rectal_temp')
df_test[~df_test.index.isin(remove_outliers_T.index)].sort_values( ['rectal_temp', 'outcome', 'age', 'pulse', 'total_protein']).head(20) #остальные значения Nan


Unnamed: 0,surgery,age,hospital_number,rectal_temp,pulse,total_protein,outcome,surgical_lesion,site_lesion
44,1,1,535407,35.4,140.0,69.0,3,1,3205
141,2,1,522979,36.0,42.0,6.8,2,2,1400
238,2,1,528702,36.1,88.0,7.0,3,1,2209
80,1,1,527518,36.4,98.0,6.4,2,1,2205
118,1,1,533983,36.5,78.0,75.0,1,1,3112
298,1,1,530612,36.5,100.0,6.0,1,1,2208
251,2,1,527940,36.6,42.0,7.1,2,1,5111
99,2,1,530002,39.6,108.0,8.0,1,2,4300
75,1,9,534092,39.7,100.0,57.0,3,1,1400
20,1,1,530157,39.9,72.0,6.1,1,1,2111


In [17]:
# Выбросы Пульс
# В стытистику выбросов попал экстремально высокий пульс (естественно для лошади находящейся в покое),
# но с учетом общего сосотояния и исхода можно сделать выводы, что это не случайность или ошибка, 
# а реальное состояние при определенных условиях, поэтому данные, я считаю, необходимо оставить в неизменном виде.
# единственно выживший при таких показателях - имеет болезнь не хирургического характера.

lower_bound_P = Q1_P - (1.5 * IQR_P) 
upper_bound_P = Q3_P + (1.5 * IQR_P)
remove_outliers_P = df_test[df_test.pulse.between(lower_bound_P, upper_bound_P, inclusive=True)].sort_values('pulse')
df_test[~df_test.index.isin(remove_outliers_P.index)].sort_values(['pulse', 'outcome', 'age', 'rectal_temp', 'total_protein']).head(20)

Unnamed: 0,surgery,age,hospital_number,rectal_temp,pulse,total_protein,outcome,surgical_lesion,site_lesion
41,2,9,5288249,39.0,150.0,8.5,1,1,9400
275,1,9,5297159,38.8,150.0,6.2,2,1,4207
55,1,9,5282839,38.6,160.0,,2,1,7111
3,1,9,5290409,39.1,164.0,7.2,2,1,2208
255,1,9,5294539,38.8,184.0,3.3,2,1,7111
126,1,1,530384,38.7,,6.5,1,1,31110
204,1,1,529528,39.2,,6.6,1,1,3115
56,1,1,528872,,,6.7,1,1,3112
159,2,1,528134,,,7.5,1,2,0
52,2,1,529483,,,7.7,1,2,3111


In [18]:
# Выбросы общий белок
# В статистику выбросов попали только значения Nan.

lower_bound_TP = Q1_TP - (1.5 * IQR_TP) 
upper_bound_TP = Q3_TP + (1.5 * IQR_TP)
remove_outliers_TP = df_test[df_test.total_protein.between(lower_bound_TP, upper_bound_TP, inclusive=True)].sort_values('total_protein')
df_test[~df_test.index.isin(remove_outliers_TP.index)]

Unnamed: 0,surgery,age,hospital_number,rectal_temp,pulse,total_protein,outcome,surgical_lesion,site_lesion
5,2,1,528355,,,,1,2,0
17,2,1,526639,37.5,48.0,,1,2,0
25,2,1,529518,37.8,60.0,,1,2,0
28,1,1,5279442,,,,2,2,4300
39,1,9,5277409,39.2,146.0,,2,1,2113
51,1,1,527706,37.4,84.0,,2,1,7209
55,1,9,5282839,38.6,160.0,,2,1,7111
59,2,1,528904,,96.0,,2,1,4205
72,1,1,5299253,37.7,56.0,,2,1,2113
81,1,1,534756,37.3,40.0,,1,1,3111


### Пропуски

In [19]:
# Изучаем информацию по изначальному датафрейму,
# Исключаем все строки с нулевыми значениями,
# Изучаем информацию по результирующему датафрейму
# Из расчетов выпадают 87 строк

df_test.info()
df_notnull =df_test.dropna(axis='index', how='any')
df_notnull.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   surgery          299 non-null    object 
 1   age              300 non-null    int64  
 2   hospital_number  300 non-null    object 
 3   rectal_temp      240 non-null    float64
 4   pulse            276 non-null    float64
 5   total_protein    267 non-null    float64
 6   outcome          299 non-null    object 
 7   surgical_lesion  300 non-null    object 
 8   site_lesion      300 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 21.2+ KB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 213 entries, 0 to 299
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   surgery          213 non-null    object 
 1   age              213 non-null    int64  
 2   hospital_number  213 non-null    o

In [20]:
# Ниже сравнение исходной тестовой и таблицы без нулевых срок
# Изучаем влияние исключения целых строк данных, содержащих нулевые значения, на основные агрегирующие функции
# Отличие среднего значения и ст.отклонения для темперетуры в третьем знаке после запятой, что можно считать незначительным
# Отличие среднего значения и ст.отклонения для пульса 3.45% и 1.91% соответственно
# Отличие среднего значения и ст.отклонения для об.белок 4.14% и 1.51% соответственно
# Удаление нулевых данных повлияло лишь на 75ый и 50ый квантиль(медиану, что отмечено ниже) для данных пульса
# Поскольку выше уже были исследованы выбросы и решено было их оставить, это не имеет особого значения 

In [21]:
df_test.describe()

Unnamed: 0,age,rectal_temp,pulse,total_protein
count,300.0,240.0,276.0,267.0
mean,1.64,38.167917,71.913043,24.456929
std,2.173972,0.732289,28.630557,27.475009
min,1.0,35.4,30.0,3.3
25%,1.0,37.8,48.0,6.5
50%,1.0,38.2,64.0,7.5
75%,1.0,38.5,88.0,57.0
max,9.0,40.8,184.0,89.0


In [22]:
df_notnull.describe()

Unnamed: 0,age,rectal_temp,pulse,total_protein
count,213.0,213.0,213.0,213.0
mean,1.676056,38.162441,69.431925,25.514085
std,2.230416,0.738687,28.083792,27.902341
min,1.0,35.4,30.0,3.3
25%,1.0,37.8,48.0,6.6
50%,1.0,38.2,60.0,7.5
75%,1.0,38.5,86.0,58.0
max,9.0,40.8,184.0,89.0


In [23]:
# Сравнение моды и медианы для исходного тестового датафрейма и с исключенными нулевыми данными
# Исключение данных оказало влияние лишь на медиану значений пульса


print('Мода значений температуры (test/notnull) ', df_test.rectal_temp.round().mode()[0], '/', df_notnull.rectal_temp.round().mode()[0])
print('Медиана значений температуры (test/notnull) ', df_test.rectal_temp.median(), '/', df_notnull.rectal_temp.median(), '\n')

print('Мода значений пульса (test/notnull) ', df_test.pulse.round().mode()[0], '/', df_notnull.pulse.round().mode()[0])
print('Медиана значений пульса (test/notnull) ', df_test.pulse.median(), '/', df_notnull.pulse.median(), '\n')

print('Мода значений общий белок (test/notnull)', df_test.total_protein.round().mode()[0], '/', df_notnull.total_protein.round().mode()[0])
print('Медиана значений общий белок (test/notnull)', df_test.total_protein.median(), '/', df_notnull.total_protein.median())

Мода значений температуры (test/notnull)  38.0 / 38.0
Медиана значений температуры (test/notnull)  38.2 / 38.2 

Мода значений пульса (test/notnull)  48.0 / 48.0
Медиана значений пульса (test/notnull)  64.0 / 60.0 

Мода значений общий белок (test/notnull) 7.0 / 7.0
Медиана значений общий белок (test/notnull) 7.5 / 7.5


In [24]:
# Здесь можно посмотреть каким образом удаление данных повлияет на основные агрегирующие функции относительно типа болезни 
# Вывод только для тех типов болезни, на которые удаление нулевых данных каким-либо образом повлияло
# В случае, если необходимо будет делать какие-то конкретные заключения по типам болезни, это поможет определить 
# целесообразность удаления всей строки, не окажется ли изменение данных в связи с этим слишком значительным
# Ниже представлен аналогичный набор для данных по пульсу и об.белок.

agg_func_math_T = {
    'rectal_temp': ['describe']
}
res_test_T = df_test.groupby(['site_lesion']).agg(agg_func_math_T).round(2)
res_notnull_T = df_notnull.groupby(['site_lesion']).agg(agg_func_math_T).round(2)
pd.concat([res_test_T, res_notnull_T]).sort_values(['site_lesion']).drop_duplicates(keep=False)

Unnamed: 0_level_0,rectal_temp,rectal_temp,rectal_temp,rectal_temp,rectal_temp,rectal_temp,rectal_temp,rectal_temp
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
site_lesion,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
0,51.0,38.22,0.51,37.3,37.8,38.2,38.6,39.5
0,49.0,38.25,0.51,37.3,37.9,38.3,38.6,39.5
2113,3.0,38.93,0.4,38.5,38.75,39.0,39.15,39.3
2113,6.0,38.58,0.7,37.7,37.97,38.75,39.15,39.3
2124,6.0,38.33,0.37,37.8,38.15,38.35,38.48,38.9
2124,5.0,38.3,0.41,37.8,38.1,38.3,38.4,38.9
2205,9.0,38.0,0.78,36.4,37.8,38.0,38.4,39.2
2205,11.0,38.0,0.7,36.4,37.8,38.0,38.25,39.2
2207,2.0,38.25,1.48,37.2,37.72,38.25,38.78,39.3
2207,1.0,37.2,,37.2,37.2,37.2,37.2,37.2


In [25]:
agg_func_math_P = {
    'pulse': ['describe']
}
res_test_P = df_test.groupby(['site_lesion']).agg(agg_func_math_P).round(2)
res_notnull_P = df_notnull.groupby(['site_lesion']).agg(agg_func_math_P).round(2)
pd.concat([res_test_P, res_notnull_P]).sort_values(['site_lesion']).drop_duplicates(keep=False)

Unnamed: 0_level_0,pulse,pulse,pulse,pulse,pulse,pulse,pulse,pulse
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
site_lesion,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
0,52.0,54.87,15.94,40.0,44.0,50.0,60.0,110.0
0,49.0,54.39,15.98,40.0,44.0,50.0,56.0,110.0
400,5.0,60.4,29.27,40.0,48.0,48.0,54.0,112.0
400,4.0,47.5,5.74,40.0,46.0,48.0,49.5,54.0
1400,8.0,91.0,27.3,42.0,80.5,92.0,105.0,128.0
1400,6.0,88.33,25.94,42.0,85.0,92.0,99.0,120.0
2111,3.0,65.33,11.55,52.0,62.0,72.0,72.0,72.0
2111,2.0,72.0,0.0,72.0,72.0,72.0,72.0,72.0
2112,4.0,76.25,39.47,45.0,50.25,64.0,90.0,132.0
2112,5.0,75.0,34.29,45.0,52.0,70.0,76.0,132.0


In [105]:
agg_func_math_TP = {
    'total_protein': ['describe']
}
res_test_TP = df_test.groupby(['site_lesion']).agg(agg_func_math_TP).round(2)
res_notnull_TP = df_notnull.groupby(['site_lesion']).agg(agg_func_math_TP).round(2)
pd.concat([res_test_TP, res_notnull_TP]).sort_values(['site_lesion']).drop_duplicates(keep=False)

Unnamed: 0_level_0,total_protein,total_protein,total_protein,total_protein,total_protein,total_protein,total_protein,total_protein
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
site_lesion,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
0,52.0,37.71,29.36,5.0,6.8,55.0,64.25,80.0
0,49.0,36.8,28.93,5.0,6.8,54.0,64.0,77.0
400,5.0,6.82,1.53,5.3,5.7,6.2,8.3,8.6
400,4.0,7.2,1.46,5.7,6.08,7.25,8.38,8.6
1400,8.0,29.82,31.76,6.0,7.32,8.15,58.75,81.0
1400,6.0,37.22,33.91,6.0,7.22,32.75,62.25,81.0
2111,3.0,7.33,1.08,6.1,6.95,7.8,7.95,8.1
2111,2.0,6.95,1.2,6.1,6.52,6.95,7.38,7.8
2112,4.0,25.88,36.75,7.0,7.38,7.75,26.25,81.0
2112,5.0,22.2,32.87,7.0,7.5,7.5,8.0,81.0


### Замена значений Nan
#### Для Температуры

In [79]:
df_test_mean = df_test.copy(deep=True)
df_test_mean['rectal_temp'] = df_test_mean['rectal_temp'].fillna((df_test_mean['rectal_temp'].mean()))
df_test_mean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   surgery          299 non-null    object 
 1   age              300 non-null    int64  
 2   hospital_number  300 non-null    object 
 3   rectal_temp      300 non-null    float64
 4   pulse            276 non-null    float64
 5   total_protein    267 non-null    float64
 6   outcome          299 non-null    object 
 7   surgical_lesion  300 non-null    object 
 8   site_lesion      300 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 21.2+ KB


In [76]:
print('Средняя температура по больнице c NaN/с заменой на mean()', df_test.rectal_temp.mean(), ' / ', df_test_mean.rectal_temp.mean())
print('Мода значений температуры c NaN/с заменой на mean()', df_test.rectal_temp.round().mode()[0], ' / ', df_test_mean.rectal_temp.round().mode()[0])
print('Медиана значений температуры c NaN/с заменой на mean()', df_test.rectal_temp.median(), ' / ', df_test_mean.rectal_temp.median(), '\n')

print('СКО и диспресия')
print('Температура')
print('c Nan               ', df_test.rectal_temp.std(), '/', df_test.rectal_temp.var(), 
      '\nc заменой на mean() ', df_test_mean.rectal_temp.std(), '/', df_test_mean.rectal_temp.var(), '\n')

Q1_T_mean = df_test_mean.rectal_temp.quantile(0.25)
Q3_T_mean = df_test_mean.rectal_temp.quantile(0.75)
IQR_T_mean = Q3_T_mean - Q1_T_mean
print('Температура \nc NaN\nIQR: ', IQR_T, '\n25ый квантиль: ', Q1_T, '\n75ый квантиль', Q3_T, 
      '\nс заменой на mean()\nIQR: ', IQR_T_mean, '\n25ый квантиль: ', Q1_T_mean, '\n75ый квантиль', Q3_T_mean)

Средняя температура по больнице c NaN/с заменой на mean() 38.16791666666669  /  38.16791666666669
Мода значений температуры c NaN/с заменой на mean() 38.0  /  38.0
Медиана значений температуры c NaN/с заменой на mean() 38.2  /  38.16791666666669 

СКО и диспресия
Температура
c Nan                0.7322886641121578 / 0.5362466875871686 
c заменой на mean()  0.6547050149748525 / 0.42863865663322176 

Температура 
c NaN
IQR:  0.7000000000000028 
25ый квантиль:  37.8 
75ый квантиль 38.5 
с заменой на mean()
IQR:  0.6000000000000014 
25ый квантиль:  37.9 
75ый квантиль 38.5


In [44]:
df_test_median = df_test.copy(deep=True)
df_test_median['rectal_temp'] = df_test_median['rectal_temp'].fillna((df_test_median['rectal_temp'].median()))

In [77]:
print('Средняя температура по больнице c NaN/с заменой на median()', df_test.rectal_temp.mean(), ' / ', df_test_median.rectal_temp.mean())
print('Мода значений температуры c NaN/с заменой на median()', df_test.rectal_temp.round().mode()[0], ' / ', df_test_median.rectal_temp.round().mode()[0])
print('Медиана значений температуры c NaN/с заменой на median()', df_test.rectal_temp.median(), ' / ', df_test_median.rectal_temp.median(), '\n')

print('СКО и диспресия')
print('Температура')
print('c Nan               ', df_test.rectal_temp.std(), '/', df_test.rectal_temp.var(), 
      '\nc заменой на median() ', df_test_median.rectal_temp.std(), '/', df_test_median.rectal_temp.var(), '\n')

Q1_T_median = df_test_median.rectal_temp.quantile(0.25)
Q3_T_median = df_test_median.rectal_temp.quantile(0.75)
IQR_T_median = Q3_T_median - Q1_T_median
print('Температура \nc NaN\nIQR: ', IQR_T, '\n25ый квантиль: ', Q1_T, '\n75ый квантиль', Q3_T, 
      '\nс заменой на median()\nIQR: ', IQR_T_median, '\n25ый квантиль: ', Q1_T_median, '\n75ый квантиль', Q3_T_median)

Средняя температура по больнице c NaN/с заменой на median() 38.16791666666669  /  38.17433333333336
Мода значений температуры c NaN/с заменой на median() 38.0  /  38.0
Медиана значений температуры c NaN/с заменой на median() 38.2  /  38.2 

СКО и диспресия
Температура
c Nan                0.7322886641121578 / 0.5362466875871686 
c заменой на median()  0.6548312010703262 / 0.42880390189520606 

Температура 
c NaN
IQR:  0.7000000000000028 
25ый квантиль:  37.8 
75ый квантиль 38.5 
с заменой на median()
IQR:  0.6000000000000014 
25ый квантиль:  37.9 
75ый квантиль 38.5


In [50]:
df_test_mode = df_test.copy(deep=True)
df_test_mode['rectal_temp'] = df_test_mode['rectal_temp'].fillna((df_test_mode['rectal_temp'].mode()[0]))

In [78]:
print('Средняя температура по больнице c NaN/с заменой на mode()', df_test.rectal_temp.mean(), ' / ', df_test_mode.rectal_temp.mean())
print('Мода значений температуры c NaN/с заменой на mode()', df_test.rectal_temp.round().mode()[0], ' / ', df_test_mode.rectal_temp.round().mode()[0])
print('Медиана значений температуры c NaN/с заменой на mode()', df_test.rectal_temp.median(), ' / ', df_test_mode.rectal_temp.median(), '\n')

print('СКО и диспресия')
print('Температура')
print('c Nan               ', df_test.rectal_temp.std(), '/', df_test.rectal_temp.var(), 
      '\nc заменой на mode() ', df_test_mode.rectal_temp.std(), '/', df_test_mode.rectal_temp.var(), '\n')

Q1_T_mode = df_test_mode.rectal_temp.quantile(0.25)
Q3_T_mode = df_test_mode.rectal_temp.quantile(0.75)
IQR_T_mode = Q3_T_mode - Q1_T_mode
print('Температура \nc NaN\nIQR: ', IQR_T, '\n25ый квантиль: ', Q1_T, '\n75ый квантиль', Q3_T, 
      '\nс заменой на mode()\nIQR: ', IQR_T_mode, '\n25ый квантиль: ', Q1_T_mode, '\n75ый квантиль', Q3_T_mode)

Средняя температура по больнице c NaN/с заменой на mode() 38.16791666666669  /  38.134333333333345
Мода значений температуры c NaN/с заменой на mode() 38.0  /  38.0
Медиана значений температуры c NaN/с заменой на mode() 38.2  /  38.0 

СКО и диспресия
Температура
c Nan                0.7322886641121578 / 0.5362466875871686 
c заменой на mode()  0.6581527982988336 / 0.43316510590858504 

Температура 
c NaN
IQR:  0.7000000000000028 
25ый квантиль:  37.8 
75ый квантиль 38.5 
с заменой на mode()
IQR:  0.6000000000000014 
25ый квантиль:  37.9 
75ый квантиль 38.5


In [None]:
# Отличие в данных при замене NaN на любую величину незначительные (доли процента), так что для расчетов можно использовать любое
# значение. Если говорить о максимальной точности, то в данном случае, для температуры предпочтительнее выбрать 
# замену NaN на значение медианы

#### Для Пульса

In [63]:
df_test_mean_P = df_test.copy(deep=True)
df_test_mean_P['pulse'] = df_test_mean_P['pulse'].fillna((df_test_mean_P['pulse'].mean()))
df_test_mean_P.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   surgery          299 non-null    object 
 1   age              300 non-null    int64  
 2   hospital_number  300 non-null    object 
 3   rectal_temp      240 non-null    float64
 4   pulse            300 non-null    float64
 5   total_protein    267 non-null    float64
 6   outcome          299 non-null    object 
 7   surgical_lesion  300 non-null    object 
 8   site_lesion      300 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 21.2+ KB


In [62]:
print('Средний пулс по больнице c NaN/с заменой на mean()', df_test.pulse.mean(), ' / ', df_test_mean_P.pulse.mean())
print('Мода значений пульса c NaN/с заменой на mean()', df_test.pulse.round().mode()[0], ' / ', df_test_mean_P.pulse.round().mode()[0])
print('Медиана значений пульса c NaN/с заменой на mean()', df_test.pulse.median(), ' / ', df_test_mean_P.pulse.median())

print('\nСКО и диспресия')
print('Пульс')
print('c Nan               ', df_test.pulse.std(), '/', df_test.pulse.var(), '\nc заменой на mean() ', df_test_mean_P.pulse.std(), '/', df_test_mean_P.pulse.var())

Q1_P_mean = df_test_mean_P.pulse.quantile(0.25)
Q3_P_mean = df_test_mean_P.pulse.quantile(0.75)
IQR_P_mean = Q3_P_mean - Q1_P_mean
print('\nПульс \nc NaN\nIQR: ', IQR_P, '\n25ый квантиль: ', Q1_P, '\n75ый квантиль', Q3_P, 
      '\nс заменой на mean()\nIQR: ', IQR_P_mean, '\n25ый квантиль: ', Q1_P_mean, '\n75ый квантиль', Q3_P_mean)


Средний пулс по больнице c NaN/с заменой на mean() 71.91304347826087  /  71.91304347826083
Мода значений пульса c NaN/с заменой на mean() 48.0  /  72.0
Медиана значений пульса c NaN/с заменой на mean() 64.0  /  68.0

СКО и диспресия
Пульс
c Nan                28.630556660735003 / 819.7087747035575 
c заменой на mean()  27.45747170905896 / 753.9127526537732

Пульс 
c NaN
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0 
с заменой на mean()
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0


In [65]:
df_test_median_P = df_test.copy(deep=True)
df_test_median_P['pulse'] = df_test_median_P['pulse'].fillna((df_test_median_P['pulse'].median()))

In [66]:
print('Средний пулс по больнице c NaN/с заменой на median()', df_test.pulse.mean(), ' / ', df_test_median_P.pulse.mean())
print('Мода значений пульса c NaN/с заменой на median()', df_test.pulse.round().mode()[0], ' / ', df_test_median_P.pulse.round().mode()[0])
print('Медиана значений пульса c NaN/с заменой на median()', df_test.pulse.median(), ' / ', df_test_median_P.pulse.median())

print('\nСКО и диспресия')
print('Пульс')
print('c Nan               ', df_test.pulse.std(), '/', df_test.pulse.var(), 
      '\nc заменой на median() ', df_test_median_P.pulse.std(), '/', df_test_median_P.pulse.var())

Q1_P_median = df_test_median_P.pulse.quantile(0.25)
Q3_P_median = df_test_median_P.pulse.quantile(0.75)
IQR_P_median = Q3_P_median - Q1_P_median
print('\nПульс \nc NaN\nIQR: ', IQR_P, '\n25ый квантиль: ', Q1_P, '\n75ый квантиль', Q3_P, 
      '\nс заменой на median()\nIQR: ', IQR_P_median, '\n25ый квантиль: ', Q1_P_median, '\n75ый квантиль', Q3_P_median)

Средний пулс по больнице c NaN/с заменой на median() 71.91304347826087  /  71.28
Мода значений пульса c NaN/с заменой на median() 48.0  /  64.0
Медиана значений пульса c NaN/с заменой на median() 64.0  /  64.0

СКО и диспресия
Пульс
c Nan                28.630556660735003 / 819.7087747035575 
c заменой на median()  27.54154538888526 / 758.536722408027

Пульс 
c NaN
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0 
с заменой на median()
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0


In [67]:
df_test_mode_P = df_test.copy(deep=True)
df_test_mode_P['pulse'] = df_test_mode_P['pulse'].fillna((df_test_mode_P['pulse'].mode()[0]))

In [68]:
print('Средний пулс по больнице c NaN/с заменой на mode()', df_test.pulse.mean(), ' / ', df_test_mode_P.pulse.mean())
print('Мода значений пульса c NaN/с заменой на mode()', df_test.pulse.round().mode()[0], ' / ', df_test_mode_P.pulse.round().mode()[0])
print('Медиана значений пульса c NaN/с заменой на mode()', df_test.pulse.median(), ' / ', df_test_mode_P.pulse.median())

print('\nСКО и диспресия')
print('Пульс')
print('c Nan               ', df_test.pulse.std(), '/', df_test.pulse.var(), 
      '\nc заменой на mode() ', df_test_mode_P.pulse.std(), '/', df_test_mode_P.pulse.var())

Q1_P_mode = df_test_mode_P.pulse.quantile(0.25)
Q3_P_mode = df_test_mode_P.pulse.quantile(0.75)
IQR_P_mode = Q3_P_mode - Q1_P_mode
print('\nПульс \nc NaN\nIQR: ', IQR_P, '\n25ый квантиль: ', Q1_P, '\n75ый квантиль', Q3_P, 
      '\nс заменой на mode()\nIQR: ', IQR_P_mode, '\n25ый квантиль: ', Q1_P_mode, '\n75ый квантиль', Q3_P_mode)

Средний пулс по больнице c NaN/с заменой на mode() 71.91304347826087  /  70.0
Мода значений пульса c NaN/с заменой на mode() 48.0  /  48.0
Медиана значений пульса c NaN/с заменой на mode() 64.0  /  60.0

СКО и диспресия
Пульс
c Nan                28.630556660735003 / 819.7087747035575 
c заменой на mode()  28.215961231675678 / 796.1404682274248

Пульс 
c NaN
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0 
с заменой на mode()
IQR:  40.0 
25ый квантиль:  48.0 
75ый квантиль 88.0


In [None]:
# Здесь любая замена вносит значительные изменения в расчеты средних велечин, поскольку разброс 
# между минимальным и максимальным значением большой. Замену стоит производить в зависимости от постановки задачи.
# Если в расчетах не будет использоваться мода значений, то приемлимым выглядит замена NaN на значение медианы


#### Для общий белок

In [69]:
df_test_mean_TP = df_test.copy(deep=True)
df_test_mean_TP['total_protein'] = df_test_mean_TP['total_protein'].fillna((df_test_mean_TP['total_protein'].mean()))
df_test_mean_TP.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   surgery          299 non-null    object 
 1   age              300 non-null    int64  
 2   hospital_number  300 non-null    object 
 3   rectal_temp      240 non-null    float64
 4   pulse            276 non-null    float64
 5   total_protein    300 non-null    float64
 6   outcome          299 non-null    object 
 7   surgical_lesion  300 non-null    object 
 8   site_lesion      300 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 21.2+ KB


In [70]:
print('Средний общий белок по больнице c NaN/с заменой на mean()', df_test.total_protein.mean(), ' / ', df_test_mean_TP.total_protein.mean())
print('Мода значений общий белок c NaN/с заменой на mean()', df_test.total_protein.round().mode()[0], ' / ', df_test_mean_TP.total_protein.round().mode()[0])
print('Медиана значений общий белок c NaN/с заменой на mean()', df_test.total_protein.median(), ' / ', df_test_mean_TP.total_protein.median())

print('\nСКО и диспресия')
print('Общий белок')
print('c Nan               ', df_test.total_protein.std(), '/', df_test.total_protein.var(), 
      '\nc заменой на mean() ', df_test_mean_TP.total_protein.std(), '/', df_test_mean_TP.total_protein.var())

Q1_TP_mean = df_test_mean_TP.total_protein.quantile(0.25)
Q3_TP_mean = df_test_mean_TP.total_protein.quantile(0.75)
IQR_TP_mean = Q3_TP_mean - Q1_TP_mean
print('\nОбщий белок \nc NaN\nIQR: ', IQR_TP, '\n25ый квантиль: ', Q1_TP, '\n75ый квантиль', Q3_TP, 
      '\nс заменой на mean()\nIQR: ', IQR_TP_mean, '\n25ый квантиль: ', Q1_TP_mean, '\n75ый квантиль', Q3_TP_mean)

Средний общий белок по больнице c NaN/с заменой на mean() 24.456928838951317  /  24.456928838951306
Мода значений общий белок c NaN/с заменой на mean() 7.0  /  7.0
Медиана значений общий белок c NaN/с заменой на mean() 7.5  /  7.7

СКО и диспресия
Общий белок
c Nan                27.475009470785064 / 754.8761454197289 
c заменой на mean()  25.914514384635197 / 671.5620557914646

Общий белок 
c NaN
IQR:  50.5 
25ый квантиль:  6.5 
75ый квантиль 57.0 
с заменой на mean()
IQR:  46.65 
25ый квантиль:  6.6 
75ый квантиль 53.25


In [71]:
df_test_median_TP = df_test.copy(deep=True)
df_test_median_TP['total_protein'] = df_test_median_TP['total_protein'].fillna((df_test_median_TP['total_protein'].median()))

In [72]:
print('Средний Общий белок по больнице c NaN/с заменой на median()', df_test.total_protein.mean(), ' / ', df_test_median_TP.total_protein.mean())
print('Мода значений Общий белок c NaN/с заменой на median()', df_test.total_protein.round().mode()[0], ' / ', df_test_median_TP.total_protein.round().mode()[0])
print('Медиана значений Общий белок c NaN/с заменой на median()', df_test.total_protein.median(), ' / ', df_test_median_TP.total_protein.median())

print('\nСКО и диспресия')
print('Общий белок')
print('c Nan               ', df_test.total_protein.std(), '/', df_test.total_protein.var(), 
      '\nc заменой на median() ', df_test_median_TP.total_protein.std(), '/', df_test_median_TP.total_protein.var())

Q1_TP_median = df_test_median_TP.total_protein.quantile(0.25)
Q3_TP_median = df_test_median_TP.total_protein.quantile(0.75)
IQR_TP_median = Q3_TP_median - Q1_TP_median
print('\nОбщий белок \nc NaN\nIQR: ', IQR_TP, '\n25ый квантиль: ', Q1_TP, '\n75ый квантиль', Q3_TP, 
      '\nс заменой на median()\nIQR: ', IQR_TP_median, '\n25ый квантиль: ', Q1_TP_median, '\n75ый квантиль', Q3_TP_median)

Средний Общий белок по больнице c NaN/с заменой на median() 24.456928838951317  /  22.591666666666676
Мода значений Общий белок c NaN/с заменой на median() 7.0  /  8.0
Медиана значений Общий белок c NaN/с заменой на median() 7.5  /  7.5

СКО и диспресия
Общий белок
c Nan                27.475009470785064 / 754.8761454197289 
c заменой на median()  26.453848824212137 / 699.80611761427

Общий белок 
c NaN
IQR:  50.5 
25ый квантиль:  6.5 
75ый квантиль 57.0 
с заменой на median()
IQR:  46.65 
25ый квантиль:  6.6 
75ый квантиль 53.25


In [73]:
df_test_mode_TP = df_test.copy(deep=True)
df_test_mode_TP['total_protein'] = df_test_mode_TP['total_protein'].fillna((df_test_mode_TP['total_protein'].mode()[0]))

In [74]:
print('Средний Общий белок по больнице c NaN/с заменой на mode()', df_test.total_protein.mean(), ' / ', df_test_mode_TP.total_protein.mean())
print('Мода значений Общий белок c NaN/с заменой на mode()', df_test.total_protein.round().mode()[0], ' / ', df_test_mode_TP.total_protein.round().mode()[0])
print('Медиана значений Общий белок c NaN/с заменой на mode()', df_test.total_protein.median(), ' / ', df_test_mode_TP.total_protein.median())

print('\nСКО и диспресия')
print('Общий белок')
print('c Nan               ', df_test.total_protein.std(), '/', df_test.total_protein.var(), 
      '\nc заменой на mode() ', df_test_mode_TP.total_protein.std(), '/', df_test_mode_TP.total_protein.var())

Q1_TP_mode = df_test_mode_TP.total_protein.quantile(0.25)
Q3_TP_mode = df_test_mode_TP.total_protein.quantile(0.75)
IQR_TP_mode = Q3_TP_mode - Q1_TP_mode
print('\nОбщий белок \nc NaN\nIQR: ', IQR_TP, '\n25ый квантиль: ', Q1_TP, '\n75ый квантиль', Q3_TP, 
      '\nс заменой на mode()\nIQR: ', IQR_TP_mode, '\n25ый квантиль: ', Q1_TP_mode, '\n75ый квантиль', Q3_TP_mode)

Средний Общий белок по больнице c NaN/с заменой на mode() 24.456928838951317  /  22.481666666666676
Мода значений Общий белок c NaN/с заменой на mode() 7.0  /  6.0
Медиана значений Общий белок c NaN/с заменой на mode() 7.5  /  7.2

СКО и диспресия
Общий белок
c Nan                27.475009470785064 / 754.8761454197289 
c заменой на mode()  26.518590006673225 / 703.235615942029

Общий белок 
c NaN
IQR:  50.5 
25ый квантиль:  6.5 
75ый квантиль 57.0 
с заменой на mode()
IQR:  46.75 
25ый квантиль:  6.5 
75ый квантиль 53.25


In [None]:
# Наименьшее влияние на изменение средних значений показывает замена NaN на среднее арифметическое.


### Общий вывод

In [None]:
Если исследовать некоего сферического коня в вакууме, то оптимальным будет замена пустых значений температуры и 
пульса на значения медианы, а пустых значений общий белок на значение среднего. Поскольку речь идет о больных
лошадях, я предполагаю, что в любом исследовании будет важен не некий средний конь, а влияние отдельных фаторов на исход,
течение болезни, симпоматику и иное. В таком случае пустая замена НаН на некие средние показатели, может внести путаницу.
Но поскольку конкретной задачи не стоит, полное исследование всего подряд займет еще пару сотен запросов.