# Домашнее задание к лекции "Базовые понятия статистики"

## Обязательная часть

Будем осуществлять работу с непростым [набором данных](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv) о состоянии здоровья лошадей, испытывающих кишечные колики. 

### Задание 1. Базовое изучение

Изучить представленный набор данных на основе [описания его столбцов](https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.names) и выбрать 8 столбцов для дальнейшего изучения (среди них должны быть как числовые, так и категориальные). Провести расчет базовых метрик для них, кратко описать результаты.

### Задание 2. Работа с выбросами

В выбранных числовых столбцах найти выбросы, выдвинуть гипотезы об их причинах и проинтерпретировать результаты. Принять и обосновать решение о дальнейшей работе с ними.

### Задание 3. Работа с пропусками

Рассчитать количество выбросов для всех выбранных столбцов. Принять и обосновать решение о методе работы с пропусками по каждому столбцу, сформировать датафрейм, в котором пропуски будут отсутствовать.

## Дополнительная часть (необязательная)

Выполнить задания 1-3 для всего набора данных.

In [61]:
import pandas as pd
import numpy as np

In [62]:
df = pd.read_csv('horse_data.csv',header=None)

In [63]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,18,19,20,21,22,23,24,25,26,27
0,2,1,530101,38.5,66,28,3,3,?,2,...,45.0,8.4,?,?,2,2,11300,0,0,2
1,1,1,534817,39.2,88,20,?,?,4,1,...,50.0,85.0,2,2,3,2,2208,0,0,2
2,2,1,530334,38.3,40,24,1,1,3,1,...,33.0,6.7,?,?,1,2,0,0,0,1
3,1,9,5290409,39.1,164,84,4,1,6,2,...,48.0,7.2,3,5.30,2,1,2208,0,0,1
4,2,1,530255,37.3,104,35,?,?,6,2,...,74.0,7.4,?,?,2,2,4300,0,0,2


In [64]:
#выбираем столбцы для работы
df = df.loc[:,[0,1,3,4,8,12,19,22]]

In [65]:
#создаем список рабочих столбцов в читаемой форме
work_list = ['surgery','age','temperature','pulse','mucous_membran','abdominal_distension','proteine','outcome']

In [66]:
#переименовываем столбцы
df.set_axis(work_list,axis = 'columns',inplace = True)

In [67]:
#проверяем
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   surgery               300 non-null    object
 1   age                   300 non-null    int64 
 2   temperature           300 non-null    object
 3   pulse                 300 non-null    object
 4   mucous_membran        300 non-null    object
 5   abdominal_distension  300 non-null    object
 6   proteine              300 non-null    object
 7   outcome               300 non-null    object
dtypes: int64(1), object(7)
memory usage: 18.9+ KB


In [68]:
# изучив таблицу видим, что там, где значения неизвестны, стоит ?, заменим их на NaN
# остальные значения заменяем согласно описанию
# в столбцах с числовыми значениями, таких как температура, частота пульса и количество протеина в крови
# изменяем тип значений с object на float
# так же столбец age (возраст), который согласно описанию явно имеет признак категориального значения
# почему то имеет тип int64, меняем его на object

df.surgery = df.surgery.replace('1','yes')
df.surgery = df.surgery.replace('2','no')
#неизвестным значениям присваиваем NaN
df.surgery = df.surgery.replace('?', float('NaN'))

df.age = df.age.astype('str')
df.age = df.age.replace('1','adult')
# значение 9 нет в описании, будем считать его неизвестным
df.age = df.age.replace('9', float('NaN'))

df.temperature = pd.to_numeric(df.temperature, errors='coerce')

df.pulse = pd.to_numeric(df.pulse, downcast='integer', errors='coerce')

df.mucous_membran = df.mucous_membran.replace('1','normal pink')
df.mucous_membran = df.mucous_membran.replace('2','bright pink')
df.mucous_membran = df.mucous_membran.replace('3','pale pink')
df.mucous_membran = df.mucous_membran.replace('4','pale cyanotic')
df.mucous_membran = df.mucous_membran.replace('5','bright red')
df.mucous_membran = df.mucous_membran.replace('6','dark cyanotic')
df.mucous_membran = df.mucous_membran.replace('?',float('NaN'))

df.abdominal_distension = df.abdominal_distension.replace('1','none')
df.abdominal_distension = df.abdominal_distension.replace('2','slight')
df.abdominal_distension = df.abdominal_distension.replace('3','moderate')
df.abdominal_distension = df.abdominal_distension.replace('4','severe')
df.abdominal_distension = df.abdominal_distension.replace('?',float('NaN'))

df.proteine = pd.to_numeric(df.proteine, errors='coerce')

df.outcome = df.outcome.replace('1','lived')
df.outcome = df.outcome.replace('2','died')
df.outcome = df.outcome.replace('3','was euthanized')
df.outcome = df.outcome.replace('?',float('NaN'))


In [69]:
#проверяем
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   surgery               299 non-null    object 
 1   age                   276 non-null    object 
 2   temperature           240 non-null    float64
 3   pulse                 276 non-null    float64
 4   mucous_membran        253 non-null    object 
 5   abdominal_distension  244 non-null    object 
 6   proteine              267 non-null    float64
 7   outcome               299 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.9+ KB


#### находим минимум, максимум и размах

In [70]:
df.describe()

Unnamed: 0,temperature,pulse,proteine
count,240.0,276.0,267.0
mean,38.167917,71.913043,24.456929
std,0.732289,28.630557,27.475009
min,35.4,30.0,3.3
25%,37.8,48.0,6.5
50%,38.2,64.0,7.5
75%,38.5,88.0,57.0
max,40.8,184.0,89.0


#### находим среднее арифметическое

In [71]:
df.mean()

temperature    38.167917
pulse          71.913043
proteine       24.456929
dtype: float64

средние значения температуры, пульса и протеина выше нормы(37.8, 30-40, 6-7.5), значит есть выбросы.

#### находим медиану

In [72]:
df.median()

temperature    38.2
pulse          64.0
proteine        7.5
dtype: float64

медианное значение для возраста и протеина значительно уменьшилось, а температуры и пульса не сильно изменилось, значит там есть много выбросов.

#### находим моду

In [73]:
df.mode()

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
0,yes,adult,38.0,48.0,normal pink,none,6.5,lived
1,,,,,,,7.0,


по моде видно, что температура у большинства чуть выше нормальных значений(37.8), пульс выше нормальных(30-40), протеин в пределах нормы(6-7.5)

#### находим среднеквадратичное отклонение

In [74]:
df.std()

temperature     0.732289
pulse          28.630557
proteine       27.475009
dtype: float64

СКО говорит о том, что разброс значений в температуре не сильно большой, а в остальных существенный.

#### находими дисперсию

In [75]:
df.var()

temperature      0.536247
pulse          819.708775
proteine       754.876145
dtype: float64

значение дисперсии логично подтвердило предыдущие выводы

#### находим квантили

In [76]:
df.quantile([0.25, 0.75])

Unnamed: 0,temperature,pulse,proteine
0.25,37.8,48.0,6.5
0.75,38.5,88.0,57.0


In [77]:
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
IQR

temperature     0.7
pulse          40.0
proteine       50.5
dtype: float64

#### находим выбросы

In [78]:
# ДЛЯ ТЕМПЕРАТУРЫ
df.temperature
temperature_q1 = df.temperature.quantile(0.25)
temperature_q3 = df.temperature.quantile(0.75)
temperature_iqr = temperature_q3 - temperature_q1
temperature_lower_bound = temperature_q1 - (1.5 * temperature_iqr) 
temperature_upper_bound = temperature_q3 + (1.5 * temperature_iqr)
temperature_remove_outliers = df[df.temperature.between(temperature_lower_bound, temperature_upper_bound, inclusive=True)].sort_values('temperature')
temperature_remove_outliers

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
113,yes,adult,36.8,60.0,,,,died
277,no,adult,36.9,50.0,pale pink,slight,6.5,lived
70,no,adult,37.0,60.0,,moderate,7.6,was euthanized
292,yes,adult,37.0,66.0,bright pink,moderate,6.9,died
190,yes,adult,37.1,40.0,pale cyanotic,none,6.7,lived
...,...,...,...,...,...,...,...,...
165,yes,adult,39.4,120.0,bright red,moderate,64.0,was euthanized
231,no,adult,39.5,92.0,dark cyanotic,none,6.4,died
287,no,,39.5,84.0,,,5.0,lived
117,no,adult,39.5,,pale cyanotic,moderate,6.7,was euthanized


In [79]:
#количество выбросов
df.sort_values('temperature').shape[0]-temperature_remove_outliers.shape[0]

74

In [80]:
# считаем количество всех наблюдений
df.temperature.count()

240

In [81]:
#считаем количество набллюдений не равных нормальному значению 37.8
df[df.temperature != 37.8]['temperature'].count()

223

In [82]:
#считаем количество набллюдений не равных нормальному значению 37.8
df[df.temperature == 37.8]['temperature'].count()

17

In [83]:
# максимальное и минимальное знаячения
print(df.temperature.max())
print(df.temperature.min())

40.8
35.4


количество выборосов составляет больше 1/3 от всех наблюдений, 
однако видно, что минимальные и максимальные значения не сильно отличаются от нормального 37.8
можно предположить, что это не выбросы вообще.

In [84]:
# ДЛЯ ПУЛЬСА
df.pulse
pulse_q1 = df.pulse.quantile(0.25)
pulse_q3 = df.pulse.quantile(0.75)
pulse_iqr = pulse_q3 - pulse_q1
pulse_lower_bound = pulse_q1 - (1.5 * pulse_iqr) 
pulse_upper_bound = pulse_q3 + (1.5 * pulse_iqr)
pulse_remove_outliers = df[df.pulse.between(pulse_lower_bound, pulse_upper_bound, inclusive=True)].sort_values('pulse')
pulse_remove_outliers

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
130,yes,adult,37.8,30.0,,,,died
232,yes,adult,38.5,30.0,,,7.7,lived
203,no,adult,37.2,36.0,normal pink,none,5.7,lived
276,yes,adult,38.0,36.0,normal pink,slight,75.0,was euthanized
242,yes,adult,,36.0,pale cyanotic,moderate,5.9,died
...,...,...,...,...,...,...,...,...
148,yes,adult,38.3,132.0,dark cyanotic,slight,8.0,lived
135,yes,,38.1,136.0,pale pink,moderate,4.9,died
44,yes,adult,35.4,140.0,pale cyanotic,,69.0,was euthanized
103,yes,,38.0,140.0,normal pink,slight,5.3,lived


In [85]:
#количество выбросов
df.sort_values('pulse').shape[0]-pulse_remove_outliers.shape[0]

29

In [86]:
# считаем количество всех наблюдений
df.pulse.count()

276

In [87]:
#считаем количество наблюдениый больших чем нормальное значение 30-40
df[df.pulse>40]['pulse'].count()

252

In [88]:
#считаем количество наблюдениый равных нормальному значению 30-40
df[df.pulse <= 40]['pulse'].count()

24

In [89]:
# максимальное и минимальное знаячения
print(df.pulse.max())
print(df.pulse.min())

184.0
30.0


Ознакомившись с предметной областью можно сказать, что минимальное значение пульса для лошади находится в пределах нормы, а максимальное значение может появится в ситуации определенного стресса, что так же является вполне нормальным явлением. 
Однако принимая во внимание предположение о том, что для чистоты эксперемента замеры пульса должны были браться в одинаковых условиях для всех лошадей, наше наблюдение, где количество лошадей с нормальным пульсов меньше в 10 раз всех остальных, говорит, что с физиологическим состоянием лошадей есть проблемы. 

In [90]:
# ДЛЯ ПРОТЕИНА
df.proteine
proteine_q1 = df.proteine.quantile(0.25)
proteine_q3 = df.proteine.quantile(0.75)
proteine_iqr = pulse_q3 - proteine_q1
proteine_lower_bound = proteine_q1 - (1.5 * proteine_iqr) 
proteine_upper_bound = proteine_q3 + (1.5 * proteine_iqr)
proteine_remove_outliers = df[df.proteine.between(proteine_lower_bound, proteine_upper_bound, inclusive=True)].sort_values('proteine')
proteine_remove_outliers

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
255,yes,,38.8,184.0,normal pink,moderate,3.3,died
210,yes,adult,37.9,68.0,bright pink,slight,4.0,died
84,yes,adult,37.8,60.0,bright pink,moderate,4.5,lived
142,yes,adult,,120.0,dark cyanotic,severe,4.5,died
247,yes,adult,38.1,88.0,pale cyanotic,moderate,4.6,died
...,...,...,...,...,...,...,...,...
144,yes,adult,37.1,84.0,dark cyanotic,severe,81.0,was euthanized
63,no,adult,38.2,130.0,pale cyanotic,severe,82.0,was euthanized
1,yes,adult,39.2,88.0,pale cyanotic,slight,85.0,was euthanized
90,no,adult,38.0,52.0,,,86.0,lived


In [91]:
#количество выбросов
df.sort_values('proteine').shape[0]-proteine_remove_outliers.shape[0]

33

In [92]:
# считаем количество всех наблюдений
df.proteine.count()

267

In [93]:
#считаем количество наблюдениый больших и меньних чем нормальное значение 6-7.5
df[(df.proteine < 6) | (df.proteine > 7.5)]['proteine'].count()

153

In [94]:
#считаем количество наблюдений равных нормальнму значению 6-7.5
df[(df.proteine >= 6) & (df.proteine <= 7.5)]['proteine'].count()

114

In [95]:
df[(df.proteine >= 6) & (df.proteine <= 7.5)].groupby('outcome')[['proteine']].count()

Unnamed: 0_level_0,proteine
outcome,Unnamed: 1_level_1
died,35
lived,71
was euthanized,8


In [96]:
df[(df.proteine < 6) | (df.proteine > 7.5)].groupby('outcome')[['proteine']].count()

Unnamed: 0_level_0,proteine
outcome,Unnamed: 1_level_1
died,30
lived,94
was euthanized,28


In [97]:
# максимальное и минимальное знаячения
print(df.proteine.max())
print(df.proteine.min())

89.0
3.3


отклонение значений от нормальных говорит о наличии каких-либо заболеваний у лошади, выбросы не имеют признак аномалий.

###  Пропуски

In [98]:
# посчитаем количество пропусков по столбцам

In [99]:
df.isnull().sum()

surgery                  1
age                     24
temperature             60
pulse                   24
mucous_membran          47
abdominal_distension    56
proteine                33
outcome                  1
dtype: int64

In [106]:
# найдем строку с пропуском для столбца SYRGERY
df[df.surgery.isnull()]

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
132,,adult,38.0,48.0,pale pink,none,73.0,


In [109]:
# заполним пропуск этой модой
df.surgery.fillna(df.surgery.mode()[0], inplace=True)

In [110]:
# проверим
df.surgery.isnull().sum()

0

проделаем тоже самое для других столбцов имеющих категориальные значения

In [139]:
df.mucous_membran.fillna(df.mucous_membran.mode()[0], inplace=True)
df.abdominal_distension.fillna(df.abdominal_distension.mode()[0], inplace=True)
df.outcome.fillna(df.outcome.mode()[0], inplace=True)

In [113]:
df[df.mucous_membran.isnull()]

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome


In [114]:
# найдем строки с пропуском для столбца AGE
df[df.age.isnull()].count()

surgery                 24
age                      0
temperature             20
pulse                   22
mucous_membran          24
abdominal_distension    24
proteine                22
outcome                 24
dtype: int64

In [115]:
# посмотрим уникальные значения
df.age.unique()

array(['adult', nan], dtype=object)

In [116]:
# т.к. кроме пропуска есть только одно значение adult заполним пропуски им
df.age.fillna('adult', inplace=True)

In [117]:
# проверим  
df.age.isnull().sum()

0

In [118]:
# найдем строки с пропуском для столбца TEMPERATURE
df[df.temperature.isnull()]

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
5,no,adult,,,pale pink,slight,,lived
7,yes,adult,,60.0,normal pink,slight,8.3,died
8,no,adult,,80.0,pale pink,severe,6.2,was euthanized
16,yes,adult,,128.0,pale cyanotic,moderate,7.8,died
28,yes,adult,,,normal pink,none,,died
34,yes,adult,,100.0,pale cyanotic,severe,6.6,lived
35,no,adult,,104.0,pale pink,moderate,8.4,was euthanized
40,yes,adult,,88.0,dark cyanotic,moderate,6.5,died
43,yes,adult,,120.0,pale cyanotic,severe,67.0,was euthanized
45,no,adult,,120.0,pale cyanotic,severe,6.5,died


количество выбросов в температуре составляет более 1/3 от всех наблюдений, т.е. довольно много, значит логичней будет заполнить пропуски медианой.

In [119]:
# проверим как изменятся характеристики после удаления пропусков и замены на среднее и медиану
print('первоначальные показатели')
print(df.temperature.mean())
print(df.temperature.median())
print(df.temperature.mode()[0])
print(df.temperature.std())
print(df.temperature.var())
print('показатели после удаления всех пропусков')
df_drop = df.copy()
print(df_drop.dropna().temperature.mean())
print(df_drop.dropna().temperature.median())
print(df_drop.dropna().temperature.mode()[0])
print(df_drop.dropna().temperature.std())
print(df_drop.dropna().temperature.var())
print('как изменился датасет после удаления всех пропусков')
print(df.dropna().info())
print('показатели после замены средним арифметическим')
fill_mean = df.copy()
fill_mean.temperature.fillna(fill_mean.temperature.mean(), inplace=True)
print(fill_mean.temperature.mean())
print(fill_mean.temperature.median())
print(fill_mean.temperature.mode()[0])
print(fill_mean.temperature.std())
print(fill_mean.temperature.var())
print('показатели после замены медианой')
fill_median = df.copy()
fill_median.temperature.fillna(fill_median.temperature.median(), inplace=True)
print(fill_median.temperature.mean())
print(fill_median.temperature.median())
print(fill_median.temperature.mode()[0])
print(fill_median.temperature.std())
print(fill_median.temperature.var())

первоначальные показатели
38.16791666666669
38.2
38.0
0.7322886641121578
0.5362466875871686
показатели после удаления всех пропусков
38.162441314554
38.2
38.0
0.7386867826172057
0.5456581628133588
как изменился датасет после удаления всех пропусков
<class 'pandas.core.frame.DataFrame'>
Int64Index: 213 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   surgery               213 non-null    object 
 1   age                   213 non-null    object 
 2   temperature           213 non-null    float64
 3   pulse                 213 non-null    float64
 4   mucous_membran        213 non-null    object 
 5   abdominal_distension  213 non-null    object 
 6   proteine              213 non-null    float64
 7   outcome               213 non-null    object 
dtypes: float64(3), object(5)
memory usage: 15.0+ KB
None
показатели после замены средним арифметическим
38.16791666666669
38.16791666666

Мы видим, что удаление пустых данных меньше всего влияют на показатели, однако сильно уменьшают количество наблюдений, значит этот вариант не подходит.
Далее наблюдается интересная картина, первоначальное предположение о предпочтительной замене пропусков медианой оказывается менее выигрышным решением, нежели замена пропусков средним, при которой основные показатели меняются меньше.
Значит делаем замену на среднее арифметическое.

In [120]:
df.temperature.fillna(df.temperature.mean(), inplace=True)

In [121]:
df.describe()

Unnamed: 0,temperature,pulse,proteine
count,300.0,276.0,267.0
mean,38.167917,71.913043,24.456929
std,0.654705,28.630557,27.475009
min,35.4,30.0,3.3
25%,37.9,48.0,6.5
50%,38.167917,64.0,7.5
75%,38.5,88.0,57.0
max,40.8,184.0,89.0


In [122]:
# найдем строки с пропуском для столбца PULSE
df[df.pulse.isnull()]

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
5,no,adult,38.167917,,pale pink,slight,,lived
28,yes,adult,38.167917,,normal pink,none,,died
52,no,adult,38.167917,,pale pink,none,7.7,lived
56,yes,adult,38.167917,,normal pink,none,6.7,lived
58,yes,adult,38.167917,,pale pink,moderate,5.9,died
74,yes,adult,38.167917,,normal pink,none,4.9,died
78,yes,adult,38.167917,,pale pink,moderate,5.9,died
83,yes,adult,38.0,,dark cyanotic,severe,7.8,died
93,no,adult,38.167917,,normal pink,moderate,6.5,died
115,no,adult,38.167917,,normal pink,slight,70.0,lived


In [123]:
df[df.pulse==df.pulse.median()]['pulse'].count()

8

In [130]:
# проверим как изменятся характеристики после удаления пропусков и замены на среднее и медиану
print('первоначальные показатели')
print(df.pulse.mean())
print(df.pulse.median())
print(df.pulse.mode()[0])
print(df.pulse.std())
print(df.pulse.var())
print('показатели после удаления всех пропусков')
df_drop = df.copy()
print(df_drop.dropna().pulse.mean())
print(df_drop.dropna().pulse.median())
print(df_drop.dropna().pulse.mode()[0])
print(df_drop.dropna().pulse.std())
print(df_drop.dropna().pulse.var())
print('как изменился датасет после удаления всех пропусков')
print(df.dropna().info())
print('показатели после замены средним арифметическим')
fill_mean = df.copy()
fill_mean.pulse.fillna(fill_mean.pulse.mean(), inplace=True)
print(fill_mean.pulse.mean())
print(fill_mean.pulse.median())
print(fill_mean.pulse.mode()[0])
print(fill_mean.pulse.std())
print(fill_mean.pulse.var())
print('показатели после замены медианой')
fill_median = df.copy()
fill_median.pulse.fillna(fill_median.pulse.median(), inplace=True)
print(fill_median.pulse.mean())
print(fill_median.pulse.median())
print(fill_median.pulse.mode()[0])
print(fill_median.pulse.std())
print(fill_median.pulse.var())

первоначальные показатели
71.91304347826083
68.0
48.0
27.45747170905896
753.9127526537732
показатели после удаления всех пропусков
71.29143510951289
66.0
48.0
27.24560407445029
742.3229413817023
как изменился датасет после удаления всех пропусков
<class 'pandas.core.frame.DataFrame'>
Int64Index: 266 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   surgery               266 non-null    object 
 1   age                   266 non-null    object 
 2   temperature           266 non-null    float64
 3   pulse                 266 non-null    float64
 4   mucous_membran        266 non-null    object 
 5   abdominal_distension  266 non-null    object 
 6   proteine              266 non-null    float64
 7   outcome               266 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.7+ KB
None
показатели после замены средним арифметическим
71.91304347826083
68.0
48.0
27.457

как и в предыдущем случае, наилучшим решением будет замена пропусков средним арифметическим

In [131]:
df.pulse.fillna(df.pulse.mean(), inplace=True)

In [132]:
# найдем строки с пропуском для столбца PROTEINE
df[df.proteine.isnull()]

Unnamed: 0,surgery,age,temperature,pulse,mucous_membran,abdominal_distension,proteine,outcome
5,no,adult,38.167917,71.913043,pale pink,slight,,lived
17,no,adult,37.5,48.0,normal pink,none,,lived
25,no,adult,37.8,60.0,normal pink,none,,lived
28,yes,adult,38.167917,71.913043,normal pink,none,,died
39,yes,adult,39.2,146.0,normal pink,none,,died
51,yes,adult,37.4,84.0,pale pink,slight,,died
55,yes,adult,38.6,160.0,bright red,severe,,died
59,no,adult,38.167917,96.0,pale pink,severe,,died
72,yes,adult,37.7,56.0,normal pink,none,,died
81,yes,adult,37.3,40.0,normal pink,slight,,lived


In [133]:
# проверим как изменятся характеристики после удаления пропусков и замены на среднее, медиану и моду
print('первоначальные показатели')
print(df.proteine.mean())
print(df.proteine.median())
print(df.proteine.mode()[0])
print(df.proteine.std())
print(df.proteine.var())
print('показатели после удаления всех пропусков')
df_drop = df.copy()
print(df_drop.dropna().proteine.mean())
print(df_drop.dropna().proteine.median())
print(df_drop.dropna().proteine.mode()[0])
print(df_drop.dropna().proteine.std())
print(df_drop.dropna().proteine.var())
print('как изменился датасет после удаления всех пропусков')
print(df.dropna().info())
print('показатели после замены средним арифметическим')
fill_mean = df.copy()
fill_mean.proteine.fillna(fill_mean.proteine.mean(), inplace=True)
print(fill_mean.proteine.mean())
print(fill_mean.proteine.median())
print(fill_mean.proteine.mode()[0])
print(fill_mean.proteine.std())
print(fill_mean.proteine.var())
print('показатели после замены медианой')
fill_median = df.copy()
fill_median.proteine.fillna(fill_median.proteine.median(), inplace=True)
print(fill_median.proteine.mean())
print(fill_median.proteine.median())
print(fill_median.proteine.mode()[0])
print(fill_median.proteine.std())
print(fill_median.proteine.var())
print('показатели после замены модой')
fill_mode = df.copy()
fill_mode.proteine.fillna(fill_mode.proteine.mode(), inplace=True)
print(fill_mode.proteine.mean())
print(fill_mode.proteine.median())
print(fill_mode.proteine.mode()[0])
print(fill_mode.proteine.std())
print(fill_mode.proteine.var())


первоначальные показатели
24.456928838951317
7.5
6.5
27.475009470785064
754.8761454197289
показатели после удаления всех пропусков
24.27443609022557
7.5
6.5
27.364194079222113
748.7991176053345
как изменился датасет после удаления всех пропусков
<class 'pandas.core.frame.DataFrame'>
Int64Index: 266 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   surgery               266 non-null    object 
 1   age                   266 non-null    object 
 2   temperature           266 non-null    float64
 3   pulse                 266 non-null    float64
 4   mucous_membran        266 non-null    object 
 5   abdominal_distension  266 non-null    object 
 6   proteine              266 non-null    float64
 7   outcome               266 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.7+ KB
None
показатели после замены средним арифметическим
24.456928838951306
7.7
24.456928838

в данном случае, наилучшим вариантом замены пропусков будет замена модой.

In [137]:
df.proteine.fillna(df.proteine.mode()[0], inplace=True)

In [140]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   surgery               300 non-null    object 
 1   age                   300 non-null    object 
 2   temperature           300 non-null    float64
 3   pulse                 300 non-null    float64
 4   mucous_membran        300 non-null    object 
 5   abdominal_distension  300 non-null    object 
 6   proteine              300 non-null    float64
 7   outcome               300 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.9+ KB
