In [2]:
import pandas as pd

# Домашнее задание к лекции "Базовые понятия статистики"

Будем осуществлять работу с непростым набором данных о состоянии здоровья лошадей, испытывающих кишечные колики. Цель – максимально корректно заполнить пропуски.

### Задание 1. Загрузка данных
Изучить представленный набор данных на основе описания его столбцов, загрузить его и оставить 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.

### Задание 2. Первичное изучение данных
Проанализировать значения по столбцам, рассчитать базовые статистики, найти выбросы.

### Задание 3. Работа с пропусками
Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе заполнения пропусков по каждому столбцу на основе рассчитанных статистик и возможной взаимосвязи значений в них. Сформировать датафрейм, в котором пропуски будут отсутствовать.

In [130]:
data = pd.read_csv('horse_data.csv', names = ['surgery', 'Age', 'Hospital Number', 'rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities', 'peripheral pulse', 'mucous membranes', 'capillary refill time', 'pain', 'peristalsis', 'abdominal distension', 'nasogastric tube', 'nasogastric reflux', 'nasogastric reflux PH', 'rectal examination', 'abdomen', 'packed cell volume', 'total protein', 'abdominocentesis appearance', 'abdomcentesis total protein', 'outcome', 'surgical lesion', 'site of lesion', 'type', 'subtype', 'cp_data'], header = 0, na_values = ['?'])

data.head()

Unnamed: 0,surgery,Age,Hospital Number,rectal temperature,pulse,respiratory rate,temperature of extremities,peripheral pulse,mucous membranes,capillary refill time,...,packed cell volume,total protein,abdominocentesis appearance,abdomcentesis total protein,outcome,surgical lesion,site of lesion,type,subtype,cp_data
0,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
1,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
2,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
3,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2
4,2.0,1,528355,,,,2.0,1.0,3.0,1.0,...,,,,,1.0,2,0,0,0,2


In [131]:
data = data.loc[:, ['surgery', 'Age','rectal temperature', 'pulse', 'respiratory rate', 'temperature of extremities', 'pain', 'outcome']]
data.head()

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,1.0,1,39.2,88.0,20.0,,3.0,3.0
1,2.0,1,38.3,40.0,24.0,1.0,3.0,1.0
2,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
3,2.0,1,37.3,104.0,35.0,,,2.0
4,2.0,1,,,,2.0,2.0,1.0


In [132]:
# в выборке 299 строк, пропуски есть в каждом столбце, кроме столбца с возрастом

In [133]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     298 non-null    float64
 1   Age                         299 non-null    int64  
 2   rectal temperature          239 non-null    float64
 3   pulse                       275 non-null    float64
 4   respiratory rate            241 non-null    float64
 5   temperature of extremities  243 non-null    float64
 6   pain                        244 non-null    float64
 7   outcome                     298 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 18.8 KB


In [134]:
# Процентное соотношение пропусков по столбцам. Наибольшее значение пропусков в столбцах с температурой, частоте дыхания,
# температуре конечностей и данным по ощущении боли

In [135]:
(data.isna().mean() * 100).round(2)

surgery                        0.33
Age                            0.00
rectal temperature            20.07
pulse                          8.03
respiratory rate              19.40
temperature of extremities    18.73
pain                          18.39
outcome                        0.33
dtype: float64

In [136]:
# Базовые метрики для столбцов с числовыми значениями

In [137]:
data.loc[:, ['rectal temperature', 'pulse', 'respiratory rate']].describe()

Unnamed: 0,rectal temperature,pulse,respiratory rate
count,239.0,275.0,241.0
mean,38.166527,71.934545,30.427386
std,0.733508,28.680522,17.678256
min,35.4,30.0,8.0
25%,37.8,48.0,18.0
50%,38.2,64.0,24.0
75%,38.5,88.0,36.0
max,40.8,184.0,96.0


In [138]:
# Значение моды для столбцов с категориями

In [139]:
data.loc[:, ['surgery', 'Age','temperature of extremities', 'pain', 'outcome']].mode()

Unnamed: 0,surgery,Age,temperature of extremities,pain,outcome
0,1.0,1,3.0,3.0,1.0


In [141]:
q1_temp = data['rectal temperature'].quantile(0.25)
q3_temp = data['rectal temperature'].quantile(0.75)
iqr = q3_temp - q1_temp
lower_bound = q1_temp - (1.5 * iqr) 
upper_bound = q3_temp + (1.5 * iqr)
remove_outliers = data[data['rectal temperature'].between(lower_bound, upper_bound, inclusive=True)].sort_values('rectal temperature')
# remove_outliers

In [142]:
# Выбросы по столбцу температуры. Найдено 14 значений с выбросами. Нормой для температуры является 37,8.
# Температура в 40 градусов видимо экстремальна, но возможна. По столбцу "outcome" видно что только 4 лошади с 
# аномальной температурой выжили. Предполагаю что выброс не является ошибкой. В выборке нет значений, которые 
# могли бы считаться невозможными

In [143]:
pd.concat([data, remove_outliers]).drop_duplicates(keep=False).dropna(subset = ['rectal temperature'])

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
19,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
43,1.0,1,35.4,140.0,24.0,3.0,4.0,3.0
53,2.0,1,40.3,114.0,36.0,3.0,2.0,3.0
74,1.0,9,39.7,100.0,,3.0,2.0,3.0
79,1.0,1,36.4,98.0,35.0,3.0,4.0,2.0
90,2.0,1,40.3,114.0,36.0,3.0,2.0,2.0
98,2.0,1,39.6,108.0,51.0,3.0,2.0,1.0
117,1.0,1,36.5,78.0,30.0,1.0,5.0,1.0
140,2.0,1,36.0,42.0,30.0,,,2.0
237,2.0,1,36.1,88.0,,3.0,3.0,3.0


In [145]:
q1_pulse = data['pulse'].quantile(0.25)
q3_pulse = data['pulse'].quantile(0.75)
iqr = q3_pulse - q1_pulse
lower_bound_pulse = q1_pulse - (1.5 * iqr) 
upper_bound_pulse = q3_pulse + (1.5 * iqr)
remove_outliers_pulse = data[data['pulse'].between(lower_bound_pulse, upper_bound_pulse, inclusive=True)].sort_values('pulse')
# remove_outliers_pulse

In [146]:
# Выбросы по столбцу пульс. Отобрались 5 значений с пульсем более 150 ударов в минуту. Норма 30 - 40. Среднее значение 
# в исходных данных 72. В выбросе все особи молодого возраста с повышенной температурой. Четырем из них делалась операция, 
# они же в итоге не выжили. 
# Мне трудно оценить являются ли значения в выбросе ошибкой. Может такой пульс и возможен у молодых лошадей.

In [147]:
pd.concat([data, remove_outliers_pulse]).drop_duplicates(keep=False).dropna(subset = ['pulse'])

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
2,1.0,9,39.1,164.0,84.0,4.0,2.0,2.0
40,2.0,9,39.0,150.0,72.0,,,1.0
54,1.0,9,38.6,160.0,20.0,3.0,3.0,2.0
254,1.0,9,38.8,184.0,84.0,1.0,4.0,2.0
274,1.0,9,38.8,150.0,50.0,1.0,5.0,2.0


In [148]:
q1_resp = data['respiratory rate'].quantile(0.25)
q3_resp = data['respiratory rate'].quantile(0.75)
iqr = q3_resp - q1_resp
lower_bound_resp = q1_resp - (1.5 * iqr) 
upper_bound_resp = q3_resp + (1.5 * iqr)
remove_outliers_resp = data[data['respiratory rate'].between(lower_bound_resp, upper_bound_resp, inclusive=True)].sort_values('respiratory rate')
# remove_outliers_resp

In [149]:
# Выбросы по столбцу частота дыхания. Норма 8 - 10. Среднее по столбцу 30. В пояснениях к столбцу указано что возможны 
# значительные отлонения. В выбросе отобрались значения выше 66.

In [150]:
pd.concat([data, remove_outliers_resp]).drop_duplicates(keep=False).dropna(subset = ['respiratory rate']).sort_values('respiratory rate')

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
119,1.0,1,39.4,54.0,66.0,1.0,2.0,1.0
102,1.0,9,38.0,140.0,68.0,1.0,3.0,1.0
124,1.0,1,38.0,42.0,68.0,4.0,3.0,1.0
264,2.0,1,,56.0,68.0,3.0,3.0,3.0
228,1.0,9,38.5,120.0,70.0,,,1.0
294,1.0,1,,120.0,70.0,4.0,2.0,3.0
40,2.0,9,39.0,150.0,72.0,,,1.0
81,1.0,9,38.1,100.0,80.0,3.0,3.0,1.0
83,1.0,1,37.8,60.0,80.0,1.0,2.0,1.0
207,1.0,1,37.8,88.0,80.0,3.0,,3.0


### Работа с пропусками

In [None]:
# При удалении всех строк с пропусками теряется половина данных. Это слишком много. Поэтому будем заменять пропуски

In [151]:
data.dropna().info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 153 entries, 1 to 297
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     153 non-null    float64
 1   Age                         153 non-null    int64  
 2   rectal temperature          153 non-null    float64
 3   pulse                       153 non-null    float64
 4   respiratory rate            153 non-null    float64
 5   temperature of extremities  153 non-null    float64
 6   pain                        153 non-null    float64
 7   outcome                     153 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 10.8 KB


In [111]:
# В столбцах с категориями заменяем пропуски на 'no info'

In [162]:
data['surgery'].fillna('no_info', inplace=True)

In [163]:
data['temperature of extremities'].fillna('no_info', inplace=True)

In [164]:
data['pain'].fillna('no_info', inplace=True)

In [165]:
data['outcome'].fillna('no_info', inplace=True)

In [166]:
# В столбцах с числовыми значениями заменяем пропуски на медиану

In [167]:
data['rectal temperature'].fillna(data['rectal temperature'].median(), inplace=True)

In [168]:
data['pulse'].fillna(data['pulse'].median(), inplace=True)

In [169]:
data['respiratory rate'].fillna(data['respiratory rate'].median(), inplace=True)

In [170]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery                     299 non-null    object 
 1   Age                         299 non-null    int64  
 2   rectal temperature          299 non-null    float64
 3   pulse                       299 non-null    float64
 4   respiratory rate            299 non-null    float64
 5   temperature of extremities  299 non-null    object 
 6   pain                        299 non-null    object 
 7   outcome                     299 non-null    object 
dtypes: float64(3), int64(1), object(4)
memory usage: 18.8+ KB


In [174]:
data.describe()

Unnamed: 0,Age,rectal temperature,pulse,respiratory rate
count,299.0,299.0,299.0,299.0
mean,1.64214,38.173244,71.297659,29.180602
std,2.1773,0.655657,27.586016,16.067835
min,1.0,35.4,30.0,8.0
25%,1.0,37.9,48.0,20.0
50%,1.0,38.2,64.0,24.0
75%,1.0,38.5,88.0,34.5
max,9.0,40.8,184.0,96.0


In [175]:
data.head()

Unnamed: 0,surgery,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,1,1,39.2,88.0,20.0,no_info,3,3
1,2,1,38.3,40.0,24.0,1,3,1
2,1,9,39.1,164.0,84.0,4,2,2
3,2,1,37.3,104.0,35.0,no_info,no_info,2
4,2,1,38.2,64.0,24.0,2,2,1
