In [149]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [152]:
# Подготовка данных для выполнения задания
df = pd.read_csv('horse_data.csv', names =('1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11',
       '12', '13', '14', '15', '16', '17', '18', '19', '20', '21',
       '22', '23', '24', '25', '26', '27', '28' ))

# Выбор 8 столбцов для дальнейшего анализа и переименование их названий
new_df = df.loc[:, ['1', '2', '4', '5', '6', '10', '16', '17']]
new_df.rename(columns={'1':'Surgery', '2': 'Age', '4': 'Temp', '5': 'Heart', '6': 'Breath', '10': 'Capillary', '16':'Reflux', '17':'Kal'}, inplace = True)

# Меняю "?" на NaN
df_nan = new_df.replace(to_replace = '?', value = np.NaN)

# Меняю тип данных у не числовых столбцов на float
df_nan['Surgery'] = df_nan.Surgery.astype('float')
df_nan['Temp'] = df_nan.Temp.astype('float')
df_nan['Heart'] = df_nan.Heart.astype('float')
df_nan['Breath'] = df_nan.Breath.astype('float')
df_nan['Capillary'] = df_nan.Capillary.astype('float')
df_nan['Reflux'] = df_nan.Reflux.astype('float')
df_nan['Kal'] = df_nan.Kal.astype('float')

# Задание 1. Базовые метрики
df_nan.describe()

Unnamed: 0,Surgery,Age,Temp,Heart,Breath,Capillary,Reflux,Kal
count,299.0,300.0,240.0,276.0,242.0,268.0,53.0,198.0
mean,1.397993,1.64,38.167917,71.913043,30.417355,1.30597,4.707547,2.757576
std,0.490305,2.173972,0.732289,28.630557,17.642231,0.477629,1.982311,1.251119
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.8,48.0,18.5,1.0,3.0,1.0
50%,1.0,1.0,38.2,64.0,24.5,1.0,5.0,3.0
75%,2.0,1.0,38.5,88.0,36.0,2.0,6.5,4.0
max,2.0,9.0,40.8,184.0,96.0,3.0,7.5,4.0


In [6]:
# Проверка столбца Surgery на наличие выбросов
# Выбросов нет
print(df_nan['Surgery'].unique())

[ 2.  1. nan]


In [7]:
# Проверка столбца Age на наличие выбросов
# Переменная должна принимать значения 1 или 2, а фактически - 1 и 9. Предположу,что при вводе вместо 2 вводили 9. 
# Для дальнейшего анализа считаю, что 1-взрослая лощадь, 9-молодая лошадь
print(df_nan['Age'].unique())

[1 9]


In [15]:
# Проверка столбца Temp на наличие выбросов
# Фактические значения колеблются от 35.4 до 40.8. Часть значение выходит за рамки расчетных. 
# Оставляю все значения, которые выходят за рамки, т.к.считаю,что они могут быть у больных лошадей.
q1_Temp = df_nan.Temp.quantile(0.25)
q3_Temp = df_nan.Temp.quantile(0.75)
iqr_Temp = q3_Temp - q1_Temp
lower_Temp = q1_Temp - (1.5*iqr_Temp)
upper_Temp = q1_Temp + (1.5*iqr_Temp)
print(lower_Temp, upper_Temp)

36.74999999999999 38.85


In [27]:
# Проверка столбца Heart на наличие выбросов
# Фактические значения колеблются от 30 до 184. Часть значение выходит за рамки расчетных, причем их достаточно много. 
# Однако повышенные значения (до примерно 180) возможны при физических нагрузках и сердечных заболеваниях. 
# Поэтому все значения оставляю
q1_Heart = df_nan.Heart.quantile(0.25)
q3_Heart = df_nan.Heart.quantile(0.75)
iqr_Heart = q3_Heart - q1_Heart
lower_Heart = q1_Heart - (1.5*iqr_Temp)
upper_Heart = q3_Heart + (1.5*iqr_Temp)
print(lower_Heart, upper_Heart)

46.949999999999996 89.05000000000001


In [33]:
# Проверка столбца Breath на наличие выбросов
# Фактические значения колеблются от 8 до 96. При норме 8-10, высокие значения до 100 свидетельствуют о шоковом состоянии лошади.
# Поэтому все значения оставляю

In [38]:
# Проверка столбца Capillary на наличие выбросов
# Фактические значения принимают вполне реальные цифры, поэтому оставыляю все
print(df_nan['Capillary'].unique())

[ 2.  1. nan  3.]


In [40]:
# Проверка столбца Reflux на наличие выбросов
# Фактические значения (1-7.5) укладываются в допустимую шкалу (0-14), поэтому оставляю все

In [23]:
# Проверка столбца Kal на наличие выбросов
# Выбросов нет
print(df_nan['Kal'].unique())

[ 3.  4.  1. nan  2.]


In [None]:
# Задание 3. Работа с пустыми значениями

In [37]:
# Проверяем количество пропусков в столбцах
df_nan.isnull().sum()

Surgery        1
Age            0
Temp          60
Heart         24
Breath        58
Capillary     32
Reflux       247
Kal          102
dtype: int64

In [154]:
# Столбец Surgery имеет 1 пропуск. Заменю его модой (наиболее частым значением)
df_nan.Surgery.fillna(df_nan.Surgery.mode()[0], inplace = True)

# Столбец Temp имеет 60 пропуск. Заменю их на медиану.
df_nan.Temp.fillna(df_nan.Temp.median(), inplace = True)

# Столбец Capillary имеет 32 пропуска. Заменю их на модой
df_nan.Capillary.fillna(df_nan.Capillary.mode()[0], inplace = True)

# Столбец Heart имеет 24 пропуска. Заменю их на медиану c группировкой по Age и Capillary
df_nan.Heart.fillna(df_nan.groupby(['Capillary', 'Age']).Heart.transform('median'), inplace = True)
df_nan.groupby(['Age', 'Capillary']).Heart.median()

# Столбец Breath имеет 58 пропусков. Заменю их на медиану c группировкой по Age и Capillary
df_nan.Breath.fillna(df_nan.groupby(['Capillary', 'Age']).Breath.transform('median'), inplace = True)
df_nan.groupby(['Age', 'Capillary']).Breath.median()

# Столбец Kal имеет 102 пропуска. Заменю их на модой
df_nan.Kal.fillna(df_nan.Kal.mode()[0], inplace = True)

# Столбец Rerfux имеет 247 пропусков. Заменю их на медиану c группировкой по Kal
df_nan.Reflux.fillna(df_nan.groupby('Kal').Reflux.transform('median'), inplace = True)
df_nan.groupby('Kal').Reflux.median()

df_nan.describe()

Unnamed: 0,Surgery,Age,Temp,Heart,Breath,Capillary,Reflux,Kal
count,300.0,300.0,300.0,300.0,300.0,300.0,300.0,300.0
mean,1.396667,1.64,38.174333,71.406667,29.9,1.273333,4.91,3.18
std,0.490023,2.173972,0.654831,28.256374,16.176596,0.461156,1.083149,1.17425
min,1.0,1.0,35.4,30.0,8.0,1.0,1.0,1.0
25%,1.0,1.0,37.9,48.0,20.0,1.0,4.5,3.0
50%,1.0,1.0,38.2,60.0,24.0,1.0,4.5,4.0
75%,2.0,1.0,38.5,88.0,36.0,2.0,5.0,4.0
max,2.0,9.0,40.8,184.0,96.0,3.0,7.5,4.0
