#1. Загрузка данных.

Изучим представленный набор данных на основе описания его столбцов, загрузим его и оставим 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.

In [None]:
import pandas as pd
import numpy as np

In [None]:
file_horse = 'https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv'
column_list = [0,1,3,4,5,6,10,22]
column_names = ['surgery?','Age','rectal temperature','pulse','respiratory rate','temperature of extremities','pain','outcome']
data_horse = pd.read_csv(file_horse, usecols= column_list, names = column_names )
data_horse.head()

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,2,1,38.5,66,28,3,5,2
1,1,1,39.2,88,20,?,3,3
2,2,1,38.3,40,24,1,3,1
3,1,9,39.1,164,84,4,2,2
4,2,1,37.3,104,35,?,?,2


#2. Первичное изучение данных.

Проанализируем значения по столбцам, рассчитаем базовые статистики, найдем выбросы.

In [None]:
data_horse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   surgery?                    300 non-null    object
 1   Age                         300 non-null    int64 
 2   rectal temperature          300 non-null    object
 3   pulse                       300 non-null    object
 4   respiratory rate            300 non-null    object
 5   temperature of extremities  300 non-null    object
 6   pain                        300 non-null    object
 7   outcome                     300 non-null    object
dtypes: int64(1), object(7)
memory usage: 18.9+ KB


1. Так как столбцы 'rectal temperature', 'pulse', 'respiratory rate' - это числа, а не  строковый тип данных,  изменим на числовой.
 А столбец 'Age' на строковый - это категориальные значения.

In [None]:
# Для преобразования типа данных нужных стобцов в числовой тип используем функцию pd.to_numeric с параметром errors='coerce',
# которая заменит недопустимые значения (?) на NaN

data_horse['rectal temperature'] = pd.to_numeric(data_horse['rectal temperature'],errors='coerce')
data_horse['pulse'] = pd.to_numeric(data_horse['pulse'],errors='coerce')
data_horse['respiratory rate'] = pd.to_numeric(data_horse['respiratory rate'],errors='coerce')


In [None]:
# Для преобразования 'Age' в строковый тип данных используем функцию astype

data_horse['Age'] = data_horse['Age'].astype('str')

In [None]:
data_horse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    300 non-null    object 
 1   Age                         300 non-null    object 
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  300 non-null    object 
 6   pain                        300 non-null    object 
 7   outcome                     300 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.9+ KB


2. Несмотря на то, что в некоторых столбцах нет NaN, они содержат некорректные данные - знак "?", его необходимо заменить на NaN для анализа

In [None]:
data_horse_correct = data_horse.replace('?', np.NaN)
data_horse_correct.head()

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
0,2,1,38.5,66.0,28.0,3.0,5.0,2
1,1,1,39.2,88.0,20.0,,3.0,3
2,2,1,38.3,40.0,24.0,1.0,3.0,1
3,1,9,39.1,164.0,84.0,4.0,2.0,2
4,2,1,37.3,104.0,35.0,,,2


In [None]:
# В итоге в каждом столбцем есть пропуски, кроме Age

data_horse_correct.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    299 non-null    object 
 1   Age                         300 non-null    object 
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  244 non-null    object 
 6   pain                        245 non-null    object 
 7   outcome                     299 non-null    object 
dtypes: float64(3), object(5)
memory usage: 18.9+ KB


3. Проанализируем столбцы

3.1. Столбец surgery? - должны быть только два значения (1 или 2)

In [None]:
data_horse_correct['surgery?'].value_counts(dropna = False)

1      180
2      119
NaN      1
Name: surgery?, dtype: int64

3.2. Cтолбец Age - должны быть два значения (1 или 2)

In [None]:
data_horse_correct['Age'].value_counts(dropna = False)

1    276
9     24
Name: Age, dtype: int64

In [None]:
# в процентах - 8 % составляет занчение 9!!!которого не должно быть
data_horse_correct['Age'].value_counts(dropna = False,normalize = True )

1    0.92
9    0.08
Name: Age, dtype: float64

3.3.Стобец temperature of extremities - возможные значения 1,2,3 и 4.

In [None]:
data_horse_correct['temperature of extremities'].value_counts(dropna = False)

3      109
1       78
NaN     56
2       30
4       27
Name: temperature of extremities, dtype: int64

In [None]:
# в процентах - 18.7 % нет данных
data_horse_correct['temperature of extremities'].value_counts(dropna = False,normalize = True )

3      0.363333
1      0.260000
NaN    0.186667
2      0.100000
4      0.090000
Name: temperature of extremities, dtype: float64

3.4. Столбец pain - возможные значения 1,2,3,4,5

In [None]:
data_horse_correct['pain'].value_counts(dropna = False)

3      67
2      59
NaN    55
5      42
4      39
1      38
Name: pain, dtype: int64

In [None]:
# в процентах - 18.3 % нет данных
data_horse_correct['pain'].value_counts(dropna = False,normalize = True )

3      0.223333
2      0.196667
NaN    0.183333
5      0.140000
4      0.130000
1      0.126667
Name: pain, dtype: float64

3.5. Столбец outcome - возможные значения 1,2 и 3

In [None]:
data_horse_correct['outcome'].value_counts(dropna = False)

1      178
2       77
3       44
NaN      1
Name: outcome, dtype: int64

3.6. Статистические показатели по числовым  столбцам

In [None]:
data_horse_correct.describe()

Unnamed: 0,rectal temperature,pulse,respiratory rate
count,240.0,276.0,242.0
mean,38.167917,71.913043,30.417355
std,0.732289,28.630557,17.642231
min,35.4,30.0,8.0
25%,37.8,48.0,18.5
50%,38.2,64.0,24.5
75%,38.5,88.0,36.0
max,40.8,184.0,96.0


Найдем выбросы по столбцу rectal temperature.

Данные имеют нормальное распределение, так как среднее и медиана почти одинаковы, стандартное отклонение ближе к  1. Поэтому используем для расчета выбросов межквартильный размах. Но если смотреть на минимальное и максимальное значения, то в принципе, тепература вполне допустима, учитывая, что представлены данные больных лошадей.

In [None]:
q1 = data_horse_correct['rectal temperature'].quantile(0.25)
q3 = data_horse_correct['rectal temperature'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr)
upper_bound = q3 + (1.5 * iqr)
data_horse_correct[~data_horse_correct['rectal temperature'].between(lower_bound, upper_bound, inclusive=True)]

  data_horse_correct[~data_horse_correct['rectal temperature'].between(lower_bound, upper_bound, inclusive=True)]


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
5,2,1,,,,2,2,1
7,1,1,,60.0,,3,,2
8,2,1,,80.0,36.0,3,4,3
16,1,9,,128.0,36.0,3,4,2
20,1,1,39.9,72.0,60.0,1,5,1
...,...,...,...,...,...,...,...,...
282,1,1,,70.0,16.0,3,2,2
288,1,1,,,,,,1
293,1,1,,78.0,24.0,3,,3
295,1,1,,120.0,70.0,4,2,3


Найдем выбросы по столбцу pulse.

Данные имеют не нормальное распределение - я для интереса воспользовалась тоже межквартильным размахов. И в выбросы попали значения больше 150.

Min соответсвуют норме, и с каждым квантилем значения значительно увеличиваются.

In [None]:
q1_pulse = data_horse_correct['pulse'].quantile(0.25)
q3_pulse = data_horse_correct['pulse'].quantile(0.75)
iqr = q3_pulse - q1_pulse
lower_bound = q1_pulse - (1.5 * iqr)
upper_bound = q3_pulse + (1.5 * iqr)
data_horse_correct[~data_horse_correct['pulse'].
                   between(lower_bound, upper_bound, inclusive=True)]

  data_horse_correct[~data_horse_correct['pulse'].


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1,9,39.1,164.0,84.0,4.0,2.0,2
5,2,1,,,,2.0,2.0,1
28,1,1,,,,,,2
41,2,9,39.0,150.0,72.0,,,1
52,2,1,,,,1.0,1.0,1
55,1,9,38.6,160.0,20.0,3.0,3.0,2
56,1,1,,,,,,1
58,1,1,,,20.0,4.0,5.0,2
74,1,9,,,,,,2
78,1,1,,,,3.0,5.0,2


Найдем выбросы по столбцу respiratory rate.

По этому столбцу прослеживается взаимосвязь со стобцом Pulse. Min значения соответсвуют норме, и с каждым квантилем увеличивается.

In [None]:
q1_rate = data_horse_correct['respiratory rate'].quantile(0.25)
q3_rate = data_horse_correct['respiratory rate'].quantile(0.75)
iqr = q3_rate - q1_rate
lower_bound = q1_rate - (1.5 * iqr)
upper_bound = q3_rate + (1.5 * iqr)
data_horse_correct[~data_horse_correct['respiratory rate'].
                   between(lower_bound, upper_bound, inclusive=True)]

  data_horse_correct[~data_horse_correct['respiratory rate'].


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1,9,39.1,164.0,84.0,4,2,2
5,2,1,,,,2,2,1
7,1,1,,60.0,,3,,2
9,2,9,38.3,90.0,,1,5,1
28,1,1,,,,,,2
...,...,...,...,...,...,...,...,...
274,1,1,,76.0,,,,3
281,2,1,40.0,78.0,,3,2,2
284,2,1,38.5,54.0,,1,3,1
288,1,1,,,,,,1


# 3. Работа с пропусками
Рассчитаем количество пропусков для всех выбранных столбцов. Сформируем датафрейм, в котором пропуски будут отсутствовать.

In [None]:
(data_horse_correct.isna().mean() * 100).round(2)

surgery?                       0.33
Age                            0.00
rectal temperature            20.00
pulse                          8.00
respiratory rate              19.33
temperature of extremities    18.67
pain                          18.33
outcome                        0.33
dtype: float64

In [None]:
# Сделаем копию

fill_data = data_horse_correct.copy()

In [None]:
#Столбец surgery? и  outcome содержит только один пропуск, заполним модой

fill_data['surgery?'] = fill_data['surgery?'].fillna(data_horse_correct['surgery?'].mode()[0])
fill_data['outcome'] = fill_data['outcome'].fillna(data_horse_correct['outcome'].mode()[0])


In [None]:
# Столбец Age должен содержать только два значения 1(взрослая) и 2(меньше 6 месяцев), а по факту - 1 и 9.
# Что означает 9 - не известно, поэтому оставим как есть и анализируем как отдельную группу.

data_horse_correct[data_horse_correct['Age']== '9']

Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1,9,39.1,164.0,84.0,4.0,2.0,2
9,2,9,38.3,90.0,,1.0,5.0,1
13,2,9,38.0,92.0,28.0,1.0,1.0,2
16,1,9,,128.0,36.0,3.0,4.0,2
23,1,9,38.3,130.0,60.0,,2.0,1
39,1,9,39.2,146.0,96.0,,,2
41,2,9,39.0,150.0,72.0,,,1
55,1,9,38.6,160.0,20.0,3.0,3.0,2
74,1,9,,,,,,2
75,1,9,39.7,100.0,,3.0,2.0,3


In [None]:
#Столбец respiratory rate -  в описании указано,что полезность этих данных сомнительная
# из-за больших колебаний, поэтому удалим этот столбец из данных

fill_data = fill_data.drop(['respiratory rate'], axis=1)
fill_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    300 non-null    object 
 1   Age                         300 non-null    object 
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   temperature of extremities  244 non-null    object 
 5   pain                        245 non-null    object 
 6   outcome                     300 non-null    object 
dtypes: float64(2), object(5)
memory usage: 16.5+ KB


Данные содержат по основным столбцам почти 20% пропусков, поэтому удалим строки, в которых больше 1 пропуска

In [None]:
fill_data_1 = fill_data.dropna(thresh=6)
fill_data_1.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 249 entries, 0 to 298
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    249 non-null    object 
 1   Age                         249 non-null    object 
 2   rectal temperature          216 non-null    float64
 3   pulse                       243 non-null    float64
 4   temperature of extremities  231 non-null    object 
 5   pain                        233 non-null    object 
 6   outcome                     249 non-null    object 
dtypes: float64(2), object(5)
memory usage: 15.6+ KB


In [None]:
# Столбец pulse - пропуски заменим медианой, учитывая стобец 'Age' и 'outcome', ниже на группировке видно, как меняются значения
print(fill_data_1.groupby(['Age', 'outcome'])['pulse'].median())

fill_data_1['pulse'] = fill_data_1['pulse'].fillna(fill_data_1.groupby(['Age', 'outcome'])['pulse'].transform('median'))

Age  outcome
1    1           52.0
     2           85.0
     3           84.0
9    1          120.0
     2          136.0
     3          100.0
Name: pulse, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fill_data_1['pulse'] = fill_data_1['pulse'].fillna(fill_data_1.groupby(['Age', 'outcome'])['pulse'].transform('median'))


In [None]:
# Столбец pain - субъективная оценка уровня боли,заполним пропуски 'no info'

fill_data_1['pain'] = fill_data_1['pain'].fillna('no info')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fill_data_1['pain'] = fill_data_1['pain'].fillna('no info')


In [None]:
fill_data_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 249 entries, 0 to 298
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    249 non-null    object 
 1   Age                         249 non-null    object 
 2   rectal temperature          216 non-null    float64
 3   pulse                       249 non-null    float64
 4   temperature of extremities  231 non-null    object 
 5   pain                        249 non-null    object 
 6   outcome                     249 non-null    object 
dtypes: float64(2), object(5)
memory usage: 15.6+ KB


In [None]:
# Столбец temperature of extremities - пропуски заменим модой, так как этот показатель субъективный.

fill_data_1['temperature of extremities'] = fill_data_1['temperature of extremities'].fillna(fill_data['temperature of extremities'].mode()[0])


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fill_data_1['temperature of extremities'] = fill_data_1['temperature of extremities'].fillna(fill_data['temperature of extremities'].mode()[0])


In [None]:
# Столбец rectal temperature- пропуски заменим медианой с группировкой по стобцу temperature of extremities -
# если конечности теплые - значит температура нормальная, холодные или горячие - температура низкая или высокая

print(fill_data_1.groupby(['temperature of extremities'])['rectal temperature'].median())

fill_data_1['rectal temperature'] = fill_data_1['rectal temperature'].fillna(
                                    fill_data_1.groupby(['temperature of extremities'])['rectal temperature'].transform('median'))

temperature of extremities
1    38.15
2    38.20
3    38.10
4    38.35
Name: rectal temperature, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fill_data_1['rectal temperature'] = fill_data_1['rectal temperature'].fillna(fill_data_1.groupby(['temperature of extremities'])['rectal temperature'].transform('median'))


In [None]:
# Данные без пропусков

fill_data_1.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 249 entries, 0 to 298
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    249 non-null    object 
 1   Age                         249 non-null    object 
 2   rectal temperature          249 non-null    float64
 3   pulse                       249 non-null    float64
 4   temperature of extremities  249 non-null    object 
 5   pain                        249 non-null    object 
 6   outcome                     249 non-null    object 
dtypes: float64(2), object(5)
memory usage: 15.6+ KB


Как изменились статистические показатели с пропусками и без

In [None]:
data_horse_correct.describe()

Unnamed: 0,rectal temperature,pulse,respiratory rate
count,240.0,276.0,242.0
mean,38.167917,71.913043,30.417355
std,0.732289,28.630557,17.642231
min,35.4,30.0,8.0
25%,37.8,48.0,18.5
50%,38.2,64.0,24.5
75%,38.5,88.0,36.0
max,40.8,184.0,96.0


In [None]:
fill_data_1.describe()

Unnamed: 0,rectal temperature,pulse
count,249.0,249.0
mean,38.17249,72.116466
std,0.675117,27.979516
min,35.4,36.0
25%,37.8,48.0
50%,38.1,64.0
75%,38.5,88.0
max,40.8,184.0


По столбцу rectal temperature немного изменилось стандартное отклонение,

по столбцу pulse изменились - стандартное отклонение и min.