In [7]:
import pandas as pd
import numpy as np
from scipy import stats

# Загрузка данных
url = 'https://raw.githubusercontent.com/obulygin/pyda_homeworks/master/statistics_basics/horse_data.csv'
data = pd.read_csv(url, header=None, na_values='?')

# Переименуем столбцы для удобства анализа (по описанию данных в .names)
columns = [
    'surgery', 'age', 'hospital_number', 'rectal_temp', 'pulse', 'respiratory_rate',
    'temperature_of_extremities', 'peripheral_pulse', 'mucous_membrane', 'capillary_refill_time',
    'pain', 'peristalsis', 'abdominal_distention', 'nasogastric_tube', 'nasogastric_reflux',
    'nasogastric_reflux_ph', 'rectal_exam_feces', 'abdomen', 'packed_cell_volume',
    'total_protein', 'abdom_appearance', 'abdom_total_protein', 'outcome', 'surgical_lesion',
    'lesion_1', 'lesion_2', 'lesion_3', 'cp_data'
]
data.columns = columns

# Выбор столбцов для анализа: выбраны 4 числовых и 4 категориальных
selected_columns = ['respiratory_rate', 'nasogastric_reflux_ph', 'packed_cell_volume', 'total_protein',
                    'age', 'temperature_of_extremities', 'capillary_refill_time', 'nasogastric_reflux']
df = data[selected_columns]

# Задание 1: Базовое изучение (расчет метрик)
# Для числовых данных
numerical_columns = ['respiratory_rate', 'nasogastric_reflux_ph', 'packed_cell_volume', 'total_protein']
for col in numerical_columns:
    print(f'Столбец: {col}')
    print(f'Среднее: {df[col].mean()}')
    print(f'Медиана: {df[col].median()}')
    print(f'Мода: {df[col].mode()[0]}')
    print(f'Стандартное отклонение: {df[col].std()}')
    print(f'Минимум: {df[col].min()}')
    print(f'Максимум: {df[col].max()}')
    print()

# Для категориальных данных
categorical_columns = ['age', 'temperature_of_extremities', 'capillary_refill_time', 'nasogastric_reflux']
for col in categorical_columns:
    print(f'Столбец: {col}')
    print(f'Мода: {df[col].mode()[0]}')
    print(f'Частота уникальных значений:\n{df[col].value_counts()}')
    print()

# Задание 2: Поиск выбросов в числовых столбцах
for col in numerical_columns:
    q1 = df[col].quantile(0.25)
    q3 = df[col].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    print(f'Выбросы в столбце {col}: {len(outliers)}')
    print(f'Границы выбросов: нижняя {lower_bound}, верхняя {upper_bound}')
    print()

# Принятие решения о работе с выбросами
df = df[(df['nasogastric_reflux_ph'] >= lower_bound) & (df['nasogastric_reflux_ph'] <= upper_bound)]

# Задание 3: Работа с пропусками
# Подсчёт пропусков в каждом из выбранных столбцов
missing_values = df.isnull().sum()
print("Количество пропусков в каждом столбце:\n", missing_values)

# Заполнение пропусков
# Числовые столбцы: заполняем средним или медианой
for col in numerical_columns:
    df[col].fillna(df[col].median(), inplace=True)

# Категориальные столбцы: заполняем наиболее частым значением (модой)
for col in categorical_columns:
    df[col].fillna(df[col].mode()[0], inplace=True)

# Проверка отсутствия пропусков
print("Проверка отсутствия пропусков:\n", df.isnull().sum())

# Итоговый dataframe без пропусков
print(df.head())


Столбец: respiratory_rate
Среднее: 30.417355371900825
Медиана: 24.5
Мода: 20.0
Стандартное отклонение: 17.642231385134664
Минимум: 8.0
Максимум: 96.0

Столбец: nasogastric_reflux_ph
Среднее: 4.7075471698113205
Медиана: 5.0
Мода: 2.0
Стандартное отклонение: 1.9823111081419562
Минимум: 1.0
Максимум: 7.5

Столбец: packed_cell_volume
Среднее: 46.29520295202952
Медиана: 45.0
Мода: 37.0
Стандартное отклонение: 10.419334549704114
Минимум: 23.0
Максимум: 75.0

Столбец: total_protein
Среднее: 24.45692883895131
Медиана: 7.5
Мода: 6.5
Стандартное отклонение: 27.475009470785064
Минимум: 3.3
Максимум: 89.0

Столбец: age
Мода: 1
Частота уникальных значений:
age
1    276
9     24
Name: count, dtype: int64

Столбец: temperature_of_extremities
Мода: 3.0
Частота уникальных значений:
temperature_of_extremities
3.0    109
1.0     78
2.0     30
4.0     27
Name: count, dtype: int64

Столбец: capillary_refill_time
Мода: 1.0
Частота уникальных значений:
capillary_refill_time
1.0    188
2.0     78
3.0      2
N

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)
