# Задание 1. Загрузка данных
Изучить представленный набор данных на основе описания его столбцов в файле “horse_data.names” , загрузить его и оставить 8 столбцов для дальнейшего изучения: surgery?, Age, rectal temperature, pulse, respiratory rate, temperature of extremities, pain, outcome.


In [None]:
import pandas as pd

"""
описание атрибутов

  1:  surgery?
          1 = Yes, it had surgery
          2 = It was treated without surgery

  2:  Age
          1 = Adult horse
          2 = Young (< 6 months)

  3:  rectal temperature
          - linear
          - in degrees celsius.
          - An elevated temp may occur due to infection.
          - temperature may be reduced when the animal is in late shock
          - normal temp is 37.8
          - this parameter will usually change as the problem progresses
               eg. may start out normal, then become elevated because of
                   the lesion, passing back through the normal range as the
                   horse goes into shock
  4:  pulse
          - linear
          - the heart rate in beats per minute
          - is a reflection of the heart condition: 30 -40 is normal for adults
          - rare to have a lower than normal rate although athletic horses
            may have a rate of 20-25
          - animals with painful lesions or suffering from circulatory shock
            may have an elevated heart rate

  5:  respiratory rate
          - linear
          - normal rate is 8 to 10
          - usefulness is doubtful due to the great fluctuations

  6:  temperature of extremities
          - a subjective indication of peripheral circulation
          - possible values:
               1 = Normal
               2 = Warm
               3 = Cool
               4 = Cold
          - cool to cold extremities indicate possible shock
          - hot extremities should correlate with an elevated rectal temp.

  7: pain - a subjective judgement of the horse's pain level
          - possible values:
               1 = alert, no pain
               2 = depressed
               3 = intermittent mild pain
               4 = intermittent severe pain
               5 = continuous severe pain
          - should NOT be treated as a ordered or discrete variable!
          - In general, the more painful, the more likely it is to require
            surgery
          - prior treatment of pain may mask the pain level to some extent

   23: outcome
          - what eventually happened to the horse?
          - possible values:
               1 = lived
               2 = died
               3 = was euthanized



"""


attributes = [
    "surgery?", "Age", "Hospital Number", "rectal temperature", "pulse",
    "respiratory rate", "temperature of extremities", "peripheral pulse",
    "mucous membranes", "capillary refill time", "pain", "peristalsis",
    "abdominal distension", "nasogastric tube", "nasogastric reflux",
    "nasogastric reflux PH", "rectal examination - feces", "abdomen",
    "packed cell volume", "total protein", "abdominocentesis appearance",
    "abdomcentesis total protein", "outcome", "surgical lesion?",
    "type of lesion 1", "type of lesion 2", "type of lesion 3", "cp_data"
]
df_hd = pd.read_csv("/horse_data.csv", sep=",", header=None, na_values="?")
df_hd.columns = attributes


df_selected = df_hd[["surgery?", "Age", "rectal temperature", "pulse",
                     "respiratory rate", "temperature of extremities", "pain", "outcome"]]

df_selected.info()
df_selected.tail(170)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   surgery?                    299 non-null    float64
 1   Age                         300 non-null    int64  
 2   rectal temperature          240 non-null    float64
 3   pulse                       276 non-null    float64
 4   respiratory rate            242 non-null    float64
 5   temperature of extremities  244 non-null    float64
 6   pain                        245 non-null    float64
 7   outcome                     299 non-null    float64
dtypes: float64(7), int64(1)
memory usage: 18.9 KB


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
130,1.0,1,37.8,30.0,12.0,,,2.0
131,2.0,1,37.6,88.0,36.0,3.0,3.0,2.0
132,,1,38.0,48.0,20.0,3.0,4.0,
133,2.0,1,37.9,40.0,24.0,1.0,2.0,1.0
134,1.0,1,,100.0,,3.0,5.0,2.0
...,...,...,...,...,...,...,...,...
295,1.0,1,,120.0,70.0,4.0,2.0,3.0
296,2.0,1,37.2,72.0,24.0,3.0,4.0,3.0
297,1.0,1,37.5,72.0,30.0,4.0,4.0,2.0
298,1.0,1,36.5,100.0,24.0,3.0,3.0,1.0


# Задание 2. Первичное изучение данных
Проанализировать значения по столбцам, рассчитать базовые статистики, найти выбросы.

In [None]:
def analyze_numerical_data(df_selected, numerical_columns):
# Расчет основных статистик для числовых столбцов
    statistics = df_selected[numerical_columns].describe()
    return statistics


print("\nАнализ числовых данных:")
display(analyze_numerical_data(df_selected, ['rectal temperature', 'pulse', 'respiratory rate']))


def analyze_categorical_data(df_selected, categorical_columns):
    # Список для записи результатов
    analysis_results = []

    # Анализ категориальных данных
    for column in categorical_columns:
        mode_value = df_selected[column].mode()[0]  # Мода (самое частое значение)
        unique_values = df_selected[column].unique()  # Уникальные значения
        null_counts = df_selected[column].isnull().sum()  # Количество пропусков
        value_counts = df_selected[column].value_counts(dropna=False).to_dict()  # Распределение значений

        # Добавляем результаты в список
        analysis_results.append({
            "Столбец": column,
            "Мода": mode_value,
            "Уникальные значения": unique_values,
            "Пропуски": null_counts,
            "Распределение": value_counts
        })

    # Создаем DataFrame для результатов
    analysis_df = pd.DataFrame(analysis_results)
    return analysis_df

print("\nАнализ категориальных данных:")
display(analyze_categorical_data(df_selected, ['surgery?', 'Age', 'temperature of extremities', 'pain', 'outcome']))

# Исправление ошибок в данных
df_selected.loc[df_selected['Age'] == 9, 'Age'] = 2

# Функция для поиска выбросов
def find_outliers(df):
    outliers = {}

    # Для каждого числового столбца ищем выбросы
    for column in df.select_dtypes(include=['float64', 'int64']).columns:
        q1 = df[column].quantile(0.25)
        q3 = df[column].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - (1.5 * iqr)
        upper_bound = q3 + (1.5 * iqr)

        # Находим выбросы
        outlier_data = df[(df[column] < lower_bound) | (df[column] > upper_bound)]

        # Добавляем данные о выбросах в словарь
        outliers[column] = outlier_data if not outlier_data.empty else None

    return outliers

# Поиск выбросов
outliers = find_outliers(df_selected)

# Вывод информации о выбросах
print("\nАнализ выбросов:")
for column, rows in outliers.items():
    if rows is not None:
        print(f"\nСтолбец '{column}':")
        print(f"Количество выбросов: {len(rows)}")
        print("\nПервые несколько строк с выбросами:")
        display(rows)
    else:
        print(f"\nСтолбец '{column}': Выбросы отсутствуют.")

# Заключение
print("\nЗаключение:")
print("\n по столбцу age выбросы ошибочны - так как 24 выбора которые нашлись - это просто молодые лошади")
print(f'\nНадо обратить внимание на лошадей у которых Повышенная температура она может возникнуть из-за инфекции.')
print(f'\nУ 5 лошадей слишком высокий пульс, 4 из них были на операции. и 4 Умерли. большая вероятность что и эта лошадь умрет')


Анализ числовых данных:


Unnamed: 0,rectal temperature,pulse,respiratory rate
count,240.0,276.0,242.0
mean,38.167917,71.913043,30.417355
std,0.732289,28.630557,17.642231
min,35.4,30.0,8.0
25%,37.8,48.0,18.5
50%,38.2,64.0,24.5
75%,38.5,88.0,36.0
max,40.8,184.0,96.0



Анализ категориальных данных:


Unnamed: 0,Столбец,Мода,Уникальные значения,Пропуски,Распределение
0,surgery?,1.0,"[2.0, 1.0, nan]",1,"{1.0: 180, 2.0: 119, nan: 1}"
1,Age,1.0,"[1, 9]",0,"{1: 276, 9: 24}"
2,temperature of extremities,3.0,"[3.0, nan, 1.0, 4.0, 2.0]",56,"{3.0: 109, 1.0: 78, nan: 56, 2.0: 30, 4.0: 27}"
3,pain,3.0,"[5.0, 3.0, 2.0, nan, 4.0, 1.0]",55,"{3.0: 67, 2.0: 59, nan: 55, 5.0: 42, 4.0: 39, ..."
4,outcome,1.0,"[2.0, 3.0, 1.0, nan]",1,"{1.0: 178, 2.0: 77, 3.0: 44, nan: 1}"



Анализ выбросов:

Столбец 'surgery?': Выбросы отсутствуют.

Столбец 'Age':
Количество выбросов: 24

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
9,2.0,2,38.3,90.0,,1.0,5.0,1.0
13,2.0,2,38.0,92.0,28.0,1.0,1.0,2.0
16,1.0,2,,128.0,36.0,3.0,4.0,2.0
23,1.0,2,38.3,130.0,60.0,,2.0,1.0
39,1.0,2,39.2,146.0,96.0,,,2.0
41,2.0,2,39.0,150.0,72.0,,,1.0
55,1.0,2,38.6,160.0,20.0,3.0,3.0,2.0
74,1.0,2,,,,,,2.0
75,1.0,2,39.7,100.0,,3.0,2.0,3.0



Столбец 'rectal temperature':
Количество выбросов: 14

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
20,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
44,1.0,1,35.4,140.0,24.0,3.0,4.0,3.0
54,2.0,1,40.3,114.0,36.0,3.0,2.0,3.0
75,1.0,2,39.7,100.0,,3.0,2.0,3.0
80,1.0,1,36.4,98.0,35.0,3.0,4.0,2.0
91,2.0,1,40.3,114.0,36.0,3.0,2.0,2.0
99,2.0,1,39.6,108.0,51.0,3.0,2.0,1.0
118,1.0,1,36.5,78.0,30.0,1.0,5.0,1.0
141,2.0,1,36.0,42.0,30.0,,,2.0
238,2.0,1,36.1,88.0,,3.0,3.0,3.0



Столбец 'pulse':
Количество выбросов: 5

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
41,2.0,2,39.0,150.0,72.0,,,1.0
55,1.0,2,38.6,160.0,20.0,3.0,3.0,2.0
255,1.0,2,38.8,184.0,84.0,1.0,4.0,2.0
275,1.0,2,38.8,150.0,50.0,1.0,5.0,2.0



Столбец 'respiratory rate':
Количество выбросов: 17

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
39,1.0,2,39.2,146.0,96.0,,,2.0
41,2.0,2,39.0,150.0,72.0,,,1.0
82,1.0,2,38.1,100.0,80.0,3.0,3.0,1.0
84,1.0,1,37.8,60.0,80.0,1.0,2.0,1.0
103,1.0,2,38.0,140.0,68.0,1.0,3.0,1.0
106,1.0,1,38.3,52.0,96.0,,,1.0
120,1.0,1,39.4,54.0,66.0,1.0,2.0,1.0
125,1.0,1,38.0,42.0,68.0,4.0,3.0,1.0
186,1.0,1,39.3,64.0,90.0,2.0,,1.0



Столбец 'temperature of extremities': Выбросы отсутствуют.

Столбец 'pain': Выбросы отсутствуют.

Столбец 'outcome': Выбросы отсутствуют.

Заключение:

 по столбцу age выбросы ошибочны - так как 24 выбора которые нашлись - это просто молодые лошади

Надо обратить внимание на лошадей у которых Повышенная температура она может возникнуть из-за инфекции.

У 5 лошадей слишком высокий пульс, 4 из них были на операции. и 4 Умерли. большая вероятность что и эта лошадь умрет


# Задание 3. Работа с пропусками
Рассчитать количество пропусков для всех выбранных столбцов. Принять и обосновать решение о методе заполнения пропусков по каждому столбцу на основе рассчитанных статистик и возможной взаимосвязи значений в них. Сформировать датафрейм, в котором пропуски будут отсутствовать.

In [None]:
missing_data = df_selected.isnull().sum()
print("\nКоличество пропусков в каждом столбце:")
print(missing_data)


Количество пропусков в каждом столбце:
surgery?                       1
Age                            0
rectal temperature            60
pulse                         24
respiratory rate              58
temperature of extremities    56
pain                          55
outcome                        1
dtype: int64


In [None]:

def fill_missing_value(row, column_name, df):
    """
    Функция для заполнения пропуска в заданном столбце на основе значений других столбцов.

    Параметры:
    - row: строка DataFrame (тип pandas.Series).
    - column_name: имя столбца с пропуском (тип str).
    - df: DataFrame, из которого извлекаются данные для столбца.

    Возвращает:
    - Значение для заполнения пропуска.
    """
    # Логика для заполнения пропусков для столбца "surgery?"
    if column_name == "surgery?":
        if row["Age"] == 1 and (row["rectal temperature"] > 37.8 and row["pulse"] > 60):
            return 2
        else:
            return 1  # Операция была

    # Логика для заполнения пропусков для "rectal temperature"
    if column_name == "rectal temperature":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Используем медиану по столбцу 'rectal temperature' для замены NaN
            median_temperature = df.groupby('Age')['rectal temperature'].transform('median')
            return median_temperature[row.name]

    # Логика для заполнения пропусков для "pulse"
    if column_name == "pulse":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Используем медиану по столбцу 'pulse' для замены NaN
            median_pulse = df.groupby('Age')['pulse'].transform('median')
            return median_pulse[row.name]

    # Логика для заполнения пропусков для "respiratory rate"
    if column_name == "respiratory rate":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Используем медиану по столбцу 'respiratory rate' для замены NaN
            median_respiratory_rate = df.groupby('Age')['respiratory rate'].transform('median')
            return median_respiratory_rate[row.name]

    # Логика для заполнения пропусков для "temperature of extremities"
    if column_name == "temperature of extremities":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Группируем по 'rectal temperature' и проверяем условия
            rectal_temp = row["rectal temperature"]

            if rectal_temp > 38.5:
                return 2  # "Warm" extremities (2)
            elif rectal_temp < 37:
                return 4  # "Cold" extremities (4)
            else:
                # В остальных случаях используем моду по столбцу 'temperature of extremities'
                mode_temperature_extremities = df["temperature of extremities"].mode()[0]
                return mode_temperature_extremities

    # Логика для заполнения пропусков для "pain". честно говоря непонятно как предугадать, чтобы было правильно. поэтому беру просто моду
    if column_name == "pain":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Используем моду по столбцу 'pain' для замены NaN
            mode_pain = df["pain"].mode()[0]  # Получаем наиболее часто встречающееся значение
            return mode_pain

    # Логика для заполнения пропусков для "outcome"
    if column_name == "outcome":
        if pd.isnull(row[column_name]):  # Если значение пропущено
            # Анализируем распределение значений в столбце "outcome"
            outcome_counts = df["outcome"].value_counts(dropna=False)  # Количество каждого значения, включая NaN

            # Если в данных больше значений "2" (умерла), склоняемся к этому значению
            if outcome_counts.get(2, 0) > outcome_counts.get(1, 0):
                return 2  # Ставим "умерла", если большинство значений - это 2
            else:
                return outcome_counts.idxmax()  # Используем моду, если сбалансированное распределение или преобладает "жива"

    # Если логика не была указана, возвращаем значение строки
    return row[column_name]

columns_with_missing = df_selected.columns[df_selected.isnull().sum() > 0]
for column in columns_with_missing:
    df_selected[column] = df_selected.apply(
        lambda row: fill_missing_value(row, column, df_selected)
        if pd.isnull(row[column]) else row[column],
        axis=1
    )

# Проверка результата
print("\nЗаполненные данные:")
df_selected.tail(160)


Заполненные данные:


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_selected[column] = df_selected.apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_selected[column] = df_selected.apply(


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
140,1.0,1,38.1,44.0,9.0,3.0,2.0,1.0
141,2.0,1,36.0,42.0,30.0,4.0,3.0,2.0
142,1.0,1,38.1,120.0,24.0,4.0,5.0,2.0
143,1.0,1,37.8,48.0,28.0,1.0,1.0,1.0
144,1.0,1,37.1,84.0,40.0,3.0,2.0,3.0
...,...,...,...,...,...,...,...,...
295,1.0,1,38.1,120.0,70.0,4.0,2.0,3.0
296,2.0,1,37.2,72.0,24.0,3.0,4.0,3.0
297,1.0,1,37.5,72.0,30.0,4.0,4.0,2.0
298,1.0,1,36.5,100.0,24.0,3.0,3.0,1.0


In [None]:
missing_data_after_fill = df_selected.isnull().sum()
print("\nКоличество пропусков в каждом столбце после заполнения:")
print(missing_data_after_fill)


Количество пропусков в каждом столбце после заполнения:
surgery?                      0
Age                           0
rectal temperature            0
pulse                         0
respiratory rate              0
temperature of extremities    0
pain                          0
outcome                       0
dtype: int64


In [None]:

# Анализ числовых данных ПОСЛЕ заполнения
print("\nАнализ числовых данных ПОСЛЕ заполнения:")
display(analyze_numerical_data(df_selected, ['rectal temperature', 'pulse', 'respiratory rate']))

# Анализ категориальных данных ПОСЛЕ заполнения
print("\nАнализ категориальных данных ПОСЛЕ заполнения:")
display(analyze_categorical_data(df_selected, ['surgery?', 'Age', 'temperature of extremities', 'pain', 'outcome']))



Анализ числовых данных ПОСЛЕ заполнения:


Unnamed: 0,rectal temperature,pulse,respiratory rate
count,300.0,300.0,300.0
mean,38.161,71.386667,29.51
std,0.657231,27.968278,16.189613
min,35.4,30.0,8.0
25%,37.9,48.0,20.0
50%,38.1,60.0,24.0
75%,38.5,88.0,36.0
max,40.8,184.0,96.0



Анализ категориальных данных ПОСЛЕ заполнения:


Unnamed: 0,Столбец,Мода,Уникальные значения,Пропуски,Распределение
0,surgery?,1.0,"[2.0, 1.0]",0,"{1.0: 181, 2.0: 119}"
1,Age,1.0,"[1, 2]",0,"{1: 276, 2: 24}"
2,temperature of extremities,3.0,"[3.0, 2.0, 1.0, 4.0]",0,"{3.0: 152, 1.0: 78, 2.0: 41, 4.0: 29}"
3,pain,3.0,"[5.0, 3.0, 2.0, 4.0, 1.0]",0,"{3.0: 122, 2.0: 59, 5.0: 42, 4.0: 39, 1.0: 38}"
4,outcome,1.0,"[2.0, 3.0, 1.0]",0,"{1.0: 179, 2.0: 77, 3.0: 44}"





Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



In [None]:
# Поиск выбросов на основе измененных данных
outliers = find_outliers(df_selected)

# Вывод информации о выбросах
print("\nАнализ выбросов:")
for column, rows in outliers.items():
    if rows is not None:
        print(f"\nСтолбец '{column}':")
        print(f"Количество выбросов: {len(rows)}")
        print("\nПервые несколько строк с выбросами:")
        display(rows)
    else:
        print(f"\nСтолбец '{column}': Выбросы отсутствуют.")


Анализ выбросов:

Столбец 'surgery?': Выбросы отсутствуют.

Столбец 'Age':
Количество выбросов: 24

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
9,2.0,2,38.3,90.0,49.0,1.0,5.0,1.0
13,2.0,2,38.0,92.0,28.0,1.0,1.0,2.0
16,1.0,2,38.6,128.0,36.0,3.0,4.0,2.0
23,1.0,2,38.3,130.0,60.0,3.0,2.0,1.0
39,1.0,2,39.2,146.0,96.0,2.0,3.0,2.0
41,2.0,2,39.0,150.0,72.0,2.0,3.0,1.0
55,1.0,2,38.6,160.0,20.0,3.0,3.0,2.0
74,1.0,2,38.6,124.0,49.0,2.0,3.0,2.0
75,1.0,2,39.7,100.0,49.0,3.0,2.0,3.0



Столбец 'rectal temperature':
Количество выбросов: 20

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
20,1.0,1,39.9,72.0,60.0,1.0,5.0,1.0
44,1.0,1,35.4,140.0,24.0,3.0,4.0,3.0
54,2.0,1,40.3,114.0,36.0,3.0,2.0,3.0
75,1.0,2,39.7,100.0,49.0,3.0,2.0,3.0
80,1.0,1,36.4,98.0,35.0,3.0,4.0,2.0
91,2.0,1,40.3,114.0,36.0,3.0,2.0,2.0
99,2.0,1,39.6,108.0,51.0,3.0,2.0,1.0
113,1.0,1,36.8,60.0,28.0,4.0,3.0,2.0
117,2.0,1,39.5,60.0,24.0,3.0,3.0,3.0
118,1.0,1,36.5,78.0,30.0,1.0,5.0,1.0



Столбец 'pulse':
Количество выбросов: 5

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
41,2.0,2,39.0,150.0,72.0,2.0,3.0,1.0
55,1.0,2,38.6,160.0,20.0,3.0,3.0,2.0
255,1.0,2,38.8,184.0,84.0,1.0,4.0,2.0
275,1.0,2,38.8,150.0,50.0,1.0,5.0,2.0



Столбец 'respiratory rate':
Количество выбросов: 17

Первые несколько строк с выбросами:


Unnamed: 0,surgery?,Age,rectal temperature,pulse,respiratory rate,temperature of extremities,pain,outcome
3,1.0,2,39.1,164.0,84.0,4.0,2.0,2.0
39,1.0,2,39.2,146.0,96.0,2.0,3.0,2.0
41,2.0,2,39.0,150.0,72.0,2.0,3.0,1.0
82,1.0,2,38.1,100.0,80.0,3.0,3.0,1.0
84,1.0,1,37.8,60.0,80.0,1.0,2.0,1.0
103,1.0,2,38.0,140.0,68.0,1.0,3.0,1.0
106,1.0,1,38.3,52.0,96.0,3.0,3.0,1.0
120,1.0,1,39.4,54.0,66.0,1.0,2.0,1.0
125,1.0,1,38.0,42.0,68.0,4.0,3.0,1.0
186,1.0,1,39.3,64.0,90.0,2.0,3.0,1.0



Столбец 'temperature of extremities': Выбросы отсутствуют.

Столбец 'pain': Выбросы отсутствуют.

Столбец 'outcome': Выбросы отсутствуют.


После заполнения медианой числовых столбцов с группировкой по возрасту в целом статистика существенно не изменилась по сравнению со статистикой до заполнения пропусков. Но в температуре появились дополнительные выбросы.

для некоторых категориальных попытался реализовать какую-то логику. например для температуры конечностей. если температура больше 38.5, то скорее всего и температура конечностей будет теплой
если меньше 37, то холодной. в противном случае мы ставим просто mode самое частое значение у других лошадей. такое распеделение сыграло более удачно

или поле outcome тяжело предугадать что в нем может быть. но можно реализовать следующую логику заполнения. допустим датафрейм дали специально такой в котором больше мертвый лошадей, тогда нам логичнее ставить что лошадь умерла.

если же живых больше. то мы просто проставляем моду.