Этот набор данных был получен в ходе ретроспективного исследования когорты пациентов детского возраста, поступивших с болью в живот в детскую больницу St. Hedwig в Регенсбурге, Германия. Для большинства пациентов были получены множественные ультразвуковые изображения брюшной полости в B-режиме, при этом количество проекций варьировалось от 1 до 15. Изображения отображают различные области интереса, такие как правый нижний квадрант живота, аппендикс, кишечник, лимфатические узлы и репродуктивные органы. Наряду с множественными ультразвуковыми изображениями для каждого субъекта, набор данных включает информацию, охватывающую лабораторные анализы, результаты физического обследования, клинические оценки, такие как баллы по шкале Альварадо и детского аппендицита, а также результаты ультразвукового исследования, полученные экспертами. Наконец, субъекты были помечены по трем целевым переменным: диагноз (аппендицит против отсутствия аппендицита), лечение (хирургическое против консервативного) и тяжесть (осложненное против неосложненного или отсутствие аппендицита). Исследование было одобрено Этическим комитетом Регенсбургского университета (№ 18-1063-101, 18-1063_1-101 и 18-1063_2-101) и проводилось в соответствии с действующими руководящими принципами и нормами.

Дополнительная переменная информация
Метки классов

Диагноз: [аппендицит, нет аппендицита], Тяжесть: [осложненное, неосложненное], Лечение: [консервативное, первичное хирургическое, вторичное хирургическое, одномоментная аппендэктомия]

https://archive.ics.uci.edu/dataset/938/regensburg+pediatric+appendicitis

In [25]:
# Эта команда используется для установки Python-библиотеки `ucimlrepo`
# Она позволяет загружать датасеты из репозитория UCI Machine Learning Repository
# Восклицательный знак (!) используется в Jupyter-ноутбуках и Google Colab для запуска команд терминала (как в командной строке)
!pip install ucimlrepo




In [26]:
# Импортируем функцию `fetch_ucirepo` из библиотеки `ucimlrepo`
# Она позволяет загружать наборы данных из репозитория UCI (одного из самых популярных хранилищ данных для машинного обучения)
from ucimlrepo import fetch_ucirepo

# Загружаем датасет по ID. Здесь ID = 938 соответствует датасету "Regensburg Pediatric Appendicitis"
# Это медицинский набор данных, предназначенный для анализа признаков аппендицита у детей
regensburg_pediatric_appendicitis = fetch_ucirepo(id=938)

# Извлекаем признаки (features) из набора данных.
# Это таблица с измерениями, которые используются в модели. Тип данных: pandas.DataFrame
X = regensburg_pediatric_appendicitis.data.features

# Извлекаем целевые переменные (targets), то есть "ответы", которые мы хотим предсказать.
# Например, наличие аппендицита или нет. Тип данных: pandas.Series или DataFrame (в зависимости от структуры)
y = regensburg_pediatric_appendicitis.data.targets

# Выводим метаданные датасета. Это информация о наборе данных: название, описание, источник, размер и т.д.
print(regensburg_pediatric_appendicitis.metadata)

# Выводим информацию о переменных (столбцах) в датасете.
# Здесь содержится описание каждого признака: имя, тип (числовой, категориальный и т.п.), единицы измерения и др.
print(regensburg_pediatric_appendicitis.variables)



{'uci_id': 938, 'name': 'Regensburg Pediatric Appendicitis', 'repository_url': 'https://archive.ics.uci.edu/dataset/938/regensburg+pediatric+appendicitis', 'data_url': 'https://archive.ics.uci.edu/static/public/938/data.csv', 'abstract': 'This repository holds the data from a cohort of pediatric patients with suspected appendicitis admitted with abdominal pain to Children’s Hospital St. Hedwig in Regensburg, Germany, between 2016 and 2021. Each patient has (potentially multiple) ultrasound (US) images, aka views, tabular data comprising laboratory, physical examination, scoring results and ultrasonographic findings extracted manually by the experts, and three target variables, namely, diagnosis, management and severity.', 'area': 'Health and Medicine', 'tasks': ['Classification'], 'characteristics': ['Tabular', 'Image'], 'num_instances': 782, 'num_features': 53, 'feature_types': ['Real', 'Categorical', 'Integer'], 'demographics': ['Age', 'Sex'], 'target_col': ['Management', 'Severity',

In [27]:
import pandas as pd        # Работа с таблицами (DataFrame)
import numpy as np         # Математика и массивы
import matplotlib.pyplot as plt  # Построение графиков
import seaborn as sns      # Красивые графики поверх matplotlib


In [28]:
# Объединяем таблицы X (признаки) и y (целевые переменные) в один DataFrame
# pd.concat — функция из библиотеки pandas, которая соединяет объекты вдоль указанной оси
# axis=1 означает объединение по столбцам (то есть "вширь", не "вдоль")
# В результате получается одна таблица df, где все признаки и целевые метки находятся вместе
df = pd.concat([X, y], axis=1)


# EDA

In [29]:
# Выводим общую информацию о DataFrame df
# .info() показывает:
# - количество строк и столбцов
# - названия всех столбцов
# - сколько в каждом столбце непустых значений (non-null)
# - тип данных каждого столбца (int, float, object и т.д.)
# Это помогает понять структуру данных и проверить, есть ли пропуски (NaN)
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 56 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Age                               781 non-null    float64
 1   BMI                               755 non-null    float64
 2   Sex                               780 non-null    object 
 3   Height                            756 non-null    float64
 4   Weight                            779 non-null    float64
 5   Length_of_Stay                    778 non-null    float64
 6   Alvarado_Score                    730 non-null    float64
 7   Paedriatic_Appendicitis_Score     730 non-null    float64
 8   Appendix_on_US                    777 non-null    object 
 9   Appendix_Diameter                 498 non-null    float64
 10  Migratory_Pain                    773 non-null    object 
 11  Lower_Right_Abd_Pain              774 non-null    object 
 12  Contrala

In [30]:
# Проверяем количество пропущенных значений (NaN) в каждом столбце DataFrame df
# .isna() возвращает таблицу того же размера, где каждое значение — True (если NaN) или False
# .sum() подсчитывает количество True по каждому столбцу, то есть число пропусков
# Это позволяет быстро увидеть, в каких столбцах есть недостающие данные
df.isna().sum()


Unnamed: 0,0
Age,1
BMI,27
Sex,2
Height,26
Weight,3
Length_of_Stay,4
Alvarado_Score,52
Paedriatic_Appendicitis_Score,52
Appendix_on_US,5
Appendix_Diameter,284


In [31]:
# Вычисляем процент пропущенных значений в каждом столбце
# df.isna().sum() — считает количество NaN по каждому столбцу
# len(df) — общее число строк (наблюдений) в таблице
# Делим количество NaN на общее число строк и умножаем на 100, чтобы получить процент
null = df.isna().sum() / len(df) * 100

# Преобразуем полученную серию в DataFrame с двумя столбцами:
# 'feature' — название столбца (признака)
# 'null_percentage' — процент пропущенных значений
null = pd.DataFrame({
    'feature': null.index,           # названия признаков
    'null_percentage': null         # процент NaN в каждом
}).sort_values(by='null_percentage', ascending=False).reset_index(drop=True)  # сортируем по убыванию процента пропусков
                                               # сбрасываем старый индекс и создаём новый с нуля

# Показываем первые 30 строк таблицы — признаки с наибольшим количеством пропусков
null.head(30)


Unnamed: 0,feature,null_percentage
0,Abscess_Location,98.337596
1,Gynecological_Findings,96.675192
2,Conglomerate_of_Bowel_Loops,94.501279
3,Segmented_Neutrophils,93.094629
4,Ileus,92.327366
5,Perfusion,91.943734
6,Enteritis,91.560102
7,Appendicolith,91.176471
8,Coprostasis,90.920716
9,Perforation,89.641944


In [32]:
# Выводим на экран информацию о переменных (столбцах) датасета
# regensburg_pediatric_appendicitis.variables — это объект, содержащий описание всех признаков (features) и целевых переменных (targets)
# В нём обычно указаны:
# - названия переменных
# - их типы (например, числовой, категориальный)
# - единицы измерения (если есть)
# - возможные значения для категориальных признаков
# Этот вывод помогает понять, как интерпретировать данные и какие типы переменных использовать для анализа
print(regensburg_pediatric_appendicitis.variables)


                                name     role         type demographic  \
0                                Age  Feature   Continuous         Age   
1                                BMI  Feature   Continuous        None   
2                                Sex  Feature  Categorical         Sex   
3                             Height  Feature   Continuous        None   
4                             Weight  Feature      Integer        None   
5                     Length_of_Stay  Feature      Integer        None   
6                         Management   Target  Categorical        None   
7                           Severity   Target  Categorical        None   
8              Diagnosis_Presumptive    Other       Binary        None   
9                          Diagnosis   Target       Binary        None   
10                    Alvarado_Score  Feature      Integer        None   
11     Paedriatic_Appendicitis_Score  Feature      Integer        None   
12                    Appendix_on_US  

Удаляем признаки где процент пропусков больше 65 %

In [33]:
# Получаем список всех названий столбцов (признаков и целевых переменных) в таблице df
df_cols = df.columns

# Создаём пустой список, куда будем добавлять названия столбцов с большим количеством пропущенных значений
drop_cols = []

# Проходимся по каждому столбцу в таблице
for col in df_cols:
    # Вычисляем процент пропущенных значений в текущем столбце col
    # df[col].isna().sum() — количество NaN в столбце
    # len(df) — общее количество строк
    # Выражение ((df[col].isna().sum()/len(df)) * 100) даёт процент пропусков
    if ((df[col].isna().sum() / len(df)) * 100) > 65:
        # Если процент пропусков больше 65%, добавляем название столбца в список drop_cols
        drop_cols.append(col)

# Выводим список всех столбцов, в которых больше 65% пропущенных значений
drop_cols


['Segmented_Neutrophils',
 'Appendix_Wall_Layers',
 'Target_Sign',
 'Appendicolith',
 'Perfusion',
 'Perforation',
 'Surrounding_Tissue_Reaction',
 'Appendicular_Abscess',
 'Abscess_Location',
 'Pathological_Lymph_Nodes',
 'Lymph_Nodes_Location',
 'Bowel_Wall_Thickening',
 'Conglomerate_of_Bowel_Loops',
 'Ileus',
 'Coprostasis',
 'Meteorism',
 'Enteritis',
 'Gynecological_Findings']

In [34]:
len(drop_cols)

18

In [35]:
# Удаляем из DataFrame df все столбцы, названия которых содержатся в списке drop_cols
# drop() — функция, которая удаляет указанные строки или столбцы
# drop_cols — список названий столбцов, которые нужно удалить (те, где было более 65% пропусков)
# axis=1 означает, что мы удаляем именно столбцы (а не строки, которые соответствовали бы axis=0)
df = df.drop(drop_cols, axis=1)

# Снова выводим информацию о DataFrame df
# .info() показывает:
# - сколько осталось строк и столбцов
# - названия и типы оставшихся переменных
# - сколько непустых значений в каждом столбце
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 38 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Age                               781 non-null    float64
 1   BMI                               755 non-null    float64
 2   Sex                               780 non-null    object 
 3   Height                            756 non-null    float64
 4   Weight                            779 non-null    float64
 5   Length_of_Stay                    778 non-null    float64
 6   Alvarado_Score                    730 non-null    float64
 7   Paedriatic_Appendicitis_Score     730 non-null    float64
 8   Appendix_on_US                    777 non-null    object 
 9   Appendix_Diameter                 498 non-null    float64
 10  Migratory_Pain                    773 non-null    object 
 11  Lower_Right_Abd_Pain              774 non-null    object 
 12  Contrala

In [36]:
# Подсчитываем количество вхождений каждого уникального значения в столбце 'Diagnosis'
# Это помогает понять, сколько наблюдений (строк) относится к каждой категории диагноза
# Например, сколько пациентов с аппендицитом, без него, и т.д.
df.Diagnosis.value_counts()


Unnamed: 0_level_0,count
Diagnosis,Unnamed: 1_level_1
appendicitis,463
no appendicitis,317


Заполним пропуски в диаметре аппендикса 0 если человек был здоров, если же болен - то средним значением.

Все остальные пропуски заполняем средним соответствующим своей группе по таргету - если это числовой, модой тоже по такому принципу - если это категориальный.

In [37]:
# Фильтруем строки таблицы df, оставляя только те, где значение в столбце 'Diagnosis' равно 'no appendicitis'
# query("Diagnosis == 'no appendicitis'") — это удобный способ фильтрации строк по условию
# В результате получаем подтаблицу только с пациентами без аппендицита
# Из этой подтаблицы выбираем столбец 'Appendix_Diameter' — диаметр аппендикса

# .describe() — вычисляет базовую статистику для числовых данных:
# - count: количество непустых значений
# - mean: среднее значение
# - std: стандартное отклонение
# - min: минимум
# - 25%, 50%, 75%: квартильные значения
# - max: максимум

df.query("Diagnosis == 'no appendicitis'")['Appendix_Diameter'].describe()


Unnamed: 0,Appendix_Diameter
count,127.0
mean,5.037008
std,1.171541
min,2.7
25%,4.0
50%,5.0
75%,5.5
max,9.5


Убираем напрямую коррелирующий признаки - диаметр аппендицита и PAS

In [38]:
# Удаляем два столбца из DataFrame df: 'Appendix_Diameter' и 'Paedriatic_Appendicitis_Score'
# Это может быть нужно, например, если ты больше не хочешь использовать эти признаки в анализе или модели
# drop() — функция для удаления
# axis=1 означает, что удаляем по столбцам (а не по строкам)

df = df.drop(['Appendix_Diameter', 'Paedriatic_Appendicitis_Score'], axis=1)


# Catboost

In [39]:
# Устанавливаем библиотеку CatBoost — это фреймворк от компании Яндекс для построения моделей градиентного бустинга
# Подходит для табличных данных, хорошо работает с категориальными признаками без необходимости их кодирования вручную
# ! — используется в Jupyter или Google Colab для выполнения команды как в терминале
!pip install catboost




In [40]:
# Импортируем функцию train_test_split из библиотеки scikit-learn
# Она используется для разделения набора данных на обучающую (train) и тестовую (test) выборки
# Это важно, чтобы проверить, насколько хорошо модель работает на новых, невиданных данных
from sklearn.model_selection import train_test_split

# Импортируем библиотеку catboost (CatBoost) — это фреймворк машинного обучения от Яндекса
# Он реализует градиентный бустинг по решающим деревьям и работает прямо с категориальными признаками
# Здесь просто подключается вся библиотека (можно будет использовать, например, catboost.CatBoostClassifier)
import catboost


In [41]:
# Разделяем данные на обучающую и тестовую выборки

# df.drop('Diagnosis', axis=1) — удаляем столбец 'Diagnosis' из таблицы признаков, т.е. оставляем только X (входные признаки)
# df['Diagnosis'] — это целевая переменная (y), которую модель должна предсказывать
# test_size=0.2 — 20% данных пойдут в тестовую выборку, 80% в обучающую
# random_state=42 — фиксируем случайность для воспроизводимости (чтобы при повторном запуске деление было тем же)

X_train, X_test, y_train, y_test = train_test_split(
    df.drop('Diagnosis', axis=1),  # признаки
    df['Diagnosis'],               # целевая переменная
    test_size=0.2,
    random_state=42
)

# Создаём классификатор CatBoost

# CatBoostClassifier — это модель градиентного бустинга для задач классификации
# Пока модель создана с настройками по умолчанию, без обучения
model = catboost.CatBoostClassifier()


In [55]:
# Выбираем все категориальные признаки из обучающей выборки X_train

# X_train.select_dtypes('object') — выбираем только те столбцы, у которых тип данных 'object'
# Обычно тип 'object' в pandas используется для строк, что соответствует категориальным признакам
# .columns — получаем только названия этих столбцов
# .to_list() — преобразуем названия в обычный список Python

cat_cols = X_train.select_dtypes('object').columns.to_list()
cat_cols

['Sex',
 'Appendix_on_US',
 'Migratory_Pain',
 'Lower_Right_Abd_Pain',
 'Contralateral_Rebound_Tenderness',
 'Coughing_Pain',
 'Nausea',
 'Loss_of_Appetite',
 'Neutrophilia',
 'Ketones_in_Urine',
 'RBC_in_Urine',
 'WBC_in_Urine',
 'Dysuria',
 'Stool',
 'Peritonitis',
 'Psoas_Sign',
 'Ipsilateral_Rebound_Tenderness',
 'US_Performed',
 'Free_Fluids',
 'Management',
 'Severity']

In [56]:
print(df.columns)

Index(['Age', 'BMI', 'Sex', 'Height', 'Weight', 'Length_of_Stay',
       'Alvarado_Score', 'Appendix_on_US', 'Migratory_Pain',
       'Lower_Right_Abd_Pain', 'Contralateral_Rebound_Tenderness',
       'Coughing_Pain', 'Nausea', 'Loss_of_Appetite', 'Body_Temperature',
       'WBC_Count', 'Neutrophil_Percentage', 'Neutrophilia', 'RBC_Count',
       'Hemoglobin', 'RDW', 'Thrombocyte_Count', 'Ketones_in_Urine',
       'RBC_in_Urine', 'WBC_in_Urine', 'CRP', 'Dysuria', 'Stool',
       'Peritonitis', 'Psoas_Sign', 'Ipsilateral_Rebound_Tenderness',
       'US_Performed', 'Free_Fluids', 'Management', 'Severity', 'Diagnosis'],
      dtype='object')


In [57]:
# Обучаем модель CatBoostClassifier на обучающей выборке
# Заменяем NaN в категориальных признаках на строку 'missing'
X_train[cat_cols] = X_train[cat_cols].fillna('appendicitis')
X_test[cat_cols] = X_test[cat_cols].fillna('appendicitis')
# X_train — обучающие признаки (таблица без Diagnosis)
# y_train — обучающие ответы (столбец Diagnosis)
# cat_features=cat_cols — указываем список категориальных признаков
# Это позволяет CatBoost обрабатывать строковые признаки напрямую без предварительного кодирования (например, one-hot)

model.fit(X_train, y_train, cat_features=cat_cols)


Learning rate set to 0.077253
0:	learn: 1.0252492	total: 11.4ms	remaining: 11.4s
1:	learn: 0.9634523	total: 26.5ms	remaining: 13.2s
2:	learn: 0.9035002	total: 38.6ms	remaining: 12.8s
3:	learn: 0.8530436	total: 52.3ms	remaining: 13s
4:	learn: 0.8016975	total: 65.7ms	remaining: 13.1s
5:	learn: 0.7551701	total: 79.6ms	remaining: 13.2s
6:	learn: 0.7121049	total: 94.9ms	remaining: 13.5s
7:	learn: 0.6715601	total: 106ms	remaining: 13.2s
8:	learn: 0.6429455	total: 118ms	remaining: 13s
9:	learn: 0.6148471	total: 131ms	remaining: 13s
10:	learn: 0.5878958	total: 144ms	remaining: 12.9s
11:	learn: 0.5647791	total: 158ms	remaining: 13s
12:	learn: 0.5424293	total: 173ms	remaining: 13.1s
13:	learn: 0.5204302	total: 186ms	remaining: 13.1s
14:	learn: 0.5010913	total: 200ms	remaining: 13.1s
15:	learn: 0.4809394	total: 207ms	remaining: 12.7s
16:	learn: 0.4662179	total: 218ms	remaining: 12.6s
17:	learn: 0.4512834	total: 232ms	remaining: 12.7s
18:	learn: 0.4388950	total: 244ms	remaining: 12.6s
19:	learn: 0

<catboost.core.CatBoostClassifier at 0x7d1417b18ad0>