# Загрузка библиотек

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier
from xgboost import XGBClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_val_score

from sklearn.model_selection import GridSearchCV

# Загрузка и предобработка данных

In [2]:
# Загрузка данных
file_path = 'hepatitis.csv'
hepatitis_data = pd.read_csv(file_path)
hepatitis_data.head()

Unnamed: 0,age,sex,steroid,antivirals,fatigue,malaise,anorexia,liver_big,liver_firm,spleen_palpable,spiders,ascites,varices,bilirubin,alk_phosphate,sgot,albumin,protime,histology,class
0,30,male,False,False,False,False,False,False,False,False,False,False,False,1.0,85.0,18.0,4.0,,False,live
1,50,female,False,False,True,False,False,False,False,False,False,False,False,0.9,135.0,42.0,3.5,,False,live
2,78,female,True,False,True,False,False,True,False,False,False,False,False,0.7,96.0,32.0,4.0,,False,live
3,31,female,,True,False,False,False,True,False,False,False,False,False,0.7,46.0,52.0,4.0,80.0,False,live
4,34,female,True,False,False,False,False,True,False,False,False,False,False,1.0,,200.0,4.0,,False,live


In [3]:
def find_missing_values(df):
    """
    Находит пропуски в данных DataFrame и возвращает информацию о пропусках.

    Функция анализирует переданный DataFrame на наличие пропущенных значений в каждом столбце,
    вычисляет процент пропущенных значений и общее количество пропущенных строк для каждого столбца,
    где обнаружены пропуски. Результат представлен в виде DataFrame, отсортированного по убыванию
    процента пропущенных значений.

    Параметры:
    df (pandas.DataFrame): DataFrame для анализа.

    Возвращает:
    pandas.DataFrame: DataFrame с тремя столбцами:
    'Столбец' - наименования столбцов с пропусками,
    'Пропущено в %' - процент пропущенных значений по столбцу,
    'Строк пропущено' - количество пропущенных строк по столбцу.
    Сортировка выполняется по столбцу 'Пропущено в %' в убывающем порядке.
    """
    # Вычисляем количество пропущенных значений в каждом столбце
    missing_counts = df.isnull().sum()

    # Отфильтровываем столбцы, где нет пропущенных значений
    missing_counts = missing_counts[missing_counts > 0]

    # Вычисляем процент пропущенных значений для каждого столбца
    missing_percent = (missing_counts / len(df)) * 100

    # Округляем процент пропущенных значений до двух знаков после запятой
    missing_percent = missing_percent.round(2)

    # Создаем DataFrame с результатами
    missing_df = pd.DataFrame({
    'Столбец': missing_counts.index,
    'Пропущено в %': missing_percent.values,
    'Строк пропущено': missing_counts.values
    })

    # Сортируем по проценту пропущенных значений в убывающем порядке
    missing_df = missing_df.sort_values(by='Пропущено в %', ascending=False).reset_index(drop=True)

    # Устанавливаем параметры отображения, чтобы все строки были видны
    pd.set_option('display.max_rows', None)

    return missing_df

missing_info = find_missing_values(hepatitis_data)
missing_info

Unnamed: 0,Столбец,Пропущено в %,Строк пропущено
0,protime,43.23,67
1,alk_phosphate,18.71,29
2,albumin,10.32,16
3,liver_firm,7.1,11
4,liver_big,6.45,10
5,bilirubin,3.87,6
6,spleen_palpable,3.23,5
7,spiders,3.23,5
8,ascites,3.23,5
9,varices,3.23,5


In [4]:
# Заполнение пропущенных числовых значений средним значением
imputer = SimpleImputer(strategy='mean')
hepatitis_data[[
    'bilirubin', 'alk_phosphate', 'sgot', 'albumin', 'protime'
]] = imputer.fit_transform(hepatitis_data[[
    'bilirubin', 'alk_phosphate', 'sgot', 'albumin','protime'
]])

# Заполнение пропущенных категориальных значений наиболее частым значением
hepatitis_data['steroid'] = hepatitis_data['steroid'].fillna(hepatitis_data['steroid'].mode()[0])

In [5]:
# Кодирование категориальных переменных
categorical_features = [
    'sex', 'steroid', 'antivirals', 'fatigue', 'malaise', 'anorexia', 
    'liver_big', 'liver_firm', 'spleen_palpable', 'spiders', 'ascites', 'varices', 'histology', 'class'
]
hepatitis_data[categorical_features] = hepatitis_data[categorical_features].apply(LabelEncoder().fit_transform)

In [6]:
# Разделение на признаки и целевую переменную
X = hepatitis_data.drop('class', axis=1)
y = hepatitis_data['class']

# Разделение на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
# Нормализация числовых переменных
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Построение моделей

Теперь, когда данные предварительно обработаны и готовы к использованию, мы можем приступить к построению модели. Мы попробуем несколько моделей классификации и выберем лучшую на основе метрики Accuracy.

1. `Логистическая регрессия`
2. `Случайный лес`
3. `Метод опорных векторов (SVM)`

Мы будем использовать кросс-валидацию для оценки каждой модели.

In [8]:
# Создание моделей
models = {
    "Logistic Regression": LogisticRegression(),
    "Random Forest": RandomForestClassifier(),
    "SVM": SVC(),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42),
    "XGBoost": XGBClassifier(random_state=42),
    "AdaBoost": AdaBoostClassifier(random_state=42),
    "K-Nearest Neighbors": KNeighborsClassifier(),
    "Naive Bayes": GaussianNB(),
    "Neural Network": MLPClassifier(max_iter=1000, random_state=42)
}

In [9]:
# Функция для оценки моделей
def evaluate_models(models, X_train, y_train):
    results = {}
    for name, model in models.items():
        scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
        results[name] = scores.mean()
    return results

# Оценка моделей
model_performance = evaluate_models(models, X_train, y_train)

# Вывод результатов
for model_name, performance in model_performance.items():
    print(f"{model_name}: {performance:.4f}")

Logistic Regression: 0.8227
Random Forest: 0.8627
SVM: 0.8953
Gradient Boosting: 0.8223
XGBoost: 0.8307
AdaBoost: 0.8233
K-Nearest Neighbors: 0.8550
Naive Bayes: 0.5243
Neural Network: 0.8543


Лучше всего показала себя базовая модель основанная на методе опорных векторов `SVM`

In [10]:
# Выбор лучшей модели
best_model_name = max(model_performance, key=model_performance.get)
best_model = models[best_model_name]

# Обучение лучшей модели на всех тренировочных данных
best_model.fit(X_train, y_train)

# Оценка на тестовых данных
accuracy = best_model.score(X_test, y_test)
print(f"Best Model: {best_model_name} with Accuracy: {accuracy:.4f}")

Best Model: SVM with Accuracy: 0.7419


# Подбор гипперпараметров для лучшей модели

In [11]:
# Определение сетки гиперпараметров
param_grid = {
    'C': [0.1, 1, 10, 100, 1000],
    'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
    'kernel': ['rbf']
}

# Создание модели SVM
svm = SVC()

In [12]:
# Настройка гиперпараметров с использованием GridSearchCV
grid_search = GridSearchCV(svm, param_grid, refit=True, verbose=2, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Лучшие гиперпараметры
best_params = grid_search.best_params_
print(f"Best parameters found: {best_params}")

Fitting 5 folds for each of 25 candidates, totalling 125 fits
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .........................C=0.1, gamma=1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END .......................C=0.1, gamma=0.1, kernel=rbf; total time=   0.0s
[CV] END ......................C=0.1, gamma=0.01, kernel=rbf; total time=   0.0s
[CV] END ......................C=0.1, gamma=0.0

In [13]:
# Оценка модели на тестовых данных
best_svm = grid_search.best_estimator_
test_accuracy = best_svm.score(X_test, y_test)
print(f"Test set accuracy with best parameters: {test_accuracy:.4f}")

Test set accuracy with best parameters: 0.8710


# Выводы

1. `Оценка моделей`

При обучении моделей получились следующие результаты:

1. Логистическая регрессия: 82.27%
2. Случайный лес: 87.03%
3. Метод опорных векторов (SVM): 89.53%
4. Градиентный бустинг: 82.23%
5. XGBoost: 83.07%
6. Адаптивный бустинг (AdaBoost): 82.33%
7. K-ближайших соседей (KNN): 85.50%
8. Наивный байесовский классификатор (Naive Bayes): 52.43%
9. Нейронная сеть: 85.43%

На этапе кросс-валидации наилучший результат показала модель SVM с точностью 89.53%.

2. `Обучение лучшей модели`

Лучшая модель (SVM) была обучена на всех тренировочных данных и показала точность 74.19% на тестовых данных. Такого результата удалось добиться именно при построении базовой модели

3. `Подбор гипперпараметров`

Настроенные гиперпараметры: $C=1000$ - параметр регуляризации, $γ=0.0001$ - параметр ядра RBF.

В моделях основанных на методе опорных векторов эти параметры являются ключевыми.

Точность модели SVM с настроенными гиперпараметрами на тестовом наборе данных составила 87.10%. Это значительное улучшение по сравнению с предыдущей моделью, что подтверждает важность настройки гиперпараметров.

**Заключение:**

Эти результаты показывают, что модель SVM с правильно настроенными гиперпараметрами может эффективно предсказывать исход заболевания гепатитом на основе медицинских показателей. Настройка гиперпараметров позволяет значительно улучшить производительность модели. 