# Лабораторная работа 5.3

In [28]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import time

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score
from sklearn.model_selection import RandomizedSearchCV, cross_val_score
from scipy.stats import uniform, randint
from hyperopt import hp, fmin, tpe, Trials, STATUS_OK

%matplotlib inline

In [19]:
diabetes = pd.read_csv("diabetes.csv")
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [20]:
X = diabetes.drop(columns=['Outcome'])
y = diabetes['Outcome']

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

## Задание 1

In [22]:
param_dist = {
    'max_depth': randint(3, 10),
    'learning_rate': uniform(0.01, 0.3),
    'n_estimators': randint(50, 300),
    'subsample': uniform(0.6, 0.4),
    'colsample_bytree': uniform(0.6, 0.4),
    'gamma': uniform(0, 0.5)
}

In [23]:
xgb = XGBClassifier(eval_metric='logloss')


random_search = RandomizedSearchCV(
    estimator=xgb,
    param_distributions=param_dist,
    n_iter=50,
    cv=5,
    scoring='roc_auc',
    n_jobs=-1
)


In [38]:
start_time = time.time()
random_search.fit(X_train, y_train)
end_time = time.time()


print("Лучшие параметры:", random_search.best_params_)
print("Лучший ROC AUC:", random_search.best_score_)
print("Время: %.2f секунд" % (end_time - start_time))

Лучшие параметры: {'colsample_bytree': np.float64(0.9308376736989094), 'gamma': np.float64(0.22323503697812203), 'learning_rate': np.float64(0.1314645982960667), 'max_depth': 3, 'n_estimators': 60, 'subsample': np.float64(0.7602885282282011)}
Лучший ROC AUC: 0.8336570658519016
Время: 2.67 секунд


In [40]:
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)
print("Test Accuracy:", accuracy_score(y_test, y_pred))
print("Test ROC AUC:", roc_auc_score(y_test, best_model.predict_proba(X_test)[:, 1]))

Test Accuracy: 0.7402597402597403
Test ROC AUC: 0.8130242126918816


## Задание 2

In [29]:
space = {
    'max_depth': hp.quniform('max_depth', 3, 10, 1),
    'learning_rate': hp.uniform('learning_rate', 0.01, 0.3),
    'n_estimators': hp.quniform('n_estimators', 50, 300, 1),
    'subsample': hp.uniform('subsample', 0.6, 1.0),
    'colsample_bytree': hp.uniform('colsample_bytree', 0.6, 1.0),
    'gamma': hp.uniform('gamma', 0, 0.5)
}

In [41]:
def objective(params):
    params = {
        'max_depth': int(params['max_depth']),
        'learning_rate': params['learning_rate'],
        'n_estimators': int(params['n_estimators']),
        'subsample': params['subsample'],
        'colsample_bytree': params['colsample_bytree'],
        'gamma': params['gamma']
    }
    
    model = XGBClassifier(
        eval_metric='logloss',
        **params
    )
    
    scores = cross_val_score(
        model, 
        X_train, 
        y_train, 
        cv=5, 
        scoring='roc_auc',
        n_jobs=-1
    )
    
    return {'loss': -np.mean(scores), 'status': STATUS_OK}

In [43]:
trials = Trials()
start_time = time.time()
best = fmin(
    fn=objective,
    space=space,
    algo=tpe.suggest,
    max_evals=50,
    trials=trials
)
end_time = time.time()


print("Лучшие параметры:", best)
print("Лучший ROC AUC:", -trials.best_trial['result']['loss'])
print("Время выполнения: %.2f секунд" % (end_time - start_time))

100%|█| 50/50 [00:05<00:00,  9.87trial/s, best loss: -0.8345812529497975
Лучшие параметры: {'colsample_bytree': np.float64(0.604033248098524), 'gamma': np.float64(0.18983480270459602), 'learning_rate': np.float64(0.044166682261626004), 'max_depth': np.float64(3.0), 'n_estimators': np.float64(82.0), 'subsample': np.float64(0.8574266766330152)}
Лучший ROC AUC: 0.8345812529497975
Время выполнения: 5.08 секунд


In [37]:
best_params = {
    'max_depth': int(best['max_depth']),
    'learning_rate': best['learning_rate'],
    'n_estimators': int(best['n_estimators']),
    'subsample': best['subsample'],
    'colsample_bytree': best['colsample_bytree'],
    'gamma': best['gamma']
}

best_model = XGBClassifier(
    eval_metric='logloss',
    **best_params
)
best_model.fit(X_train, y_train)

y_pred = best_model.predict(X_test)
print("Test Accuracy:", accuracy_score(y_test, y_pred))
print("Test ROC AUC:", roc_auc_score(y_test, best_model.predict_proba(X_test)[:, 1]))

Test Accuracy: 0.7056277056277056
Test ROC AUC: 0.8138946035765153


Парарметры
- Оба метода выбрали неглубокие деревья (max_depth = 3), что снижает риск переобучения.
- TPE выбрал более низкий learning_rate (0.044)
- Random Search дал более высокий colsample_bytree (0.931), что может указывать на использование почти всех признаков.
- TPE предложил больше деревьев (n_estimators=82 vs. 60)

Качество
- Оба метода дали схожий ROC AUC (~0.834), что говорит о близком качестве моделей.
- Random Search показал лучшую Accuracy (0.74 vs. 0.70), но это может быть случайностью из-за малого тестового набора.
- TPE немного лучше по тест ROC AUC (0.814 vs. 0.813).

Время оптимизации
- Random Search работает быстрее (в 2 раза) из-за простоты метода.
- TPE медленнее, но может быть эффективнее на сложных задачах (в данном случае разница в качестве небольшая).