{ФКИИ} Лабораторная работа №3 (Оптимизация гиперпараметров в Optuna)

Выполнил студент уч. группы М8О-109СВ-24 Дрёмов А.С.

С помощью [optuna](https://optuna.readthedocs.io/en/stable/tutorial/index.html#key-features) взять пример, аналогичный [третьему туториалу](https://optuna.readthedocs.io/en/stable/tutorial/10_key_features/003_efficient_optimization_algorithms.html) документации, и, используя sklearn и с другим датасетом, выбрать другие  алгоритмы классификации и кластеризации не из туториала. Визуализировать графики для полученного процесса.
* В качестве других моделей подойдут любые алгоритмы классификации и регрессии из sklearn, которые не использовались в туториале
* Использовать 2 разных семплера и прунера
* При процессе оптимизации гиперпараметров использовать общую память через postgreSQL

В качестве отчёта выступают: исходный код, инструкция запуска реляционной БД.

In [1]:
# (прежде всего, необходимо запустить docker-контейнер с БД)
!docker run --name fkii_optuna -e POSTGRES_PASSWORD=qwerty -p 5432:5432 -d postgres:15.5

# (далее следует проверить, работает ли БД в контейнере)
# !docker logs fkii_optuna

# (если необходимо удалить контейнер с БД)
# !docker stop postgres-optuna
# !docker rm postgres-optuna

docker: Error response from daemon: Conflict. The container name "/fkii_optuna" is already in use by container "f937413d41e1810bc3e7b30eb18ee0f5ff4aeb81b5886e3a3925e3fed0bf717c". You have to remove (or rename) that container to be able to reuse that name.
See 'docker run --help'.


In [2]:
!pip install -q optuna
!pip install -q psycopg2-binary

import optuna



In [3]:
import sklearn.datasets
import sklearn.model_selection
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [4]:
storage_url = "postgresql://postgres:qwerty@localhost:5432/postgres"

Проведём оптимизацию гиперпараметров модели KNeighborsClassifier для задачи классификации на датасете Breast Cancer, используя четыре подхода: 
- TPE Sampler, 
- Random Sampler, 
- Median Pruner,
- Successive Halving Pruner

In [5]:
from optuna.visualization import (
    plot_optimization_history,
    plot_param_importances,
    plot_slice,
    plot_parallel_coordinate,
)

def objective_classification(trial):
    breast_cancer = sklearn.datasets.load_breast_cancer()
    X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(
        breast_cancer.data, breast_cancer.target, test_size=0.25, random_state=42
    )

    # Параметры для оптимизации
    n_neighbors = trial.suggest_int("n_neighbors", 1, 50)
    weights = trial.suggest_categorical("weights", ["uniform", "distance"])
    p = trial.suggest_int("p", 1, 5)

    clf = KNeighborsClassifier(
        n_neighbors=n_neighbors,
        weights=weights,
        p=p
    )
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    return accuracy


In [None]:
import matplotlib.pyplot as plt

# Оптимизация с TPE Sampler
tpe_sampler = optuna.samplers.TPESampler(seed=42)

test_tpe_sampler = optuna.create_study(
    storage=storage_url,
    direction="maximize",
    load_if_exists=False,
    sampler=tpe_sampler
)
test_tpe_sampler.optimize(objective_classification, n_trials=20)

print("Study 1 (TPE Sampler):")
print("best params:", test_tpe_sampler.best_params)
print("best value:", test_tpe_sampler.best_value)

fig1 = plot_optimization_history(test_tpe_sampler)
fig1.write_image("optimization_history_tpe.png")
fig1.show()

fig2 = plot_param_importances(test_tpe_sampler)
fig2.write_image("param_importances_tpe.png")
fig2.show()

fig3 = plot_slice(test_tpe_sampler)
fig3.write_image("slice_plot_tpe.png")
fig3.show()

fig4 = plot_parallel_coordinate(test_tpe_sampler)
fig4.write_image("parallel_coordinate_tpe.png")
fig4.show()

[I 2024-12-22 18:47:50,628] A new study created in RDB with name: no-name-83278319-7968-456f-8e5b-7b3a27a0c7ae
[I 2024-12-22 18:47:50,844] Trial 0 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 19, 'weights': 'uniform', 'p': 3}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:47:51,037] Trial 1 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 8, 'weights': 'uniform', 'p': 5}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:47:51,248] Trial 2 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 31, 'weights': 'uniform', 'p': 5}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:47:51,420] Trial 3 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 42, 'weights': 'uniform', 'p': 1}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:47:51,627] Trial 4 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 16, 'weights': 'uniform', '

Study 1 (TPE Sampler):
best params: {'n_neighbors': 16, 'weights': 'distance', 'p': 3}
best value: 0.972027972027972


 Оптимизация показала, что наибольшее влияние на модель оказывает гиперпараметр n_neighbors. Остальные параметры имеют незначительный эффект. Значение целевой функции достигло оптимума и стабилизировалось на уровне ~0.97

In [7]:
random_sampler = optuna.samplers.RandomSampler(seed=42)

test_random_sampler = optuna.create_study(
    storage=storage_url,
    direction="maximize",
    load_if_exists=False,
    sampler=random_sampler
)
test_random_sampler.optimize(objective_classification, n_trials=20)
print("Study 2 (Random Sampler):")
print("best params:", test_random_sampler.best_params)
print("best value:", test_random_sampler.best_value)

plot_optimization_history(test_random_sampler).show()
plot_param_importances(test_random_sampler).show()
plot_slice(test_random_sampler).show()
plot_parallel_coordinate(test_random_sampler).show()

[I 2024-12-22 18:43:41,959] A new study created in RDB with name: no-name-f887a6f6-eb72-4826-b1fc-bcb5409d7a90
[I 2024-12-22 18:43:42,238] Trial 0 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 19, 'weights': 'uniform', 'p': 3}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:43:42,473] Trial 1 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 8, 'weights': 'uniform', 'p': 5}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:43:42,678] Trial 2 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 31, 'weights': 'uniform', 'p': 5}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:43:42,829] Trial 3 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 42, 'weights': 'uniform', 'p': 1}. Best is trial 0 with value: 0.965034965034965.
[I 2024-12-22 18:43:43,010] Trial 4 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 16, 'weights': 'uniform', '

Study 2 (Random Sampler):
best params: {'n_neighbors': 13, 'weights': 'uniform', 'p': 3}
best value: 0.9790209790209791


Оптимизация показала, что наибольшее влияние на модель оказывает гиперпараметр n_neighbors. Остальные параметры имеют незначительный эффект. Значение целевой функции достигло оптимума и стабилизировалось на уровне ~0.98

In [8]:
median_pruner = optuna.pruners.MedianPruner(n_warmup_steps=5)

test_median_pruner = optuna.create_study(
    storage=storage_url,
    direction="maximize",
    load_if_exists=False,
    pruner=median_pruner
)
test_median_pruner.optimize(objective_classification, n_trials=20)
print("Study 3 (Median Pruner):")
print("best params:", test_median_pruner.best_params)
print("best value:", test_median_pruner.best_value)

plot_optimization_history(test_median_pruner).show()
plot_param_importances(test_median_pruner).show()
plot_slice(test_median_pruner).show()
plot_parallel_coordinate(test_median_pruner).show()

[I 2024-12-22 18:43:46,980] A new study created in RDB with name: no-name-d45602ab-cd91-4400-9df3-d0bad3e9dc52
[I 2024-12-22 18:43:47,261] Trial 0 finished with value: 0.9370629370629371 and parameters: {'n_neighbors': 3, 'weights': 'distance', 'p': 5}. Best is trial 0 with value: 0.9370629370629371.
[I 2024-12-22 18:43:47,495] Trial 1 finished with value: 0.972027972027972 and parameters: {'n_neighbors': 12, 'weights': 'uniform', 'p': 5}. Best is trial 1 with value: 0.972027972027972.
[I 2024-12-22 18:43:47,769] Trial 2 finished with value: 0.958041958041958 and parameters: {'n_neighbors': 9, 'weights': 'distance', 'p': 3}. Best is trial 1 with value: 0.972027972027972.
[I 2024-12-22 18:43:47,972] Trial 3 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 18, 'weights': 'uniform', 'p': 4}. Best is trial 1 with value: 0.972027972027972.
[I 2024-12-22 18:43:48,192] Trial 4 finished with value: 0.9440559440559441 and parameters: {'n_neighbors': 5, 'weights': 'uniform'

Study 3 (Median Pruner):
best params: {'n_neighbors': 13, 'weights': 'uniform', 'p': 5}
best value: 0.9790209790209791


Оптимизация показала, что наибольшее влияние на модель оказывает гиперпараметр n_neighbors. Остальные параметры имеют незначительный эффект. Значение целевой функции достигло оптимума и стабилизировалось на уровне ~0.96.5

In [9]:
successive_halving_pruner = optuna.pruners.SuccessiveHalvingPruner()

test_successive_halving_pruner = optuna.create_study(
    storage=storage_url,
    direction="maximize",
    load_if_exists=False,
    pruner=successive_halving_pruner
)
test_successive_halving_pruner.optimize(objective_classification, n_trials=20)
print("Study 4 (SuccessiveHalving Pruner):")
print("best params:", test_successive_halving_pruner.best_params)
print("best value:", test_successive_halving_pruner.best_value)

plot_optimization_history(test_successive_halving_pruner).show()
plot_param_importances(test_successive_halving_pruner).show()
plot_slice(test_successive_halving_pruner).show()
plot_parallel_coordinate(test_successive_halving_pruner).show()

[I 2024-12-22 18:43:52,134] A new study created in RDB with name: no-name-5d0e4bfd-4db4-4481-8e29-9f0c2938c5fb
[I 2024-12-22 18:43:52,365] Trial 0 finished with value: 0.972027972027972 and parameters: {'n_neighbors': 15, 'weights': 'uniform', 'p': 3}. Best is trial 0 with value: 0.972027972027972.
[I 2024-12-22 18:43:52,598] Trial 1 finished with value: 0.958041958041958 and parameters: {'n_neighbors': 20, 'weights': 'distance', 'p': 5}. Best is trial 0 with value: 0.972027972027972.
[I 2024-12-22 18:43:52,851] Trial 2 finished with value: 0.965034965034965 and parameters: {'n_neighbors': 14, 'weights': 'distance', 'p': 5}. Best is trial 0 with value: 0.972027972027972.
[I 2024-12-22 18:43:53,100] Trial 3 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 25, 'weights': 'uniform', 'p': 4}. Best is trial 0 with value: 0.972027972027972.
[I 2024-12-22 18:43:53,292] Trial 4 finished with value: 0.951048951048951 and parameters: {'n_neighbors': 7, 'weights': 'distance'

Study 4 (SuccessiveHalving Pruner):
best params: {'n_neighbors': 11, 'weights': 'uniform', 'p': 4}
best value: 0.9790209790209791


Оптимизация показала, что наибольшее влияние на модель оказывает гиперпараметр n_neighbors. Остальные параметры имеют незначительный эффект. Значение целевой функции достигло оптимума и стабилизировалось на уровне ~0.98

Общие выводы:
- во всех подходах наблюдается рост точности модели (~0.97) по мере увеличения числа испытаний, с достижением стабильного оптимума после 10–15 итераций,
- из всех подходов TPE Sampler и Median Pruner показали наилучшую эффективность, достигая стабильного роста метрики на ранних этапах оптимизации,
- параметр n_neighbors оказывает наибольшее влияние на качество модели, если $k \in [30, 50]$