<a href="https://colab.research.google.com/github/takzen/ai-engineering-handbook/blob/main/60_Bayesian_Optimization_Optuna.ipynb" target="_parent">
    <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# üéØ Bayesian Optimization: Inteligentne strojenie (Optuna)

Grid Search jest g≈Çupi ‚Äì sprawdza kombinacje, kt√≥re nie majƒÖ sensu.
Random Search jest okej, ale to hazard.

**Optymalizacja Bayesowska** buduje probabilistyczny model (tzw. Surrogate Model) Twojej funkcji celu.
Uczy siƒô na bie≈ºƒÖco: *"Je≈õli `learning_rate=0.1` da≈Ç s≈Çaby wynik, to nie sprawdzaj `0.11`, sprawd≈∫ `0.001`"*.

U≈ºyjemy biblioteki **Optuna**, kt√≥ra implementuje algorytm **TPE (Tree-structured Parzen Estimator)**. Jest szybka, prosta i sama rysuje wykresy.

**Zadanie:** Znale≈∫ƒá idealne parametry dla Lasu Losowego na trudnym zbiorze danych.

In [1]:
# Instalacja (je≈õli nie masz w ≈õrodowisku)
# !uv pip install optuna

import optuna
import sklearn
import sklearn.datasets
import sklearn.ensemble
import sklearn.model_selection
import sklearn.svm

# 1. DANE (Rak piersi - klasyfikacja)
data = sklearn.datasets.load_breast_cancer()
X, y = data.data, data.target

print(f"Dane wczytane. Kszta≈Çt: {X.shape}")

Dane wczytane. Kszta≈Çt: (569, 30)


## Funkcja Celu (Objective Function)

To jest serce Optuny.
Definiujemy funkcjƒô, kt√≥ra:
1.  Przyjmuje obiekt `trial` (pr√≥bƒô).
2.  Prosi `trial` o sugestiƒô parametr√≥w (np. *"Wylosuj mi liczbƒô ca≈ÇkowitƒÖ z zakresu 2-32"*).
3.  Trenuje model z tymi parametrami.
4.  Zwraca wynik (np. Accuracy).

Optuna bƒôdzie wywo≈Çywaƒá tƒô funkcjƒô wielokrotnie, za ka≈ºdym razem podsuwajƒÖc "mƒÖdrzejsze" parametry.

In [2]:
def objective(trial):
    # 1. Sugerowanie parametr√≥w (Search Space)
    
    # Wybierz model (Ciekawostka: Optuna mo≈ºe dobieraƒá nawet typ modelu!)
    classifier_name = trial.suggest_categorical("classifier", ["SVC", "RandomForest"])
    
    if classifier_name == "SVC":
        # Parametry dla SVM
        svc_c = trial.suggest_float("svc_c", 1e-10, 1e10, log=True) # Skala logarytmiczna!
        model = sklearn.svm.SVC(C=svc_c, gamma="auto")
        
    else:
        # Parametry dla Lasu
        rf_n_estimators = trial.suggest_int("rf_n_estimators", 10, 1000)
        rf_max_depth = trial.suggest_int("rf_max_depth", 2, 32, log=True)
        model = sklearn.ensemble.RandomForestClassifier(
            n_estimators=rf_n_estimators, 
            max_depth=rf_max_depth
        )

    # 2. Walidacja Krzy≈ºowa (3-Fold)
    # ≈ªeby wynik by≈Ç wiarygodny, robimy szybkie CV
    score = sklearn.model_selection.cross_val_score(model, X, y, n_jobs=-1, cv=3)
    accuracy = score.mean()
    
    return accuracy

print("Funkcja celu zdefiniowana.")

Funkcja celu zdefiniowana.


## Uruchomienie Badania (Study)

Tworzymy obiekt `study` i m√≥wimy mu: *"Maksymalizuj wynik funkcji objective"*.
Damy mu 50 pr√≥b (`n_trials=50`).

Obserwuj logi. Zobaczysz, jak Optuna skacze po parametrach.

In [3]:
# Wy≈ÇƒÖczamy nadmiar log√≥w (≈ºeby by≈Ço czytelniej)
optuna.logging.set_verbosity(optuna.logging.WARNING)

# Tworzymy badanie
study = optuna.create_study(direction="maximize")

print("üöÄ Start optymalizacji...")
# Uruchamiamy (50 pr√≥b)
study.optimize(objective, n_trials=50, show_progress_bar=True)

print("‚úÖ Koniec.")

üöÄ Start optymalizacji...


  0%|          | 0/50 [00:00<?, ?it/s]

‚úÖ Koniec.


## Analiza Wynik√≥w

Co wygra≈Ço? Czy lepszy by≈Ç SVM czy Las? Jakie parametry zadzia≈Ça≈Çy?

In [4]:
print("üèÜ NAJLEPSZY WYNIK:")
print(f"Accuracy: {study.best_value:.4f}")
print("Parametry:")
for key, value in study.best_params.items():
    print(f"  {key}: {value}")

# Sprawd≈∫my historiƒô
trials_df = study.trials_dataframe()
# Sortujemy po wyniku
display(trials_df.sort_values('value', ascending=False).head(5)[['params_classifier', 'value']])

üèÜ NAJLEPSZY WYNIK:
Accuracy: 0.9631
Parametry:
  classifier: RandomForest
  rf_n_estimators: 585
  rf_max_depth: 17


Unnamed: 0,params_classifier,value
11,RandomForest,0.963102
22,RandomForest,0.963102
24,RandomForest,0.963093
23,RandomForest,0.961348
21,RandomForest,0.961339


In [5]:
# WIZUALIZACJA 1: Historia Optymalizacji
# Zobaczysz, czy algorytm siƒô "uczy≈Ç" (czy punkty pnƒÖ siƒô w g√≥rƒô)
optuna.visualization.plot_optimization_history(study).show()

In [6]:
# WIZUALIZACJA 2: Wa≈ºno≈õƒá Hiperparametr√≥w
# Co mia≈Ço najwiƒôkszy wp≈Çyw na wynik? Typ modelu? G≈Çƒôboko≈õƒá drzewa?
try:
    fig = optuna.visualization.plot_param_importances(study)
    fig.show()
except:
    print("Potrzeba wiƒôcej pr√≥b, aby oceniƒá wa≈ºno≈õƒá parametr√≥w dla r√≥≈ºnych modeli.")

## üß† Podsumowanie: Dlaczego Optuna?

1.  **Warunkowo≈õƒá:** Zauwa≈º, ≈ºe w kodzie u≈ºyli≈õmy `if classifier == "SVC"`.
    *   GridSearch by zg≈Çupia≈Ç (pr√≥bowa≈Çby ustawiƒá `rf_n_estimators` dla SVM-a).
    *   Optuna rozumie, ≈ºe parametr `rf_n_estimators` istnieje TYLKO wtedy, gdy wybrano Las. To pozwala testowaƒá **r√≥≈ºne architektury** w jednym przebiegu.
2.  **Pruning (Przycinanie):** Optuna potrafi przerwaƒá trening w po≈Çowie (np. po 10 epokach sieci neuronowej), je≈õli widzi, ≈ºe "nic z tego nie bƒôdzie". (Tu tego nie u≈ºyli≈õmy, ale przy Deep Learningu to oszczƒôdza 50% czasu).

**Wniosek:**
Przesta≈Ñ u≈ºywaƒá `GridSearchCV`. Zacznij u≈ºywaƒá Optuny. Jest szybsza, mƒÖdrzejsza i obs≈Çuguje PyTorch/XGBoost/Sklearn w jednym standardzie.