# Lista 7

## scikit i Optuna

(6pkt + 3pkt)

Na liście znajduje się 5 zadań. Zadanie *optuna* jest za 2pkt, a inne zadania za 1pkt. Po rozwiązaniu zadania pokaż kod prowadzącemu i odpowiedz na **pytanie kontrolne** — tylko wtedy przyznajemy punkty. Dodatkowo prześlij zadanie na platformie skos.

Zadania dodatkowe oznaczone są ⭐️. Za wykonanie każdego z nich otrzymasz 1pkt.

## KFold

Wykonaj walidację krzyżową `KFold` (5 foldów) dla modelu `LinearRegression` na zbiorze California Housing.
Zapisz MSE dla każdego folda i podaj średnie MSE.

In [5]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

X, y = fetch_california_housing(return_X_y=True)

kf = KFold(n_splits=5)
model = LinearRegression()

mse_scores = []

for train_idx, test_idx in kf.split(X):
    model.fit(X[train_idx], y[train_idx])
    preds = model.predict(X[test_idx])
    mse_scores.append(mean_squared_error(y[test_idx], preds))

print("MSE fold-by-fold:", mse_scores)
print("Średnie MSE:", np.mean(mse_scores))

MSE fold-by-fold: [0.48485856745731953, 0.6224973867349298, 0.6462104728578185, 0.5431995961545425, 0.49468483563879473]
Średnie MSE: 0.5582901717686811


## StratifiedKFold

Na zbiorze Iris zbuduj problem binarny: „Setosa” vs „inne”.
Porównaj proporcje klas w foldach między `KFold` a `StratifiedKFold`.
Przeprowadź walidację `LogisticRegression` (accuracy).

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score
from sklearn.linear_model import LogisticRegression

X, y_raw = load_iris(return_X_y=True)
y = (y_raw == 0).astype(int)

kf = KFold(n_splits=5)
skf = StratifiedKFold(n_splits=5)

print("Udział klasy pozytywnej (KFold):")
for _, test_idx in kf.split(X):
    print(y[test_idx].mean())

print("\nUdział klasy pozytywnej (StratifiedKFold):")
for _, test_idx in skf.split(X, y):
    print(y[test_idx].mean())

model = LogisticRegression(max_iter=200)
scores = cross_val_score(model, X, y, cv=skf, scoring="accuracy")
print("\nAccuracy:", scores.mean())

Udział klasy pozytywnej (KFold):
1.0
0.6666666666666666
0.0
0.0
0.0

Udział klasy pozytywnej (StratifiedKFold):
0.3333333333333333
0.3333333333333333
0.3333333333333333
0.3333333333333333
0.3333333333333333

Accuracy: 1.0


## GridSearchCV

Wykonaj GridSearchCV dla `SVC`.
Siatka parametrów:

* C: [0.1, 1, 10]
* gamma: ["scale", "auto"]
* kernel: ["rbf", "poly"]

Użyj `StratifiedKFold(5)`. Wyświetl najlepsze parametry i wynik.

In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.svm import SVC

X, y = load_iris(return_X_y=True)

param_grid = {
    "C": [0.1, 1, 10],
    "gamma": ["scale", "auto"],
    "kernel": ["rbf", "poly"]
}

grid = GridSearchCV(
    estimator=SVC(),
    param_grid=param_grid,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    scoring="accuracy"
)

grid.fit(X, y)

print("Najlepsze parametry:", grid.best_params_)
print("Najlepszy wynik:", grid.best_score_)

Najlepsze parametry: {'C': 1, 'gamma': 'scale', 'kernel': 'poly'}
Najlepszy wynik: 0.9800000000000001


## RandomizedSearchCV

Wykonaj RandomizedSearchCV dla `RandomForestClassifier`.
Parametry losowane:

* n_estimators: 100–999
* max_depth: 2–39

30 losowań. Wypisz najlepsze parametry i accuracy.

In [6]:
from sklearn.datasets import load_iris
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from scipy.stats import randint

X, y = load_iris(return_X_y=True)

param_dist = {
    "n_estimators": randint(100, 1000),
    "max_depth": randint(2, 40),
}

rnd = RandomizedSearchCV(
    estimator=RandomForestClassifier(),
    param_distributions=param_dist,
    n_iter=30,
    cv=StratifiedKFold(n_splits=5),
    scoring="neg_mean_squared_error",
    random_state=42
)


rnd.fit(X, y)

print("Najlepsze parametry:", rnd.best_params_)
print("Najlepszy wynik:", rnd.best_score_)

Najlepsze parametry: {'max_depth': 9, 'n_estimators': 800}
Najlepszy wynik: -0.03333333333333333


## Optuna

Twoim zadaniem jest przeprowadzić pełną optymalizację hiperparametrów modelu `GradientBoostingClassifier` z użyciem Optuny.

Wykonaj:

1. Wczytaj dane z `sklearn.datasets`.
2. Zdefiniuj funkcję celu, w której:

   * pobierzesz hiperparametry z `trial.suggest_*`,
   * stworzysz model `GradientBoostingClassifier`,
   * ocenisz go 5-krotną walidacją krzyżową,
   * zwrócisz średnią dokładność.
3. Uruchom optymalizację z `TPESampler` + `MedianPruner`, ustawiając parametry:

   * `direction="maximize"`
   * `storage="sqlite:///gb_optuna.db"`
   * `load_if_exists=True`
4. Uruchom drugą optymalizację z `RandomSampler` (tylko porównanie, bez zapisu do bazy).
5. Wygeneruj kilka (minimum 3) wykresy z `optuna.visualization` na podstawie study zapisanej w SQLite.
6. Uruchom Optuna Dashboard na bazie `gb_optuna.db`.
7. Wydrukuj porównanie wyników TPE vs RandomSampler.

In [8]:
!pip install optuna optuna-dashboard

Collecting optuna-dashboard
  Downloading optuna_dashboard-0.20.0-py3-none-any.whl.metadata (6.7 kB)
Collecting bottle>=0.13.0 (from optuna-dashboard)
  Downloading bottle-0.13.4-py2.py3-none-any.whl.metadata (1.6 kB)
Downloading optuna_dashboard-0.20.0-py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m58.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading bottle-0.13.4-py2.py3-none-any.whl (103 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m103.8/103.8 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bottle, optuna-dashboard
Successfully installed bottle-0.13.4 optuna-dashboard-0.20.0


In [12]:
import optuna
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.datasets import load_breast_cancer

# ---------------------------------------------------------------
# 1) Wczytanie danych
# ---------------------------------------------------------------

X, y = load_breast_cancer(return_X_y=True)

# ---------------------------------------------------------------
# 2) Funkcja celu używana we wszystkich optymalizacjach
# ---------------------------------------------------------------

def objective(trial):

    params = {
        "n_estimators": trial.suggest_int("n_estimators", 50, 400),
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.3),
        "max_depth": trial.suggest_int("max_depth", 1, 10),
        "subsample": trial.suggest_float("subsample", 0.5, 1.0),
        "min_samples_split": trial.suggest_int("min_samples_split", 2, 20),
    }

    model = GradientBoostingClassifier(**params)

    cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    scores = cross_val_score(model, X, y, cv=cv, scoring="accuracy")

    return scores.mean()

# ---------------------------------------------------------------
# 3) Główna optymalizacja — TPE + zapis do SQLite
# ---------------------------------------------------------------

study_sqlite = optuna.create_study(
    study_name="gb_sqlite_study",
    storage="sqlite:///gb_optuna.db",
    direction="maximize",
    load_if_exists=True,
    sampler=optuna.samplers.TPESampler(),
    pruner=optuna.pruners.MedianPruner(),

)

study_sqlite.optimize(objective, n_trials=10, show_progress_bar=True)

print("Najlepsze parametry TPE:", study_sqlite.best_params)
print("Najlepsze accuracy TPE:", study_sqlite.best_value)

# ---------------------------------------------------------------
# 4) Druga optymalizacja — RandomSampler (bez zapisu do bazy)
# ---------------------------------------------------------------

study_random = optuna.create_study(
    study_name="gb_random_study",
    direction="maximize",
    sampler=optuna.samplers.RandomSampler(seed=42),
)

study_random.optimize(objective, n_trials=10, show_progress_bar=True)

print("Najlepsze accuracy RandomSampler:", study_random.best_value)

# ---------------------------------------------------------------
# 5) Wizualizacje
# ---------------------------------------------------------------

from optuna.visualization import (
    plot_optimization_history,
    plot_parallel_coordinate,
    plot_slice,
    plot_contour,
    plot_param_importances,
    plot_intermediate_values,
    plot_edf,
    plot_timeline,
    plot_rank,
)

plot_optimization_history(study_sqlite)
plot_optimization_history(study_random)

plot_parallel_coordinate(study_sqlite)
plot_parallel_coordinate(study_random)

plot_slice(study_sqlite)
plot_slice(study_random)

# ---------------------------------------------------------------
# 6) Dashboard — komenda do uruchomienia w terminalu:
# ---------------------------------------------------------------
# optuna-dashboard sqlite:///gb_optuna.db

# ---------------------------------------------------------------
# 7) Porównanie wyników
# ---------------------------------------------------------------

print("===============================================")
print("PORÓWNANIE")
print("TPE (SQLite):   ", study_sqlite.best_value)
print("RandomSampler:   ", study_random.best_value)
print("===============================================")

[I 2025-11-25 12:53:58,018] Using an existing study with name 'gb_sqlite_study' instead of creating a new one.


  0%|          | 0/10 [00:00<?, ?it/s]

[I 2025-11-25 12:54:10,838] Trial 47 finished with value: 0.9578481602235677 and parameters: {'n_estimators': 329, 'learning_rate': 0.2096104106273734, 'max_depth': 10, 'subsample': 0.6766312940997316, 'min_samples_split': 12}. Best is trial 32 with value: 0.9701443875174661.
[I 2025-11-25 12:54:19,514] Trial 48 finished with value: 0.9631113181183046 and parameters: {'n_estimators': 384, 'learning_rate': 0.22716935113286266, 'max_depth': 9, 'subsample': 0.749435771704624, 'min_samples_split': 19}. Best is trial 32 with value: 0.9701443875174661.
[I 2025-11-25 12:54:28,045] Trial 49 finished with value: 0.968390001552554 and parameters: {'n_estimators': 309, 'learning_rate': 0.16284414654124613, 'max_depth': 5, 'subsample': 0.6068003934257526, 'min_samples_split': 14}. Best is trial 32 with value: 0.9701443875174661.
[I 2025-11-25 12:54:33,435] Trial 50 finished with value: 0.9701288619779538 and parameters: {'n_estimators': 245, 'learning_rate': 0.28422234387399187, 'max_depth': 5, 's

[I 2025-11-25 12:55:06,110] A new study created in memory with name: gb_random_study


[I 2025-11-25 12:55:06,103] Trial 56 finished with value: 0.9648657040832168 and parameters: {'n_estimators': 218, 'learning_rate': 0.23924066640271055, 'max_depth': 4, 'subsample': 0.6086099365955505, 'min_samples_split': 13}. Best is trial 32 with value: 0.9701443875174661.
Najlepsze parametry TPE: {'n_estimators': 309, 'learning_rate': 0.21092772590939995, 'max_depth': 5, 'subsample': 0.5665575880123074, 'min_samples_split': 5}
Najlepsze accuracy TPE: 0.9701443875174661


  0%|          | 0/10 [00:00<?, ?it/s]

[I 2025-11-25 12:55:11,391] Trial 0 finished with value: 0.9613724576929048 and parameters: {'n_estimators': 181, 'learning_rate': 0.28570714885887566, 'max_depth': 8, 'subsample': 0.7993292420985183, 'min_samples_split': 4}. Best is trial 0 with value: 0.9613724576929048.
[I 2025-11-25 12:55:16,811] Trial 1 finished with value: 0.9543238627542306 and parameters: {'n_estimators': 104, 'learning_rate': 0.026844247528777843, 'max_depth': 9, 'subsample': 0.8005575058716043, 'min_samples_split': 15}. Best is trial 0 with value: 0.9613724576929048.
[I 2025-11-25 12:55:19,280] Trial 2 finished with value: 0.9578481602235677 and parameters: {'n_estimators': 57, 'learning_rate': 0.29127385712697834, 'max_depth': 9, 'subsample': 0.6061695553391381, 'min_samples_split': 5}. Best is trial 0 with value: 0.9613724576929048.
[I 2025-11-25 12:55:23,669] Trial 3 finished with value: 0.9631268436578171 and parameters: {'n_estimators': 114, 'learning_rate': 0.09823025045826593, 'max_depth': 6, 'subsampl

In [14]:
# Source - https://stackoverflow.com/a
# Posted by c-bata, modified by community. See post 'Timeline' for change history
# Retrieved 2025-11-25, License - CC BY-SA 4.0

import time
import threading
from optuna_dashboard import wsgi
import optuna
from wsgiref.simple_server import make_server


port = 1234
storage = optuna.storages.RDBStorage("sqlite:///gb_optuna.db")
app = wsgi(storage)
httpd = make_server("localhost", port, app)
thread = threading.Thread(target=httpd.serve_forever)
thread.start()
time.sleep(3) # Wait until the server startup

from google.colab import output
output.serve_kernel_port_as_window(port, path='/dashboard/')


Try `serve_kernel_port_as_iframe` instead. [0m


<IPython.core.display.Javascript object>

## ⭐️ GroupKFold

Wygeneruj zbiór danych składający się z **500 próbek** oraz **10 cech**.
Następnie przydziel każdą próbkę do jednej z **50 grup**, tak aby każda grupa zawierała dokładnie **10 próbek**.

Celem zadania jest sprawdzenie, jak działa walidacja krzyżowa z podziałem na grupy.
Użyj **GroupKFold(5)** – oznacza to, że dane będą dzielone tak, aby **żadne próbki z tej samej grupy nie trafiły jednocześnie do zbioru treningowego i testowego**.

Na tak przygotowanych danych wykonaj walidację krzyżową modelu **RandomForestClassifier**, a następnie wypisz średnią dokładność.

In [None]:
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GroupKFold, cross_val_score
import numpy as np

# 1) Generowanie sztucznych danych
X, y = make_classification(n_samples=500, n_features=10, random_state=42)

# 2) Przydział 500 próbek do 50 grup (po 10 próbek w każdej)
groups = np.repeat(np.arange(50), 10)

# Uzupełnij

Accuracy: 0.9480000000000001


## ⭐️ TimeSeriesSplit

Wygeneruj **sztuczny szereg czasowy** składający się z 1000 obserwacji.
Przyjmij, że cechą wejściową jest indeks czasu (0,1,2,…,999), a wartością docelową sygnał sinusoidalny z zakłóceniem (szumem gaussowskim).

Następnie zastosuj **TimeSeriesSplit(5)**, który wykonuje walidację krzyżową dostosowaną do danych sekwencyjnych — każdy kolejny fold używa coraz większej części historii jako zbioru treningowego.

Na każdym foldzie wytrenuj model **GradientBoostingRegressor**, następnie policz i wypisz **MAE (Mean Absolute Error)** na zbiorze testowym.

Wynik powinien zawierać wartość MAE dla każdego folda osobno.

In [None]:
import numpy as np
from sklearn.model_selection import TimeSeriesSplit
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error

# 1) Generowanie sztucznego szeregu czasowego
np.random.seed(42)
X = np.arange(1000).reshape(-1, 1)
y = np.sin(X[:, 0] / 20) + np.random.normal(scale=0.1, size=1000)

# Uzupełnij

Fold 0: MAE = 0.8288663064508833
Fold 1: MAE = 0.7330599469306064
Fold 2: MAE = 0.6298690477081538
Fold 3: MAE = 0.9575344251525488
Fold 4: MAE = 0.6518714737382351


## ⭐️ Optymalizacja hiperparametrów SVM z użyciem Optuny

Twoim zadaniem jest zoptymalizować hiperparametry modelu **Support Vector Machine (SVC)** z wykorzystaniem biblioteki **Optuna**.

Wykonaj następujące kroki:

1. Wczytaj zbiór danych **Wine** ze `sklearn.datasets`.
2. Podziel dane na zbiór treningowy i testowy (np. 80/20).
3. Zdefiniuj funkcję celu `objective(trial)`, która:

   * wybierze hiperparametry `C` oraz `gamma` (oba w skali logarytmicznej),
   * wybierze kernel spośród: `"rbf"`, `"poly"`, `"sigmoid"`,
   * utworzy model `SVC` z dobranymi parametrami,
   * wykona walidację krzyżową (5-fold),
   * zwróci średnią dokładność walidacyjną jako wartość celu.
4. Utwórz study używając `TPESampler`.
5. Uruchom optymalizację na 40 próbach.
6. Wypisz najlepsze hiperparametry oraz najlepszy uzyskany wynik.
7. Wytrenuj finalny model na pełnym zbiorze treningowym z najlepszymi hiperparametrami i oceń go na zbiorze testowym — wypisz finalny accuracy.

Wyniki powinny pokazać:

* najlepsze hiperparametry wybrane przez Optunę,
* wynik walidacji,
* wynik na zbiorze testowym.

In [None]:
import optuna
from sklearn.svm import SVC
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.metrics import accuracy_score
import numpy as np

# 1) Wczytanie danych Wine
X, y = load_wine(return_X_y=True)

# 2) Podział danych (80% train, 20% test)
X_train, X_test, y_train, y_test = # Uzupełnij

# 3) Funkcja celu Optuny
def objective(trial):
    # Uzupełnij
    pass

# 4) Utworzenie study
study = # Uzupełnij

# 5) Optymalizacja (40 prób)
study.optimize(objective, n_trials=40, show_progress_bar=True)

print("Najlepsze parametry:", study.best_params)
print("Najlepszy wynik CV:", study.best_value)

# 6) Trening finalnego modelu na najlepszych parametrach
# Uzupełnij

# 7) Ocena na zbiorze testowym
# Uzupełnij

[I 2025-11-23 19:30:18,829] A new study created in memory with name: no-name-e8cbfe0a-f635-4d43-a565-54def3f2a7de


  0%|          | 0/40 [00:00<?, ?it/s]

[I 2025-11-23 19:30:19,147] Trial 0 finished with value: 0.9431034482758621 and parameters: {'C': 2.0688721719741974, 'gamma': 0.08690213727135686, 'kernel': 'poly'}. Best is trial 0 with value: 0.9431034482758621.
[I 2025-11-23 19:30:19,157] Trial 1 finished with value: 0.4012315270935961 and parameters: {'C': 262.0655105908605, 'gamma': 1.8589625277718413, 'kernel': 'rbf'}. Best is trial 0 with value: 0.9431034482758621.
[I 2025-11-23 19:30:19,554] Trial 2 finished with value: 0.9431034482758621 and parameters: {'C': 0.010174730286137303, 'gamma': 0.1536369218785644, 'kernel': 'poly'}. Best is trial 0 with value: 0.9431034482758621.
[I 2025-11-23 19:30:19,565] Trial 3 finished with value: 0.4012315270935961 and parameters: {'C': 0.006979162757999213, 'gamma': 0.00016406329744480543, 'kernel': 'rbf'}. Best is trial 0 with value: 0.9431034482758621.
[I 2025-11-23 19:30:19,572] Trial 4 finished with value: 0.4012315270935961 and parameters: {'C': 703.1897887631378, 'gamma': 0.0319543506