## Rozdział 11: Hypertuning oraz Walidacja Krzyżowa

### 11.1 Wprowadzenie

W procesie uczenia maszynowego, dobór odpowiednich hiperparametrów oraz walidacja modeli są kluczowymi elementami wpływającymi na wydajność i dokładność modeli predykcyjnych. Hiperparametry to parametry zewnętrzne modelu, które muszą być ustawione przed procesem trenowania, natomiast walidacja krzyżowa to technika oceny modelu, która pozwala na lepsze oszacowanie jego wydajności na danych niewidocznych podczas trenowania.

### 11.2 Hypertuning

Hypertuning (dostrajanie hiperparametrów) to proces optymalizacji hiperparametrów modelu w celu poprawy jego wydajności. Hiperparametry różnią się w zależności od algorytmu i mogą obejmować takie wartości jak współczynnik uczenia, liczba warstw w sieci neuronowej, liczba drzew w lesie losowym, itp.

#### 11.2.1 Rodzaje Hiperparametrów

- **Hiperparametry modelu:** Bezpośrednio wpływają na sposób działania modelu, np. liczba neuronów w sieci neuronowej, głębokość drzewa decyzyjnego.
- **Hiperparametry optymalizacji:** Wpływają na proces trenowania modelu, np. współczynnik uczenia w optymalizatorze gradient descent.

#### 11.2.2 Techniki Hypertuningu

- **Grid Search:** Przeszukiwanie przestrzeni hiperparametrów poprzez wypróbowanie wszystkich możliwych kombinacji z określonego zbioru wartości.
- **Random Search:** Losowe przeszukiwanie przestrzeni hiperparametrów w określonym zakresie wartości.
- **Bayesian Optimization:** Technika, która wykorzystuje modele probabilistyczne do efektywnego przeszukiwania przestrzeni hiperparametrów.
- **Hyperband:** Algorytm, który adaptacyjnie przydziela zasoby do różnych zestawów hiperparametrów, przyspieszając proces tuningu.

#### 11.2.3 Przykład Hypertuningu w Pythonie

Przykładowy kod przedstawiający użycie Grid Search do dostrajania hiperparametrów w Pythonie przy użyciu biblioteki `scikit-learn`.

```python
# Importowanie bibliotek
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Załadowanie przykładowego zbioru danych - Iris
iris = load_iris()
X, y = iris.data, iris.target

# Definicja modelu
model = RandomForestClassifier()

# Definicja przestrzeni hiperparametrów
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Grid Search
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)

# Wyniki Grid Search
print(f'Najlepsze hiperparametry: {grid_search.best_params_}')
print(f'Najlepszy wynik dokładności: {grid_search.best_score_}')
```

### 11.3 Walidacja Krzyżowa

Walidacja krzyżowa to technika oceny modelu, która pozwala na bardziej wiarygodne oszacowanie jego wydajności na danych niewidocznych podczas trenowania. Główną ideą jest podział danych na mniejsze części (foldy) i trenowanie modelu na jednej części, a następnie testowanie go na innej.

#### 11.3.1 Typy Walidacji Krzyżowej

- **K-Fold Cross-Validation:** Podział danych na \(k\) równych części. Model jest trenowany \(k\) razy, za każdym razem używając innego folda jako zestawu testowego, a pozostałe jako zestawu treningowego.
- **Stratified K-Fold Cross-Validation:** Wariant K-Fold, który zapewnia, że proporcje klas są podobne w każdym foldzie, co jest ważne w przypadku danych z niezbalansowanymi klasami.
- **Leave-One-Out Cross-Validation (LOOCV):** Skrajny przypadek K-Fold, gdzie \(k\) równa się liczbie próbek w zbiorze danych. Każda próbka jest używana jako zestaw testowy dokładnie raz.
- **Repeated K-Fold Cross-Validation:** Powtarzanie K-Fold cross-validation wiele razy z różnymi losowymi podziałami danych.

#### 11.3.2 Zalety i Wady Walidacji Krzyżowej

**Zalety:**
- **Lepsze oszacowanie wydajności modelu:** Większa niezawodność wyników w porównaniu do pojedynczego podziału na zbiór treningowy i testowy.
- **Efektywne wykorzystanie danych:** Wszystkie próbki są używane zarówno do trenowania, jak i do testowania modelu.

**Wady:**
- **Wyższe koszty obliczeniowe:** Większa liczba trenowań modelu może być kosztowna obliczeniowo, zwłaszcza dla dużych zbiorów danych lub złożonych modeli.
- **Potencjalne trudności w interpretacji wyników:** Konieczność analizy wyników z wielu trenowań i testów.

#### 11.3.3 Przykład Walidacji Krzyżowej w Pythonie

Przykładowy kod przedstawiający użycie K-Fold cross-validation w Pythonie przy użyciu biblioteki `scikit-learn`.

```python
# Importowanie bibliotek
import numpy as np
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Załadowanie przykładowego zbioru danych - Iris
iris = load_iris()
X, y = iris.data, iris.target

# Definicja modelu
model = RandomForestClassifier(n_estimators=100, max_depth=10, min_samples_split=5)

# Definicja K-Fold cross-validation
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Ocena modelu przy użyciu K-Fold cross-validation
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

# Wyniki walidacji krzyżowej
print(f'Wyniki K-Fold Cross-Validation: {scores}')
print(f'Średnia dokładność: {scores.mean()}')
print(f'Odchylenie standardowe dokładności: {scores.std()}')
```

### 11.4 Połączenie Hypertuningu i Walidacji Krzyżowej

Połączenie hypertuningu z walidacją krzyżową pozwala na bardziej wiarygodne oszacowanie wydajności modelu przy różnych zestawach hiperparametrów. Grid Search i Random Search mogą być używane w połączeniu z walidacją krzyżową, aby znaleźć optymalne hiperparametry modelu.

#### 11.4.1 Przykład Połączenia Hypertuningu z Walidacją Krzyżową w Pythonie

Przykładowy kod przedstawiający połączenie Grid Search z K-Fold cross-validation w Pythonie przy użyciu biblioteki `scikit-learn`.

```python
# Importowanie bibliotek
import numpy as np
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Załadowanie przykładowego zbioru danych - Iris
iris = load_iris()
X, y = iris.data, iris.target

# Definicja modelu
model = RandomForestClassifier()

# Definicja przestrzeni hiperparametrów
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Definicja K-Fold cross-validation
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Grid Search z K-Fold cross-validation
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=kf, scoring='accuracy')
grid_search.fit(X, y)

# Wyniki Grid Search z walidacją krzyżową
print(f'Najlepsze hiperparametry: {grid_search.best_params_}')
print(f'Najlepszy wynik dokładności: {grid_search.best_score_}')
```

### 11.5 Zakończenie

Hypertuning i walidacja krzyżowa to kluczowe techniki w procesie tworzenia modeli uczenia maszynowego. Poprzez optymalizację hiperparametrów i bardziej wiarygodne oszacowanie wydajności modelu, te techniki pozwalają na tworzenie bardziej efektywnych i dokładnych modeli predykcyj

nych. Połączenie tych technik może prowadzić do znaczącej poprawy wyników modeli, co jest niezbędne w wielu praktycznych zastosowaniach uczenia maszynowego.