Cross-walidacja (cross-validation) to metoda oceny modelu polegajƒÖca na **wielokrotnym dzieleniu danych na czƒô≈õƒá treningowƒÖ i testowƒÖ**, tak aby model by≈Ç sprawdzany na r√≥≈ºnych fragmentach danych. Dziƒôki temu wynik oceny jest bardziej wiarygodny ni≈º w pojedynczym train/test split.

---

# üöÄ Jak to dzia≈Ça ‚Äî najpro≈õciej

Za≈Ç√≥≈ºmy, ≈ºe masz zbi√≥r danych i chcesz sprawdziƒá, jak dobrze dzia≈Ça Tw√≥j model. Zamiast:

* trenowaƒá model na 80% danych,
* testowaƒá go na pozosta≈Çych 20%,

robisz to **kilka razy na r√≥≈ºnych podzia≈Çach**.

---

# üîÅ K-fold cross-validation (najpopularniejsza forma)

1. **Dzielisz dane na K r√≥wnych czƒô≈õci (fold√≥w)** ‚Äî np. K = 5.
2. **W ka≈ºdej iteracji**:

   * bierzesz jeden fold jako *testowy*,
   * pozosta≈Çe K-1 fold√≥w sƒÖ *treningowe*,
   * trenujesz model, mierzysz wynik.
3. Powtarzasz K razy, a≈º ka≈ºdy fold pe≈Çni≈Ç rolƒô danych testowych.
4. **≈örednia z K wynik√≥w** jest ocenƒÖ modelu.

---

üì¶ **Przyk≈Çad przy K=5**

| Iteracja | Trening      | Test   |
| -------- | ------------ | ------ |
| 1        | fold 2,3,4,5 | fold 1 |
| 2        | fold 1,3,4,5 | fold 2 |
| 3        | fold 1,2,4,5 | fold 3 |
| 4        | fold 1,2,3,5 | fold 4 |
| 5        | fold 1,2,3,4 | fold 5 |

---

# ‚úîÔ∏è Po co to robimy?

Cross-walidacja:

* daje **stabilniejszy i mniej losowy wynik** ni≈º jeden podzia≈Ç,
* lepiej pokazuje, jak model uog√≥lnia na nowe dane,
* redukuje ryzyko, ≈ºe wynik zale≈ºy od niefortunnego splitu.

---

# üéØ Kiedy u≈ºywaƒá?

* gdy masz **niewiele danych**,
* gdy potrzebujesz **obiektywnej oceny modelu**,
* przy por√≥wnywaniu modeli (np. KNN vs. SVM vs. RandomForest),
* przy strojenia hiperparametr√≥w (GridSearchCV, RandomizedSearchCV).

---

# üß† Wa≈ºne odmiany

| Rodzaj                    | Opis                                                  |
| ------------------------- | ----------------------------------------------------- |
| **Stratified K-fold**     | Zachowuje proporcje klas (idealne dla klasyfikacji).  |
| **Leave-One-Out (LOOCV)** | Ka≈ºdy element raz jest testem (bardzo kosztowne).     |
| **TimeSeriesSplit**       | Do danych szereg√≥w czasowych ‚Äî nie miesza kolejno≈õci! |

---

# üìå Mini schemat (intuicyjnie)

```
DANE ‚Üí [train/test] x K ‚Üí wyniki ‚Üí ≈õrednia ‚Üí ocena modelu
```




In [None]:
## praktyczny przyk≈Çad cross-validacji** w scikit-learn.


1. **Klasyczna K-fold cross-validation**
2. **Stratified K-fold** (standard przy klasyfikacji)

---

# ‚úÖ 1. Klasyczna K-fold cross-validation



In [27]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Dane
X, y = load_iris(return_X_y=True)

# Model
model = RandomForestClassifier(random_state=42)

# K-fold: 5 podzia≈Ç√≥w
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Cross validation
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

print("Wyniki pojedynczych fold√≥w:", scores)
print("≈örednia:", scores.mean())
print("Odchylenie standardowe:", scores.std())

Wyniki pojedynczych fold√≥w: [1.         0.96666667 0.93333333 0.93333333 0.96666667]
≈örednia: 0.9600000000000002
Odchylenie standardowe: 0.024944382578492935


# üéØ 2. STRATIFIED K-fold (zalecane dla klasyfikacji)

W klasyfikacji proporcje klas muszƒÖ byƒá zachowane w ka≈ºdym foldzie ‚Äî dlatego **StratifiedKFold** jest domy≈õlnie u≈ºywany przez `cross_val_score` przy klasyfikacji.

In [28]:
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.linear_model import LogisticRegression

X, y = load_iris(return_X_y=True)

model = LogisticRegression(max_iter=1000)

# Stratified K-fold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

scores = cross_val_score(model, X, y, cv=skf, scoring='accuracy')

print("Wyniki fold√≥w:", scores)
print("≈örednia:", scores.mean())

Wyniki fold√≥w: [1.         0.96666667 0.93333333 1.         0.93333333]
≈örednia: 0.9666666666666668


In [None]:
# üìå 3. Najkr√≥tsza mo≈ºliwa wersja (automatyczna CV)

Tu nie podajesz KFold ‚Äî scikit-learn zrobi stratified K=5 domy≈õlnie:

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC

X, y = load_iris(return_X_y=True)

model = SVC()

scores = cross_val_score(model, X, y, cv=5)

print(scores, scores.mean())
```

---

# ‚öôÔ∏è 4. Cross-validacja w regresji

Tu zwyk≈Çy KFold (bo nie ma klas):

```python
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

X, y = load_diabetes(return_X_y=True)

kf = KFold(n_splits=5, shuffle=True, random_state=42)

model = LinearRegression()

scores = cross_val_score(model, X, y, cv=kf, scoring="r2")

print(scores, scores.mean())
```

---

Je≈õli chcesz, mogƒô te≈º pokazaƒá:

* GridSearchCV z cross-validacjƒÖ,
* cross-validacjƒô w TimeSeriesSplit,
* por√≥wnanie modeli (np. RF vs SVM vs XGBoost) jednym kodem.