# Fold

## Zusammenfassung

In der **Datenanalyse** gibt es zwei Hauptverwendungen des Begriffs **Fold**, die sich auf **Cross-Validation** und auf **Faltungsoperationen** in rekursiven Algorithmen beziehen:

### 1. **Fold in Cross-Validation (K-Fold-Cross-Validation)**:

   - Hier steht **Fold** für einen Teil des Datensatzes, der in einer wiederholten Validierung verwendet wird. Bei der **K-Fold-Cross-Validation** wird der Datensatz in **K gleich große Teile** (Folds) aufgeteilt. Für jeden Durchlauf (Iteration) wird ein Fold als **Testdatensatz** verwendet, während die verbleibenden Folds als **Trainingsdatensatz** dienen. Dieser Prozess wird **K-Mal** wiederholt, sodass jeder Fold einmal als Testdaten dient. Dies hilft, die Leistung eines Modells robuster und unabhängiger von der spezifischen Verteilung der Daten zu bewerten.
   
   **Beispiel**: Bei einer 5-Fold-Cross-Validation wird der Datensatz in 5 Teile aufgeteilt, und das Modell wird 5 Mal trainiert und getestet, wobei jedes Mal ein anderer Teil als Testdatensatz verwendet wird.

### 2. **Fold in Faltungsoperationen (rekursive Algorithmen)**:

   - In der Informatik beschreibt **Fold** eine Methode, bei der eine Funktion wiederholt auf eine Datenstruktur wie eine Liste angewendet wird, um sie auf einen einzelnen Wert zu reduzieren. In der funktionalen Programmierung (z. B. mit Python’s `reduce`-Funktion) wird eine Faltungsoperation genutzt, um eine Liste zu durchlaufen und ihre Elemente schrittweise zu einem Ergebnis zu "falten", also zu kombinieren. Dies wird oft als **Reduktion** oder Aggregation bezeichnet.
   
   **Beispiel**: Mit `reduce()` kannst du die Summe oder das Produkt aller Werte in einer Liste durch wiederholtes Anwenden einer Funktion erhalten.

### **Unterscheidung**:

   - In der **Cross-Validation** beschreibt **Fold** einen **Teil** eines Datensatzes, der iterativ für Training und Tests verwendet wird.
   - In der **Faltungsoperation** steht **Fold** für das rekursive **Reduzieren** einer Liste oder eines anderen iterierbaren Objekts auf einen einzelnen Wert.

## Detailierte Erklärung

### Wie funktioniert Cross-Validation?

Cross-Validation, insbesondere **k-fold Cross-Validation**, teilt die Daten in \(k\) gleich große Teile, die **Folds** genannt werden. Das Ziel ist es, den gesamten Datensatz für das Training und Testen des Modells zu nutzen, wobei jeder Fold einmal als Testdaten verwendet wird, während die restlichen Folds als Trainingsdaten verwendet werden.

#### Schritte bei k-fold Cross-Validation:

1. Der Datensatz wird in \(k\) Folds aufgeteilt.
2. In jedem **Fold** wird ein Teil der Daten (z. B. 1/5 bei 5-fold) als Testdaten verwendet, während die übrigen \(k-1\) Teile als Trainingsdaten verwendet werden.
3. Dieser Prozess wird \(k\) Mal wiederholt, wobei jedes Mal ein anderer Fold als Testset verwendet wird.
4. Die Leistung wird in jedem Durchlauf gemessen und am Ende wird der Durchschnitt der \(k\) Ergebnisse berechnet.

### Beispiel für 5-fold Cross-Validation:

- Der Datensatz wird in 5 Teile aufgeteilt: Fold 1, Fold 2, Fold 3, Fold 4, Fold 5.
- In jedem Schritt wird ein anderer Fold für das Testen genutzt:
  - 1. Durchlauf: Trainieren auf Fold 2, 3, 4, 5; Testen auf Fold 1.
  - 2. Durchlauf: Trainieren auf Fold 1, 3, 4, 5; Testen auf Fold 2.
  - usw.

Der Vorteil ist, dass das Modell auf allen Daten getestet wird und nicht nur auf einer festen Testmenge. Dies gibt ein stabileres Ergebnis und minimiert das Risiko von Verzerrungen in der Performance-Messung.

### Beispiel mit Code (k-fold Cross-Validation):

```python
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score

# Beispiel-Datensatz laden
data = load_iris()
X, y = data.data, data.target

# k-fold Cross-Validation einrichten
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Modell erstellen
model = LogisticRegression()

# Cross-Validation durchführen
scores = cross_val_score(model, X, y, cv=kf)

# Ergebnisse anzeigen
print("Cross-Validation Scores: ", scores)
print("Durchschnittlicher Score: ", scores.mean())
```

In diesem Beispiel wird der Iris-Datensatz mit 5-fold Cross-Validation trainiert und getestet. Die `cross_val_score`-Funktion führt automatisch die Faltung und Bewertung durch.