# Größe des Datensatzes

### 1. **Größe eines Datensatzes oder der Grundgesamtheit**
Es gibt keine feste Formel, die universell bestimmt, wie groß ein Datensatz oder eine Grundgesamtheit sein muss. Es hängt von verschiedenen Faktoren ab, wie:

- **Komplexität des Modells**: Komplexere Modelle (wie tiefe neuronale Netze) benötigen größere Datensätze, um gut zu generalisieren.
- **Varianz der Daten**: Wenn die Daten stark variieren, sind größere Stichproben erforderlich, um das gesamte Spektrum der Daten abzudecken.
- **Ziel der Analyse**: Wenn das Ziel präzise Schätzungen oder Klassifikationen sind, benötigt man in der Regel mehr Daten.

**Faustformel**:
Eine oft zitierte Faustformel ist, dass man **10 Mal so viele Datenpunkte wie Modellparameter** haben sollte. Das bedeutet, wenn dein Modell 10 Parameter (Features) hat, wären 100 Datenpunkte eine gute Basis, um das Modell zuverlässig zu trainieren.

Für statistische Schätzungen, z.B. in Umfragen, kann die **Stichprobenformel** angewandt werden:

\[
n = \frac{Z^2 \cdot p \cdot (1 - p)}{e^2}
\]

- **n** = benötigte Stichprobengröße
- **Z** = Z-Wert (abhängig vom gewünschten Konfidenzniveau, z.B. 1.96 für 95%)
- **p** = erwarteter Anteil in der Grundgesamtheit (z.B. 0.5 bei maximaler Unsicherheit)
- **e** = Fehlerspanne (z.B. 0.05 für 5% Fehler)

### 2. **Formeln zur Bewertung der Modellqualität**
Die Qualität eines Modells kann mit verschiedenen Kennzahlen bewertet werden, abhängig davon, ob es sich um ein **Regression**- oder **Klassifikationsmodell** handelt.

#### Für **Regressionsmodelle**:
- **R² (Bestimmtheitsmaß)**:
  \[
  R^2 = 1 - \frac{\sum (y_i - \hat{y_i})^2}{\sum (y_i - \bar{y})^2}
  \]
  - Misst, wie gut die unabhängigen Variablen die abhängige Variable erklären. Werte nahe 1 deuten auf ein gutes Modell hin.
  
- **Mean Squared Error (MSE)**:
  \[
  MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2
  \]
  - Durchschnitt der quadrierten Fehler. Je niedriger, desto besser das Modell.

- **Mean Absolute Error (MAE)**:
  \[
  MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}|
  \]
  - Durchschnitt der absoluten Fehler. MAE ist robuster gegen Ausreißer als MSE.

#### Für **Klassifikationsmodelle**:
- **Accuracy (Genauigkeit)**:
  \[
  Accuracy = \frac{\text{Richtig Positive} + \text{Richtig Negative}}{\text{Gesamtanzahl der Beispiele}}
  \]
  - Anteil der korrekt klassifizierten Beobachtungen. Allerdings kann es bei unausgeglichenen Datensätzen irreführend sein.

- **Precision und Recall**:
  - **Precision** (Präzision):
    \[
    Precision = \frac{\text{Richtig Positive}}{\text{Richtig Positive} + \text{Falsch Positive}}
    \]
    - Anteil der korrekt als positiv klassifizierten Ergebnisse.
  
  - **Recall** (Sensitivität):
    \[
    Recall = \frac{\text{Richtig Positive}}{\text{Richtig Positive} + \text{Falsch Negative}}
    \]
    - Anteil der tatsächlich positiven Fälle, die korrekt erkannt wurden.

- **F1-Score**:
  \[
  F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}
  \]
  - Harmonic Mean von Precision und Recall. Gut bei unausgeglichenen Datensätzen.

- **ROC AUC (Receiver Operating Characteristic Area Under Curve)**:
  - AUC misst die Fähigkeit des Modells, zwischen Klassen zu unterscheiden. Ein Wert von 1 ist ideal, während 0.5 bedeutet, dass das Modell nicht besser als Zufall ist.

### Zusammenfassung:
- Die Größe eines Datensatzes hängt von der Komplexität und den Zielen ab, und eine Faustregel besagt, dass du etwa 10 Mal so viele Datenpunkte wie Parameter haben solltest.
- Die Modellqualität kann durch Kennzahlen wie **R²**, **MSE**, **Accuracy**, **Precision**, **Recall**, und **F1-Score** bewertet werden, je nach Modelltyp (Regression oder Klassifikation).