# Syllabus

Understand the theoretical basis and statistical principles underlying bootstrapping.
(Verstehe die theoretischen Grundlagen und statistischen Prinzipien des Bootstrappings)

# Grundlagen

- **Bootstrapping** ist eine statistische Methode,
- dabei werden aus einer gegebenen Stichprobe wiederholt neue Stichproben mit Zurücklegen gezogen
- ermöglicht die Schätzung von Standardfehlern, Konfidenzintervallen und Teststatistiken, ohne Annahmen über die Verteilung der Population zu treffen. 
- nützlich bei kleinen Stichproben oder unbekannten Verteilungen

<br>

**einfaches Beispiel:**

Wir haben eine kleine Stickprobe mit den Werten:

<div style="margin-left: 40px;">
[5,7,8,10,12]
</div><br>


Wir möchten den Mittelwert der Population und dessen Unsicherheit (Standardfehler) schätzen.

<br>

**Schritte:**

1. Originaler Stichprobenmittelwert: `Mittelwert der Stichprobe = (5 + 7 + 8 + 10 + 12)/5 = 8.4`

2. Bootstrap-Methode: Ziehe mehrere Stichproben mit Zurücklegen aus der originalen Stichprobe (z.B. 1000 Mal):

   1. Bootstrap-Stichprobe: `[7,12,8,8,5]` -> Mittelwert = <font color='red'>8</font>
   2. Bootstrap-Stichprobe: `[10,12,12,7,5]` -> Mittelwert = <font color ='red'>9.2</font>
   3. Bootstrap-Stichprobe: `[8,7,7,8,7]` -> Mittelwet = <font color = 'red'>7</font>
<br>

3. Bootsrap-Verteilung: Berechne den Mittelwert jeder der 1000 Bootstrap-Stichproben und erhalte eine Verteilung dieser Mittelwerte.

4. Schätzung der Unsicherheit: Aus dieser Verteilung berechnen wir den Standardfehler(also die Streuung der Mittelwerte), um die
   Unsicherheit des Mittelwerts besser einzuschätzen.

   

In [1]:
import numpy as np

# Originaldatensatz (Größen in cm)
data = np.array([170, 165, 180, 175, 160, 155, 168])

# Bootstrapping-Funktion, um Resamples zu erstellen
def bootstrap(data, n_resamples):
    resamples = np.random.choice(data, size=(n_resamples, len(data)), replace=True)
    return resamples

# Erstelle 1000 bootstrapped Stichproben
boot_samples = bootstrap(data, 1000)

# Berechne den Mittelwert jeder Stichprobe
boot_means = np.mean(boot_samples, axis=1)

print("Bootstrap-Mittelwerte:", boot_means[:10])  # Zeige die ersten 10 Mittelwerte

Bootstrap-Mittelwerte: [165.71428571 160.71428571 164.71428571 164.71428571 169.42857143
 171.14285714 162.57142857 160.42857143 166.85714286 163.57142857]


# Theorie und statistische Prinzipien des Bootstrappings

Insgesamt bietet Bootstrapping eine robuste Methode zur Abschätzung der Unsicherheit statistischer Schätzungen und ermöglicht es, Konfidenzintervalle und Tests durchzuführen, die nicht auf stark idealisierten Annahmen beruhen.

## Zentrale Idee: Resampling mit Zurücklegen

- aus der Originalstichprobe (Größe $n$) wird eine große Anzahl von neuen Stichproben (Bootstrap-Stichproben) mit Zurücklegen gezogen
- Bootstrap-Stichproben haben ebenfalls Größe $n$
- diese neuen Stichproben simulieren die Verteilung der zugrunde liegenden Grundgesamtheit, indem sie durch die Originaldaten als Näherung verwendet werden

## Gesetz der großen Zahlen

- Bootstrapping stützt sich auf das Gesetz der großen Zahlen
- bedeutet:  bei ausreichend großer Anzahl von Wiederholungen (d.h. Bootstrap-Stichproben), nähert sich die Verteilung der geschätzten Parameterwerte der wahren Verteilung immer besser an
- ermöglicht es, Schätzungen von Unsicherheiten, wie z.B. Konfidenzintervalle, zu berechnen, ohne dass man eine spezielle Verteilung annehmen muss

## Unabhängigkeit von Verteilungsannahmen

- bei klassischen statistischen Methoden (z.B. Berechnung von Konfidenzintervallen), nimmt man oft an, dass die Daten aus einer bestimmten Verteilung stammen (z.B. aus einer Normalverteilung (Glockenkurve))
- diese Annahme hilft dabei, Formeln zu verwenden, um Unsicherheiten und Intervalle zu berechnen

<br>

**beim Bootstrapping ist das anders:**
- hier wird **keine Annahme** über die Form oder Art der Verteilung der Daten gemacht
- statt zu sagen: "Die Daten kommen aus einer Normalverteilung" oder "Die Daten folgen einer bestimmten Form", verwendet Bootstrapping einfach die vorliegenden Daten selbst
- bedeutet: es nutzt die tatsächlichen Datenpunkte, die man schon hat, um wiederholt zufällige Stichproben (mit Zurücklegen) zu ziehen
- diese neuen Stichproben helfen dann dabei, die Unsicherheit zu bestimmen

<br>

**Mit anderen Worten:** Bootstrapping nutzt die vorhandenen Daten als eine Art "Ersatz" für die unbekannte Verteilung, anstatt vorher festzulegen, wie die Verteilung aussehen sollte.



## Berechnung von Schätzungen und Konfidenzintervallen

- aus der ursprünglichen Stichprobe werden viele (z.B. 1.000) neue Stichproben gezogen
- für jede dieser neuen Stichproben wird eine Schätzung (z.B. Mittelwert) berechnet
- die Verteilung dieser Schätzungen gibt Informationen darüber, wie präzise die Schätzung ist
- Um ein 95%-Konfidenzintervall zu bilden, werden die 2,5%- und 97,5%-Grenzen dieser Verteilung genommen

## Bootstrapped Standardfehler

- der Standardfehler einer Schätzung kann direkt aus den Bootstrap-Stichproben berechnet werden
- indem man die Standardabweichung der geschätzten Parameter in den verschiedenen Bootstrap-Stichproben berechnet
- Bootstrapping besonders geeignet für komplexe oder untypische Verteilungen, wo analytische Standardfehler schwer zu berechnen sind

## Verwendung in Hypothesentests

- normalerweise werden für Hypothesentests theoretische Verteilungen (wie t-Verteilung oder Normalverteilung) verwendet, um einen p-Wert zu berechnen
- der p-Wert sagt, wie wahrscheinlich es ist, die beobachteten Daten zu bekommen, unter der Annahme, dass die Nullhypothese stimmt

- mit Bootstrapping muss aber keine theoretische Verteilung benutzt werden
- stattdessen verwendet man die vorhandenen Daten, und generiert eine Verteilung von möglichen Ergebnissen unter der Annahme der Nullhypothese (also, dass die Nullhypothese stimmt)

**Beispiel: Mittelwert testen**

Angenommen, die Nullhypothese lautet:<br>
"Der Mittelwert einer Stichprobe ist gleich Null." 

Um dies mit Bootstrapping zu testen, gehst man so vor:

1. Daten zentrieren:
- die Originaldaten werden „zentriert“ , sodass sie so aussehen, als ob sie einen Mittelwert von Null hätten
- dafür wird von jedem Datenpunkt der tatsächlicher Mittelwert der Daten abgezogen
- dadurch bekommt man neue Daten, die den gleichen Abstand zueinander haben, aber der Mittelwert ist nun Null (also die Nullhypothese)
<br><br>

2. Bootstrap-Stichproben ziehen:
-  aus diesen zentrierten Daten werden viele Bootstrap-Stichproben gezogen
-  jede Stichprobe ist eine neue zufällige Auswahl der zentrierten Daten (wie oben beschrieben, mit Zurücklegen)
<br><br>

3. Schätzung berechnen:
- Für jede dieser Bootstrap-Stichproben wird der Mittelwert berechnet
<br><br>

4. Bootstrap-Verteilung erstellen:
- Jetzt hat man eine Verteilung von Mittelwerten, die man aus den Bootstrap-Stichproben gezogen hat
- diese Verteilung repräsentiert die mögliche Variation der Mittelwerte, unter der Annahme, dass die Nullhypothese (Mittelwert = 0) stimmt

## Grenzen von Bootstrapping

   - **Datensätze müssen repräsentativ sein**:<br>
     Da Bootstrapping nur mit den vorhandenen Daten arbeitet, muss die Ausgangsstichprobe repräsentativ für die Grundgesamtheit sein.
     <br>
     
   - **Abhängige Daten**:<br>
     Bootstrapping ist für unabhängige Daten optimiert; bei Abhängigkeiten (z.B. Zeitreihen) müssen spezialisierte Varianten wie Block-Bootstrapping verwendet werden.
     <br>
   - **Extremwerte und Verzerrungen**:<br>
     Daten mit starken Ausreißern oder verzerrten Verteilungen können die Bootstrap-Verteilungen verfälschen.

## Vorteile
   - Flexibilität in der Anwendung auf verschiedene statistische Probleme.
   - Keine Annahme über die Verteilung der Grundgesamtheit.
   - Einfache Implementierung auch in komplexen Modellen, bei denen herkömmliche analytische Lösungen schwer zu bestimmen sind.