# Syllabus

Calculate and interpret key statistical measures such as mean, median, mode, variance, and standard deviation using Python.

# Mittelwert (Mean) mit `numpy.mean()`

In Python bietet `numpy` die Funktion `mean()`, um den Mittelwert eines Arrays oder einer Liste zu berechnen. Sie summiert die Werte und teilt diese durch die Anzahl der Werte.

- **Warum `numpy.mean()`?**:<br>
`numpy` ist eine leistungsstarke Bibliothek, die für numerische Berechnungen optimiert ist. Sie ist besonders nützlich für große Arrays und Matrizen.
- **Anwendungsfall**:<br>
Der Mittelwert wird verwendet, um eine zentrale Tendenz der Daten zu bestimmen. Es ist wichtig zu beachten, dass der Mittelwert empfindlich auf Ausreißer ist.


In [1]:

import numpy as np

daten = [12, 15, 12, 10, 18, 20, 10, 15, 18, 20, 22, 25]
mean = np.mean(daten)
print(f"Mittelwert: {mean}")


Mittelwert: 16.416666666666668


---
# Median mit `numpy.median()`
Der Median ist der mittlere Wert eines sortierten Datensatzes. Wenn der Datensatz eine gerade Anzahl von Werten hat, wird der Durchschnitt der beiden mittleren Werte genommen.

- **Warum `numpy.median()`?**:<br>
Auch diese Funktion profitiert von der Schnelligkeit und Effizienz von `numpy`, insbesondere wenn der Datensatz groß ist.
- **Anwendungsfall**:<br>
Der Median wird häufig verwendet, wenn der Datensatz Ausreißer enthält, die den Mittelwert stark verzerren könnten. Zum Beispiel bei Einkommensdaten, wo sehr hohe Werte den Durchschnitt stark beeinflussen würden.

In [2]:
median = np.median(daten)
print(f"Median: {median}")

Median: 16.5


---
# Modus (Mode) mit `statistics.mode()`
Der Modus ist der häufigste Wert in einem Datensatz. Die Python-Standardbibliothek `statistics` bietet eine einfache Möglichkeit, den Modus zu berechnen.

- **Warum `statistics.mode()`?**:<br>
`statistics` ist eine eingebaute Python-Bibliothek, die speziell für grundlegende statistische Berechnungen ausgelegt ist. Sie ist ideal, wenn du keine zusätzliche Bibliothek wie `numpy` installieren möchtest.
- **Anwendungsfall**:<br>
Der Modus wird häufig für kategoriale Daten verwendet, wo der häufigste Wert interessiert, wie zum Beispiel die beliebteste Farbe in einer Umfrage.

In [3]:
import statistics as stats

mode = stats.mode(daten)
print(f"Modus: {mode}")


Modus: 12


---

# Varianz mit `numpy.var()`
Die Varianz gibt die durchschnittliche quadratische Abweichung jedes Wertes vom Mittelwert an. Sie zeigt, wie stark die Daten streuen.

- **Warum `numpy.var()`?**:<br>
Auch hier spielt die Effizienz von `numpy` eine große Rolle. `var()` ist direkt für Arrays und Listen anwendbar.
- **Anwendungsfall**:<br>
Die Varianz hilft dir zu verstehen, wie breit oder eng die Werte um den Mittelwert verteilt sind. Eine hohe Varianz deutet auf eine große Streuung hin.

In [4]:
varianz = np.var(daten)
print(f"Varianz: {varianz}")


Varianz: 21.743055555555554


---

# Standardabweichung mit `numpy.std()`
Die Standardabweichung ist die Quadratwurzel der Varianz und zeigt die durchschnittliche Abweichung vom Mittelwert an.

- **Warum `numpy.std()`?**:<br>
Die Standardabweichung ist eng mit der Varianz verwandt und wird häufig verwendet, da sie die gleiche Einheit wie die Daten selbst hat (anders als die Varianz, die quadriert ist).
- **Anwendungsfall**:<br>
Wenn du die Streuung der Daten in der gleichen Einheit wie die Datenwerte haben möchtest, ist die Standardabweichung das bevorzugte Maß.

In [5]:
std_abw = np.std(daten)
print(f"Standardabweichung: {std_abw}")


Standardabweichung: 4.662944944512594


---

# Besonderheiten und Vorzüge in Python

1. **Einfache Implementierung**:<br>
Python bietet eingebaute Bibliotheken wie `statistics` und leistungsstarke Bibliotheken wie `numpy`, die dir die Berechnung dieser Kennzahlen stark vereinfachen.
   
2. **Geschwindigkeit und Effizienz**:<br>
Besonders bei großen Datensätzen ist die Nutzung von `numpy` empfehlenswert, da es für numerische Operationen optimiert ist.

3. **Flexibilität**:<br>
Python ermöglicht es dir, verschiedene statistische Berechnungen sehr einfach zu kombinieren und zu erweitern. Zum Beispiel kannst du eine eigene Funktion schreiben, die alle Kennzahlen gleichzeitig berechnet und zurückgibt:

In [6]:
def berechne_statistiken(daten):
    mean = np.mean(daten)
    median = np.median(daten)
    mode = stats.mode(daten)
    varianz = np.var(daten)
    std_abw = np.std(daten)
    
    return {
        "Mittelwert": mean,
        "Median": median,
        "Modus": mode,
        "Varianz": varianz,
        "Standardabweichung": std_abw
    }

# Anwendung der Funktion
statistiken = berechne_statistiken(daten)
print(statistiken)

{'Mittelwert': np.float64(16.416666666666668), 'Median': np.float64(16.5), 'Modus': 12, 'Varianz': np.float64(21.743055555555554), 'Standardabweichung': np.float64(4.662944944512594)}
