# Mathematik für Biologiestudierende

Wintersemester 2024/25

29. Oktober 2024

&copy; 2024 Prof. Dr. Rüdiger W. Braun 

# Python

* `python`, `seaborn`, `jupyter`:  Was ist das?

* `python` ist eine Programmiersprache
* Wir wollen aber gar nicht programmieren
* Wir wollen fertige Bibliotheken anwenden

* Für Naturwissenschaftlerinnen und Naturwissenschaftler sind das `pandas`, `numpy`, `seaborn` und noch einige andere
* Das sind für alle Teilnehmenden dieses Kurses dieselben Bibliotheken

* In der Frage der Oberfläche gibt es verschiedene Möglichkeiten, je nach persönlichem Geschmack
* Hier benutze ich `jupyter notebook` auf meinem Rechner 
* Eine andere Möglichkeit ist https://colab.research.google.com
* Dort läuft ebenfalls `jupyter`

## Installation auf eigenem Rechner

* weil wir mehr als nur `python` brauchen, gibt es auf https://www.math.uni-duesseldorf.de/~internet/bio2425/software.html eine Installationsanweisung


# Warum nicht Excel?

* Hilft uns nur auf der ersten Hälfte unseres Weges

* Ist schon bei mittelkomplizierten Fragestellungen nicht wirklich einfacher

* Spreadsheets sind sehr, sehr schwer zu verifizieren

* Daten und Programmlogik sind nicht getrennt:  Fehlerquelle

Wofür Excel gut ist:

* Einmalrechnungen, die nicht reproduziert weden müssen
* gutes Eingabeformat

In [None]:
import pandas as pd

Die Bibiothek zur Bearbeitung von Tabellen heißt `pandas`

## Einlesen von Daten

`sns.load_dataset()`  für die Beispieldatensätze, die bei seaborn mitgeliefert werde

für echte Datensätze

* `pd.read_csv()`  Daten im csv-Format
* `pd.read_excel()`  Daten in einem der Excel-Formate

Einlesen von der Festplatte

In [None]:
iris = pd.read_csv("iris/iris_extended.csv")

https://www.kaggle.com/datasets/samybaladram/iris-dataset-extended/

&copy; Samy Baladram, CC-BY-4.0

In [None]:
iris

Einlesen aus dem Internet 

In [None]:
fish = pd.read_csv("https://stats.idre.ucla.edu/stat/data/fish.csv")
fish

Ein `DataFrame` ist eine Tabelle, wie etwa in Excel auch.  

Auf Spalten greift man mit Indizierung zu:

In [None]:
iris['soil_type']

Alternativ auch mit dem Punkt, wenn die Spaltenüberschrift nur aus Buchstaben, Zahlen und Unterstrich besteht

In [None]:
bluetenblattlaenge = iris.petal_length

In [None]:
bluetenblattlaenge

Spalten sind vom Typ `pd.Series`

Auf Zeilen greift man über den Index zu.  In der Regel zählt der Index die Zeilen einfach durch.

In [None]:
iris.loc[1100]

# Deskriptive Statistik


# Lageparameter

### Arithmetisches Mittel

Das arithmetische Mittel (engl. "mean") ist der Durchschnitt der Messwerte

Formel:  Beim Stichprobenumfang $n$ seien $ x_1, x_2, x_3, \dots,  x_n $ die Messwerte, dann ist das arithmetische Mittel gleich

$$
    \overline x = \frac1n \left( x_1 + x_2 + x_3 + \dots + x_n \right)
$$

  Man schreibt auch
  \begin{equation*}
    \overline x = \frac1n \sum_{j=1}^n x_j
  \end{equation*}


$\displaystyle \sum$   ist das Summenzeichen. 

* Unter dem Zeichen stehen zwei Informationen:  Der Name der Zählvariablen (hier $j$) und der Startwert der Zählung (hier $1$).  
* Über dem Zeichen steht der Endpunkt der Zählung (hier der Stichprobenumfang $n$)
* Rechts neben dem Zeichen steht, was aufzuzählen ist (hier $x_j$)

### Beispiel

Bei fünf Mäusen sind die Gewichte 21.3g, 19.8g, 20.4g, 19.0g und 22.7g gemessen worden.  Was ist der Mittelwert?

* Die Summe beträgt 103.2g.
* 103.2/5 = 20.64
* Das arithmetische Mittel der Mausgewichte beträgt 20.64g

Das ist mit dem Taschenrechner kein Problem

Trotzdem mal mit `pandas`

In [None]:
maeuse = pd.DataFrame()  #  leerer DataFrame

In [None]:
maeuse['Gewicht'] = [21.3, 19.8, 20.4, 19.0, 22.7]

In [None]:
maeuse

In [None]:
maeuse.mean()

In [None]:
bluetenblattlaenge.mean()

* Je nach verwendeten Versionen der Software sieht man hier entweder `np.float64(3.80795)` oder nur die Zahl
* Auf meinem Rechner sehe ich die komplizierte Version, was ich aber wie folgt abschalten kann

In [None]:
import numpy as np
np.set_printoptions(legacy='1.21')

In [None]:
bluetenblattlaenge.mean()

* In Lektion 1 hatte ich auf 1.25 umgeschaltet; das mag Colab aber nicht

## Median

Der Median ist ein Wert mit der Eigenschaft, dass in der Menge der nach Größe geordneten Messwerte gleich viele Daten unterhalb und oberhalb des Medians liegen.

Beispiel:  7 Messwerte

10 | 5 | 4 | 9 | 10 | 1 | 5

Nach Größe anordnen

1 | 4 | 5 | 5 | 9 | 10 | 10

Der Median ist $x_{\text{med}} = 5$

## Median für geraden Stichprobenumfang
  
Falls die Anzahl der Daten gerade ist, stehen in der Menge der nach Größe geordneten Messwerte zwei Zahlen in der Mitte.  

Der Median $x_{\text{med}}$ ist dann deren arithmetisches Mittel.

10 | 5 | 4 | 9 | 10 | 1 | 5 | 8

Nach Größe anordnen

1 | 4 | 5 | 5 | 8 | 9 | 10 | 10

Der Median ist $x_{\text{med}} = 6.5$ 

In [None]:
maeuse.median()

Bei normalverteilten Daten liegen arithmetisches Mittel und Median nahe beieinander

### Einkommensverteilung

* Beim Einkommen ziehen die sehr gut verdienenden das arithmetische Mittel nach oben,
* beeinflussen den Median aber kaum

Daten von finanz.de für 2024

* Durchschnittsgehalt: 50.250€
* Median des Gehalts:  43.750€

## Robustheit

* Ein *Ausreißer* ist ein Messwert, der weit von fast allen anderen Messwerten entfernt ist.  Ausreißer können z.B. von
    Messfehlern herrühren.
* Eine statistische Größe ist *robust*, wenn sie unempfindlich gegen Ausreißer ist.
* Das arithmetische Mittel ist nicht robust.  Ausreißer gehen genauso ein wie alle anderen.
* Der Median ist robust

### Beispiel zur Robustheit

In [None]:
maeuse2 = pd.DataFrame()
maeuse2['Gewicht'] = [21.3, 19.8, 20.4, 19.0, 22.7, 287]

In [None]:
maeuse.mean()

In [None]:
maeuse2.mean()

In [None]:
maeuse.median()

In [None]:
maeuse2.median()

# Streuungsparameter

## Empirische Varianz und Stichprobenstreuung

* Beim Stichprobenumfang $n$ seien $x_1, x_2, x_3, \dots, x_n$ die Messwerte, dann ist das *empirische Varianz* gleich
    \begin{equation*}
      s^2 = \frac{(x_1-\overline x)^2 + (x_2-\overline x)^2 +
        (x_3-\overline x)^2 + \dots + (x_n-\overline x)^2}{n-1}
    \end{equation*}
    Dabei ist $\overline x$ das arithmetische Mittel
* Die empirische Varianz wird mit $s^2$ bezeichnet.  

* Die Zahl $s$ heißt *empirische Standardabweichung* oder
    *Stichprobenstreuung*
* Die Stichprobenstreuung ist also die Quadratwurzel der empirischen Varianz

## Konkrete Rechnung

Bei fünf Proben wurden die folgenden Massen in [g] gewogen: 

| Nummer | 1      | 2      | 3     | 4      | 5   |
|--------|--------|--------|-------|--------|-----|
| Masse  | 1.1    | 1.3    | 1.6   | 1.3    | 2.0 |

$$\displaystyle \sum_{j=1}^5 x_j = 7.3g$$
$$\overline x = \frac{7.3g}5 = 1.46g$$
$$\sum_{j=1}^5 (x_j-\overline x)^2 = 0.4920g^2$$
$$s^2 = \frac{0.4920g^2}4 = 0.1230g^2 \quad\text{und}\quad
s = \sqrt{0.1230g^2} = 0.3507g$$

In [None]:
maeuse.var()  # empirische Varianz

In [None]:
maeuse.std()  # Stichprobenstreuung

## Stichprobenstreuung vs. Varianz

* Der Vorteil der Stichprobenstreuung gegenüber der Varianz ist, dass die Stichprobenstreuung richtig skaliert
* Das bedeutet folgendes: Wenn ich alle Daten mit 1000 multipliziere, dann
  * multipliziert sich das arithmetische Mittel mit 1000
  * multipliziert sich die Varianz mit 1000000
  * multipliziert sich die Stichprobenstreuung mit 1000
* Das bedeutet auch, dass die Stichprobenstreuung in derselben Einheit angegegeben wird wie die Daten

## Formeln für die Varianz

* Die Definition ohne Pünktchen
    \begin{equation*}
      s^2 = \frac1{n-1} \sum_{j=1}^n \left(x_j - \overline x \right)^2
    \end{equation*}
* Eine etwas einfachere Formel, deren Richtigkeit leicht nachgerechnet werden kann
    \begin{equation*}
      s^2 = \frac1{n-1} \biggr( \Bigr( \sum_{j=1}^n x_j^2 \Bigr) - n
      {\overline x}^2 \biggr)
    \end{equation*}

## Warum $n - 1$ im Nenner?

* $n-1$ ist die Zahl Freiheitsgrade
* Das ist ein heuristisches Konzept:
  * erstmal hat man pro Stichprobe einen Freiheitsgrad
  * für jeden Wert, den man hilfsweise schätzen muss, wird ein Freiheitsgrad abgezogen
* zur Berechnung der Varianz muss das arithmetische Mittel bestimmt werden:  also ein Freiheitgrad Abzug

* Das bedeutet, dass man, wenn man für viele Datensätze die Varianz mit dieser Methode feststellt, im Mittel näher an der wahren Varianz ist, als wenn man den Nenner $n$ benutzt
* Alle großen Software-Pakete machen das so 

Software-Pakete:

* `python` mit `pandas` und `scipy.stats`
* `R`
* `SPSS`

Überprüfung

In [None]:
maeuse.var()

Wenn gewünscht, kann man von Nenner $n-1$ zu Nenner $n$ umschalten

In [None]:
maeuse.var(ddof=0)

`ddof` = delta degrees of freedom; das ist die Zahl, die man vom Stichprobenumfang abzieht, um die Zahl der Freiheitsgrade zu bekommen

Achten Sie auf Ihren Taschenrechner!

## Zusammenfassungen

In [None]:
maeuse.describe()

* `count`: Anzahl
* `mean`: arithmetisches Mittel
* `std`: Stichprobenstreuung
* `min`: kleinster Wert
* `50%`: Median
* `25%`, `75%`: Quartile
* `max`: größter Wert

Funktioniert auch für DataFrames

In [None]:
fish.describe()

# Quartile

* Das Quartile $Q_1$ ist als derjenige Wert definiert, unter dem 25% und über dem 75% der Messwerte liegen
* Das Quartile $Q_3$ ist als derjenige Wert definiert, über dem 25% und unter dem 75% der Messwerte liegen
* Das Quartil $Q_2$ ist der Median
* Bei den Mäusen: $Q_1 = 19.8$ und $Q_3 = 21.3$

#### Beispielgrafik

die vier Viertel sind unterschiedlich gefärbt

![Image](./bilder/quartile.png)

## Zusammenhang zwischen Quartilen und Quantilen

* Allgemeiner ist für $q$ zwischen $0$ und $1$ das $q$-*Quantil* derjenige Wert, so dass der Anteil der Messwerte unterhalb dieses Wertes gleich $q$ und der Anteil oberhalb gleich $1-q$ ist
* Wenn $q$ in Prozent ausgedrückt wird, dann spricht man auch von *Perzentilen*


|Quartil     |Quantil      |
|------------|-------------|
|1. Quartil  | 25%-Quantil |
|Median      | 50%-Quantil |
|3. Quartil  | 75%-Quantil | 

Beispiel

* Leute, die zu den reichsten 1% der Bevölkerung gehören, haben ein Einkommen oberhalb des 99%-Quantils

# Interquartilabstand

* Der Interquartilabstand ist definiert als
    \begin{equation*}
      \text{IQR} = Q_3 - Q_1
    \end{equation*}
* Der Interquartilabstand ist ein robustes Maß für die Streuung

Berechnung des Interquartilabstands

In [None]:
bbl = bluetenblattlaenge.describe()
bbl

In [None]:
bbl["75%"] - bbl["25%"]  # Interquartilabstand

In [None]:
(bbl["75%"] - bbl["25%"]).round(6)

# Box-Whisker-Plots

In [None]:
import seaborn as sns

In [None]:
sns.boxplot(iris, x="species", y="sepal_length");

Ein Boxplot, auch Box-Whisker-Plot genannt, zeigt von unten nach oben

* untere Einzelpunkte
* unterster Datenpunkt, der kein Einzelpunkt ist
* $Q_1$
* Median
* $Q_3$
* oberster Datenpunkt, der kein Einzelpunkt ist
* obere Datenpunkte

Einzelpunkte sind solche, die weiter als 1.5 Interquartilabstände von $Q_1$ bzw. $Q_3$ weg sind

Manchmal werden die Einzelpunkte als "Ausreißer" bezeichnet.   Das kann man aber nicht so einfach gleichsetzen.

In [None]:
sns.boxplot(maeuse2);

Das ist wirklich ein Ausreißer (engl. "outlier")