# Einleitung

Dieser Kurs soll in die Statstik und Datenanalyse mit Python einführen. Sie lernen, wie Sie typische statistische Fragestellungen mit Python bearbeiten können und lernen das nötige Handwerkzeug, sprich die dafür nötigen Pakete (Module) und Funktionen kennen. Inhalt dieses Kurses sind vor allem das Einlesen und die Manipulation von Daten, die Visualisierung und deskriptive Beschreibung der Daten mit Hilfe verschiedener Plots, sowie statistischer Kennwerte. Des Weiteren werden wir uns in die Inferenzstatistik, mit Hilfe von Konfidenzintervallen, Hypothesentests und Varianzanalysen vorwagen.

### Warum Python?

### Voraussetzungen

Dies ist keine Einführung in die Statistik! Die unten genannten statistischen Konzepte sollten Ihnen zumindest ein Begriff sein. Auch ist es sehr hilfreich, wenn Sie schon einmal programmiert haben (z.B. in R) oder gar einen Einführungskurs in Python gemacht haben.

### Überblick über den Kurs

- Die Mutter aller wissenschaftlichen Python Module: NumPy
- Daten einlesen und manipulieren mit Pandas
- Daten visualisieren mit Matplotlib und Seaborn
- Deskriptive Statistik
- Inferenzstatistik

# Kurze Einführung in Python

Diese kurze Einführung ersetzt nicht eine ordentliche Auseinandersetzung und umfassendere Einführung in Python, wie Sie sie z.B. von mir [hier](https://datenschauer.de/pythonkurs) finden können. Ich möchte aber dennoch versuchen, Ihnen die wichtigsten Programmierkonzepte in Python näherzubringen, damit Sie die nachfolgenden Kapitel verstehen können.

## einfachste Konzepte

Beginnen wir mit den wichtigsten Basisfunktionalitäten: Variablen, Zahlen, Operatoren, Strings, eingebaute Funktionen und Methoden.

### Zahlen und Operatoren

Python kann von Haus aus grundständige Rechenoperationen bewerkstelligen. Dabei stehen ihm Ganzahltypen `int` und Gleitkommazahlen `float` zur Verfügung.

In [4]:
# Addition
5 + 17

22

In [5]:
# Subtraktion
8967 - 9383

-416

In [6]:
# Multiplikation
78 * 65

5070

In [7]:
# Division gibt immer eine Gleitkommazahl zurück!
81 / 9

9.0

In [8]:
# Dezimalzahlen mit einem "Punkt" als Dezimaltrenner!
3.1415926 * 2.71828

8.539728332728

In [9]:
# Potenzen
2 ** 8

256

In [12]:
# Modulo Operator (Berechnung des Rests)
92 % 5

2

In [14]:
# Abrundungsfunktion (floor division)
92 // 5 # 92 / 5 -> 18.4

18

Python kennt zwar so etwas wie eine "Punkt-vor-Strich-Rechnung", aber für komplexere Berechnungen und der Übersicht halber kann man Klammern verwenden.

In [15]:
(90 / (67 - (3 ** 2) // 4))

1.3846153846153846

Neben diesen mathematischen Operatoren gibt es natürlich auch noch logische Operatoren, die einen Wahrheitswert `True` oder `False` zurück geben. Diese Operatoren sind die Vergleichsoperatoren (`==, <, >, <=, >=`), sowie die Operatoren zur logischen Verknüpfung (`and, or, not`).

In [17]:
not ((30 > 45) and ((12 / 3) == 4 or 5 <= 12))

True

### Variablen

Variablen werden mit einem Istgleich-Zeichen `=` instantiiert und initialisiert in einem. Der Name einer Variablen kann dabei jedes ASCII Zeichen annehmen, muss aber mit einem Buchstaben oder einem Unterstrich `_` beginnen. Mit der `print()` Funktion können Ausdrücke am Bildschirm ausgegeben werden.

In [3]:
meine_variable = 5

meine_variable

5

In [19]:
x = 8
y = 17
m = x + y
print(x + y, m)

25 25


## Datenstrukturen

### Listen

### Tupel

### Dictionaries

## die Elchpopulation

Ich möchte mit einem kleinen Rätsel, das Ihnen z.B. als statistisch arbeitende Biolog*in unterkommen könnte, weitere basale Python Konzepte erklären.

Stellen Sie sich vor, Sie arbeiten an der Erforschung einer Elchpopulation in den nördlichen Regionen Schwedens. Um die einzelnen Tiere zu tracken, sollen Ihnen kleine Sender schmerzfrei implantiert werden. Sie schätzen die Population auf 1.000 Tiere. Aus dieser Population werden 50 Tiere völlig zufällig eingefangen, gechipped und wieder freigelassen. Nach ca. einem halben Jahr werden wieder 50 Tiere völlig zufällig eingefangen. Wie hoch ist die Wahrscheinlichkeit, dass genau $k$ Tiere beim zweiten Mal dabei sind, die schon gechipped waren?

Sie kramen kurz in Ihrem Gedächtnis, was Sie über Kombinatorik in Ihrer Vorlesung Wahrscheinlichkeitstheorie gelernt hatten und folgern, dass folgende Formel korrekt sein müsste: $$\frac{\binom{n}{k}\cdot\binom{N-n}{m-k}}{\binom{N}{m}},$$ mit $k\le n$ und $m-k \le N-n$, wobei $N$, die Populationsgröße, $n$ die Anzahl der zuerst gechippten Elche und $m$ die Anzahl der erneut eingefangen ist. Diese Funktion nennt man auch eine [**hypergeometrische Verteilung**](https://de.wikipedia.org/wiki/Hypergeometrische_Verteilung).

Machen wir uns noch kurz klar, wie diese vielen *Binomialkoeffizienten* in der Formel berechnet werden können. Hinter $\binom{n}{k}$, sprich "aus $n$ wähle $k$", oder "$n$ über $k$" steckt folgende Formel: $\frac{n!}{k!\cdot (n-k)!}$, wobei $n!$ (sprich: "$n$ Fakultät") gleich $n \cdot (n-1) \cdot (n - 2) \cdot \dots \cdot(n - (n - 1))$.

Mit diesem Wissen können wir nun ein kleines Pythonprogramm schreiben, das uns $k$ berechnet.

### Funktion für die Berechnung der Fakultät erstellen

Zuerst brauchen wir eine Funktion, mit der wir die Fakultät ausrechnen können. Funktionen in Python werden mit dem *Keyword* `def` eingeleitet, gefolgt von einem *Namen* für die Funktion, sowie einer Liste mit optionalen Parametern in runden Klammern, die wir der Funktion übergeben wollen, gefolgt von einem Doppelpunkt, der den *Funktionskörper* einleitet.

In [None]:
# eine Beispielfunktion

def beispiel(n, m):
    pass