# Einleitung

Dieser Kurs soll in die Statstik und Datenanalyse mit Python einführen. Sie lernen, wie Sie typische statistische Fragestellungen mit Python bearbeiten können und lernen das nötige Handwerkzeug, sprich die dafür nötigen Pakete (Module) und Funktionen kennen. Inhalt dieses Kurses sind vor allem das Einlesen und die Manipulation von Daten, die Visualisierung und deskriptive Beschreibung der Daten mit Hilfe verschiedener Plots, sowie statistischer Kennwerte. Des Weiteren werden wir uns in die Inferenzstatistik, mit Hilfe von Konfidenzintervallen, Hypothesentests und Varianzanalysen vorwagen.

### Warum Python?

### Voraussetzungen

Dies ist keine Einführung in die Statistik! Die unten genannten statistischen Konzepte sollten Ihnen zumindest ein Begriff sein. Auch ist es sehr hilfreich, wenn Sie schon einmal programmiert haben (z.B. in R) oder gar einen Einführungskurs in Python gemacht haben.

### Überblick über den Kurs

- Die Mutter aller wissenschaftlichen Python Module: *NumPy*
- Daten Visualisieren: erste Schritte mit *Matplotlib*
- Daten einlesen und manipulieren mit *Pandas*
- Deskriptive und Inferenzstatistik mit *SciPy*
- Weitere Konzepte

# Kurze Einführung in Python

Diese kurze Einführung ersetzt nicht eine ordentliche Auseinandersetzung und umfassendere Einführung in Python, wie Sie sie z.B. von mir [hier](https://datenschauer.de/pythonkurs) finden können. Ich möchte aber dennoch versuchen, Ihnen die wichtigsten Programmierkonzepte in Python näherzubringen, damit Sie die nachfolgenden Kapitel verstehen können.

## einfachste Konzepte

Beginnen wir mit den wichtigsten Basisfunktionalitäten: Variablen, Zahlen, Operatoren, Strings, eingebaute Funktionen und Methoden.

### Zahlen und Operatoren

Python kann von Haus aus grundständige Rechenoperationen bewerkstelligen. Dabei stehen ihm Ganzahltypen `int` und Gleitkommazahlen `float` zur Verfügung.

In [4]:
# Addition
5 + 17

22

In [5]:
# Subtraktion
8967 - 9383

-416

In [6]:
# Multiplikation
78 * 65

5070

In [7]:
# Division gibt immer eine Gleitkommazahl zurück!
81 / 9

9.0

In [8]:
# Dezimalzahlen mit einem "Punkt" als Dezimaltrenner!
3.1415926 * 2.71828

8.539728332728

In [9]:
# Potenzen
2 ** 8

256

In [12]:
# Modulo Operator (Berechnung des Rests)
92 % 5

2

In [14]:
# Abrundungsfunktion (floor division)
92 // 5 # 92 / 5 -> 18.4

18

Python kennt zwar so etwas wie eine "Punkt-vor-Strich-Rechnung", aber für komplexere Berechnungen und der Übersicht halber kann man Klammern verwenden.

In [15]:
(90 / (67 - (3 ** 2) // 4))

1.3846153846153846

Neben diesen mathematischen Operatoren gibt es natürlich auch noch logische Operatoren, die einen Wahrheitswert `True` oder `False` zurück geben. Diese Operatoren sind die Vergleichsoperatoren (`==, <, >, <=, >=`), sowie die Operatoren zur logischen Verknüpfung (`and, or, not`).

In [17]:
not ((30 > 45) and ((12 / 3) == 4 or 5 <= 12))

True

### Variablen

Variablen werden mit einem Istgleich-Zeichen `=` instantiiert und initialisiert in einem. Der Name einer Variablen kann dabei jedes ASCII Zeichen annehmen, muss aber mit einem Buchstaben oder einem Unterstrich `_` beginnen. Mit der `print()` Funktion können Ausdrücke am Bildschirm ausgegeben werden.

In [3]:
meine_variable = 5

meine_variable

5

In [19]:
x = 8
y = 17
m = x + y
print(x + y, m)

25 25


## Funktionen

Funktionen können über ihren Namen, gefolgt von runden klammern und eventuellen Argumenten (= Parametern) aufgerufen werden: `funktionsname(arg1, arg2)`

Die Print-Funktion haben wir beispielsweise schon kennengelernt. Sie hat den Funktionsnamen "print" und nimmt als Argumente ein oder mehrere Strings entgegen, als Zeichenketten, die dann in der Standardausgabe (meist die Konsole oder in Jupyter Notebooks der Bereich unterhalb der Zelle) ausgegeben werden. Als Argumente dienen aber nicht nur direkte Strings, sondern auch alle Objekte und Rückgabewerte, die eine String Repräsentation haben.

In [6]:
print("Hallo Welt!")
print("Hallo", "Welt", "!")

Hallo Welt!
Hallo Welt !


In [9]:
# Weitere Beispiele von Funktionen:

max(4, 3, 9, 1) # gib das gröẞte Element zurück

9

```
    max       (4, 3, 9, 1)
     |           |    |
Funktionsname   Argumente
```

In [8]:
len("Hallo Welt!") # gib die Länge eines Objektes zurück

11

Funktionen lassen sich auch ineinander "verschachteln". Der Aufruf und die Rückgabe der einzelnen Funktionen erfolgt dann von "innen nach auẞen".

In [11]:
print(max(len("Hallo"), len("Welt")))

5


```
print( max ( len("Hallo"), len("Welt) ))
 |      |      |           |
 |       \     5           4 
 |        \    |          /
 |       max  (5,       4)
  \        |
   \       |
    print (5)
      |
      5
```

## Datenstrukturen

### Listen

Eine Liste legt man über Verwendung eckiger Klammern „[]“ an. Zwichen diese Klammern schreibt man durch ein Komma separiert die einzelnen Objekte, die in dieser Liste gespeichert werden sollen. Unsere erste Liste, die die Werte der gegebenen Antworten des ersten Items enthält, könnte demnach so aussehen:

In [1]:
item_1 = [3, 1, 1, 3, 1, 1, 5, 2, 2, 3, 4, 3, 5, 3, 5, 1, 5, 4, 4, 4]

Über den Klammernoperator `[]` kann man auf die eizelenen Werte (Indices) einer List zugreifen. Dabei sind Listen, wie auch Tupel *iterierbare* Objekte in Python.

Jedes iterierbare Objekt lässt sich der Reihe nach in einzelne Elemente zerlegen, die von vorne nach hinten über einen sog. Index durchnummeriert werden und über diese Nummern auch angesprochen werden können. Ähnlich wie bei einem langen Zug bei dem man vorne bei der Lok zu zählen beginnt und jedem weiteren Waggon eine Nummer n+1 gibt. Die Lok wäre der Index 0, der erste Waggon der Index 1, der zweite Waggon der Index 2 usw., bis zum letzten Waggon. Von vorne nach hinten gezählt ist aber die Lok das erste Bauteil, der erste Waggon das zweite usw.

![Index Zug](./img/index_zug.png)

Genauso zählt auch Python die Elemente eines Iterable durch. Das erste Element hat immer den Index 0, das zweite den Index 1 und das letzte hat den Index „Anzahl der Elemente minus 1“.

Um einen Index auszuwählen, bzw. auf ihn zuzugreifen, benutzt man den Klammer-Operator: zwei eckige Klammern „[]“, die hinten an das Iterable angesetzt werden. Die Syntax sieht folgendermaßen aus: `iterable[<index>]`.

In [5]:
print(item_1)
print(item_1[0]) # das erste Element
print(item_1[1]) # das zweite Element
print(item_1[10]) # das elfte Element usw.

[3, 1, 1, 3, 1, 1, 5, 2, 2, 3, 4, 3, 5, 3, 5, 1, 5, 4, 4, 4]
3
1
4


Diese Index Syntax mit den eckigen Klammern erlaubt es sogar, „von Hinten“ anzufangen zu zählen. Das letzte Element hätte somit den Index -1, das zweitletzte den Index -2 usw.

In [13]:
print(item_1[-1]) # das letzte Element
print(item_1[-5]) # das fünfte Element von "hinten"

4
1


Man kann auch Teile einer Liste "herausschneiden". Dies nennt man *Slicing*. Das Slicing erfolgt auch über den `[]`-Operator und hat folgende Syntax:
```
liste[ start : ende : schritte ]
```
**Achtung:** Bei Start und Ende handelt es sich um ein Halboffenes Intervall. Der Start-Index ist immer inkludiert, der End-Index aber ausgeschlossen!

Man kann je nachdem Start, Ende und Schritte auch weggelassen werden:
- Lässt man Start weg, wird bei Index 0, also dem ersten Element begonnen.
- Lässt man Ende weg, so wird bis zum letzten Index + 1, bzw. `[-1]`, also dem letzten Element gegangen.
- Lässt man die Schritte weg, so wird "1" genommen, also jedes Element, ohne eines zu überspringen.

Anbei ein paar Beispiele.

In [17]:
items_2 = ["eins", "zwei", "drei", "vier", "fünf", "sechs", "sieben"]

print(items_2[2:5])
print(items_2[0:4])
print(items_2[:4])
print(items_2[3:-1])
print(items_2[3:])
print(items_2[:])
print(items_2[::2])
print(items_2[1:5:3])

['drei', 'vier', 'fünf']
['eins', 'zwei', 'drei', 'vier']
['eins', 'zwei', 'drei', 'vier']
['vier', 'fünf', 'sechs']
['vier', 'fünf', 'sechs', 'sieben']
['eins', 'zwei', 'drei', 'vier', 'fünf', 'sechs', 'sieben']
['eins', 'drei', 'fünf', 'sieben']
['zwei', 'fünf']


Listen in Python sind **extrem flexible** Datenstrukturen. Grundsätzlich kann ich jede Art von Objekt auch in eine Liste packen (selbst wiederum Listen oder ganze Funktionen). Ausserdem ist es ein Leichtes, neue Objekte hinzuzufügen, Objekte an Ort und Stelle zu ändern, Onjekte zu löschen und auch die Elemente einer Liste zu sortieren.

### Tupel

### Dictionaries

## Kontrollstrukturen

### Verzweigungen (if ... else ...)

### Schleifen (while und for)

### Beispiel: die Elchpopulation

Ich möchte mit einem kleinen Rätsel, das Ihnen z.B. als statistisch arbeitende Biolog*in unterkommen könnte, weitere basale Python Konzepte erklären.

Stellen Sie sich vor, Sie arbeiten an der Erforschung einer Elchpopulation in den nördlichen Regionen Schwedens. Um die einzelnen Tiere zu tracken, sollen Ihnen kleine Sender schmerzfrei implantiert werden. Sie schätzen die Population auf 1.000 Tiere. Aus dieser Population werden 50 Tiere völlig zufällig eingefangen, gechipped und wieder freigelassen. Nach ca. einem halben Jahr werden wieder 50 Tiere völlig zufällig eingefangen. Wie hoch ist die Wahrscheinlichkeit, dass genau $k$ Tiere beim zweiten Mal dabei sind, die schon gechipped waren?

Sie kramen kurz in Ihrem Gedächtnis, was Sie über Kombinatorik in Ihrer Vorlesung Wahrscheinlichkeitstheorie gelernt hatten und folgern, dass folgende Formel korrekt sein müsste: $$\frac{\binom{n}{k}\cdot\binom{N-n}{m-k}}{\binom{N}{m}},$$ mit $k\le n$ und $m-k \le N-n$, wobei $N$, die Populationsgröße, $n$ die Anzahl der zuerst gechippten Elche und $m$ die Anzahl der erneut eingefangen ist. Diese Funktion nennt man auch eine [**hypergeometrische Verteilung**](https://de.wikipedia.org/wiki/Hypergeometrische_Verteilung).

Machen wir uns noch kurz klar, wie diese vielen *Binomialkoeffizienten* in der Formel berechnet werden können. Hinter $\binom{n}{k}$, sprich "aus $n$ wähle $k$", oder "$n$ über $k$" steckt folgende Formel: $\frac{n!}{k!\cdot (n-k)!}$, wobei $n!$ (sprich: "$n$ Fakultät") gleich $n \cdot (n-1) \cdot (n - 2) \cdot \dots \cdot(n - (n - 1))$.

Mit diesem Wissen können wir nun ein kleines Pythonprogramm schreiben, das uns $k$ berechnet.

### Funktion für die Berechnung der Fakultät erstellen

Zuerst brauchen wir eine Funktion, mit der wir die Fakultät ausrechnen können. Funktionen in Python werden mit dem *Keyword* `def` eingeleitet, gefolgt von einem *Namen* für die Funktion, sowie einer Liste mit optionalen Parametern in runden Klammern, die wir der Funktion übergeben wollen, gefolgt von einem Doppelpunkt, der den *Funktionskörper* einleitet.

In [None]:
# eine Beispielfunktion

def beispiel(n, m):
    pass

# Module