# Einleitung

Dieser Kurs soll in die Statstik und Datenanalyse mit Python einführen. Sie lernen, wie Sie typische statistische Fragestellungen mit Python bearbeiten können und lernen das nötige Handwerkzeug, sprich die dafür nötigen Pakete (Module) und Funktionen kennen. Inhalt dieses Kurses sind vor allem das Einlesen und die Manipulation von Daten, die Visualisierung und deskriptive Beschreibung der Daten mit Hilfe verschiedener Plots, sowie statistischer Kennwerte. Des Weiteren werden wir uns in die Inferenzstatistik, mit Hilfe von Konfidenzintervallen, Hypothesentests und Varianzanalysen vorwagen.

## Warum Python?

Für die komputationale Bearbeitung wissenschaftlicher Probleme (vor allem im numerischen, mathematischen und statistischen Bereich) gibt es, so meint man, eigentlich mit [Matlab](https://de.mathworks.com/products/matlab.html) und der [OpenSource](https://de.wikipedia.org/wiki/Open_Source) Software [R](https://www.r-project.org/) ausreichend gute Möglichkeiten. Gerade im akademischen Umfeld, vor allem in den Sozialwissenschaften aber auch anderen Bereichen, in denen statistische Software eine wichtige Rolle spielt, hat sich R weitestgehend durchgesetzt. Die meisten wissenschaftlichen Beiträge in diesem Bereich werden in R-Pakete "gegossen" und können von der Community sofort eingesetzt werden. *Wieso also noch Python einsetzen?*

Vorweg sollte man sagen: man *muss* Python natürlich nicht einsetzen und in den meisten mathematischen und statistischen Einsatzgebieten ist es nicht besser oder schlechter als R oder andere Alternativen.

Zuerst hat vieles mit Vorlieben und Gewohnheit zu tun. Python ist eine *multiparadigmatische* Programmiersprache (Sie können in Python prozeduralen, objektorientierten und funktionalen Code schreiben), die für sehr viele Zwecke eingesetzt werden kann: Automatisierung und Skripting im Server Bereich, Backend Webentwicklung, GUI Programmierung, IoT-Geräte, mobile Apps und vor allem im Bereich Data Science und Deep Learning. Desweiteren hat Python unter anderem folgende Vorteile gegenüber manch anderen Programmiersprachen:
- Sie ist dazu entworfen worden, um leicht lesbar zu sein und einen guten Programmierstil von Anfang an zu erlernen.
- Sie ist auf leichte Erlernbarkeit ausgelegt (das macht sie auch zur Sprache der Wahl bei den meisten Programmiereinführungskursen)
- Sie hat ein sehr umfangreiches und tiefes Ökosystem (Auf [PyPi](https://pypi.org/) gibt es kaum ein Modul für ein Problem, das noch nicht gelöst wurde).
- Man kann mit ihr erheblich umfangreiche Aufgaben erledigen mit einem minimalen Aufwand.
- Durch ihre Popularität gibt es eine enorm große und sehr hilfsbereite Community.

Und genau dies sind die Hauptgründe, sich für Python auch in diesem Bereich zu entscheiden. Mit Python hat man eine Art Schweizer Taschenmesser, dass sich in fast allen IT Bereichen mühelos einsetzen lässt. Vor allem in der Industrie, außerhalb des akademischen Bereichs ist dies ein wichtiger Grund, weshalb Python vorwiegend eingesetzt wird.

## Voraussetzungen

Dies ist keine Einführung in die Statistik! Die im Kurs behandelten statistischen Konzepte sollten Ihnen zumindest ein Begriff sein. Auch ist es sehr hilfreich, wenn Sie schon einmal programmiert haben (z.B. in R) oder gar einen Einführungskurs in Python gemacht haben.

## Überblick über den Kurs:

- Die Mutter aller wissenschaftlichen Python Module: *NumPy*
- Daten Visualisieren: erste Schritte mit *Matplotlib*
- Daten einlesen und manipulieren mit *Pandas*
- Deskriptive und Inferenzstatistik mit *SciPy*
- Weitere Konzepte

# Kurze Einführung in Python

Diese kurze Einführung ersetzt nicht eine ordentliche Auseinandersetzung und umfassendere Einführung in Python, wie Sie sie z.B. von mir [hier](https://datenschauer.de/pythonkurs) finden können. Ich möchte aber dennoch versuchen, Ihnen die wichtigsten Programmierkonzepte in Python näherzubringen, damit Sie die nachfolgenden Kapitel verstehen können.

## einfachste Konzepte

Beginnen wir mit den wichtigsten Basisfunktionalitäten: Variablen, Zahlen, Operatoren, Strings, eingebaute Funktionen und Methoden.

### Zahlen und Operatoren

Python kann von Haus aus grundständige Rechenoperationen bewerkstelligen. Dabei stehen ihm Ganzahltypen `int` und Gleitkommazahlen `float` zur Verfügung.

In [4]:
# Addition
5 + 17

22

In [5]:
# Subtraktion
8967 - 9383

-416

In [6]:
# Multiplikation
78 * 65

5070

In [7]:
# Division gibt immer eine Gleitkommazahl zurück!
81 / 9

9.0

In [8]:
# Dezimalzahlen mit einem "Punkt" als Dezimaltrenner!
3.1415926 * 2.71828

8.539728332728

In [9]:
# Potenzen
2 ** 8

256

In [12]:
# Modulo Operator (Berechnung des Rests)
92 % 5

2

In [14]:
# Abrundungsfunktion (floor division)
92 // 5 # 92 / 5 -> 18.4

18

Python kennt zwar so etwas wie eine "Punkt-vor-Strich-Rechnung", aber für komplexere Berechnungen und der Übersicht halber kann man Klammern verwenden.

In [15]:
(90 / (67 - (3 ** 2) // 4))

1.3846153846153846

Neben diesen mathematischen Operatoren gibt es natürlich auch noch logische Operatoren, die einen Wahrheitswert `True` oder `False` zurück geben. Diese Operatoren sind die Vergleichsoperatoren (`==, <, >, <=, >=`), sowie die Operatoren zur logischen Verknüpfung (`and, or, not`).

In [17]:
not ((30 > 45) and ((12 / 3) == 4 or 5 <= 12))

True

### Variablen

Variablen werden mit einem Istgleich-Zeichen `=` instantiiert und initialisiert in einem. Der Name einer Variablen kann dabei jedes ASCII Zeichen annehmen, muss aber mit einem Buchstaben oder einem Unterstrich `_` beginnen. Mit der `print()` Funktion können Ausdrücke am Bildschirm ausgegeben werden.

In [3]:
meine_variable = 5

meine_variable

5

In [19]:
x = 8
y = 17
m = x + y
print(x + y, m)

25 25


## Funktionen

Funktionen können über ihren Namen, gefolgt von runden klammern und eventuellen Argumenten (= Parametern) aufgerufen werden: `funktionsname(arg1, arg2)`

Die Print-Funktion haben wir beispielsweise schon kennengelernt. Sie hat den Funktionsnamen "print" und nimmt als Argumente ein oder mehrere Strings entgegen, als Zeichenketten, die dann in der Standardausgabe (meist die Konsole oder in Jupyter Notebooks der Bereich unterhalb der Zelle) ausgegeben werden. Als Argumente dienen aber nicht nur direkte Strings, sondern auch alle Objekte und Rückgabewerte, die eine String Repräsentation haben.

In [6]:
print("Hallo Welt!")
print("Hallo", "Welt", "!")

Hallo Welt!
Hallo Welt !


In [9]:
# Weitere Beispiele von Funktionen:

max(4, 3, 9, 1) # gib das gröẞte Element zurück

9

```
    max       (4, 3, 9, 1)
     |           |    |
Funktionsname   Argumente
```

In [8]:
len("Hallo Welt!") # gib die Länge eines Objektes zurück

11

Funktionen lassen sich auch ineinander "verschachteln". Der Aufruf und die Rückgabe der einzelnen Funktionen erfolgt dann von "innen nach auẞen".

In [11]:
print(max(len("Hallo"), len("Welt")))

5


```
print( max ( len("Hallo"), len("Welt) ))
 |      |      |           |
 |       \     5           4 
 |        \    |          /
 |       max  (5,       4)
  \        |
   \       |
    print (5)
      |
      5
```

## Datenstrukturen

### Listen

Eine Liste legt man über Verwendung eckiger Klammern „[]“ an. Zwichen diese Klammern schreibt man durch ein Komma separiert die einzelnen Objekte, die in dieser Liste gespeichert werden sollen. Unsere erste Liste, die die Werte der gegebenen Antworten des ersten Items enthält, könnte demnach so aussehen:

In [1]:
item_1 = [3, 1, 1, 3, 1, 1, 5, 2, 2, 3, 4, 3, 5, 3, 5, 1, 5, 4, 4, 4]

Über den Klammernoperator `[]` kann man auf die eizelenen Werte (Indices) einer List zugreifen. Dabei sind Listen, wie auch Tupel *iterierbare* Objekte in Python.

Jedes iterierbare Objekt lässt sich der Reihe nach in einzelne Elemente zerlegen, die von vorne nach hinten über einen sog. Index durchnummeriert werden und über diese Nummern auch angesprochen werden können. Ähnlich wie bei einem langen Zug bei dem man vorne bei der Lok zu zählen beginnt und jedem weiteren Waggon eine Nummer n+1 gibt. Die Lok wäre der Index 0, der erste Waggon der Index 1, der zweite Waggon der Index 2 usw., bis zum letzten Waggon. Von vorne nach hinten gezählt ist aber die Lok das erste Bauteil, der erste Waggon das zweite usw.

![Index Zug](./img/index_zug.png)

Genauso zählt auch Python die Elemente eines Iterable durch. Das erste Element hat immer den Index 0, das zweite den Index 1 und das letzte hat den Index „Anzahl der Elemente minus 1“.

Um einen Index auszuwählen, bzw. auf ihn zuzugreifen, benutzt man den Klammer-Operator: zwei eckige Klammern „[]“, die hinten an das Iterable angesetzt werden. Die Syntax sieht folgendermaßen aus: `iterable[<index>]`.

In [5]:
print(item_1)
print(item_1[0]) # das erste Element
print(item_1[1]) # das zweite Element
print(item_1[10]) # das elfte Element usw.

[3, 1, 1, 3, 1, 1, 5, 2, 2, 3, 4, 3, 5, 3, 5, 1, 5, 4, 4, 4]
3
1
4


Diese Index Syntax mit den eckigen Klammern erlaubt es sogar, „von Hinten“ anzufangen zu zählen. Das letzte Element hätte somit den Index -1, das zweitletzte den Index -2 usw.

In [13]:
print(item_1[-1]) # das letzte Element
print(item_1[-5]) # das fünfte Element von "hinten"

4
1


Man kann auch Teile einer Liste "herausschneiden". Dies nennt man *Slicing*. Das Slicing erfolgt auch über den `[]`-Operator und hat folgende Syntax:
```
liste[ start : ende : schritte ]
```
**Achtung:** Bei Start und Ende handelt es sich um ein *halboffenes Intervall*. Der Start-Index ist immer inkludiert, der End-Index aber ausgeschlossen!

Man kann je nachdem Start, Ende und Schritte auch weggelassen:
- Lässt man Start weg, wird bei Index 0, also dem ersten Element begonnen.
- Lässt man Ende weg, so wird bis zum letzten Index + 1, bzw. `[-1]`, also dem letzten Element gegangen.
- Lässt man die Schritte weg, so wird "1" genommen, also jedes Element, ohne eines zu überspringen.

Anbei ein paar Beispiele.

In [6]:
items_2 = ["eins", "zwei", "drei", "vier", "fünf", "sechs", "sieben"]

print(items_2[2:5])
print(items_2[0:4])
print(items_2[:4])
print(items_2[3:-1])
print(items_2[3:])
print(items_2[:])
print(items_2[::2])
print(items_2[1:5:3])

['drei', 'vier', 'fünf']
['eins', 'zwei', 'drei', 'vier']
['eins', 'zwei', 'drei', 'vier']
['vier', 'fünf', 'sechs']
['vier', 'fünf', 'sechs', 'sieben']
['eins', 'zwei', 'drei', 'vier', 'fünf', 'sechs', 'sieben']
['eins', 'drei', 'fünf', 'sieben']
['zwei', 'fünf']


Listen in Python sind **extrem flexible** Datenstrukturen. Grundsätzlich kann man jede Art von Objekt auch in eine Liste packen (selbst wiederum Listen oder ganze Funktionen). Ausserdem ist es ein Leichtes, neue Objekte hinzuzufügen, Objekte an Ort und Stelle zu ändern, Onjekte zu löschen und auch die Elemente einer Liste zu sortieren.

Halten Sie sich folgende Beispiele vor Augen.

In [1]:
multilist = ["eins", 1, sum, True]

Können Sie sich folgenden Ausdruck erklären?

In [4]:
multilist[2]([multilist[1], multilist[-1]])

2

Das dritte Element von Multilist ist die Funktion `sum()`. Über die runden Klammern geben wir ihr ein Argument mit, das ein *Iterable* ist. Eine Liste ist zum Beispiel solch ein Iterable, also eine Objekt, über das *iteriert* werden kann, über das man also Schritt für Schritt hinweg gehen kann und jedes Element nacheinander einzeln zurückbekommt. Wir bilden also eine Liste als Argument mit den eckigen Klammern und stecken die zwei Elemente `multilist[1]` (das zweite Element, die Zahl "1") und `multilist[-1]` (das letzte Element, der Wahrheitswert `True`) hinein. Da der Wahrheitswert `True` immer auch als Zahl "1" interpretiert wird (genauso wie `False` immer als "0") ergibt die Summe von "1" und "1" eben "2".

Listenelemente kann man durch Zuweisung auch sehr leicht ersetzen.

In [7]:
items_2[2] = "neues Element"

items_2

['eins', 'zwei', 'neues Element', 'vier', 'fünf', 'sechs', 'sieben']

In [8]:
items_2[4:] = ["neu"] * 3

items_2

['eins', 'zwei', 'neues Element', 'vier', 'neu', 'neu', 'neu']

#### Wichtige Listen Methoden

Anhängen lassen sich neue Elemente mit der Methode `append()`.

In [9]:
items_2.append("wurde gerade angehängt")

items_2

['eins',
 'zwei',
 'neues Element',
 'vier',
 'neu',
 'neu',
 'neu',
 'wurde gerade angehängt']

Besteht eine Liste ausschließlich aus Elemente, die sich untereinander nach Größe vergleichen lassen, so kann man diese Liste auch sortieren. Dazu können die Funktion `sorted()` und die Methode `.sort()` benutzt werden.

Den Unterschied beider Funktionen sollte dieser Code klar machen:

In [22]:
ls = [3, 7, 2, 8, 1, 4]

print(sorted(ls))

print(ls)

ls.sort()

print(ls)

[1, 2, 3, 4, 7, 8]
[3, 7, 2, 8, 1, 4]
[1, 2, 3, 4, 7, 8]


Die Länge, also die Anzahl der Elemente einer Liste bekommt man über die Funktion `len()`.

In [23]:
len(ls)

6

#### Mehrere Dimensionen

Wenn man aber sämtliche Python Objekte in eine Liste packen kann, so kann man auch Listen selbst wieder in Listen packen. Wenn wir Listen miteinander verschachteln, so erreichen wir höhere Dimensionen.

In [18]:
listen = [
    ["00", "01", "02", "03"],
    ["10", "11", "12", "13"],
    ["20", "21", "22", "23"]
]

listen

[['00', '01', '02', '03'], ['10', '11', '12', '13'], ['20', '21', '22', '23']]

Beim Zugriff auf diese verschachtelten Listen müssen Sie pro Dimension eine Eckige Klammer eingeben. Schauen wir uns das kurz an einem Beispiel an:

In [19]:
print(listen[0][1])
print(listen[1][3])
print(listen[2][0])

01
13
20


```
      liste[0][1]
            |  |
            |  |
            |  |
           /    \
          /      \
         /        \
Index Liste =     Index Element =
= Index Zeile     = Index Spalte
```

Das ganze können wir jetzt natürlich noch weiter treiben. Wir könnten Listen von Listen wieder in einer Liste zusammenfassen, was dann ein dreidimensionales Objekt ergeben würde.

Hier wieder ein hoffentlich verständlicheres Beispiel:

In [20]:
listen = [
    [["000", "001", "002", "003"],
     ["010", "011", "012", "013"],
     ["020", "021", "022", "023"]],
    [["100", "101", "102", "103"],
     ["110", "111", "112", "113"],
     ["120", "121", "122", "123"]],
    [["200", "201", "202", "203"],
     ["210", "211", "212", "213"],
     ["220", "221", "222", "223"]],
]
print(listen[1][0][1])
print(listen[0][1][3])
print(listen[2][2][0])

101
013
220


Sie können auch einfach an einen Zauberwürfel, bzw. Rubic’s Cube denken:

Die einzelnen Schichten sind Gruppen von Listen (oder im Fall der Studie, die einzelnen Messzeitpunkte). Die einzelnen Zeilen sind die Listen von Elementen (in der Studie die gesammelten Codes eines Items). Die Spalten sind die einzelnen Elemente (bzw. in der Studie die Einzelcodes der Teilnehmer*innen).

![Zauberwürfel](img/rubics_cube.png)

Wenn Sie mathematisch denken, so ist eine Liste nur mit Elementen ein Vektor (oder eindimensionale Matrix), eine Liste mit weiteren Listen eine zweidimensionale Matrix, eine Liste mit ein oder mehreren zweidimensionalen Matrizen eine dreidimensionale Matrix und so weiter.

### Tupel

Um es kurz zu machen: Tupel sind iterierbare Datenstrukturen wie Listen, nur dass sie nicht veränderlich sind (immutable). D.h. dass die Elemente nicht durch einen Zuweisungsoperator ersetzt werden können.

Die Syntax verwendet runde Klammern statt eckigen: `(element, element, ...)`

Ansonsten können Sie auf die Elemente eines Tupels genauso zugreifen, wie auf Listenelemente.

In [21]:
tupel = (2, "vier", 6, False, [3, 7, 9])

In [25]:
print(tupel[-1])
print(tupel[1::2])
print(len(tupel))
print(len(tupel[-1]))

[3, 7, 9]
('vier', False)
5
3


### Dictionaries

## Kontrollstrukturen

### Verzweigungen (if ... else ...)

### Schleifen (while und for)

### Beispiel: die Elchpopulation

Ich möchte mit einem kleinen Rätsel, das Ihnen z.B. als statistisch arbeitende Biolog*in unterkommen könnte, weitere basale Python Konzepte erklären.

Stellen Sie sich vor, Sie arbeiten an der Erforschung einer Elchpopulation in den nördlichen Regionen Schwedens. Um die einzelnen Tiere zu tracken, sollen Ihnen kleine Sender schmerzfrei implantiert werden. Sie schätzen die Population auf 1.000 Tiere. Aus dieser Population werden 50 Tiere völlig zufällig eingefangen, gechipped und wieder freigelassen. Nach ca. einem halben Jahr werden wieder 50 Tiere völlig zufällig eingefangen. Wie hoch ist die Wahrscheinlichkeit, dass genau $k$ Tiere beim zweiten Mal dabei sind, die schon gechipped waren?

Sie kramen kurz in Ihrem Gedächtnis, was Sie über Kombinatorik in Ihrer Vorlesung Wahrscheinlichkeitstheorie gelernt hatten und folgern, dass folgende Formel korrekt sein müsste: $$\frac{\binom{n}{k}\cdot\binom{N-n}{m-k}}{\binom{N}{m}},$$ mit $k\le n$ und $m-k \le N-n$, wobei $N$, die Populationsgröße, $n$ die Anzahl der zuerst gechippten Elche und $m$ die Anzahl der erneut eingefangen ist. Diese Funktion nennt man auch eine [**hypergeometrische Verteilung**](https://de.wikipedia.org/wiki/Hypergeometrische_Verteilung).

Machen wir uns noch kurz klar, wie diese vielen *Binomialkoeffizienten* in der Formel berechnet werden können. Hinter $\binom{n}{k}$, sprich "aus $n$ wähle $k$", oder "$n$ über $k$" steckt folgende Formel: $\frac{n!}{k!\cdot (n-k)!}$, wobei $n!$ (sprich: "$n$ Fakultät") gleich $n \cdot (n-1) \cdot (n - 2) \cdot \dots \cdot(n - (n - 1))$.

Mit diesem Wissen können wir nun ein kleines Pythonprogramm schreiben, das uns $k$ berechnet.

### Funktion für die Berechnung der Fakultät erstellen

Zuerst brauchen wir eine Funktion, mit der wir die Fakultät ausrechnen können. Funktionen in Python werden mit dem *Keyword* `def` eingeleitet, gefolgt von einem *Namen* für die Funktion, sowie einer Liste mit optionalen Parametern in runden Klammern, die wir der Funktion übergeben wollen, gefolgt von einem Doppelpunkt, der den *Funktionskörper* einleitet.

In [None]:
# eine Beispielfunktion

def beispiel(n, m):
    pass

# Module