# Grundkurs Python

Dieses Notebook dient als einführung in die Datenverarbeitung mit Python. 

## Warum sollte man Programmieren lernen?

Programmierkenntnisse sind heutzutage in fast allen Berufsfeldern nützlich. Angestellte in der Verwaltung können damit beispielsweise wiederkehrende Tätigkeiten automatisieren, wie die Aufbereitung von Daten und das Erstellen von Berichten. Ingenieure und Forschende können große Datenmengen effizient analysieren, Simulationen durchführen und komplexe Prozesse automatisieren. 

### Warum Python? 

Python ist eine der beliebtesten Programmiersprachen der Welt. Die Gründe dafür sind vielfältig:
- Einfachheit: Die Syntax von Python ist klar lesbar und leicht zu lernen
- Erweiterbarkeit durch Module: Python lässt sich mit zahlreichen Modulen erweitern, die für nahezu alle häufigen Anwendungsfälle bereits eine ausführliche Grundlage bieten und somit viel eigenen Programmieraufwand erspart
- Community: Durch die Beliebtheit von Python kann man zu fast jedem Problem online Erfahrungsberichte finden, die auch die Lösung des Problems erklären.

### Was sind Jupyter Notebooks?
Jupyter Notebooks bieten eine interaktive Entwicklungsumgebung für Python (und andere Sprachen), die es ermöglicht, Code mit erklärendem Text, Bildern, etc. zu kombinieren und den Code interaktiv Schritt für Schritt auszuführen. Im Gegensatz zu normalen Python Skripten, die als einfache `.py`-Datei gespeichert werden, kann man in Jupyter Notebooks den Code abschnittsweise ausführen, testen und direkt bearbeiten. Zwischen den Code-Blöcken lassen sich Textzellen mit Markdown-Formattierung einfügen, wodurch sich der Code sehr klar dokumentieren lässt. **Gute Dokumentation ist extrem wichtig für Code der langfristig genutzt und gepfelgt werden soll.** Ein weiterer Vorteil von Jupyter Notebook ist die anschauliche Visualisierung und Nachvollziehbarkeit des Codes, da Ergebnisse und Diagramme direkt inline angezeigt werden.

### Wann sollte man Jupyter Notebooks verwenden und wann Skripte?

Jupyter Notebooks:
- Ideal für Datenanalyse und Prototyping
- Analyse kann interaktive entwickelt und dokumentiert werden
- Code, Ergebnisse und Erklärungen können kombiniert dargestellt werden, ideal z.B. für Berichte.

Skripte:
- Besser geeignet für umfangreiche Projekte
- Ideal für automatisierung und regelmäßige Ausführung (z.B. tägliche Daten-Updates)
- Praktisch, wenn der Code in andere Projekte integriert oder anderweitig wiederverwendbar sein soll

## Einführung in Jupyter

Ein Jupyter Notebook besteht aus einer Liste von Zellen. Dabei gibt es zwei Typen von Zellen: Markdown und Code. 

### Markdown Zellen
Markdown Zellen enthalten formattierbaren Text, wie in dieser Zelle und werden dazu verwendet den Code, die einzulesenden Daten oder die Ergebnisse der Auswertung zu erklären. 
Eine ausführliche Einführung in die Formattierung mit Markdown findet man z.B. hier: https://www.markdownguide.org/basic-syntax/ oder ein Cheat-Sheet mit den wichtigsten Formattierungsbefehlen hier: https://www.markdownguide.org/cheat-sheet/ . Für den Zweck dieses Kurses reicht es aber aus einfach nur unformattierten Text zu schreiben. (Markdown Zellen in Jupyter unterstützen auch $\LaTeX$, indem man den Code in `$ $` einschließt.)

### Code Zellen
Code Zellen enthalten den ausführbaren Code, in unserem Fall Python. Zellen können einzeln ausgeführt werden oder seriell (mehr dazu, wenn wir anfangen Code zu schreiben). 

## Zellen erzeugen, bearbeiten und ausführen
Jupyter Notebooks haben allgemein zwei Modi: Edit Mode und Command Mode

### Edit Mode
Im Edit Mode lässt sich eine Zelle bearbeiten. Um in den Edit Mode zu kommen, wählt man einfach eine Zelle aus und drückt `Enter`. 

### Command Mode
Im Command Mode lässt sich das Notebook selbst bearbeiten, also z.B. Zellen einfügen, verschieben, ausführen und Zelltyp ändern. Um vom Edit Mode wieder in den Command Mode zu kommen drückt man `Esc`. Die meisten Funktionen des Command Mode lassen sich auch per Mausklick auf die entsprechenden Buttons ausführen, aber es lohnt sich auf Dauer für effizienteres Arbeiten die entsprechenden Tastaturbefehle zu lernen.

Hier eine Liste an häufig verwendeten Tastaturbefehlen:
- Leere Zelle über der aktuellen einfügen: `A`
- Leere Zelle unter der aktuellen einfügen: `B`
- Zelle kopieren: `C`
- Zelle ausschneiden: `X` 
- Kopierte / ausgeschnittene Zelle einfügen: `V`
- Zelle nach oben / unten verschieben: `Strg+Shift+Pfeil hoch/runter`
- Zelle zu Markdown ändern: `M`
- Zelle zu Code ändern: `Y`

Die Tastaturbefehle um Zellen auszuführen lassen sich sowohl im Command Mode, als auch im Edit Mode verwenden:
- Aktuelle Zelle ausführen: `Shift+Enter`
- Aktuelle Zelle ausführen und darunter neue erstellen: `Alt+Enter`

Die Tastaturbelegungen lassen sich unter `Settings > Settings Editor > Keyboard Shortcuts` anpassen. So lassen sich auch Befehle wie z.B. alle Zellen ausführen, oder alle Zellen nach der aktuellen ausführen auf Tasten legen.

## Hello World

Das klassische erste Beispielprogramm in jedem Programmierkurs ist "Hello World", also ein Programm, das einfach nur den Text "Hello World" zurückgibt. Python zählt zu den "höheren Programmiersprachen", die auf einer höheren Abstraktionsebene arbeiten und viele Maschinenbefehle zu einfachen, menschlich lesbaren Befehlen zusammenfasst. Das "Hello World" Programm ist daher nur eine einzige Zeile lang:

In [None]:
print("Hello World")

Was in dieser Zeile passiert, ist das wir die *Funktion* `print` aufrufen und ihr den Text `"Hello World"` als Argument übergeben. `print` ist eine von vielen Funktionen, die in Pythons Standardbibliothek definiert sind und gibt die Argumente im Output aus (bei Jupyter unter der Zelle, bei einem Python Skript ohne Jupyter in der Befehlseingabe). Jupyter gibt den Inhalt der letzten Zeile in einer Zelle immer aus, auch ohne `print`. Um dies zu unterdrücken, kann man die Zeile mit einem `;` beenden. 

In [None]:
"Hello World"

In [None]:
"Hello World";

### Kommentare

Wenn Python Code in einem alleinstehenden Skript geschrieben wird, lassen sich natürlich keine Markdown Zellen einfügen. Stattdessen kann man Kommentare einfügen, die vom Interpreter ignoriert werden, indem man sie mit einem `#` markiert. **Wenn Code langfristig verwendet werden soll, ist gute Dokumentation der Funktionalitäten und des Designs durch Kommentare genau so wichtig wie guter Code selbst!** 

In [None]:
# Dies ist ein Kommentar
"Hello World"

## Datentypen

In Python gibt es verschiedene grundlegende Datentypen:
- `str` (String): Texte, wie "Hello World" in unserem vorherigen Beispiel `"Hello World"`. Können durch einfache Anführungszeichen `'Text'` oder doppelte `"Text"` markiert werden.
- `int` (Integer): Ganzzahlen `0`, `1`,`42`
- `float`: Kommazahlen `3.14`, `2.71`, `1e-8`, `1.0`
- `list`: Geordnete Liste von beliebigen Objekten. Kann beliebig erweitert und verändert werden. `[0,1,2,3]`, `["Apfel", "Banane", "Mango", "Apfel"]`, `[7, "Text", [1,2,3]]`
- `tuple`: Geordnete Liste von beliebigen Objekten. Kann **nicht** erweitert und verändert werden. `(0,1,2,3)`, `("Apfel", "Banane", "Mango", "Apfel")`, `(7, "Text", [1,2,3])`
- `set`: Duplikatfreie, ungeordnete Liste von beliebigen Objekten. Objekte im Set können nicht verändert werden, aber es können Elemente entfernt / hinzugefügt werden. `{0,1,2,3}`, `{"Apfel", "Banane", "Mango"}`, `{7, "Text", (1,2,3)}` 
- `dict` (Dictionary, teilw. auch Map genannt): Ungeordnete Liste von Schlüssel-Wert-Paaren. Kann beliebig erweitert und verändert werden. `{"Vorname": "Max", "Nachname": "Mustermann", "Alter": 30, "Hobbies": ["Fussball", "Programmieren"]}`

In [None]:
[1,2,3]

In [None]:
0.000001

## Variablen 

Variablen sind ein grundlegendes Konzept in jeder Programmiersprache. Sie dienen als Speicherorte, um Daten vorübergehend abzulegen und später im Code darauf zuzugreifen. Python zählt zu den *dynamisch typisierten* Programmiersprachen, in denen der Datentyp einer Variable sich im Laufe des Programmes ändern kann (wobei dies in der Regel nicht zu empfehlen ist). *Statisch Typisierte* Sprachen, wie z.B. C(++), Java erlauben dies nicht und erfordern häufig eine explizite Angabe des Typs bei der deklaration einer Variable. Python erkennt den Datentyp automatisch: 

In [None]:
name = "Max Mustermann"
alter = 30
hobbies = ["Fussball", "Programmieren"]
print("Hallo", name)

**Variablen sollten stets so benannt werden, dass jemand der den Code liest, ihren Verwendungszweck aus dem Namen ableiten kann.**

Um auf die Einträge einer `list`, eines `tuple` oder eines `dict` zuzugreifen, übergibt man den Index des Eintrages mit `[]`. Bei `list` und `tuple` zählen die Indizes die Elemente angefangen bei 0. Im Fall von vernesteten Strukturen können mehrere `[]` direkt aneinander gereiht werden (um Übersicht zu wahren, empfiehlt es sich jedoch in der Regel Strukturen nicht zu tief zu vernesten). 

In [None]:
Person = {"Vorname": "Max", "Nachname": "Mustermann", "Alter": 30, "Hobbies": ["Fussball", "Programmieren"]}
print("Name:", Person["Vorname"], Person["Nachname"], ", Alter:", Person["Alter"], ", erstes Hobby:", Person["Hobbies"][0]) 

### Kopieren von Variablen

Wenn man eine Variable von einem simplen Datentyp (`int`, `float`, `str`, ...) kopiert, wird in Python der Wert der Variable kopiert, nicht die Variable selbst. Bei komplexen Datentypen (`list`, `dict`, `set`, ...) wird die Referenz auf das Objekt kopiert:

In [None]:
a = 1
b = a
a = 2
b

In [None]:
a = [1,2,3]
b = a
b[0] = 4
a

## Python als Taschenrechner

Grundlage für jede Datenauswertung sind mathematische Operationen. Standardoperationen wie `+`, `-`, `*`, `/` stehen in Python direkt zur Verfügung. Der Operator für Potenzieren ist `basis**exponent`. Bei mathematischen Ausdrücken beachtet Python die übliche Reihenfolge von Operationen, also "Punkt vor Strich", aber zur verdeutlichung können immer Klammern verwendet werden (nur `()`, nicht `[]` oder `{}`). Anders als in vielen anderen Programmiersprachen, werden Integer in Python bei der Division automatisch zu Floats umgewandelt. Für Integer-Division gibt es den Operator `//`, bei dem immer zur nächsten Ganzzahl abgerundet wird, wobei der Datentyp des Ergebnis aber nur dann ein Integer ist, wenn beide Operanden dies auch sind. 

In [None]:
a = 1
b = 2
c = a + b**2 / 3
c

## Installation und Verwendung von Modulen
Kompliziertere Funktionen, wie Wurzeln, Trigonometrische Funktionen, Integration, etc. sind in Python nicht direkt verfügbar. Dafür bietet Python eine reiche Bibliothek an *Modulen*, die mit dem `import` Befehl geladen werden können, falls sie installiert sind (siehe nächster Absatz). Funktionen aus einem Modul lassen sich dann mit `modulname.funktionsname` aufrufen.

In [None]:
import math

math.sqrt(2)

Um Schreibarbeit zu sparen, kann Modulen beim import auch ein anderer Name zugewiesen werden, oder es können die Funktionen direkt importiert werden: 

In [None]:
import math as m
m.sqrt(2)

In [None]:
from math import log10
log10(1000)

### Installation von Modulen
Einige häufig benötigte Module wie `math` sind bereits in der Standardinstallation von Python enthalten und können einfach importiert werden. Speziellere Module müssen häufig erst installiert werden. Wichtige Beispiele für diesen Kurs sind 
- `numpy` für Mathematik auf Vektoren, Matrizen und Tensoren
- `pandas` für Datenanalyse und -manipulation
- `matplotlib` für das Erstellen von Plots

Wenn Python mit `miniconda` installiert wurde, lassen Pakete sich einfach über das Program `Anaconda (PowerShell) Prompt` mit einem einfachen Befehl installieren:
```
conda install numpy pandas matplotlib
```

#### Virtuelle Umgebungen
Wenn man an mehreren Projekten arbeitet, oder häufig Open Source Python Programme verwendet, kann es passieren, dass unterschiedliche Projekte verschiedene Versionen von dem selben Modul (oder von Python selbst) benötigen und dadurch Konflikte entstehen. Um dies zu verhindern, empfiehlt es sich für jedes Projekt eine sogenannte *Virtuelle Umgebung* zu erstellen. Um in `conda` eine neue Umgebung zu erstellen verwendet man die Kommandozeile
```
conda create --name myEnv python=3.9
conda activate myEnv
```
Der erste Befehl erzeugt eine neue Umgebung, hier als Beispiel mit Python Version 3.9 und der zweite Befehl aktiviert dann die Umgebung `myEnv`. Wenn danach Pakete installiert werden, sind diese nur in der virtuellen Umgebung `myEnv` verfügbar. Um wieder in die Standardumgebung zu wechseln verwendet man `conda deactivate` .

Jupyter Notebooks laufen in der Regel bereits für jeden Nutzer in einer gesonderten Umgebung auf dem Server, der JupyterHub hostet. Um in dieser Umgebung Pakete zu installieren kann folgender Befehl verwendet werden: 

In [None]:
import sys
%conda install --yes --prefix {sys.prefix} numpy

Dabei importieren wir das `sys` Modul um über `sys.prefix` herauszufinden, in welcher Umgebung wir uns gerade befinden, um das Paket ebendort installieren zu können.

Außerhalb von Jupyter Notebooks ist das Installieren von Paketen etwas simpler: In der Kommandozeile reicht dafür der Befehl
`conda install numpy`.
Zudem gibt es einen alternativen Paketmanager `pip` (Package Installer for Python), der eine noch größere Auswahl an Paketen bereitstellt. Das Installieren von Paketen funktioniert hier sehr ähnlich mit `pip install numpy`

### Einführung in Numpy - Rechnen mit Vektoren und Matrizen 

Das Modul `NumPy` ist für die Datenanalyse mit Python eins der wichtigsten Werkzeuge. Es erweitert die Funktionalitäten des `math` Modules, sodass Funktionen nicht nur auf einzelne Zahlen, sondern sehr effizient auch auf Vektoren, Matrizen und höherdimensionale Objekte anwenden lassen. Da der Code im Hintergrund der `NumPy` Bibliothek extrem performant geschrieben ist, ist das ausführen einer Operation auf einem Vektor / einer Matrix auch sehr viel schneller, als in herkömmlichen Schleifen (siehe späterer Abschnitt). Alle diese Objekte werden in `NumPy` durch den `array` Datentypen dargestellt: 

In [None]:
import numpy as np
my_list = [[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16]]
my_vec = np.array(my_list[0])
my_mat = np.array(my_list)
print("my_vec:    \n", my_vec)
print("my_mat:    \n", my_mat)

In [None]:
print("Wurzel jedes Elements:        ", np.sqrt(my_vec))
print("Mittelwert aller Elemente:    ", np.mean(my_vec))
print("Summe aller Elements:         ", np.sum(my_vec))
print("Transponierte Matrix:       \n", my_mat.T)

Viele Operationen, die normalerweise auf Zahlen angewendet werden, lassen sich direkt auf Arrays verallgemeinern und werden von `NumPy` elementweise durchgeführt:

In [None]:
my_vec+my_vec

Bei Operationen mit Operanden von unterschiedlichen Rängen, z.B. Skalar und Vektor, erhöht `NumPy` automatisch den Rang des niedrigeren, sofern dies einfach möglich ist (*Broadcasting*).

In [None]:
my_vec + 1

In [None]:
my_mat * my_vec

Für das Matrixprodukt, oder Skalarprodukt von Vektoren wird der Operator `@` verwendet (oder alternativ `np.dot(operand1, operand2)`):

In [None]:
my_mat @ my_vec

In [None]:
my_mat @ my_mat

In [None]:
my_vec @ my_vec

### Array Slicing

Häufig will man nicht mit allen Einträgen eines Arrays arbeiten, sondern nur mit einem bestimmten Teil, wie z.B. den ersten 10 Elementen oder jedem 2. Element. Für solche Fälle bietet `NumPy` sogenanntes *Array slicing*. Die Grundlegende Syntax dafür ist `array_name[start:stop:step]`, wobei der Index `start` inklusiv zu verstehen ist, und `stop` exklusiv:

In [None]:
my_vec[0:2:1]

Der Standardwert für `start` ist 0, für `step` ist er 1 und einen `stop` gibt es standardmäßig nicht. Wenn ein Standartwert verwendet werden soll, muss dieser nicht explizit angegeben werden:

In [None]:
print("my_vec[2:]       ", my_vec[2:])
print("my_vec[:2]       ", my_vec[:2])
print("my_vec[::2]      ", my_vec[::2])
print("my_vec[1::2]     ", my_vec[1::2])

Es können auch negative Werte angegeben werden, um z.B. die letzten 3 Elemente zu wählen, oder rückwärts durch das Array zu gehen:

In [None]:
print("my_vec[-2:]         ", my_vec[-2:])
print("my_vec[-3:-1]       ", my_vec[-3:-1])
print("my_vec[:-2]         ", my_vec[:-2])
print("my_vec[::-1]        ", my_vec[::-1])

Die bisher gezeigten Varianten von Slicing können auch auf Datentypen wie `list` angewendet werden. Array slicing in `NumPy` kann aber darüber hinaus auch mehrdimensional angewendet werden. Dabei wird das Slicing für jede Dimension durch ein Komma getrennt: 

In [None]:
print("my_mat[::-1,1:]       \n", my_mat[::-1,1:])
print("my_mat[:,:2]          \n", my_mat[:,:2])