<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Einführung Machine Learning
### Sommersemester 2024
Prof. Dr. Heiner Giefers

# Einführung in Python

## Variablen

Python ist fundamental objektorientiert. Das heißt nicht nur, dass Sie in Python objektorientiert programmieren können. Es gilt auch der Leitsatz: *Alles in Python ist ein Objekt*. Also selbst grundlegende Datentypen wie `int`, `float` und `str`, sowie Funktionen sind Objekte. Daher sind Variablen in Python immer Referenzen auf Objekte.

Wie viele andere Skriptprachen auch, ist Python dynamisch typisiert. Das bedeutet, dass Sie keine Typangaben bei der Definition einer Variablen angeben müssen. Python leitet automatisch den passenden Typ ab, bzw. es wählt den "am besten passenden" Typ aus.

Sie können daher Variablen in Python wie folgt definieren:

In [None]:
a = 42
b = 1.23
ab = 'Hallo'

Für Variablennamen gelten die Gleichen Regeln wie für die Bezeichner in C/C++. Variablen müssen mit einem Buchstaben oder Unterstrich beginnen und können sich ab dem 2. Zeichen aus einer beliebigen Folge von Buchstaben, Ziffern und Unterstrichen zusammensetzen.

Es gibt allerdings einige Konventionen für die Wahl von Bezeichnern. So gelten Variablen, die mit 2 Unterstrichen beginnen als *privat*, Namen mit 2 Unterstrichen am Anfang und am Ende sind für spezielle Attribute und Methoden reserviert ("*magic methods*").

Die skalaren, also elementare oder nicht-zusammengesetzten Datentypen in Python sind:
- `int` Ganze Zahlen
- `float` Fließkommazahlen mit 64-bit Präzision
- `complex` Komplexe Zahlen
- `bool` Bool'scher Datentyp mit den Werten `True` und `False`
- `NoneType` signalisiert das Nicht-Vorhandensein einer Referenz, ähnlich zu `NULL` oder `NIL` in anderen Sprachen

Die Typen `str` für Zeichenketten sowie `bytes` für Folgen von 8-bit (vorzeichenlosen) Werten (zum Verarbeiten von Binärdaten) gehören zu den *Sequentiallen Datentypen*.

## Operationen

Für die meisten Datentypen existieren die bekannten Operationen (`+`, `-`, `*`, `/`) mit der üblichen Bedeutung. Daneben gibt es noch den Operator `//`, für die ganzzahlige Division, den Modulo-Operator `%` und den Potenz-Operator `**`.

In [None]:
a = 2 + 1.23
b = 22.2//3
c = "Hallo " + "Welt"
d = 2**8
print(a, b, c, d)

Die `print` Funktion, wie oben verwendet, benötigt man ziemlich häufig.
Ruft man sie mit einer (beliebigen) Folge von Parametern aus, so wird für jeden Variable, entsprechend ihres Typs, eine passende *print* Methode aufgerufen. In Python heißt die Methode `__str__()`, sie entspricht in etwa der `toString()`-Methode aus Java.

Um eine formatierte Ausgabe zu erhalten, kann man einen Format-String mit Platzhaltern angeben, ähnlich wie bei der `printf`-Funktion aus C. Über den Modulo-Operator können dann die Variablen angegeben werden, die an den Platzhaltern eingesetzt werden sollen.
Für unser Beispiel oben sieht das z.B. so aus:

In [None]:
print("a = %f, b = %d, c = %s, d = %s" % (a, b, c, d))

Python ist stark typisiert. D.h., dass Variablen immer einen eindeutigen Typ haben und an keiner Stelle eine implizite Typumwandlung stattfinden kann. Jede Änderung des Typs erfordert eine explizite Typkonvertierung. Ein Ausdruck wie `"Hallo"+2` kann nicht ausgewertet werden, da die `+`-Operation für einen String und einen Integer nicht definiert ist.
In diesem Fall kann man eine Typenwandlung, z.B. von `int` nach `str` vornehmen:

In [None]:
"Hallo" + str(2)

## Sequentielle Datentypen

Unter sequenziellen Datentypen wird eine Klasse von Datentypen zusammengefasst, die Folgen von **gleichartigen oder verschiedenen Elementen** verwalten.
In Listen und Tupel können beliebige Folgen von Daten abgelegt sein. Die gespeicherten Elemente haben eine definierte Reihenfolge und man kann über eindeutige Indizes auf sie zugreifen. Listen sind veränderbar, d.h., man kann einzelne Elemente  ändern, löschen oder hinzufügen. Tupel sind nicht veränderbar. Das bedeutet, bei jeder Änderung wird ein komplett neues Objekt mit den geänderten Elmenten angelegt.

In [None]:
a = [3.23, 7.0, "Hallo Welt", 256]
b = (3.23, 7.0, "Hallo Welt", 256)
print("Liste a = %s\nTupel b =%s" % (a,b) )
print("Das dritte Element von b ist " + b[2])
print("Gleiche Referenz? %s. Gleicher Inhalt? %s" % (a == b, set(a)==set(b)))

Das obige Beispiel bringt uns direkt zum nächsten Datentyp, den Mengen (oder engl. *sets*).
Wie bei den Mengen aus der Mathematik kann ein set in Python jedes Objekt nur einmal enthalten.
Wenn wir also aus der Liste [4,4,4,4,3,3,3,2,2,1] eine Menge machen, hat diese folgende Elemente:

In [None]:
set([4,4,4,4,3,3,3,2,2,1])

Die elemente tauchen nun nicht nur einmalig auf, sondern sie sind auch umsortiert worden.
Man darf sich hier nicht täuschen lassen, die Elemente einer Menge sind immer unsortiert.
D.h., man kann keine spezielle Sortierung erwarten, auch wenn die Ausgabe in manchen Fällen danach aussieht.

Ein weitere sequentieller Datentyp sind Dictionaries (die deutsche Übersetzung *Wörterbücher* passt hier nicht so gut).
Diectionaries sind eine Menge von *Schlüssel-Wert-Paaren*.
Das bedeutet, dass jeder Wert im Dictionary unter einem frei wählbaren Schlüssel abgelegt ist, und auch über diesen Schlüssel zugegriffen werden kann.

In [None]:
haupstaedte = {"DE" : "Berlin", "FR" : "Paris", "US" : "Washington", "CH" : "Zurich"}
print(haupstaedte["FR"])
haupstaedte["US"] = "Washington, D.C."
print(haupstaedte["US"])

## Funktionen 

Funktionen in Python werden über das Schlüsselwort `def` definiert. Die Syntax einer Funktions-Definition sieht folgendermaßen aus:

```python
def myfunc(arg1, arg2,... argN):  
  '''Dokumentation'''  

  #Programmcode  

  return <Rückgabewert>  
```

Hier wird die Funktion "myfunc" definiert, welche mit den Parametern "arg1,arg2,....argN" aufgerufen werden kann.

Wir sehen hier auch ein weiteres Konzept von Python, das wir bisher noch nicht angesprochen haben. Die Strukturierung von Code in Blöcke erfolgt über **Einrückungen**.
Für eine Funktion bedeutet das, dass der Code des Funktionskörpers um eine Stufe gegenüber der Funktionsdefinition eingerückt sein muss. Wenn der Funktionskörpers weitere Kontrollstrukturen enthält, z.B. Schleifen oder Bedingungen, sind weitere Einrückungen nötig. Betrachten Sie folgendes Beispiel:

In [None]:
def gib_was_aus():
    print("Eins")
    print("Zwei")
print("Drei")
gib_was_aus()

Hier wird zuerst eine Funktion `gib_was_aus` definiert. Die Anweisung `print("Drei")` ist nicht mehr eingerückt, gehört daher nicht mehr zur Funktion.

Funktionen können fast überall definiert sein, also z.B. auch innerhalb von anderen Funktionen.
Rückgaben erfolgen, wie auch in anderen Programmiersprachen üblich mit den Schlüsselwort `return`.
Falls mehrere Elemente zurückgegeben werden sollen, können diese z.B. in ein Tupel gepackt werden:

In [None]:
def inc(a, b, c):
    return a+1, b+1, c+"B"
a=b=1
c="A"
a,b,c = inc(a,b,c)
print(a,b,c)

## Verzweigungen

Wir haben bisher noch keine Kontrollstrukturen, also Verzweigungen oder Schleifen angesprochen.
Eine Bedingung oder Verzeigung funktioniert in Python (wie üblich) über ein `if`-`else`-Konstrukt.
Auch hier werden zur Strukturierung der Blöcke Einrückungen benutzt.

In [None]:
a=2
if a==0:
    print("a ist Null")
else:
    print("a ist nicht Null")


Um tiefe Verschachtelungen zu vermeiden, gibt es noch ein `elif`-Anweisung:

In [None]:
a=2
if a<0:
    print("a ist negativ")
elif a>0:
    print("a ist positiv")
else:
    print("a ist Null")

## Schleifen

In Python gibt es die Schleifentypen, `while` und `for`, wobei letztere eine etwas ungewöhnliche Syntax hat.
Die `while`-Schleife hingegen wird wie in vielen bekannten Programmiersprachen benutzt:

In [None]:
i = 5
while i>0:
    print(i)
    i -= 2

Anders als z.B. in C/C++ oder Java läuft eine `for`-Schleife in Python nicht über eine Zählvariable, sondern über *die Elemente eines iterierbaren Datentyps*.
Einige Beispiele für iterierbaren Datentypen haben wir schon als sequentielle Datentypen kennen gelernt.
Wir können z.B. mit einer `for`-Schleife alle Elemente eines Dictionaries besuchen:

In [None]:
haupstaedte = {"DE" : "Berlin", "FR" : "Paris", "US" : "Washington", "CH" : "Zurich"}
for s in haupstaedte:
    print(haupstaedte[s])

Wir sehen, dass die Laufvariable hier alle Schlüssel des Dictionaries annimmt. Bei einer Liste wird über alle Werte iteriert:

In [None]:
a = [3.23, 7.0, "Hallo Welt", 256]
for s in a:
    print(s)

Neben den sequentiellen Datentypen liefern noch sogenannte **Generatoren** Folgen von Werten die iterierbar sind. Der bekannteste iterator ist `range()`.
`range` kann mehrere Argumente haben. Ist nur ein Argument `E` angegeben, so läuft der iterator von 0 bis `E-1`.
`range(S, E)` läuft von S bis `E-1`, und `range(S, E, K)` läuft von S bis `E-1` mit der Schrittweite `K`

In [None]:
print("Ein Parameter:", end=" ")
for s in range(5): print(s, end=" ")

print("\nZwei Parameter:", end=" ")
for s in range(2,5): print(s, end=" ")

print("\nDrei Parameter:", end=" ")
for s in range(0,5,2): print(s, end=" ")

Das zusätzliche Argument `end=" "` in den `print`-Anweisungen oben verhindert übrigens einen Zeilenumbruch.
Ohne diesen Parameter würden alle Werte in einer Spalter untereinander ausgegeben.

Damit endet unser erster *Crash Kurs* zum Thema Python. Sie haben nun die wichtigsten Elemente der Python-Syntax gesehen.
Natürlich zeigen die Beispiele aber nur einen kleinen Auschnitt, die Sprache ist noch deutlich umfangreicher und viele Konzepte, wie z.B. Klassen und Module, haben wir noch nicht einmal angesprochen.

Am besten Sie probieren Python einfach mal aus, indem Sie bestehende Beispiele übernehmen und verändern.
Die Python Notebooks sind eine ideale Umgebung dafür.
Sie können in den Code-Zellen Programmcode einfach ausprobieren.
In den Markdown-Zellen können Sie sich Notizen machen, um Ihren Code zu dokumentieren oder ihre Schritte zu beschreiben.

# Wissenschaftliches Rechnen mit Numpy, Scipy und Matplotlib

In der Vielzahl der verfügbaren Pakete für numerische Berechnungen mit Python gibt es einige Bibliotheken, die als quasi-Standard die Basis für viele Anwendungen und andere Pakete bilden:

NumPy ist die elementare Python-Bibliothek für wissenschaftliches Rechnen. NumPy definiert Objekte für mehrdimensionale Arrays und Matrizen sowie mathematische Grundoperationen auf diesen Objekten. NumPy's "Datentypen" sind zwar eingeschränkter als die bekannten sequentiellen Typen in Python (list, tuple, etc.), dafür sind die Daten aber kompakter im Hauptspeicher abgelegt, so dass Operationen auf mehrdimensionalen Arrays effizienter durchgeführt werden können. Für Vektor- und Matrix-Operationen besitzt NumPy effiziente Implementierungen und benutzt, sofern auf dem Computer installiert, optimierte Bibliotheken für Lineare Algebra (BLAS und LAPACK)

SciPy ist eine Bibliothek von Mathematischen Algorithmen die größtenteils auf NumPy aufbauen. SciPy ist sehr umfangreich und enthält unter anderem Module zur numerischen Berechnung von Integralen, zum Lösen von Differentialgleichungen, zur Berechnung von Optimierungsproblemen, zur digitalen Signalverarbeitung und zur Datenvisualisierung.

Matplotlib ist die Standard-Bibliothek zum Erstellen von (mathematischen) Diagrammen. Sie Syntax von matplotlib orientiert sich an den Diagramm-Funktionen von Matlab was Entwicklern den Umstieg von dem kommerziellen Tool auf Python deutlich erleichtert.


In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
#%matplotlib notebook

Die obigen `import` Anweisungen sind _boilerplate code_, also ein Textbaustein, den Sie immer in gleicher Form verwenden, wenn Sie mit _numpy_ und _matplotlib_ arbeiten. Auch die Abkürzungen der Modulnamen haben sich in dieser Form etabliert.

`%matplotlib` hingegen ist eine _magic function_ in ipython. Mit diesen Funktionen lassen sich generelle Einstellungen für die interaktive shell vornehmen. Mit dem Parameter `inline` stellt man ein, das die Grafiken im interaktiven Modus direkt unter dem Code dargestellt werden. Die Option `notebook` ist eine erweiterte Variante mit interaktiven Elementen für Python Notebooks.

## NumPy

### Arrays

Sie werden schnell feststellen, dass Arrays, bzw. Matrizen bei Algorithmen für das Maschinelle Lernen allgegenwärtig sind.
In NumPy werden n-dimensionale Arrays den Datentyp `ndarray` abgebildet. Wenn die NumPy-Bibliothek mittels `import numpy as np` eingebunden haben, können Sie ein NumPy Array mit der Funktion `np.array()` anlegen:

In [None]:
x = np.array([1,2,3])
print(x, type(x))

Es gibt auch den Datentyp `matrix` in NumPy. Dieser Typ ist von `ndarray` abgeleiteten.
Matrizen haben immer 2-dimensionale Struktur und Operatoren funktionieren etwas anders als bei "normalen" NumPy Arrays.
Um Missverständnisse zu vermeiden, werden wir im folgenden vornehmlich den Typ `ndarray` benutzen.

Ein `ndarray` kann aus Folgen von Zahlen gebildet werden. Dies sind üblicherweise Tupel oder Listen. Die Dokumentation zur Funktion `array` sagt, dass ein *Array-artiger* Parameter übergeben werden soll. Es ist also so, dass alle Objekte, *die NumPy zu einem Array konvertieren kann*, an dieser Stelle Funktionieren:

In [None]:
a = np.array([1, 7, 1, 2])
b = np.array((1, 7, 1, 2))
print("a: %s" % a)
print("b: %s" % b)

Auf einzelne Elemente von eindimensionalen Arrays greift man über einen "einfachen" Index in `[]`-Klammern zu.
Bei mehrdimensionalen Arrays werden die Zugriffe etwas komplizierter.

In [None]:
b[2]

NumPy liefert auch einige Funktionen, um spezielle Arrays zu erzeugen. Über `arange` können z.B. Arrays über Zahlenfolgen gebildet werden:

In [None]:
a = np.arange(8)
a

Die Länge eines Arrays erhält man über das Attribut `size`:


In [None]:
a.size

Die Dimension wiederum, kann man mit dem Attribut `ndim` abfragen. Eindimensionalen Arrays haben die Dimension 1. Wir werden diese Arrays von nun an auch **Vektoren** nennen. Für zweidimensionale Arrays verwenden wir auch den Begriff **Matrix**.

In [None]:
a.ndim

Als eine Art Kombination der Attribute `size` und `ndim` kann man `shape` verstehen.
Dieses Attribut liefert ein Tupel mit `ndim`-Elementen zurück, wobei das $i$-te Element die Größe der $i$-ten Dimension angibt. (Vielleicht fragen Sie sich, warum in dem Tupel `(8,)` das einzelne Komma steht? Das ist dazu da, die Schriftweise eindeutig zu halten. Ansonsten könnte man die Ausgabe mit einem `int` in Klammern verwechseln.)

In [None]:
a.shape

Die Indizierung von NumPy Arrays beginnt immer bei der $0$.
Neben der Adressierung von konkreten Indizes gibt es noch weitere Zugriffsregeln:

In [None]:
print(a[0])     # Das erste Element
print(a[-1])    # Das letzte Element
print(a[2:7])   # Die Elemente von Index 2 bis 7 (ausschließlich)
print(a[2:7:2]) # Wie oben, nur mit einer Schrittweite von 2
print(a[::3])   # Alle Elemente mit einer Schrittweite von 3

### Mehrdimensionale Arrays

Wie schon angesprochen, ist `ndarray` ein mehrdimensionaler Datentyp. Sie können also ohne Weiteres NumPy Arrays aus verschachtelten Listen oder Array erzeugen:

In [None]:
a = np.arange(6)
b = np.arange(6,12)
c = np.arange(12,18)
d = np.arange(18,24)
A = np.array((a,b,c,d))
A

Dabei müssen aber immer alle niedrigeren Dimensionen voll besetzt sein, damit `np.array` ein "echtes" Array generieren kann:

In [None]:
A = np.array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])
A

Passen die Größen der einzelnen Vektoren oder Matrizen nicht zusammen, so liefert die Funktion ein vermutlich ungewolltes Resultat. Im folgenden Beispiel, hat die 3. Zeile der Matrix nur 2 Elemente, und nicht 6 wie alle anderen. `np.array` legt daher ein eindimensionales Array mit Listen als Elemente an: 

In [None]:
B = np.array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13],
       [18, 19, 20, 21, 22, 23]])
B

Einzelne Elemente eines mehrdimensionalen `ndarrays` adressieren Sie mit einer Folge von Index-Klammern. `A[3][1]` z.B. liefert das zweite Element der vierten Zeile der Matrix.

In [None]:
A[3][1]

Etwas komplizierter wird es, wenn wir nicht nur auf einzelne Werte, sondern ganze Bereiche einer Matrix zugreifen wollen.
Mit `[x:y]` greift man auf die Zeilen $X$ bis einschließlich $y-1$ zu. Der $x$-Wert kann auch weg gelassen werden, `[:2]` liefert z.B. die ersten 2 Zeilen der Matrix

In [None]:
print(A[:3])

In [None]:
print(A[1:3])

Auf einzelne Spalten der Matrix greift man über den Komma-Operator:

In [None]:
print(A[:,3])

Das ist in etwa so zu verstehen, dass das Komma die einzelnen Dimensionen voneinander abgrenzt.
Man nimmt also von der ersten Dimension alle Elemente (angegeben durch das Fehlen vonj Grenzen bei dem `:`-Operator) und von der zweiten Dimension nur die "dritten".
Das folgende Beispiel liefert von den Elementen der dritten Zeile die Elemente im Bereich der zweiten bis dritten Spalte.

In [None]:
print(A[2,1:3])

### Arrays Anlegen

Wir haben bereits gesehen, wie man NumPy Arrays mit den Funktionen `array` und `arange` anlegen kann.
Es gibt aber noch weitere Methoden, mit denen Arrays angelegt werden können.
So kann man z.B. Arrays generieren, die nur aus Nullen oder Einsen bestehen

In [None]:
np.zeros(9)

In [None]:
np.ones((4,4))

Die Methode `linspace(Start, Ende, Anzahl-Werte)` ist eine Erweiterung von `arange` mit der fortlaufende Folgen von Zahlen generiert werden können. Die Funktion liefert `Anzahl-Werte` Zahlen im Bereich `[Start,Ende]`.

In [None]:
x = np.linspace(-1,1,20)
x

Die Werte steigen bei `linspace` linear an. Falls Sie eine logarithmische Skalierung benötigen, können Sie die Funktion `logspace` verwenden. Dabei ist darauf zu achten, dass `Start` und `Ende` als Exponenten angenommen werden. `np.logspace(0,2,20)` etwa, generiert 20 Werte im Bereich 1 (10 hoch 0) bis 100 (10 hoch 2).

In [None]:
start = 0 # 10^0 = 1
ende = 2 # 10^2 = 100
n = 20

np.logspace(0,2,20)

Wir haben gesehen, wie wir eindimensionale Arrays generieren können.
Oftmals benötigt man aber mehrdimensionale Arrays.
NumPy stellt einige Methoden bereit, um die Struktur von Arrays zu verändern.
Die Daten selbst, bleiben von diesen Operationen unverändert.

Die wichtigsten Funktionen zum Umstrukturieren von Matrizen sind `reshape` und `flatten`.

In [None]:
a = np.arange(20)
b = a.reshape((4,5))
print("b als 4x5 Matrix:\n", b)
b = b.reshape((5,4))
print("\nb als 5x4 Matrix:\n", b)

Eine Wichtige Operation in der Linearen Algebra ist das Transponieren von Matrizen. Dabei werden die Spalten und Zeilen der Matrix vertauscht. Die Werte in der Matrix bleiben gleich, werden aber in einer umgedrehten Rehenfolge durchlaufen.
In NumPy greift man auf die Transponierte Form eines Arrays über das Attribut `T` zu.

In [None]:
b.T

Das Umstrukturieren und Transponieren funktioniert auch bei Arrays mit einer Dimension >2 

In [None]:
a = np.arange(24).reshape((2,3,4))
a

In [None]:
a = a.T
a

Mit der Methode `flatten` kann man mehrdimensionale Arrys linearisieren.

In [None]:
a.flatten()

### Zufallszahlen

Zufallszahlen und die Erzeugung von bestimmten Wahrscheinlichkeitsverteilungen ist an vielen Stellen der Mathematik wichtig.
Das *Modul* `np.random` liefert Methoden um Zufallswerte und -verteilungen zu generieren.

Wie es Ihnen vielleicht aus Sprachen wie C oder Java geläufig ist, köönen Sie auch in Python vor Benutzung des Zufallszahlengenerators mit einem Ausgangswert, dem sogenannten *seed*, initialisieren. Der Zufallszahlengenerator selbst ist  *deterministisch*, d.h., er erzeugt zu einem seed immer die gleiche Folge von Zufallszahlen.

In [None]:
np.random.seed(seed=1)
np.random.random(4)

In [None]:
np.random.random(5)

In [None]:
np.random.seed(seed=1)
np.random.random(5)

`random` liefert gleichverteilte Werte im Bereich `[0,1[`.
Wenn Sie normalverteilte (also nach der Gaußschen Normalverteilung verteilte) Werte benötigen, können Sie die Funktion `np.random.normal(loc, scale, size)` verwenden. Der Parameter `loc` bezeichnet den Erwartungswert und `scale` die Standardabweichung. Mit `size` können Sie die Anzahl der zu generierenden Werte angeben.

In [None]:
np.random.normal(0.0, 4.0, 10)

Über ihre Namen, können Sie in Python auch nur einzelne Parameter angeben. Z.B. funktioniert auch der folgende Aufruf, in dem wir nur die Anzahl der Zahlen in der Funktion `normal` angeben. Für die Standardabweichung und die Varianz werden dann Default-Werte angenommen (0 bzw. 1).

In [None]:
np.random.normal(size=20)

NumPy bietet auch einige elementare statistische Funktionen, z.B. für den Mittelwert (`mean`) oder die Standardabweichung (`std`).

In [None]:
a = np.random.normal(3,7,10000)
print("Erwartungswert: ", a.mean())
print("Standardabweichung: ", a.std())

## Operationen

Wir haben nun sehr ausführlich betrachtet, wie man Arrays anlegt und mit Werten füllen kann.
Was wir bisher ausgelassen haben ist, wie man Operationen mit und auf NumPy Arrays durchführt.
Dies wollen wir nun nachholen.

Wenn man mit Vektoren und Matrizen rechnet, unterscheidet man Skalar- und Matrix-Operationen.
Eine Skalar-Addition mit einem Vektor führt z.B. zu folgendem Resultat:

In [None]:
np.arange(8) + 10

Addieren wir 2 Vektoren, so werden alle Werte an ihrer jeweiligen Stelle miteinander addiert.

In [None]:
np.arange(8) + np.arange(8)

Gleiches gilt für die Multiplikation

In [None]:
np.arange(10) * 5

In [None]:
np.arange(8) * np.arange(8)

Arrays kann man auch mit Skalaren und Arrays vergleichen

In [None]:
np.arange(8) > 2

In [None]:
np.arange(8) == (np.arange(8) *2)

Das Skalarprodukt (auch inneres Produkt genannt) ist eine eigene Form der Multiplikation zweier Vektoren. Dabei wird die Summe der Produkte aller Komponenten der beiden Vektoren.

In [None]:
a = np.arange(5)
print("a: ", a)
b = np.arange(5)*2
print("b: ", b)
c=a*b
print("c = a*b: ", c)
d=a.dot(b)
print("d = a.b: ", d)

Die Summe aller Elemente eines Arrays bilden Sie mit der Funktion `sum`.

In [None]:
np.arange(8).sum()

Darüberhinaus gibt es noch Operationen für Matrizen

In [None]:
A = np.arange(20).reshape((4,5))
B = np.arange(20).reshape((4,5))
print("A+B:\n", A+B)
print("A∘B:\n", A*B)

Beachten Sie, dass die Multiplikation mit dem `*`-Operator die elementweise Multiplikation ist. Diese Operation wird auch Hadamard-Produkt oder Schur-Produkt genannt. Bei der elementweisen Multiplikation müssen beide Matrizen dieselbe Struktur besitzen.

Unter einer Matrixmultiplikation versteht man eine andere Operation. Zwei Matrizen $A$ und $B$ werden miteinander multipliziert, indem man sämtliche Skalarprodukte der Zeilenvektoren von $A$ mit den Spaltenvektoren von $B$ bildet.
Die Spaltenzahl von $A$ muss daher mit der Zeilenzahl von $B$ übereinstimmen.

In [None]:
A = np.arange(20).reshape((4,5))
B = np.arange(20).reshape((5,4))
print("A⋅B:\n", A@B)

### Warum ist NumPy effizient

Im folgenden wollen wir kurz analysieren, warum NumPy-Datentypen für Operationen auf großen Datensätzen besser geeignet sind, als die eingebauten Typen von Python.
Wir Vergleichen hier 2 Vektoren $X$ und $Y$: $X$ wird dabei als NumPy Array erzeugt, $Y$ ist ein reguläres Tupel-Objekt. Die Daten/Werte in $X$ und $Y$ sind aber gleich.

In [None]:
import math
N = 1000000
# X ist ein NumPy Array
X = np.linspace(0,N-1,num=N)/N
# Y Ist ein Tupel
Y = tuple(y/N for y in range(0,N))
print(sum(X-Y)) # X und Y sind 'gleich'

Dass die unterschiedlichen Datentypen (im Beisiel, Tupel und NumPy Array) sehr unterschiedliche Speicherbedarfe haben, ist nicht ganz leicht nachzuprüfen. Zwar besitzt das Modul sys die Funktion getsizeof, welche auf beliebeige Objekte angewendet werden kann. Wenn man aber getsizeof auf ein Objekt eines Sequentiellen Datentyps anwendet, so werden nur die enthaltenen Objektreferenzen in die Berechnung der Größe miteinbezogen; nicht die referenzierte Objekte selbst. Die folgende Funktion deep_getsizeof analysiert die Größe eines Objekts und exploriert dabei alle enthaltenen Objekte in rekursiever Weise. Damit erhält man den "echten" Speicherbedarf eines Objektes.

In [None]:
from sys import getsizeof
from collections.abc import Mapping, Container
def deep_getsizeof(o, ids=None):
    if not ids:
        ids = set()
                   
    d = deep_getsizeof
    if id(o) in ids:
        return 0

    r = getsizeof(o)
    ids.add(id(o))

    if isinstance(o, str) or isinstance(0, str):
        return r

    if isinstance(o, Mapping):
        return r + sum(d(k, ids) + d(v, ids) for k, v in o.iteritems())

    if isinstance(o, Container):
        return r + sum(d(x, ids) for x in o)

    return r

In [None]:
sX = deep_getsizeof(X)
sY = deep_getsizeof(Y)
print("NumPy Array X ist %d kByte groß." % (sX/1024))
print("Tupel Y ist %d kByte groß." % (sY/1024))

## Matplotlib

Mit der Matplotlib Bibliothek können in Python mit recht einfachen Mitteln gutaussehende Grafiken erstellt werden.
Der Funktionsumfang der Bibliothek ist sehr groß, daher werden wir Sie hier nur anhand einiger Beispiele vorstellen.
Für die Darstellung spezieller Graphen gibt es viele Beispiele in der [Matplotlib Glerie](https://matplotlib.org/gallery/index.html).

Denken Sie daran, zuerst die Bibliotheksfunktionen einzubindnen.

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

Um eine Mathematische Funktion darzustellen, können Sie die [`plot`-Funktion](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html) verwenden.


In [None]:
x = np.linspace(-120,120)
y1 = x*x
y2 = 0.5*x*x
plt.plot(x, y1)
plt.plot(x, y2, '.')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

Die folgende Code-Zelle zeigt ein einfaches Beispiel, in dem eine Sinus- und eine Cosinus-Funktion mittels NumPy erzeugt und die Graphen der Funktionen mit dem Modul pyplot aus dem Paket matplotlib dargestellt werden. (Falls Sie das Paket ipywidgets nicht installiert haben, funktioniert das folgende Beispiel evt. nicht korrekt. Das ist nicht weiter schlimm, ihnen Fehlt in diesem Fall nur das aktive Element, mit dem Sie den Parameter `c` verändern können.)

In [None]:
from ipywidgets import interact
def f(c):
    x = np.linspace(0,2*np.pi)
    fig = plt.figure()
    plt.plot(x,np.sin(c*x),label="Sinus")
    plt.plot(x,np.cos(x),label="Cosinus")
    l_sine, l_cos = plt.gca().lines
    l_cos.set_linewidth(10)
    plt.legend(loc='lower left')
    plt.show()
interact(f, c=1.0);

Matplotlib kann nicht nur Funktionsgraphen zeichnen, sondern bietet eine Fülle von verschiedenen Diagrammtypen. Eine gute Übersicht finden Sie [hier](https://matplotlib.org/gallery.html). Im folgenden Beispiel benutzen wir ein Histogramm um die Verteilung einer Zufallsvariablen darzustellen. Mit dem NumPy Modul _random_ generieren wir uns einen Vektor mit 20000 Einträgen auf Basis der Normal-Verteilung (auch Gauß-Verteilung genannt). Ein Histogramm ist ein Säulendiagramm, das darstellt, wie viele Elemente in einen bestimmten Wertebereich fallen. Der Parameter `bins` gibt an, in wie viele Bereiche die Darstellung aufgeteilt werden soll. Im Beispiel wollen wir also ein Sälendiagramm mit 200 Säulen zeichnen. Man erkennt im Diagramm die typische _Glockenkurve_ mit dem Erwartungswert (hier: 0) in der "Mitte".

In [None]:
fig = plt.figure()
N = 20000
W = np.random.standard_normal(size=N)
plt.hist(W,bins=(N//100))
plt.show()

Wir hatten bereits angesprochen, dass Zufallszahlen in vielen Bereichen des wissenschaftlichen Rechnens und der angewandten Mathematik (z.B. in der Finanzmathematik) wichtig sind. Häufig geht es darum, komplexe Prozesse zu simulieren, deren Ausgang von Wahrscheinlichkeiten abhängt.
Im nächsten Beispiel, generieren wir wieder Folgen von (normalverteilten) Zufallszahlen. Auf dieser Folge berechnen wir dann mit `numpy.cumsum` die kumulierte Summe (auch [Präfixsumme](https://de.wikipedia.org/wiki/Präfixsumme) genannt). Das bedeutet, wir berechnen für jede Position in der Folge die Summe aller Folgenglieder bis zu dieser Position. Dazu addieren wir noch einen Startwert. Da der Erwartungswert der Normalverteilung Null ist und die einzelnen Elemente der Folge unabhängig sind, ist auch der Erwartungswert der Summe gleich Null.
Wir sehen aber im Beispiel, dass sich einige der Zufallsprozesse extremer in positive oder negative Richtung entwickeln.

In [None]:
fig = plt.figure()
N = 100
Startwert=10
Runden=100
Mittelwert=0
for i in range(0,Runden):
    X = np.random.standard_normal(size=N)
    X = np.cumsum(X)+Startwert
    plt.plot(X)
    Mittelwert += np.average(X)
Mittelwert /= Runden
plt.show()
Mittelwert

Das Paket **SciPy** liefert eine Reihe weiterer mathematischer Funktionen, die über den Umfang von NumPy hinaus gehen.
Ein relativ einfaches Beispiel ist das Ableiten von Funktionen mit der Methode `derivative` aus dem Module `scipy.misc`. Im Beispiel erzeugen wir eine Kubische Funktion $f(x)=x^3+x^2$ und stellen sie dann, zusammen mit ihrer ersten und zweiten Ableitung' mit der _matplotlib_ dar.

In [None]:
from scipy.misc import derivative
def f(x):
    return x**3 + x**2

fig = plt.figure()
X = np.linspace(-3,3)
plt.plot(X,f(X),label="f",lw=3)
plt.plot(X,derivative(f,X),label="f'")
plt.plot(X,derivative(f,X,n=2),label="f''")
plt.legend(loc='best',fontsize='large')
plt.show()

# Pandas
Mit Beispielen von A. Geron [https://github.com/ageron/handson-ml]

Pandas (*Python Data Analysis Library*) ist eine Python-Bibliothek zum Speichern, Manipulieren und Auswerten tabellarischer Daten. Die wichtigsten Datenstrukturen in Pandas sind `Series` und `DataFrame`. 

Eine `Series` ist eine Art Vektor (oder eindimensionale Liste) zum Speichern von Zeitreihen. Ein `Dataframe` ist eine zweidimensionale Tabelle bestehend aus Zeilen und Spalten. Daneben gibt es noch die dreidimensionale Datenstruktur `Panel`, die eine Reihe von Dataframe-Objekten beschreibt.

Pandas unterstützt viele Funktionen, die aus Tabellenkalkulationen und Relationalen Datenbanken bekannt sind. Man kann Daten Selektieren, neue Spalten berechnen oder Daten als Graphen darstellen. Außerdem bietet die Bibliothek umfangreiche Funktionen zum Importtieren und Exportieren verschiedener Tabellen-Formate (CSV, Excel, HDF, SQL, JSON, HTML, ...). 

Normalerweise wird `pandas` über den Namensraum `pd` importiert.

In [None]:
import pandas as pd

## Reihen mit `Series`

Ein `Series`-Objekt wird aus einer eindimensionalen Struktur erzeugt und kann verschiedene Daten-Typen (`int`, `double`, `str`, oder andere Objekte) aufnehmen.
Eine `Series` besteht immer aus Index-Wert Paaren, die Indizes nennt man auch *Label*.

In [None]:
s = pd.Series([2,-1,3,5])
print(s)

Die Daten in einem `Series`-Objekte sind alle vom gleichen Typ.
Wenn wir die Reihe `s` wie oben mit einem `double`-Element anlegen, so wird dieser, allgemeinere Typ für alle Elemente gewählt.

In [None]:
s = pd.Series([2.0,-1,3,5])
print(s)

`Series`-Objekte sind ähnlich zu `ndarrays` und können auch in NumPy-Funktionen genutzt werden.

In [None]:
import numpy as np
n = np.power(s,2)
print(n)
print(type(n))

Arithmetische Operationen auf `Series`-Objekte funktionieren auch wie Operationen auf `ndarray`.

In [None]:
x = s + [10,20,30,40]
y = s + 1000
z = s < 0
for i in range(0,len(s)):  
    print("x[%d] = %s \t y[%d] = %s \t z[%d] = %s" %(i, x[i], i, y[i], i, z[i]) )


In der obigen Code-Zelle ist `i` ein Laufvariable, die die Indizes der Zeilen angibt. `len(s)` liefert die Länge eines sequentiellen Datentyps und ist in diesem Fall gleich 4. `range(0,4)` liefert eine iterierbare Sequenz von 0 bis 4 (ausschließlich), also `0, 1, 2, 3`. Über diese Indizes kann man natürlich auch auf die einzelnen Elemente der `Series` zugreifen.

Die gleiche Folge von Indizes kann man auch (ohne die `range`-Funktion) direkt über die `Series` erhalten. Der Funktionsaufruf dazu lautet `s.index.values.tolist()`, wobei `s` der Name der `Series` ist.

### Index Label

Wir haben gerade gesehen, dass wir einzelne Elemente einer `Series` über einen Index ansprechen können. Im Standardfall ist, dass einfach die Position des Elements beginnend mit dem Index 0. Man kann aber auch eigene *Index Label* definieren. Diese definierten Label müssen auch keineswegs vom Typ `int` sein.

In [None]:
s = pd.Series([27, 21, 35], index=["Alice", "Bob", "Carol"])
print(s)
print("Bob hat %d Punkte." % s["Bob"])

Der Zugriff über die Position funktioniert dann sogar immer noch:

In [None]:
print("Bob hat %d Punkte." % s[1])

Anstatt die Funktion `pd.Series()` mit dem Parameter `index`  aufzurufen, kann man die `Series` auch direkt aus einem Dictionary (Wörterbuch) erstellen. Die Schlüssel werden dabei zu *Labels*, die Werte bilden die Datenreihe:

In [None]:
s = pd.Series({"Alice" : 25, "Bob" : 21, "Carol" : 35})
s

### Automatische Verknüpfungen

Wenn man mehrere `Series`-Objekte über Operationen verknüpft, so werden die Daten entsprechend ihrer Labels ausgerichtet. Im folgenden Beispiel erzeugen wir eine neue `Series` *pluspunkte*, in der die Labels *Alice* und *Bob* (in anderer Reihenfolge) auftauchen. *Carol* ist nicht in der neuen Liste, dafür aber *Dave* und *Eve*.

Wenn wir nun die `+`-Operation auf den beiden `Series` ausführen, enthält das Resultat `neueSeries` alle Einträge der beiden anderen Listen. Für diejenigen Einträge, die in beiden `Series` auftreten, wird die `+`-Operation sinnvoll ausgeführt. Alle weiteren Einträge werden zwar aufgenommen, der Wert der Operation ist aber `NaN` (*Not a Number*).

`NaN` als Ergebnis mag zwar unschön wirken, ist aber durchaus ein sinnvolles Resultat. Stellen Sie sich vor, fehlende Einträge würde als Wert `0` angenommen. Dies könnte zu Ergebnissen führen, die für die Anwendung gar nicht korrekt sind. Außerdem würden dann in der `Series` lauter Werte stehen und es wäre nicht so einfach ersichtlich, bei welchen Einträgen die Datensätze unvollständig waren.

In [None]:
pluspunkte = pd.Series({"Bob" : 1, "Alice" : 5, "Dave" : 15, "Eve" : 3})
print(s)
print(pluspunkte)
neueSeries = s + pluspunkte
print(neueSeries)

##  Tabellen mit `DataFrame`

Ein `DataFrame` Objekt ist eine zweidimensionale Tabelle. Die Zeilen, wie auch die Spalten sind benannt, auch hier heißen die Namen *Label*. Jede Spalte eines `DataFrame` ist dabei im Wesentlichen `Series`-Objekt. Man kann ein `DataFrame`Objekt z.B. aus einem Dictionary von `Series`-Objekten erzeugen:

In [None]:
namen=["Alice", "Bob", "Carol", "Dave", "Eve"]
punkte = pd.Series([27, 21, 35], index=namen[0:3])
matnr =  pd.Series([833421, 831473, 700326, 833711, 831612], index=namen)
pluspunkte = pd.Series({"Bob" : 1, "Alice" : 5, "Dave" : 15, "Eve" : 3})


stud_dictionary = {
    "Bonuspunkte": punkte,
    "Matrikelnummern": matnr,
    "Pluspunkten": pluspunkte
}
stud = pd.DataFrame(stud_dictionary)
stud

Auf einzelne Spalten des `DataFrame`-Objekts greift man wie bei einem Dictionary über den Namen der Spalte zu.

In [None]:
stud["Matrikelnummern"]

Es können auch mehrere Spalten ausgewählt werden. Dann müssen die Spaltennamen als Liste übergeben werden.

In [None]:
stud[["Matrikelnummern", "Bonuspunkte"]]

Auf die Daten für einzelne Zeilen der Tabelle greift man über das Attribut `loc` zu.

In [None]:
stud.loc["Bob"]

`DataFrames` können auch direkt aus zweidimensionalen NumPy Arrays erzeugt werden. Im folgenden Beispiel wird ein `ndarray` mit Geburtsjahren, Matrikelnummern und Studiengangsnamen von Personen angelegt. Aus diesem Array `p` wird dann ein `DataFrame` erzeugt. Dazu wird `p` transponiert und mit Spalten- (`columns`) und Zeilen-Labels (`index`) versehen. Fehlende Werte im Array können z.B. mit `np.nan` angelegt werden.

In [None]:
import numpy as np
p = np.array([[1995, 1992, 1988, 2001, 1999], 
     [833421, 831473, 700326, 0, 831612],
     ["Info", "MBau", "Info", "ETech", "Info"]
    ])

namen=["Alice", "Bob", "Carol", "Dave", "Eve"]

personen = pd.DataFrame(
    p.T,
    columns=["Geburtsjahr", "Matrikelnummer", "Studiengang"],
    index=namen
    )
personen

Manchmal ist es hilfreich, die Spalten einer Tabelle in weitere Klassen zu unterteilten. Dies geht mit sogenannten *Multilabels*. Im folgenden Beispiel legen wir die den obigen `DataFrame` erneut an. Nun geben aber nun statt der Spaltennamen, Tupel, bestehend aus Klassenname und Spaltenname, an. Die Funktion `pd.MultiIndex.from_tuples()` generiert daraus hierarchische Spaltenbezeichnungen.

In [None]:
personen_mult = pd.DataFrame(
    p.T,
    columns=pd.MultiIndex.from_tuples(
        [("persoenlich", "Geburtsjahr"), ("verwaltung","Matrikelnummer"), ("verwaltung","Studiengang")]
    ),
    index=namen
    )
personen_mult

Wenn wir nun auf eine bestimmte Klasse der Spalten zugreifen wollen, geht das einfach über den Klassennamen:

In [None]:
personen_mult["verwaltung"]

Einzelne Spalten können nun über die Angabe der beiden Labels ausgewählt werden.

In [None]:
personen_mult["verwaltung","Matrikelnummer"]

### DataFrames Speicher und Laden

Wir haben in diesen Abschnitt nur betrachtet, wie man DataFrames aus Listen oder NumPy Arrays erstellt. Der gebräuchlichste Weg aber, um `DataFrame`-Objekte zu erzeugen, ist das Laden von Daten aus einer Datei. Ein verbreitetes Tabellenformat ist CSV (*Comma Separated Values*). CSV-Dateien können wie folgt in einen `DataFrame` eingelesen werden:

```python
neuer_df = pd.read_csv("Tabelle.csv", index_col=0)
```

In diesem Beispiel weisen wir die `read_csv`-Methode an, die erste Spalte der Tabelle als Indexlabel zu verwenden.
Um die Spaltennamen zu setzen, können sie einen Parameter `header` auf die Nummer der Zeile setzen, in der die Tabelle die Namen der Spalten trägt.
Setzen Sie `header=infer`, so sucht Pandas automatisch nach einer passenden Zeile mit Spaltennamen.

Ähnliche Methoden existieren auch für das Exportieren von DataFrames. Darüber hinaus werden noch viele andere Formate außer CSV unterstützt.

```python
neuer_df.to_csv("MeinDataFrame.csv")
neuer_df.to_html("MeinDataFrame.html")
neuer_df.to_json("MeinDataFrame.json")
```

### DataFrames verändern

`DataFrames`  können wie NumPy Arrays mit dem `T`-Attribut transponiert werden:

In [None]:
eintraege = personen_mult.T
eintraege

Spalten können einfach mit den `del`-Operator aus dem `DataFrame` gelöscht werden. Im folgenden Beispiel erzeugen wir zuerst eine Kopie des `DataFrame`-Objekts mit der `copy`-Methode Beachten Sie, dass eine einfache Zuweisung an dieser Stelle nicht genügt, um einen neuen `DataFrame` zu erzeugen. Der Ausdruck `eintraege_tmp = eintraege` würde nur eine Referenz `eintraege_tmp` für das gleiche Objekt erstellen. Änderungen an `eintraege_tmp` würden dann ebenso das Objekt `eintraege` betreffen.

In [None]:
eintraege_tmp = eintraege.copy(deep=True)
del eintraege_tmp["Dave"]
eintraege_tmp

Neue Spalten hinzufügen, kann man mit der Methode `insert()`.
Der erste Parameter gibt dabei an, nach welcher Spalte der neue Datensatz eingefügt werden soll.

In [None]:
eintraege_tmp.insert(4, "Duane", [2000, 833935, "MBau"])
eintraege_tmp

### Spalten "Stapeln" und "Entstapeln"

Mit der `stack()` Methode kann man die Spalten eines `DataFrame` aufstapeln.
Angenommen, eine Tabelle hat $m$ Zeilen und $n$ Spalten.
Die `stack()`-Funktion erzeugt daraus ein `Series`-Objekt mit $m*n$ Elementen.
Jede einzelne Zeile wird dabei ver-$n$-facht, indem alle $n$ Spaltenwerte der Zeile "untereinander" geschrieben werden.
Das Label der Zeile wird kombiniert aus dem alten Zeilennamen plus dem alten Spaltennamen.

In [None]:
print(personen)
personen_stack = personen.stack()
personen_stack

Mit `unstack()` macht man das Stapeln rückgängig.
Beide Methoden, `stack()` und `unstack()`, verändern dabei nicht die existierenden Objekte, sondern liefern neu (kopierte) Objekte zurück.

In [None]:
personen_neu = personen_stack.unstack()
personen_neu

### Neue Spalten Erzeugen

Wenn Sie gelegentlich mit Tabellenkalkulationsprogrammen arbeiten, wissen Sie, dass es häufig nützlich ist, neue Spalten aus den Werten in bestehenden Spalten zu erzeugen. Dies können Sie bei Pandas mit der funktion `assign()` machen.

Für das Beispiel erzeugen wir uns zunächst einen neuen `DataFrame` mit `copy()`. Danach schauen wir uns über das Attribut `dtypes` an, welche Datentypen die Werte in den Spalten unseres `DataFrames` besitzen.

In [None]:
personen_neu = personen.copy(deep=True)
personen_neu.dtypes

Leider sind die Daten in unserer Tabelle bisher mit dem allgemeinen Datentyp `object` hinterlegt. Bevor wir mit den Daten arbeiten, ist es daher sinnvoll, eine Typumwandlung vorzunehmen. Umwandeln können wir den Datentyp einer `Series` mit der Funktion `astype(t)`, die einen Datentyp `t` als Parameter erwartet. In unserem Beispiel wandeln wir die Spalte *Geburtsjahr* in einen `int`-Typ um, Sie Spalte *Studiengang* in `str`. Da `astype` ein neues Objekt erzeugt, weisen wir das Ergebnis der existierenden Spalte in `DataFrame` zu.

In [None]:
personen_neu["Geburtsjahr"] = personen_neu["Geburtsjahr"].astype(int)
personen_neu["Studiengang"] = personen_neu["Studiengang"].astype(str)

Um eine sinnvolle Berechnung durchführen zu können, erweitern wir den Datensatz um zwei Spalten *Geburtsmonat* und *Geburtstag*.

In [None]:
personen_neu.insert(1, "Geburtsmonat", [1,2,3,4,5])
personen_neu.insert(2, "Geburtstag", [11,23,12,7,2])

Wir wollen nun aus dem Geburtsjahr, -monat und -tag das ungefähre Alter der Person in Tagen errechnen.
(Die Schaltjahre ignorieren wir an dieser Stelle.)
Um von den Monatszahlen auf die Tage zu kommen, legen wir ein Array `monatstage` an.
Die Werte in diesem Array geben an, wie viele Tage vor Beginn des jeweiligen Monats vergangen sind.
Im Januar sind 0 Tage vergangen, am 1. April sind bereits 91 Tage vergangen.

In [None]:
monatstage = np.cumsum([0, 31,28,31,30,31,30,31,31,30,31,30])
monatstage

Mit diesem Hilfs-Array erzeigen wir nun ein neues Array, das für jede Person in dem `Dataframe` die Jahrestage vor dem jeweiligen Geburtsmonat berechnet.

In [None]:
monatstage_pro_person = np.array([monatstage[x-1] for x in personen_neu["Geburtsmonat"].values])
monatstage_pro_person

Nun können wir das Alter der Personen in Tagen bestimmen. Aus dem Geburtsjahr berechnen wir das Alter in Jahren (plus Eins).
Die Werte in `monatstage_pro_person` sowie die Einträge in der Spalte *Geburtstag* ergeben die verstrichenen Tage im Geburtsjahr.
Diese ziehen wir vom Jahreswert ab und erhalten damit das Alter der Person zum 1.1. des aktuellen Jahres.
Auf diesen Wert addieren wir dann die verstrichen Tage im aktuellen Jahr.

Das Resultat fügen wir als Splate *Alter* der Tabelle hinzu.
Außerdem hängen wir eine Spalte an, die beshreibt, ob eine Person Informatik studiert.

In [None]:
aktuelles_Jahr = 2019
aktueller_Tag = 78 # 18. März 

personen_neu = personen_neu.assign(
    Alter = (aktuelles_Jahr-personen_neu["Geburtsjahr"]) * 365 - 
             monatstage_pro_person -
             personen_neu["Geburtstag"] + 
             aktueller_Tag,
    Informatiker = personen_neu["Studiengang"] == "Info"
)
personen_neu

### Daten abfragen

Wenn die Daten in einem `DataFrame`-Objekt zusammengefastt sind, kann man einfache Anfragen mit den Funktionen `eval` und `query` an den Datensatz stellen. `eval` erwartet als Parameter einen auswertenden Ausdruck in Form eines Strings. In diesem Ausdruck können die Spaltennamen direkt über ihre Bezeichner verwendet werden. Auch Python Variable können in dem Ausdruck verwendet werden. Um Überschneidungen mit der Spaltennamen zu vermeiden, muss den Variablen ein `@` vorangestellt sein.


In [None]:
grenzwert_tage = 9000
personen_neu.eval("Alter < @grenzwert_tage and Informatiker")

Der `eval` Ausdruck oben, liefert eine neue `Series`. Man kann aber auch die Werte in der Tabelle direkt ändern. Dazu setzen wir den Parameter `inplace=True`.

Für ein Beispiel fügen wir zunächst 3 neue Spalten an unseren `DataFrame` an:

In [None]:
personen_neu = personen_neu.assign(
    A1 = [10,5,10,10,0],
    A2 = [10,10,5,5,5],
    Aufgaben = 0
)
personen_neu

Nun können wir die Summe der Spalten *A1* und *A2* bilden und direkt nach *Aufgaben* schreiben.

In [None]:
personen_neu.eval("Aufgaben = A1 + A2", inplace=True)
personen_neu

Mit `eval` haben wir einen Ausdruck ausgewertet und die Ergebnisse für alle Zeilen des Datensatzes berechnet.
Die `query()`-Funktion erlaubt es, den `DataFrame` zu filtern und somit diejenigen Zeilen auszuwählen, bei denen die Auswertung eines Ausdruckes logisch Wahr ergibt.

In [None]:
min_punkte = 10
personen_neu.query("Aufgaben <= @min_punkte and Informatiker")

DataFrames können auch sortiert werden.
Mit `sort_index` erfolgt eine zeilenbasierte Sortierung bei der als Sortierschlüssel das Zeilenlabel verwendet wird.
Mit `sort_values` wird nach Spalten sortiert.
Hierbei kann man mit dem Parameter `by` die Spalte auswählen, die als Sortierschlüssel verwendet werden soll.
Um in absteigender Reihenfolge zu sortieren, setzt man den Parameter `ascending` auf `False`.

In [None]:
personen_neu.sort_index(ascending=False)

Die Funktionen liefern dabei eine sortierte *Kopie* das `DataFrame`-Objekts zurück.
Um die Tabellen selbst zu ändern, gibt man den Parameter `inplace` mit dem Wert `True` an

In [None]:
personen_neu.sort_values(by="Matrikelnummer", inplace=True)
personen_neu

## Operationen auf `DataFrame`-Objekten

Viele der Operationen, die mit NumPy aud `ndarrays` möglich sind, unterstüzt in gleicher oder ähnlicher Form auch Pandas mit den DataFrames. So können beispielsweise arithmetische Operationen auf komplette `DataFrame`-Objekten ausgeführt werden. Die Möglichkeiten sind sehr Umfangreich und wir geben an dieser Stelle nur einige kleine Beispiele.

In [None]:
punkte_np = np.array([[5,10,10],[10,5,5],[0, 0, 5], [5, 5, 10]])
punkte = pd.DataFrame(punkte_np, columns=["A1", "A2", "A3"], index=["Alice","Bob","Carol","Dave"])
print("Ausgangs-DataFrame:\n", punkte)
print("\nWurzel:\n", np.sqrt(punkte))
print("\nAddition:\n", punkte+10)
print("\nBedingung:\n", punkte>5)
print("\nBedingung (muss für alle Elemente einer Spalte erfüült sein):\n", (punkte>0).all())
print("\nMittelwert über alle Spalten:\n", punkte.mean())

## Umgang mit fehlenden Daten

Ein großes Problem bei statistischen Analysen sind unvollständige Datensätze.
Pandas liefert einige Methoden, um Lücken in Datensätzen sinnvoll zu schließen.

Definieren wir uns für ein Beispiel zuerst eine Tabelle mit einigen fehlenden  Werten.

In [None]:
punkte_np = np.array([[5,np.nan,10],[np.nan,5,np.nan],[0, 0, np.nan], [np.nan, 5, 10]])
punkte = pd.DataFrame(punkte_np, columns=["A1", "A2", "A3"], index=["Alice","Bob","Carol","Dave"])
punkte

Um die `NaN`-Einträge zu eliminieren, kann die `fillna()` Methode eingesetzt werden.
Damit können wir z.B. alle fehlenden Einträge durch eine `0` ersetzen.

In [None]:
punkte.fillna(0)

Manchmal ist es aber nicht zielführend, fehlende Einträge durch Konstanten zu ersetzen.
Eventuell möchte man die Lücken durch sinnvolle Schätzungen auffüllen.
Dies kann man mit der Methode `interpolate` realisieren.
Über den Parameter `axis` kann man angeben, nach welcher Achse die Interpolation stattfinden soll.
`axis=0` wählt die Zeilen aus, im Beispiel entspricht das einer Interpolation über die Aufgaben *A1*-*A3*.
Da Alice bei A1 5 Punkte erzielt hat und Carol 0, wird der Wert für Bob mit 2.5 abgeschätzt.
Eine solche Schätzung ist für unser Beispiel weniger sinnvoll.

In [None]:
punkte.interpolate(axis=0)

Mit `axis=1` erfolgt die Interpolation über Spalten der Tabelle.
Es wird also geschätzt, wie viele Punkte eine Person für eine Aufgabe erzielt hätte.
Diese Methode passt schon eher auf unser Beispiel, denn Sie würde Personen, die tendenziell viele Punkte sammeln, höhere Punktzahlen eintragen.

In [None]:
punkte.interpolate(axis=1)

Sie sehen aber auch, dass die Lücken an den Rändern durch die Interpolation nicht geschlossen werden können.
Wir können diese Lücken nun anderweitig schließen oder die Zeilen im Notfall mit der `dropna`-Funktion komplett verwerfen.

In [None]:
(punkte.interpolate(axis=1)).dropna(axis=0)

### Informationen zu `DataFrame`-Objekten

Pandas stellt einige Funktionen bereit, die Ihnen allgemeine Informationen zu `DataFrame`-Objekten liefern.

Mit `head()` geben Sie die ersten 5 Zeilen der Tabelle aus.
`tail()` liefert entsprechend die 5 letzten Zeilen.

In [None]:
zahlen_np  = np.random.lognormal(0, 1, 4000).reshape((1000, 4))
zahlen = pd.DataFrame(zahlen_np, columns=["Reihe1", "Reihe2", "Reihe3", "Reihe4"])
print(zahlen.head())
print(zahlen.tail())

`info()` liefert einige Angaben zu der Anzahl von gültigen Werten in den Spalten und zeigt deren Datentyp an.

In [None]:
zahlen.info()

Mit `describe()` erhält man einige statistische Angaben zu den Werten in allen Spalten:
* `count`: Anzahl gültiger (nicht-NaN) Werte
* `mean`: Mittelwert aller gültigen Werte in der Spalte
* `std`: Standardabweichung
* `min`: Minimum der Werte in der Spalte
* `25%`, `50%`, `75%`: 0.25, 0.5 und 0.75 [Quantile](https://de.wikipedia.org/wiki/Quantil_(Wahrscheinlichkeitstheorie)#Besondere_Quantile)
* `max`: Maximum der Werte in der Spalte

In [None]:
zahlen.describe()

## Weitere Themen

Die Pandas Bibliothek ist sehr umfangreicher und umfasst deutlich mehr Funktionen, als wir an dieser Stelle vorstellen können.
Vor allem können auf `DataFrame`-Objekten viele Operationen ausgeführt werden, die auch aus relationalen Datenbanken bekannt sind, z.B. Aggregatfunktionen und Verknüpfungen.