## NumPy

ist eine Bibliothek, die Unterstützung für das Arbeiten mit großen, multidimensionalen Arrays und Matrizen bietet, zusammen mit einer großen Zahl mathematischer Funktionen, die auf solchen Arrays arbeiten.

Anders als Listen sind die Numpy-Arrays homogen (d.h. alle Werte in einem Numpy-Array haben den selben Typ) und haben eine feste Größe (d.h. Veränderungen der Größe führen zu Kopieraktionen und sind langsamer). 

Die wesentlichen Operationen auf Numpy-Arrays werden durch C-Routinen durchgeführt, daher ist Numpy _schnell_.

Um NumPy zu nutzen, muss es importiert werden (die Einführung des Alias `np` ist dabei Konvention, um weniger tippen zu müssen):


In [None]:
import numpy as np 

Zentrale Datenstruktur ist das `ndarray`, welches ein Array fester Größe bestehend aus Elementen des selben Typs darstellt. NumPy-Arrays sind also im Gegensatz zu Python-Listen homogene Datenstrukturen.

Erzeugung eines eindimensionalen Arrays:

Einige elementare Eigenschaften:

In [None]:
# Array als String

# Typ des Arrays

# Typ der Elemente

# Numpy-Typ des darunter liegenden C-Arrays

Tatsächlich erzeugen wir hier erst eine Python-Liste und daraus dann ein Numpy-Array - nicht sehr effizient, aber dies wird meist nur bei kleinen Datenmengen gemacht. Größere Arrays entstehen durch Laden von Daten oder durch Berechnungen.

## Matplotlib

`Matplotlib` ist eine Standardlibrary zum Erstellen verschiedener Plots in Python - wir werden von dieser Library verschiedene Funktionen aufrufen, um unsere Daten zu visualisieren. Der Import (die Einführung des Alias `plt` ist dabei Konvention):

In [None]:
# diese Zeile benötigt man je nach jupyter-Einstellung 
# - sie bewirkt, dass die Plots direkt im Notebook angezeigt werden.
%matplotlib inline

import matplotlib.pyplot as plt

In [None]:
# einfache Linien- oder Punktplots mit plt.plot:


In [None]:
# Matplotlib hat sehr viele Features!

# Beispiele

## Dimensionen und Shape

Jedes Array hat bestimmte Dimensionen - die Anzahl der Dimensionen können wir mit `ndim` und die konkreten Größen jeder Dimension mit `shape` erfahren:


In [None]:
a = np.array([1, 2, 3, 4])
a

In [None]:
# Dimensionen


In [None]:
# Shape / Form des Arrays


Betrachten wir eine Matrix (2 Dimensionen)

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])

# Dimension, Shape und Form

Numpy unterstützt dabei nicht nur Vektoren und Matrizen, sondern Tensoren beliebiger Dimensionalität, hier ein Beispiel mit 3 Dimensionen:

In [None]:
a = np.array(
    [
        [[1, 2], [3, 4]],
        [[5, 6], [7, 8]]
    ]
)

# Dimension, Shape und Form

## Erzeugung von Arrays

Neben der direkten Konstruktion duch Angabe von Werten gibt es eine Reihe von weiteren Möglichkeiten, Numpy-Arrays zu erzeugen:

In [None]:
# Matrix mit Nullen erzeugen

In [None]:
# Matrix mit Einsen  

In [None]:
# Matrix mit vordefiniertem Wert

In [None]:
# Einheitsmatrix

In [None]:
# Matrix mit Zufallswerten 0 <= v < 1

In [None]:
# Zahlenfolgen

In [None]:
# Zahlenfolgen mit Schrittweite

In [None]:
# Gleichmässig verteilte Zahlen in einem Bereich (hier: 11 Zahlen, von 0 bis 1)

In [None]:
# Gleichmässig verteilte Zahlen in einem Bereich (hier: 10 Zahlen, von 0 bis 1)

## Funktionen und Methoden in Numpy

Die vielen Features von Numpy lassen sich in zwei Gruppen einteilen - Gruppe 1: Funktionen, die über das Modul aufgerufen werden.

Diese werden in der Numpy-Dokumentation _Routines_ genannt: 

https://docs.scipy.org/doc/numpy/reference/routines.html (sehr viele)

https://docs.scipy.org/doc/numpy/reference/routines.math.html (mathematische Funktionen)

In [None]:
a = np.array([1, 2, 3, 4, 5])

# min, max, sum, mean, std, var als "Routine"


Gruppe 2: Methoden, die auf einem Array aufgerufen werden (https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html)

In [None]:
# min, max, sum, mean, std, var als Methode

Viele Fähigkeiten stehen sowohl als Funktion als auch als Methode zur Verfügung, und es ist eine Frage des Geschmacks, welche man benutzt - manche Funktionen verhalten sich allerdings auch unterschiedlich zu den gleichnamigen Methoden, Beispiel `sort`:

In [None]:
# Sortieren, Kopie
a = np.array([5,2,3,7,1])

In [None]:
# Sortieren inplace

Viele Funktionen können auch mit Dimension konfiguriert werden:

In [None]:
a = np.array(
    [
        [[1, 2], [3, 4]],
        [[5, 6], [7, 8]]
    ]
)

# sum und mean über verschiedene Dimensionen

## Indizierung

Wir können auf Elemente ähnlich wie bei Python-Listen zugreifen, und die Arrays können _inplace_ geändert werden. Auch in Numpy wird ab 0 indiziert, was für Umsteiger von Matlab eine gewisse Umgewöhnung erfordert.

In [None]:
a = np.array([1, 2, 3])

# Indizierter Zugriff, Lesen und Schreiben

Bei mehreren Dimensionen müssen wir mit Mehrfachindizierung arbeiten:

In [None]:
a = np.array([[1, 2], [3, 4]])

# Mehrfachindizierung, zwei Formen

Wir können uns auch eine Zeile als einzelnes Array holen - Vorsicht, dies liefert eine View, d.h. Änderungen an der Zeile ändern auch die Ursprungsmatrix:

In [None]:
a = np.array([[1, 2], [3, 4]])

# Zeilen holen, zwei Formen

In [None]:
row1 = a[0]   # Zeile 1 in separater Variablen
row1[0] = 10  # Wir verändern Zeile 1

a # die Originalmatrix wurde geändert

Der Doppelpunkt kann verwendet werden, er bedeutet: "Alle Indizes dieser Dimension":

In [None]:
print("Erste Zeile", a[0, :])   
print("Erste Spalte", a[:, 0])  
print("Zweite Spalte", a[:, 1])  

Auch das Slicing (siehe Python-Listen) kann genutzt werden:

In [None]:
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
b

In [None]:
# slicing Beispiel

In [None]:
# Änderung aller Elemente in der Teilmatrix


## Frage

Was ist der Unterschied zwischen den folgenden beiden Zugriffen auf das Array `b`?

In [None]:
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

print(b[1:2, 1:4].shape)
print(b[1, 1:4].shape)

## Vektorisieren von Berechnungen

Einer der Hauptgründe, warum Numpy so beliebt ist: Wir können Berechnungen auf vielen Daten vektorisieren - d.h. wir können komplexe Berechnungen auf Daten als Vektoroperationen ausdrücken und so Iteration und Schleifen vermeiden. Dies führt nicht nur zu kurzem und elegantem Code, sondern auch zu einer erheblichen Beschleunigung der Berechnungen, da die Iteration jetzt nicht mehr in Python stattfindet, sondern in stark optimiertem C-Code.

In [None]:
a = np.array([1, 2, 3, 4, 5])

# wenn ein Array mit einer Zahl verknüft wird, wird die Berechnung auf allen Elementen des Arrays durchgeführt
# man nennt dies "Vektorisieren"

# Beispiele ...

In [None]:
# Vergleich Schleifen vs Vektorisierung:

# ohne Numpy
def test1():
    a = np.ones((100,100))
    for i in range(100):
        for j in range(100):
            a[i,j] = a[i,j] * 5 
    return a
            
def test2():
    return np.ones((100,100)) * 5
    
# Geschwindigkeitsvergleich

Auch Funktionen können mit vektorisiert genutzt werden:

In [None]:
X = np.linspace(0, 2*np.pi, 100)

# sin, cos, exp und log berechnen...

In [None]:
# und plotten ...

## Übung

Die logistische Funktion ist gegeben als:

$$ S(x) = \frac{1}{1 + e^{-x}} $$

Implementieren Sie diese Funktion vektorisiert, und plotten Sie die Funktion im Bereich -5 bis 5.

In [None]:
def logistic(x):
    # TODO Implementieren Sie die Funktion gemäß der Formel mit Numpy
    pass

X = np.linspace(-5, 5, 1000)
plt.plot(X, logistic(X))

## Reshaping

Häufig muss eine Matrix in eine bestimmte Form gebracht werden - dazu gibt es verschiedene Wege, wie die Form (`shape`) verändert werden kann. Erste Möglichkeit ist das Setzen der Shape-Eigenschaft:



In [None]:
a = np.arange(0,12)
a

In [None]:
# Shape ändern mit .shape

In [None]:
# Shape ändern mit .shape

Die Funktion `reshape` hingegen erzeugt eine neue View auf die Daten - diese Funktion kann dabei sowohl als NumPy-Funktion als auch als Methode auf einem Array aufgerufen werden:

In [None]:
# reshape Beispiel 1

In [None]:
# reshape Beispiel 2

In [None]:
# reshape Beispiel 3

Eine der Dimensionsparameter bei Reshape darf -1 sein (dies bedeutet "die übrigen Elemente"):

In [None]:
# Reshape, Beispiel mit -1

## Fancy indexing

Wenn wir ein Array mit Indizies haben, können wir dieses Array nutzen, um damit Werte aus einem anderen Array zu adressieren:

In [None]:
a = np.arange(10) +1
a

In [None]:
indices = np.array([2, 5, 9])
a[indices]

Wenn man mit mehrdimensionalen Arrays arbeitet, dann hat das Ergebnis die Form des Index-Arrays, und damit sind interessante Operationen möglich - hier ein Beispiel aus der Python-Dokumentation:

In [None]:
palette = np.array([
    [  0,   0,   0],    # black
    [255,   0,   0],    # red
    [  0, 255,   0],    # green
    [  0,   0, 255],    # blue
    [255, 255, 255]     # white
])       

image = np.array([ 
    [ 0, 1, 2, 0 ], # each value corresponds to a color in the palette
    [ 0, 3, 4, 0 ]  
])


# fancy-Indexing mit Farbindex und Farbtabelle (palette)


## Übung

Testen Sie die folgenden Befehle - was machen sie?

    a = np.array([[1,2,3],[4,5,6]])
    a.ravel()    # oder np.ravel(a)
    a.flatten()
    
    a.T
    np.transpose(a)
    
    a.reshape(3,2)



## Übung

An dieser Stellen sollen größere Übungen gemacht werden - jede dieser Übungen benötigt ca. 60 - 90 Minuten Zeit.

__Übung 1:__ Implementierung des k-Means-Clustering-Verfahrens (siehe separates Notebook)

oder

__Übung 2:__ Ein Übung zu Arbeiten mit RGB-Bilddaten (siehe separates Notebook)


## Beispiel: Funktion mit zwei Variablen plotten

In [None]:
x = np.arange(-5, 5, 0.1)
y = np.arange(-5, 5, 0.1)
xx, yy = np.meshgrid(x, y)

z = xx**2 + yy**2

from mpl_toolkits import mplot3d
fig = plt.figure()
ax = plt.axes(projection='3d')


ax.plot_surface(xx, yy, z)

## Operationen auf Arrays - Broadcasting

Wenn wir Array miteinander verknüpfen, dann werden viele Operationen elementweise ausgeführt:

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])

print(a + b)
print(a * b)


## Broadcasting mit mehreren Dimensionen

Auch mit mehreren Dimensionen ist Broadcasting möglich - betrachten wir die Regeln dazu an folgendem Beispiel:

    a = np.array([
        [1, 1, 1],
        [1, 1, 1]
    ])

    b = np.array(
        [1, 2, 3]
    )
    
    Dimensionen a -> 2 x 3
    Dimensionen b ->     3


Wenn die beiden Arrays nicht die selbe Anzahl Dimensionen haben, dann wird die Form des kürzere Arrays mit Dimensionen der Länge 1 aufgefüllt. und zwar auf der linken Seite:

    Dimensionen a -> 2 x 3
    Dimensionen b -> 1 x 3

Wenn die Form in einer Dimension jetzt nicht passt gibt es zwei Möglichkeiten:

a) Wenn eine der beiden Dimensionen die Länge 1 hat, dann wird diese durch Wiederholen der Elemente auf die selbe Länge gebracht wie die Länge dieser Dimension im anderen Array

    Dimensionen a -> 2 x 3
    Dimensionen b -> 2 x 3

b) sonst wird ein Fehler ausgegeben

https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

In [None]:
# Beispiel 1
a = np.array([
    [1, 1, 1],
    [1, 1, 1]
])

b = np.array(
    [1, 2, 3]
)

print(a+b)

In [None]:
# Beispiel 2
a = np.array([
    [1, 1, 1],
    [1, 1, 1]
])
b = np.array(
    [
        [2], 
        [3]
    ])

print(a+b)

In [None]:
# Beispiel 3
a = np.array([
    [1, 1, 1],
    [1, 1, 1]
])
b = np.array(
    [2,3]
)

try:
    print(a+b)
except ValueError as e:
    print(e)

## Boolsche Indizierung

Was passiert, wenn wir Numpy-Arrays mit Bedingungen verknüpfen?

In [None]:
a = np.array([1, 2, 3, 4, 5])

# Vergleich auf Numpy-Arrays

Wir erhalten eine Array mit boolschen Werten zurück. Auch für solche Array gibt es nützliche Funktionen:

In [None]:
print(np.all(np.array([False, False, False,  True,  True])))
print(np.any(np.array([False, False, False,  True,  True])))


print(np.all(a > 3))
print(np.any(a > 3))

Besonders interessant ist dies als Indizierung - die boolschen Arrays können als Maske dienen, um uns bestimmte Elemente aus einer Matrix auszuwählen:

In [None]:
a = np.array(
    [
        [1, 0, 1],
        [0, 1, 0]
    ]
)

np.argwhere(a > 0)

In [None]:
a[a > 3] = 3
a[a < 3] = 3
a

## Verknüpfung von Arrays

Es gibt verschiedene Möglichkeiten, Arrays zu verknüpfen:

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

In [None]:
np.stack([a,b])

In [None]:
np.concatenate([a,b])

In [None]:
c = a.reshape((2,2))
d = b.reshape((2,2))

print(np.stack([c,d]))
print(np.hstack([c,d]))
print(np.vstack([c,d]))

## Lineare Algebra

NumPy bietet natürlich eine Vielzahl von Funktionen rund um die lineare Algebra - ein paar sollen hier beispielhaft vorgestellt werden:

https://docs.scipy.org/doc/numpy/reference/routines.linalg.html

In [None]:
import numpy.linalg as la
A = np.array([[1.0, 2.0], [3.0, 4.0]])  # 2x2 Matrix
b = np.array([5.0, 6.0]).reshape((2,1)) # Zeilenvektor
print(A)
print(b)

In [None]:
# Matrixmultiplikationen
print(np.dot(A, b))
print(np.matmul(A, b))
print(A.dot(b))
print(A @ b)

In [None]:
# Länge eines Vektors
la.norm(b)

In [None]:
# Determinante einer Matrix
la.det(A)

In [None]:
# Lösen der Gleichung A x = b
la.solve(A ,b)

In [None]:
# A**-1 * b
la.inv(A).dot(b)

In [None]:
import seaborn as sns
import numpy.linalg as la

cov = np.array([
    [0.47625365, 0.44504225],
    [0.44504225, 0.68525804]
])

X = np.random.multivariate_normal(np.array([0, 0]), cov, 500)

# Eigenwerte/Vectoren berechnen
[e0, e1], vecs = la.eig(cov)

# Vektoren mit Eigenwert skalieren
v0 = vecs[:,0] * np.sqrt(e0)
v1 = vecs[:,1] * np.sqrt(e1)

# seaborn bietet einige schöne Plots
g = sns.jointplot(X[:,0], X[:,1])
g.ax_joint.plot([0,v0[0]],[0,v0[1]], c='r', linewidth=3.0 )
g.ax_joint.plot([0,v1[0]],[0,v1[1]], c='r', linewidth=3.0 )


## Übung

Übung Vektoren und Matrizen (siehe separates Notebook)