# Woche 05 - Das Modul NumPy und das NumPy-Array (= wichtigster Datentyp für maschinelles Lernen)

In dieser Woche widmen wir uns dem Modul Numpy, das Klassen und Funktionen für numerisches Python enthält. Die Themen sind also:

* Modul Numpy
* Erzeugung von NumPy-Arrays
* Eigenschaften von NumPy-Arrays 
* Zugriff auf NumPy-Arrays (direkter Zugriff und Slicing)
* Verketten und Aufteilen 
* Funktionen aud NumPy-Arrays anwenden


## Das Modul Numpy

NumPy ist die Abkürzung für numerisches Python. Die Internetseite

> https://numpy.org

behauptet sogar von ihrem eigenen Paket, dass NumPy das fundamentale Modul für alle wissenschaftlichen Programme in Python ist - stimmt wahrscheinlich!

Alle Daten lassen sich letztendlich als eine Folge von Zahlen schreiben. Beispielsweise kann ein Foto durch seine Pixel beschrieben werden zusammengesetzt aus den Werten RGB (rot - grün - blau). Python bietet dafür schon einen Datentyp, die Liste, in der Zahlen (Integer oder Float) gespeichert werden können. Da Python eine interpretierte Programmiersprache ist und da in der Liste auch andere Datentypen wie zum Beispiel Strings vorkommen dürfen, sind Listen für große Datenmengen nicht geeignet. Stattdessen stellt das Modul NumPy einen effizienten Datentyp zur Verfügung, das sogenannte **NumPy-Array**.  

Dazu kommen noch Funktionen, die wichtig für Arrays sind wir Vektoroperationen. Tatsächlich sind die meisten NumPy-Operationen nicht in Python programmiert, sondern in C. Damit sind NumPy-Funktionen sehr effizient und das tolle daran ist, dass wir uns keine Gedanken über hardwarenahe Programmierung mit C oder C++ machen müssen :-)

Schauen wir uns für das Bestimmen des Maximums einer Liste von zufällig erzeugten Zahlen zwischen 0 und 1 an. Zunächst erzeugen wir die Liste der 100 Zahlen. Dazu importieren wir NumPy mit seiner typischen Abkürzung `np`.

In [None]:
import numpy as np

# erzeuge Liste
M = np.random.random_sample(100)

print(M)

Als nächstes berechnen wir das Maximum dieser Zahlen mit der im Python-Kern eingebauten Standardfunktion `max`, dann mit `np.max`:

In [None]:
max_standard = max(M)
max_numpy = np.max(M)

print('Standard max = ', max_standard)
print('Numpy max = ', max_numpy)

Aber wie lange haben eigentlich die Berechnungen gedauert? Bei so kleinen Listen lohnt es nicht, die Berechnung mit der Stoppuhr zu ermitteln, die typischen Rechnenzeiten sind zu kurz. Aber JupyterLab bietet ein eingebautes Kommando, nämlich `%timeit`. Der Vorteil dieses Kommandos ist, dass der Python-Interpreter bei sehr kurzen Rechenzeiten einfach den Code mehrmals durchläuft und Mittelwerte bildet. 

In [None]:
%timeit max_standard = max(M)
%timeit max_numpy = np.max(M)

Sie sehen, die NumPy-Variante ist erheblich schneller als die Standard-Variante.

### Erzeugung von NumPy-Arrays

Im Gegensatz zu Python-Listen enthalten NumPy-Arrays nur Elemente des gleichen Datentyps. Wenn eine Liste nur aus gleichen Datentypen besteht, können wir direkt aus der Liste ein NumPy-Array erzeugen:


In [None]:
liste = [1, 2, 3, 4, 5]
a = np.array(liste)

print(a)
print( type(a) )

Sehr häufig kommen aber auch zwei-  oder gar dreidimensionale Arrays vor. In der Mathematik würde man ein eindimensionales Array als Vektor bezeichnen, ein zweidimensionales Array als Matrix (= Excel-Tabelle) und ein dreidimensionales Array als Tensor. Die Position eines Elementes wird dabei durch ganze Zahlen gekennzeichnet (entspricht bei 1d-Arrays ja den Listen). Für zweidimensionale NumPy-Arrays brauchen wir daher zwei Indizes, für dreidimensionale Arrays drei. Die folgende Grafik (Quelle: https://predictivehacks.com/tips-about-numpy-arrays/) zeigt das Nummerierungsschema:

![fig:01](pics/fig_numpy_array.png)

Im Folgenden fokussieren wir uns zunächst auf 1D- und 2D-Arrays und betrachten uns verschiedene Erzeugungsmethoden. Die entsprechende (englischsprachige) Dokumentation finden Sie hier:

> https://numpy.org/doc/stable/reference/routines.array-creation.html
 
Wir starten mit Arrays, die mit 0 oder 1 oder einer konstanten Zahl gefüllt sind. Dazu verwenden wir die NumPy-Funktionen
* `np.zeros(dimension)`
* `np.ones(dimension)`
* `np.full(dimension, zahl)`

In [None]:
# 1d-Array gefüllt mit Nullen
x = np.zeros(10)
print(x)

In [None]:
# 2d-Array gefüllt mit Nullen
x = np.zeros( (3,10) )
print(x)

In [None]:
# 1d-Array gefüllt mit Einsen
x = np.ones(7)
print(x)

In [None]:
# 2d-Array gefüllt mit Nullen
x = np.ones( (3,4) )
print(x)

In [None]:
# 2d-Array gefüllt mit einem konstanten Wert
x = np.full( (3,4), -17.7)
print(x)

**Mini-Übung:**   
Erzeugen Sie folgende Arrays:
* 1d-Array der Dimension 7 gefüllt mit 0
* 1d-Array der Dimension 7 gefüllt mit -1
* 2d-Array der Dimension (7,5) gefüllt mit 1
* 2d-Array der Dimension (2,4) gefüllt mit $\pi$
* 1d-Array der Dimension 8 gefüllt mit $\sqrt{5}$

In [None]:
# Hier Ihr Code:



Die folgenden 1d-Arrays werden nach einem gleichmäßigen Muster gefüllt. Dazu benutzen wir die NumPy-Funktionen
* `np.linspace(start, stopp, anzahl)`
* `np.arange(start, stopp, schrittweite)`


In [None]:
# 1d-Array, das gleichmäßig zwischen start und stopp mit num Werten gefüllt wird
# im Beispiel: start = 1, stopp = 10, num = 25 
x = np.linspace(1, 10, 25)
print(x)

In [None]:
# 1d-Array, das bei start beginnt, step dazu addiert und bis kurz vor stopp geht
# im Beispiel: start = 1, stopp = 20, step = 2
x = np.arange(1, 20, 2)
print(x)

Zuletzt betrachten wir noch Erzeugungsfunktionen, die seltener vorkommen, aber dennoch nützlich sein können:
* `np.random.random_sample(dimension)`: gleichmäßig verteilt zwischen 0 und 1
* `np.random.normal(m, s, dimension)`: normalverteilt mit Mittelwert m und Standardabweichung s

In [None]:
# 2d-Array mit gleichmäßig zwischen 0 und 1 verteilten Zufallszahlen
x = np.random.random_sample( (2,3) )
print(x)

In [None]:
# 2d-Array mit normalverteilten Zufallszahlen 
x = np.random.normal(0, 1, (3,4) )
print(x)

In [None]:
# 2d-Array als Einheitsmatrix der Größe m x m, hier m = 5
x = np.eye(5)
print(x)

**Mini-Übung**   
Erzeugen Sie folgende Arrays:
* 2d-Array mit der Dimension (3,4) und Zufallszahlen gleichmäßig zwischen 0 und 1 verteilt
* 1d-Array mit der Dimension 17 und Zufallszahlen standardnormalverteilt (d.h. welcher Mittelwert und welche Standardabweichung?)
* 2d-Array mit der Dimension (1,5) und normalverteilten Zufallszahlen, Mittelwert 37.5, Standardabweichung 0.8
* 1d-Array mit allen geraden Zahlen von 100 bis 200 (inklusive)
* 1d-Array mit 100 Punkten im Intervall [-1,1]
* 1d-Array mit 0, 0.1, 0.2, 0.3, ..., 1.5

In [None]:
# Hier Ihr Code:



### Attribute von NumPy-Arrays

Damit wir besser verstehen, welche Attribute die NumPy-Arrays haben können, erzeugen wir uns zufällig drei NumPy-Arrays. Damit aber nicht bei jeder neuen Ausführung der Code-Zelle neue Zufallszahlen gezogen werden, fixieren wir den Seed des Zufallszahlengenerators (vereinfacht gesagt kommen jetzt immer die gleichen Zufallszahlen) und benutzen die Erzeugungsmethode `np.random.randint(grenze, size=dimension)`:


In [None]:
import numpy as np
       
np.random.seed(0)

x = np.random.randint(10, size=7)
y = np.random.randint(10, size=(2, 3))
z = np.random.randint(10, size=(2, 3, 4))

print('x = ')
print(x)

print('y = ')
print(y)

print('z = ')
print(z)

Bei den Listen haben wir eine Funktion kennengelernt, mit der die Anzahl der Elemente in der Liste bestimmt werden kann: `len()`. Listen sind eindimensional, aber NumPy-Arrays können mehrdimensional sein. Daher gibt es hier auch mehr Eigenschaften für die Beschreibung:

* Anzahl der Dimensionen: `.ndim`
* Größe der jeweiligen Dimension: `.shape`
* Gesamtgröße des Arrays: `.size`

Die Größe `.shape` haben wir ja in der obigen Abbildung schon bereits kennengelernt. 

In [None]:
print('x = ')
print(x)

print( x.ndim )
print( x.shape )
print( x.size )

In [None]:
print('y = ')
print(y)

print( y.ndim )
print( y.shape )
print( y.size )

In [None]:
print('z = ')
print(z)

print( z.ndim )
print( z.shape )
print( z.size )

### Zugriff und Slicing (Auswahl von Teilmengen)

Der Zugriff bei eindimensionalen Arrays erfolgt genau wie bei Listen über den **Zugriffsoperator** `[]`. Auch hier wird ab 0 beginnend gezählt.

In [None]:
x = np.random.randint(10, size=7)
print(x)

drittes_element = x[2]
print( drittes_element )

Interessant wird es zu sehen, wie auf mehrdimensionale Arrays zugegriffen wird. Zur Erinnerung, zweidimensionale Arrays haben zwei Indizes (axis 0 und axis 1), dreidimensionale Arrays haben drei Indizes (axis 0, axis 1 und axis 2).

In [None]:
print('y = ')
print(y)

element = y[0,2]
print(element)

In [None]:
print('z = ')
print(z)

element = z[1,1,3]
print(element)

So kann man übrigens auch die Werte einzelner Elemente des Arrays ändern:

In [None]:
print('vorher z = ')
print(z)

z[1,1,3] = 777
print('nachher z = ', z)

Mit 

```python
x[start:stopp:schrittweite]
```

werden Teilmengen eines Arrays ausgewählt. Diese Auswahl nennt man **Slicing**. Der Start- oder der Stoppwert darf dabei auch weggelassen werden, dann wird einfach alles ab 0 oder alles bis zum Ende ausgewählt.

Achtung: Wieder geht es nur bis stopp - 1!

In [None]:
x = np.random.randint(100, size=10)
print('x: ', x)

auswahl1 = x[3:5]
print('Auswahl 1: ', auswahl1)

auswahl2 = x[ :5]
print('Auswahl 2: ', auswahl2)

auswahl3 = x[3: ]
print('Auswahl 3: ', auswahl3)

auswahl4 = x[3:10:2]
print('Auswahl 4: ', auswahl4)

Das geht auch genauso bei den mehrdimensionalen Arrays:

In [None]:
y = np.random.randint(100, size=(3,10))
print('y: ')
print(y)

auswahl1 = y[1, 3:5]
print('Auswahl 1: ', auswahl1)

auswahl2 = y[0, :5]
print('Auswahl 2: ', auswahl2)

auswahl3 = y[2, 3: ]
print('Auswahl 3: ', auswahl3)

auswahl4 = y[0:2, 3:10:2]
print('Auswahl 4: ')
print(auswahl4)

### Arrays verketten oder aufteilen

Sehr häufig passiert bei der Datenanalyse Folgendes: wir lesen einen Datensatz ein und möchten dann diesen Datensatz mit einem zweiten Datensatz gemeinsam analysieren. Dazu müssen wir die Datensätze vereinigen. Später werden wir maschinelle Lernverfahren verwenden. Um schon einmal einen Ausblick auf später zu geben, Datensätze werden normalerweise in einen Trainingsdatensatz und einen Testdatensatz aufgeteilt. Mit dem Trainingsdatensatz wird das maschinelle Lernverfahren trainiert und dann anschließend mit dem Testdatensatz überprüft, wie gut das gelernte ML-Verfahren funktioniert. Daher ist auch das Aufteilen von Daten ein wichtiges Thema. 

Die Verkettung oder Vereinigung von NumPy-Arrays erfolgt mit der Funktion `np.concatenate`. Der einfachste Fall liegt vor, wenn wir zwei 1d-Arrays verketten möchten.

In [None]:
x1 = np.array([1, 2, 3, 4])
x2 = np.array([7, 8, 9])

x = np.concatenate( [x1, x2] )
print(x)

Dabei dürfen beliebig viele 1d-Arrays kombiniert werden, nicht nur zwei.

In [None]:
x1 = np.array([1, 2, 3, 4])
x2 = np.array([7, 8, 9])

x = np.concatenate( [x1, x2, x1, x1] )
print(x)

Mit zweidimensionalen Arrays funktioniert das Kommando `np.concatenate` auch, allerdings müssen wir darauf achten, ob wir entlang der Achse 0 oder entlang der Achse 1 die Arrays vereinigen möchten.

In [None]:
X1 = np.full( (3,4), 1 )
X2 = np.full( (2,4), 2 )

print(X1)
print(X2)

X = np.concatenate( [X1,X2], axis=0)
print(X)

Und hier ein Beispiel für eine Vereinigung entlang der Achse 1:

In [None]:
X1 = np.full( (3,4), 1 )
X2 = np.full( (3,2), 2 )

print(X1)
print(X2)

X = np.concatenate( [X1,X2], axis=1)
print(X)

Sozusagen das Gegenteil der Vereinigung, die Aufteilung oder in Informatik-Sprache der Split, erfolgt mit der Funktion `np.split(array, Liste mit Index)`. Diesmal beschränken wir uns auf 1d-Arrays (2d-Arrays können mit `np.hsplit()` und `np.vsplit()` geteilt werden, kommt selten vor). Wir teilen das Array an der Index-Position 4 auf, d.h. in der Liste zum Trennen ist nur ein Element, nämlich die 4:

In [None]:
x = np.linspace(1, 10, 9)
print('x: ', x)

x1, x2 = np.split(x, [4])
print(x1)
print(x2)

Aber wir können noch mehr Splits erzeugen:

In [None]:
x = np.linspace(1, 10, 9)
print('x: ', x)

x1, x2, x3 = np.split(x, [4, 6])
print(x1)
print(x2)
print(x3)

### Funktionen auf NumPy-Arrays anwenden

NumPy-Arrays ermöglichen die Verarbeitung mit den typischen mathematischen Funktionen und den üblichen Statistik-Größen. Schauen wir uns einfach ein paar Beispiele an: 

In [None]:
# erzeuge 11 x-Werte im Intervall [-2*pi, 2*pi]
x = np.linspace( -2*np.pi, 2*np.pi, 11)
print(x)

# Sinus-Funktion
y1 = np.sin(x)
print(y1)

# Kosinus-Funktion
y2 = np.cos(x)
print(y2)

# Exponentialfunktion
y3 = np.exp(x)
print(y3)

# Potenzfunktion, z.B. y = x hoch 5
y4 = np.power(x, 5)
print(y4)

In [None]:
# erzeuge 3x4-Matrix mit Zufallszahlen
X = np.random.random_sample((3,4))
print(X)

# Summe über alle Elemente
s1 = np.sum(X)
print('s1', s1)

# Summe in Richtung Achse 0
s2 = np.sum(X, axis=0)
print('s2', s2)

# Summe in Richtung Achse 1
s3 = np.sum(X, axis=1)
print('s3', s3)

# Maximum über alle Elemente
max1 = np.max(X)
print('max1', max1)

# Maximum in Richtung Achse 0
max2 = np.sum(X, axis=0)
print('max2', max2)

# Maximum in Richtung Achse 1
max3 = np.sum(X, axis=1)
print('max3', max3)


# Übungsaufgaben

<div class="alert alert-block alert-success">
<b>Aufgabe 5.1: NumPy-Arrays </b> 

1. Erstellen Sie ein (5,5)-Array, das mit Nullen gefüllt ist.

2. Erstellen Sie ein (3,3)-Array, das an jeder Stelle mit $\pi$ gefüllt ist.

3. Erzeugen Sie ein 1d-Array mit den Zahlen von 1 bis 100.
    
4. Erzeugen Sie ein 1d-Array mit den Sinus-Werten an den Stellen von $-2\cdot\pi$ bis $2\cdot\pi$ mit einer Schrittweite von $\frac{1}{4}\pi$.
    
5. Erzeugen Sie ein (30,10)-Array, bei der in der 1, Zeile nur 1 stehen, in der 2. Zeile nur 2 usw.
    
6. Erzeugen Sie ein (30,5)-Array, bei der auf der Diagonalen die Zahl $-100$ steht und ansonsten 0.
    
7. Bilden Sie die Vereinigung der beiden Arrays aus 5) und 6), indem Sie die beiden Arrays nebeneinander setzen.
    
8. Bilden Sie in jeder Spalte die Summe aller Elemente.
</div>

<div class="alert alert-block alert-success">
<b>Aufgabe 5.2: Nette Anzeige von NumPy-Arrays</b> 

Erstellen Sie ein (3,4)-Array mit standardnormalverteilten Zufallszahlen. Geben Sie dann jedes Element des Arrays mit seinen Indizes aus, also beispielsweise
  
```code
Zeile 1 und Spalte 1: Element = 0.783
Zeile 1 und Spalte 2: Element = -0.521
...
```
Geben Sie am Ende auch das komplette Array aus, damit Sie kontrollieren können, ob Ihre Ausgabe funktioniert hat.
</div>

<div class="alert alert-block alert-success">
<b>Aufgabe 5.3: Würfel</b>
    

Wenn man oft würfelt, sollte der Mittelwert aller Würfelwürfe 3.5 sein. Schreiben Sie eine Funktion, die 1 Millionen mal würfelt (W6) und den Mittelwert der Würfelwürfe berechnet und zurückgibt. Dies entspricht einem Experiment, daher nennen wir diesen Mittelwert jetzt Experimentmittelwert. 
    
Anschließend soll der Benutzer oder die Benutzerin gefragt werden, wie oft das Experiment wiederholt werden soll. Die Experimentmittelwerte sollen in einem Array gespeichert werden. Geben Sie zuletzt die Experimentmittelwert aus, dann den Mittelwert der Experimentmittelwerte und zuletzt die Standardabweichung der Experimentmittelwerte.
    
Wiederholen Sie die Experimente mit nur 1000 Würfelwürfen anstatt 1 Millionen. Was beobachten Sie?
</div>