# Lektion 09: Numpy

----

Ziel der Lektion:

 * [Nutzung des `numpy`-Moduls](#numpy)
 * [`numpy`-Arrays](#1d-arrays)
 * [2d-`numpy`-Arrays](#2d-arrays)
 * [Daten einlesen mit `np.loadtxt(...)`](#loadtxt)
 
 
----

## 0. <a id=numpy></a> Das `numpy`-Modul

Eigentlich schon in der Lektion 01, in der Zahlen und das Rechnen mit Zahlen behandelt wurde, ist das `numpy`-Modul erwähnt worden:

In [None]:
import numpy as np

# laden des Moduls

a = np.sqrt(2)             # Wurzel von 2
print(a)

b = 45                     # Winkel in Grad
print(np.cos(b*np.pi/180)) # cos des Winkels b

Mit dem Import des `numpy`-Moduls `import numpy as np` stehen die mathematischen Funktionen zur Verfügung.

Das Modul hat allerdings nicht nur mathematische Funktionen, die für uns wichtig sind, sondern auch eine sehr mächtige Container-Klasse, die wir in dieser Lektion behandeln werden.

----

## <a id=1d-arrays></a> 1. `numpy`-Arrays

Ein weiterer Container-Typ, der für viele wissenschaftlichen Aufgaben wichtig und auch notwendig ist, heisst `numpy`-Array. Dieser Typ ist ähnlich zu den Python-Listen, jedoch sind diese erstmal `homogen`, d.h. sie haben nur einen festgelegten Datentyp `dtype` und sie besitzen weitere Eigenschaften, die das Arbeiten mit `Arrays` vereinfachen. Im Vergleich mit anderen Programmiersprachen ist dieser Datentyp equivalent zu dem was man sonst `Arrays` nennt.

### Erstellung von Arrays

In [None]:
import numpy as np

# es gibt viele verschiedene Arten, numpy-arrays zu erstellen
a1 = np.array([1,2,3,4])       # Konvertierung von Python-Listen
a2 = np.array([1., 2., 3., 4.])
print(a1)
print(a2)
b = np.arange(0.0, 1.0, 0.1)  # erstellt ein Array zwischen den Grenzen 0.0 und
                              # 1.0 mit einem festem Abstand zwischen den Elementen
                              # 0.1. Das Array bildet ein halb-offenes Interval.
print(b)
c = np.linspace(0.0, 1.0, 10) # erstellt ein Array zwischen den Grenzen 0.0 und 
                              # 1.0 wobei hier die Anzahl der Elemente vorgegeben
                              # wird. Das Array bildet ein geschlossenes Intervall.
print(c)
d = np.zeros(10)              # erstellt ein Array mit 10 Elementen '0' 
print(d)

### Meta-Daten

Im Gegensatz zu den anderen Python-Containertypen besitzen `numypy`-Arrays sog. Meta-Daten, die ein Array beschreiben. 
Die wichtigsten Meta-Daten sind:

In [None]:
a = np.arange(0,10,1) 
print(type(a))    # type of the python array
print(a.dtype)    # data type of the array
print(a.ndim)     # number of dimensions
print(a.shape)    # shape of the array

`dtype` beschreibt den Datentyp der Elemente in dem Array.

Wichtige Typen:
  * `np.int64`    64-bit Ganzzahlen
  * `np.float64`  64-bit Fliesskommazahlen
  
(Ganzzahlen in `numpy` haben eine beschränkte Genauigkeit!)

Man kann bei der Erstellung der `numpy`-Arrays auch den Typ vorgeben:

In [None]:
a = np.arange(0,10,1, dtype=np.int64) 
b = np.linspace(0,10,1, dtype=np.float64)
print(a)
print(a.dtype)

print(b)
print(b.dtype)

### Zugriff auf einzelne Elemente

Der Zugriff auf einzelne Elemente geht wie bei vielen Container-Typen mit einem Index. Denken Sie daran, dass die Indices mit `0` starten und auch negative Indices funktionieren:

In [None]:
a = np.arange(0,10,1) 

print(a[2])  # print the third element
print(a[-1]) # print the last element

Der Zugriff auf Elemente außerhalb des Definitionsbereiches ergibt eine Fehlermeldung:

In [None]:
print(a[20])

Einzelne Elemente können auch verändert werden:

In [None]:
a = np.arange(0,10,1) 

a[2] = 100     # update the third element

print(a)

### Slicing von Arrays

Das Slicing  ist auch identisch z.B. zu den Python-Listen. Es gelten die gleichen Regeln:

In [None]:
a = np.arange(0,10,1) 

print(a[1:3])      # print the second and third element
print(a[1:100])    # print from the second element, indices out of limits are ignored
print(a[:-2])      # print all elements until the 2nd last element (open intervall)
print(a[-5:-1])    # print elements with negative indices
print(a[::2])      # every second element
print(a[-1:-5:-1]) # backwards from the end until the 6th element
print(a[100:200])  # these will return an empty array

Ein wenig anders ist Zugriff auf das Array beim Zuweisen:

In [None]:
a = np.arange(0,10,1)

a[1:4:2] = np.array([100,200])   # replace an array with an array
a[5:] = -1                       # replace an sliced array with only one value!

print(a)

Es kann einem Array ein gleichlanges Array zugewiesen werden oder jeweils ein gleiche Wert!

**Wichtig:** Das Slicing von `Arrays` erzeugt __kein__ neues Array, sondern nur ein sog. `View`, welches auf die gleichen Daten zeigt (Siehe *Kopierproblem von Arrays* unten).

### Rechnen mit Arrays

Man kann mit Arrays wie mit einzelnen Variablen rechnen oder auch mit jeweils gleich großen Arrays:

In [None]:
a = np.arange(0,10,1)
b = np.arange(100,110,1)

c = a + 5     # add 5 to the array
d = a * 10    # multiply with 10
e = a / b     # real divide both arrays

print(c)
print(d)
print(e)

Die mathematische Operation wird intern elementweise ausgeführt! Bitte nutzen Sie niemals eine Schleifenkonstruktion wie in anderen Programmiersprachen, um so eine Operation auszuführen!

Mathematische Funktionen aus der `numpy`-Bibliothek arbeiten nicht nur auf einzelnen Werten, sondern auch auf `Arrays`:

In [None]:
a = np.linspace(0.,10.,11)

print(np.sqrt(a))

Jede mathematische Operation mit einem `Array` erzeugt ein neues `Array`!

### Funktionen von Arrays

`Array` haben noch spezielle Funktionen, die wie bei den anderen Container-Typen aufgerufen werden können:

In [None]:
a = np.linspace(0.,10.,11)

print(a.mean())    # print the mean value of the array
print(a.sum())     # print the sum of the array

Einige Funktionen können auch über das `numpy`-Modul aufgerufen werden:

In [None]:
a = np.linspace(0.,10.,11)

print(a.mean())
print(np.mean(a))   # identical to a.mean()

**Wichtig:** Nicht alle Funktionen sind so implementiert, schauen Sie sich im Bedarf die Dokumentation an oder probieren es aus!

### Kopierprobem von Arrays

Ein immer wiederkehrendes Problem und Quelle von aufwendigen Fehlersuchen ist das Kopierproblem von `Arrays`. In Python kann man normalerweise jede Variable mit einer Anweisung duplizieren, wie z.B.:

In [None]:
a = 10
b = a     # make a copy of a

a = 100

print(b)

`a` wird in `b` kopiert und dann kann man `a` ändern, `b` bleibt unangerührt. Allerdings bei `Arrays` führt dieses zu Problemen:

In [None]:
a = np.arange(0,10,1)
b = a       # make a copy of a
 
a[0] = 100  # change an element

print(b)

In diesem Fall ist `b = a` keine Kopie, sondern in `b` wird ein sog. `View` erzeugt, der auf die gleichen Daten wie `a` zeigt. Deswegen ist eine Veränderung, die über die Variable `a` angestoßen wird, auch in `b` sichtbar.

Das gleiche Problem wird beim Slicing erzeugt:

In [None]:
a = np.arange(0,10,1)
b = a[::2]

a[0] = 100  # change an element

print(b)

Auch das Slicing erzeugt ein neues `View` auf die gleichen Daten von `a`, wenn auch das ausgegebene Array kürzer ist!

Genauso muss man vorsichtig bei Funktionen sein:

In [None]:
def change_array(x):
    x[1] = 100
    
    return x


a = np.arange(0,10,1)

b = change_array(a)

print(b)
# but:
print(a)

In diesem Fall wird beim Aufruf von `change_array` auch nur ein `View` übergeben und im Funktionsbody das originale Array verändert. Es sieht so aus, dass `b` nach dem Funktionsaufruf die korrekten Werte enthält. Man übersieht aber leicht, dass `a` auch verändert wurde. Das führt dazu, dass nachträgliche Operationen, die auf `a` aufbauen, plötzlich *komische* Ergebnisse erzeugen!

----

## <a id=2d-arrays></a> 2. 2d-`numpy`-Arrays

Nach den einfachen `numpy`-Arrays kann man auch sehr leicht zu 2d-`Array` umsteigen. Viele Eigenschaften lassen sich vom 1d-Fall auf die 2d-Objekte übertragen.

2d-`Arrays` lassen sich am Besten als vollständige Tabellen mit `x` Spalten und `y` Zeilen beschreiben. Vollständig meint, dass alle Elemente definiert sein müssen, es gibt keine Lücken. Bei der Erstellung aus Python-Zahlen-Listen muss man auf sog. `nested`-Listen zurückgreifen, wobei man dort eine Liste von Zeilen erstellt und die Zeilen jeweils eine Liste aus Spaltenelementen besitzt:

In [None]:
import numpy as np

a = np.array([[1,2,3],[4,5,6]])

print(a)

Der Zugriff erfolgt mit einem Index erstmal auf eine Zeile, wobei das Ergebnis ein 1d-`Array` ist:

In [None]:
print(a[0])   # print the first row
print(a[-1])  # print the last row

Möchte man ein einzelnes spezielles Element adressieren, so muss man zwei Indices verwenden `a[y,x]`:

In [None]:
print(a[1,1])
print(a[0,2])

Die einzelnen Indices werden durch Kommata getrennt.

Eine geläufige Methode, um 2d-`Array` zu erzeugen, ist der Ansatz, aus deinem sog. `flachen` 1d-`Array` ein 2d-`Array` zu erzeugen:

In [None]:
a = np.arange(0,49,1)

b = a.reshape((7,7))

print(b)

`.reshape(...)` verändert das Aussehen des Arrays (sofern möglich). Das Argument ist ein Tupel, welches die Anzahl der Elemente in den beiden Dimensionen angibt. **Vorsicht:** `.reshape` erzeugt auch ein `View` und kein neues Array. 

Auch das Slicing geht wie gewohnt:

In [None]:
print(b[1:3])       # second and third row
print(b[1:3,0:4])   # second and third row, the first 3 colunmns
print(b[::2,::-1])  # every second row, backwards for the columns

Die Ergebnisse des Slicings können neben einzelnen Werten, 1d- oder 2d-`Arrays` sein. Das sollte immer bei Verändern der Elemente berücksichtig werden:

In [None]:
b[1:3,1] = np.array([100,200])                              # change a column
b[2:4,4:7] = np.array([[1000,2000,3000],[4000,5000,6000]])  # change an array

b[4:7,0:2] = np.array([1,2])                                # change an array with the same row
b[5:7,5:7] = -100                                           # change an array with the same value
print(b)

In dem Beispiel sind nur einfache Array-/Wert-Konstruktionen benutzt worden. Die Zuweisungen machen sich ein `numpy`-Feature zu Nutze, welches unter `broadcasting` zu finden ist. Das `broadcasting` erlaubt es z.B. beim Zuweisen von Array-Feldern aus einzelnen Werten und kleineren `Arrays` passende `Arrays` zu erstellen. Dieses Thema führt aber hier zuweit.

----

## <a id=loadtxt></a> 3. Daten einlesen

Ein ganz wichtiger Aspekt mit den Nutzen von `Arrays` ist das Einlesen von Daten.

Die meisten Daten, die Sie und wir nutzen, werden in Text-Dateien abgespeichert. 

In [None]:
!cat data/data.txt

`numpy` bietet zum Einlesen die Funktion `.loadtxt()`:

In [None]:
import numpy as np

data = np.loadtxt('data/data.txt')

print(data)

`loadtxt` liest die Daten ein und gibt ein 2d-`Array` zurück. Zur besseren Verwendung (je nach Aufgabenstellung) kann man das 2d-`Array` wieder in Spalten oder Zeilen zerlegen. Meistens hat man Spalten mit verschiedenen Messwerten und die Zeilen geben dann die Anzahl der verschiedenen Messwerten wieder. Achten Sie bitte darauf, dass die Tabellen in den Dateien auch immer vollständig sind. Lücken kann man nicht so problemlos einlesen.

In [None]:
x_values = data[:,0]   # split the 1st column
y_values = data[:,1]   # split the 2nd column

print(x_values)
print(y_values)

Zum Splitten nutzen wir das Slicing, wobei man dort `:` für die alle Zeilen angeben muss!

Wie man in diesem Beispiel sieht, macht `loadtxt` einiges im Hintergrund automatisch. So werden Kommentarzeilen übersprungen und auch die Spaces zwischen den Zahlen werden als Trennzeichen verwendet. 

Wichtige Argumente für `loadtxt` sind die folgenden und können für bestimmte Aufgaben angepasst werden:

```python
  data = np.loadtxt(fname,          # filename to read from
                    comments='#',   # identifying comments
                    delimiter=' ',  # delimiter between values
                    skiprows=0,     # skip the number of rows
                    usecols=None,   # tuple with column numbers
                    ndim=0,         # number of dimensions of the result
                    )
```

Ein anderes Beispiel:

In [None]:
!cat data/data.csv

In [None]:
import numpy as np

data = np.loadtxt('data/data.csv', comments=';', delimiter=',', usecols=(0,2))

print(data)

In diesem Beispiel werden die Kommentare mit `;` gekennzeichnet und die Werte sind mit `,` getrennt. Auch sollen nur die Spalten `1` und `3` eingelesen werden. Bei gemischten Kommentaren am Anfang würde auch ein `skiprows=4` helfen!

Eine besondere Bedeutung hat der Parameter `ndim=X`. $X$ gibt dabei die Anzahl der Dimensionen des Rückgabe-Arrays an. `X=0` ist der `default`, was bedeutet, dass `numpy` selber die Dimension bestimmt. `X=2` ist hilfreich, wenn man z.B. eine Tabelle mit mehreren Spalten aber nur einer Zeile einlesen will. Damit wird dann trotzdem ein 2d-Array erzeugt!