<h1><u>Numpy Crash Course</u></h1>

Numpy ist das grundlegende Python Modul fuer numerisches Rechnen. Es stellt den Datentyp `ndarray` (Arrays) zur Verfuegung, fuer den im Gegensatz zu den normalen Python Containern schnelle Berechungen moeglich sind. Das liegt daran, dass Arrays nur Elemente eines einzigen Typs besitzen, die ausserdem in einem einzigen Block unveraenderlicher Groesse im Speicher stehen. Die Position eines einzelnen Elements kann somit schnell berechnet werden und Operationen ueber alle Array Elemente koennen schnell, z.B. parallel und in C++, implementiert werden. 

<h3>shape up</h3><br>
Numpy Arrays haben eine Dimension (`shape`), d.h. Laenge, Breite, Tiefe etc. und dementsprechend Tupel as Indizes. Wie in Python ueblich, kann man die runden Klammern von Tupeln weglassen. `x[i,j]` ist das gleiche wie `x[(i,j)]`. Je nach Dimension koennen `numpy` Arrays als Vektoren, Matrizen, Tabellen, Tensoren usw. interpretiert und verwendet werden.

Numpy Funktionen und Operatoren sind im Allgemeinen vektorisiert. Das heisst sie werden auf Arrays angewendet und liefern Arrays der gleichen Groesse zurueck wobei die Funktion fuer jedes einzelne Argument berechnet wird. Numpy bietet auch die Moeglichkeit Ihre eigenen Funktionen zu vektorisieren, wodurch Sie sich eine langsame Python `for`-Schleife ueber alle Elemente eines Arrays ersparen. **Merke : vektorisierte Funktionen und Operatoren sind in python immer schneller als for-Schleifen!** (siehe unten...)

Wenn Sie Alles aus pylab importieren, dann importieren Sie alle Definitionen von numpy sowohl direkt in den Haupt-Namespace von Python als auch in den Namespace des Objektes np. Sie koennen also zum Beispiel die Funktion exp2() einfach so aufrufen oder als np.exp2(). Die zweite Variante ist vorzuziehen, weil man so beim lesen sofort sieht, wo die Definition dieser speziellen mathematischen Funktion herkommt.

In [2]:
import numpy as np
print("this is version {} of numpy.\nhave fun!".format(np.__version__))

this is version 1.11.1 of numpy.
have fun!


Erzeugung von Arrays
--------------------

Der Constructor `np.array(L)` erstellt ein Numpy Array aus einem Container `L`. Alle Elemente des Arrays besitzen den allgemeinsten Datentyp in `L`. Es wird versucht, die Struktur des Containers `L` als Dimension des Arrays zu behalten. Eine Liste aus zwei Containern mit je zwei Elementen, z.B. `[[1,2],(3,4)]` wird in ein 2x2 Matrix Array umgewandelt.

In [6]:
L0=[[1,2],[3,4]]
A0 = np.array(L0)
print(A0)
print(A0[0])
print(A0[0,0])
print(A0.shape)
print(A0.dtype)

print('----------------------------------')

L2=[[1,2],[3,4,5]]
A2 = np.array(L2)
print(A2)
print(A2.shape)
print(A2.dtype)      # das Array besteht aus Zeigern zu list Objekten
print(A2.itemsize)

[[1 2]
 [3 4]]
[1 2]
1
(2, 2)
int64
----------------------------------
[[1, 2] [3, 4, 5]]
(2,)
object
8


**ndarray, zeros, ones**

Der Construktor `np.zeros(shape,dtype=float)` erstellt ein Numpy Array dessen Dimension durch den Parameter `shape` bestimmt wird, und welches Elemente vom Typ `float` besitzt und diese alle auf Null setzt.

`np.ndarray(shape,dtype=float)` reserviert nur den Speicherplatz fuer ein Array, schreibt aber nichts hinein. Der Wert der Elemente ist dann nicht fest definiert.

Der Constructor `np.ones(shape,dtype=float)` schreibt das Array mit Einsen voll.

Der Parameter `dtype` gibt den Datentyp der Elemente im Array an. Dieser kann beliebig sein, wird aber meistens als `int`, `float` oder `omplex` genommen und als `np.int64`, `np.float64` und `np.complex128` implementiert.

In [None]:
A = np.ndarray((2,2))
print(A)

** eye, diag **

Es werden in der Numerik oft Matrizen benoetigt, die nur Eintraege auf der Diagonalen oder auf den Nebendiagonalen haben. Man erzeugt eine NxN Einheitsmatrix mit `np.eye(N)`. Die vollstaendige Syntax lautet `np.eye(N, M=None, k=0, dtype=float)` und erzeugt eine NxM Matrix deren Eintraege ueberall Null sind, ausser auf der k-ten Nebendiagonalen. k=0 ist die Hauptdiagonale. Positive oder negative Zahlen bezeichnen Diagonalen ueber oder unter der Hauptdiagonalen.

Die Funktion `np.diag(v,k=0)` verwendet man, um aus einem sequenzierbaren Objekt (z.B. Liste oder 1d Array) eine Matrix zu erzeugen, welche die Eintraege `v[i]` auf der k-ten Diagonalen hat. Ebenso kann man `np.diag(A,k)` verwenden, um aus einer Matrix die k-te Diagonale zu kopieren.

In [8]:
A = np.diag([1,2,3,4,5],k=0)
x=np.diag(A,k=0)
print(A)
print(x)

[[1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 3 0 0]
 [0 0 0 4 0]
 [0 0 0 0 5]]
[1 2 3 4 5]


** arange, linspace, logspace**

`np.arange(i,j,k)` hat dieselbe Funktionsweise wie die normale python Funktion `range` bzw. das iterierbare Objekt `xrange()` und liefert ein Numpy Array von ganzen Zahlen zurueck.

`np.linspace(start,stop,num=50,endpoint=True)` liefert ein Array der Laenge `num` (Standard `num=50`) mit `float` Zahlen von `start` bis `stop` in gleichmaessigem Abstand zurueck, wobei `start` und `stop` Elemente des Arrays sind. Wenn `endpoint=False` gesetzt wird, ist `stop` nicht im Array enthalten.

`np.logspace(start,stop,num=50,endpoint=True,base=10.0)` erstellt ein array mit den Elementen `base**x` wobei `x` die Werte von `start` bis `stop` in gleichmaessigem Abstand annimmt. Das Ergebnis ist aequivalent zu `base**np.linspace(start,stop,num,endpoint)` .

In [None]:
print(np.linspace(0,1,num=10))
print(np.linspace(0,1,10,endpoint=False))

** rand, randn **

Das Untermodul `numpy.random` stellt verschiedene Funktionen zur Erzeugung von (pseudo) Zufallszahlen zur Verfuegung. An dieser Stelle seinen nur die Funtionen `np.random.rand(*shape)` und `np.random.randn(*shape)` genannt, welche Arrays mit gleichverteilten Zufallszahlen im Intervall [0,1) bzw. Normalverteilte Zufallzahlen mit Mittelwert Null und Varianz Eins erzeugt. Die Funktionen nehmen beliebig viele Integer Zahlen als Argumente. Ohne Argument wird kein Array, sondern eine einzelne Zufallszahl erzeugt.

<h3>a view on shape shifting</h3>

Da die Daten sowieso in einem Block im Speicher liegen, kann man die Dimension eines Arrays beliebig veraendern, wenn es die Anzahle der Elemente zulaesst. Dafuer reicht es, das Attribut `shape` eines Arrays zu veraendern.

    A.shape = newshape

Die folgenden shapes sind am gebraeuchlichsten :
 - `shape` = N ist ein Vektor aus $\mathbb{R}^N$
 - `shape` = (N,M) ist eine Matrix aus $\mathbb{R}^{NxM}$
 - `shape` = (1,M) ist ein Zeilenvektor und
 - `shape` = (N,1) ist ein Spaltenvektor

In [10]:
print(np.ones(10))       # Vektor mit 10 Eintraegen
print(np.ones((10,1)))   # 10x1 Spaltenvektor 
print(np.ones((1,10)))   # 1x10 Zeilenvektor

[ 1.  1.  1.  1.  1.  1.  1.  1.  1.  1.]
[[ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]]
[[ 1.  1.  1.  1.  1.  1.  1.  1.  1.  1.]]


** size, ndim, itemsize, nbytes, strides **

Die Anzahl der Elemente eines Arrays `A` wird im Attribut `A.size` gespeichert, die Zahl der Indizes ist `A.ndim`. 

`A.itemsize` ist die Groesse eines Elementes in Bytes und `A.nbytes` ist die Gesamtgoesse des Arrays in Bytes.

Intern werden Ansichten eines Arrays allein durch Attribute `A.shape`, `A.strides` und die Methode `A.view(dtype=float)` reguliert. Es ist sogar moeglich, dass man Diagonalen einer 2d Matrix als 1d Array Ansicht auf dieselbe Matrix definiert. `A.strides` gibt fuer jede Axe die Zahl der Bytes an, die zwischen zwei Elemente im Speicherblock liegen. `A.view(dtype=newtype)` interpretiert denselben Speicherblock mit einem neuen Datentyp `newtype`, wenn die Groesse des Speicherblocks ein Vielfaches der Groesse des neuen Typs ist.

In [9]:
x=np.random.rand(10)
x.shape=(2,5)
n=x.view(dtype=np.int8)
print("x.shape : {}".format(x.shape))
print("x.ndim : {}".format(x.ndim))
print("x.nbytes : {}".format(x.nbytes))
print("x.itemsize : {}".format(x.itemsize))
print("x.strides : {}".format(x.strides))
print("x :\n {}".format(x))
print("n.shape : {}".format(n.shape))
print("n.ndim : {}".format(n.ndim))
print("n.nbytes : {}".format(n.nbytes))
print("n.itemsize : {}".format(n.itemsize))
print("n.strides : {}".format(n.strides))
print("n :\n {}".format(n))

x.shape : (2, 5)
x.ndim : 2
x.nbytes : 80
x.itemsize : 8
x.strides : (40, 8)
x :
 [[ 0.63004214  0.39760057  0.66926103  0.89332838  0.70678733]
 [ 0.26319406  0.14167613  0.73176027  0.68765443  0.16067416]]
n.shape : (2, 40)
n.ndim : 2
n.nbytes : 80
n.itemsize : 1
n.strides : (40, 1)
n :
 [[ 102   95  -66   35   78   41  -28   63   20  110  112  -84   73  114
   -39   63  -32 -100 -115   29 -106  106  -27   63   21   80  -28  102
    37 -106  -20   63 -122   -4  -39  120    0  -98  -26   63]
 [  24  -35    0  -27   43  -40  -48   63  104  -52   89  124  113   34
   -62   63   10  100  -35 -123 -108  106  -25   63   59   95  -62  -36
    67    1  -26   63   40  -83  -68 -115   -8 -112  -60   63]]


** Indexakrobatik **

Wie bei veraenderbaren Objekten in Python hat auch hier der Zuweisungsoperator `=` keine Kopierfunktion, sondern es wird demselben Array ein weiterer Name zugeordnet. Was aber viel interessanter ist, ein und dasselbe Array kann mehrere Ansichten (Views) gleichzeitig haben, d.h. verschiedene Namen, unter denen die Elemente des Arrays anders angeordnet sind oder interpretiert werden. 

`B=A.reshape(newshape)` liefert ***eine andere Ansicht auf dasselbe Array***. Werden die Daten in `A` veraendert, veraendern sich auch die Daten in `B` und umgekehrt.

Numpy Arrays unterstuetzen auch die Indexnotation, die Ihnen von sequenzierbaren Containern schon bekannt ist. Allerdings liefert `B=A[i:j:k]` kein neues Array zurueck, sondern eine Teilansicht auf dasselbe Array, bzw. eine Scheibe (Slice) vom Array.

Indexnotation `B=A[i0:j0:k0,i1:j1:k1]` kann ueber alle Dimensionen eines Arrays verwendet werden.

Eine andere Moeglichkeit Teilfelder auszuwaehlen, ist die Methode der Indexfelder `I` mit ganzen Zahlen als Elementen. Bei einem 1d-Array `A` liefert der Ausdruck `B=A[I]` ***ein neues Feld*** mit derselben Dimension wie das Indexfeld zurueck und Elementen welche durch `I` indiziert werden. Also z.B. `B[i,j]=A[I[i,j]]`. 

Bei (N+1) dimensionalen Feldern und Indexfeldern `I0,I1,...,IN` mit identischen shapes kann man schreiben `B=A[I0,I1,...,IN]` wobei `B` dann auch dieselbe Dimension wie die Indexfelder hat. Also z.B. `B[i,...] = A[I0[i,...],I1[i,...]]`.

Eine weitere Moeglichkeit Teilfelder von `A` zu kopieren funktioniert ueber boolean Felder `Q` mit der gleichen Dimension wie `A`. `B=A[Q]` ist ein 1d Array mit den Werten `A[i0,i1,...]` an denen `Q[i0,i1,...]` True ist. So ist z.B. `x[x>0]` ein 1d Feld mit allen positiven Elementen aus dem beliebig dimensionalen Array `x`. Der Ausdruck `x[x<0]=0` setzt alle negativen Elemente von `x` Null. 

In [293]:
x=np.random.randn(10)
x[x<0]=0
print(x)
x[[1,3,5]]=-1
print(x)
print(x[np.arange(2,7)])

[ 0.          0.13956007  0.05520455  0.          0.          0.          0.
  0.96881415  0.          0.        ]
[ 0.         -1.          0.05520455 -1.          0.         -1.          0.
  0.96881415  0.          0.        ]
[ 0.05520455 -1.          0.         -1.          0.        ]


** Matrixmultiplikation, Lineare Gleichungssysteme **

Multiplikation `A*B` von Arrays ist elementweise. Fuer Vektor und Matrixmultiplikation verwendet man die Methode `dot()`

`A.dot(B)` bzw. `np.dot(A,B)` summiert ueber den letzten Index von `A` und den vorletzten Index von `B`.

Im Untermodul `numpy.linalg` gibt es eine Reihe weiterer Funktionen aus der linearen Algebra. Eine wichte Funktion hierbei ist

`np.linalg.solve(A,b)` welche das lineare Gleichungssystem $A\vec{x}=\vec{b}$ bzw. mehrere LGS $AX=B$ gleichzeitig loest (einen Spaltenvektor von `X` fuer jeden Spaltenvektor von `B`).

** Vektorisierung **

Die Funktion `numpy.vectorize(f)` liefert eine vektorisierte Version der Funktion `f` zurueck. Hierbei koennen beliebige Positions, bzw. Schluesselwortargumente ausgenommen werden. Alle anderen Argumente nehmen nacheinander die Werte der Elemente der Arrays an, die der vektorisierten Funktion uebergeben werden.

    vecgcd = np.vectorize(gcd) # die Funktion vecgcd(A,B) liefert ein Array mit den groessten gemeinsamen Teilern der Elemente aus den Arrays A und B zurueck.

In [None]:
x=np.arange(10)
print(np.sin(x))   # die Funktion np.sin() ist standardmaessig vektorisiert, die Funktion math.sin() nicht.
import math as m
# m.sin(x) # -> TypeError
vecsin = np.vectorize(m.sin)
print(vecsin(x))


<h3>Array Manipulation und Statistiken</h3>

** conjugate, transpose, strides, view **

`np.conjugate(A)`, `A.conj()` und `A.conjugate()` liefern ein elementweise konjugiert complexes Array zurueck.

`np.transpose(A)`, `A.transpose()` and `A.T` liefern die ***transponierte Ansicht*** des Arrays `A` zurueck. Veraenderungen in `A` veraendern auch alle Ansichten von `A`.

    At = A.T.conj() # At ist die Hermitisch konjugierte Matrix zu A

`A.transpose(*axes)` hat als Argument entweder einen sequenzierbaren Container von integer Zahlen oder mehrere integer Zahlen, welche eine Permutation der Axennummern beschreiben. `A.transpose(2,1,0)` oder `A.transpose([2,1,0])` vertauscht z.B. die erste mit der letzten Axe in einem 3d Array. (Die Permutation von Axen wird durch eine Permutation des `strides` Attributes erreicht.)

In [None]:
A=np.random.rand(2,2)+1j*np.random.rand(2,2)
At=A.T.conj()
print(A)
print(At)

In [None]:
A=np.random.rand(5,5)
Adiag=A.ravel()[::A.shape[1]+1]
Adiag[2]=0
print(A)
print(Adiag)


**Fuer die Geschwindigkeit von Numpy Routinen ist es essentiell, wenn moeglich, mit Ansichten statt Kopien zu arbeiten!**

** ravel, flatten, mean, var, std **

`A.ravel()` is eine 1d Array *Ansicht* eines Feldes, waehrend `A.flatten()` eine 1d *Kopie* ist.

`A.mean()` bzw. `np.mean(A)` berechnet den Mittelwert **ueber alle** Elemente von `A`, waehrend `A.mean(axis)` nur ueber den Index mit der Nummer `axis` mittelt.

`A.var(axis=None,ddof=0)` bzw. `var(A)` berechnet die Varianz ueber aller Elemente von `A` als

$$
var(A) = \frac{1}{N-ddof} \sum_{a\in A}^{N=|A|} \left(a - mean(A)\right)^2
$$

Standardmaessig ist `ddof=0`. In der Statistik verwendet man jedoch oft `ddof=1` um einen Schaetzwert fuer die Varianz *ohne Bias* zu erhalten. `A.std(axis=None,ddof=0)` ist die Wurzel aus der Varianz.

** max, min, sum, cumsum, prod, cumprod, sort **

`A.max(axis=None)` und `A.min(axis=None)` berechnen Maximum und Minimum, entweder von allen Elementen, oder entlang einer gegebenen Axe. Die aequivalenten Numpy Funktionen sind `np.min(A)` und `np.max(A)`.

Deweiteren kann man die Summe `sum(A)`, das Produkt `prod(A)` sowie die kumulative Summe `cumsum(A)` und das kumulative Produkt `cumprod(A)` ueber die Elemente eines Arrays berechnen, auch ueber einzelne Axen. Z.B. :

$$
sum(A) = \sum_{ij} A_{ij}
$$
$$
sum(A,axis=1)_i = \sum_{j} A_{ij}
$$
$$
cumsum(A)_i = \sum_{j=0}^i A.ravel()_j
$$
$$
cumsum(A,axis=1)_{ij} = \sum_{k=0}^j A_{ik}
$$


`np.sort(A)` erzeugt eine Kopie von `A` und sortiert diese, waehrend `A.sort()` das Array `A` direkt sortiert. Standardmaessig wird ueber die letzte Axe und aufsteigend sortiert. `A.sort(axis=-1)` sortiert `A` ueber die letzte Achse. Fuer absteigende Sortierung verwenden Sie einfach einen invertierten View auf das sortierte Array, z.B.

In [None]:
A=np.random.rand(5)
A.sort()  # aufsteigende Sortierung
B=A[::-1] # invertierter View
print(A)
print(B)

Belesen Sie sich <a href="http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html">zum Laden von Daten aus Textdateien mit np.loadtxt(...)</a>