# NumPy



* stellt $n$-dimensionale Arrays (Vektoren, Matrizen,...) zur Verfügung

* In C implementiert und auf Geschwindigkeit optimiert. *Deutlich* schneller als Python-Listen

* Arrays sind homogen (alle Elemente sind vom gleichen Typ) und haben eine feste Größe (im Gegensatz zu Python-Listen) 

* Vektorisiert: Arithmetische Operationen und Funktionen arbeiten mit ganzen Arrays und werden elementweise interpretiert.


Zum Nachschlagen/Vertiefen:

- [numpy docs](https://numpy.org/doc/1.18/reference/index.html)
- [numpy for matlab users](https://docs.scipy.org/doc/numpy/user/numpy-for-matlab-users.html)
- [youtube: Intro to Numerical Computing with NumPy (Beginner)](https://www.youtube.com/watch?v=V0D2mhVt7NE) ([hier die Slides](https://github.com/enthought/Numpy-Tutorial-SciPyConf-2019/blob/master/slides.pdf))

Numpy wird in der Regel wie folgt importiert:

In [3]:
import numpy as np

### NumPy-Arrays

Hauptgegenstand ist numpys `ndarray`-Objekt. Die `np.array()`-Funktion wandelt Listen, Tupeln, ... in numpy-arrays um:

In [36]:
x = np.array([2,3,4,5])
print(x, "\n", type(x))

[2 3 4 5] 
 <class 'numpy.ndarray'>


In [37]:
a = np.array([[1,2,np.pi], [4,np.e,6]])
print(a)

[[1.         2.         3.14159265]
 [4.         2.71828183 6.        ]]


Wichtige Eigenschaften eines Array-Objektes können abgefragt werden:

In [38]:
print(a.ndim)       # Zahl der Indizes
print(a.shape)      # Gestalt, z.B. (n,m) für nxm-Matrix
print(a.size)       # Gesamtzahl der Elemente
print(a.dtype)      # Datentyp der Elemente
print(a.itemsize)   # Größe eines Elements in Bytes 
print(a.nbytes)     # Größe aller Elemente von a in Bytes
print(type(a))      # Typ von a selbst

2
(2, 3)
6
float64
8
48
<class 'numpy.ndarray'>


### Warum numpy.arrays statt Python-Listen?

In [1]:
# Erstellt eine Liste der Zahlen 1^2, 2^2, 3^3, ..., 10000^2 
# inklusive Zeitmessung
t1 = %timeit -o [i**2 for i in range(10000)]

4.22 ms ± 35.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [4]:
# Nun mit Hilfe eines numpy.arrays
t2 = %timeit -o np.arange(10000)**2

7.87 µs ± 161 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [7]:
print(f"Numpy ist {t1.best/t2.best:.0f} mal schneller!")

Numpy ist 539 mal schneller!


Hierbei ist `%timeit` ein *Magic*-Befehl, der von der interakten IPythonshell bereitgestellt wird. Er lässt sich also nur innerhalb IPythons oder innerhalb eines Jupyter Notebooks verwenden.

### Erzeugung von speziellen Arrays

numpy hat seine eigenen range-Funktion, nämlich

`np.arange(start=0, stop, step=1, dtype=None)`

`np.linspace(start, stop, num=50, endpoint=True, dtype=None)`

welche beide ein numpy-Array erzeugen:

In [41]:
a = np.arange(0, 10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


Die `.reshape()`-Funktion kann einen array in einen mit anderer Dimension aber der gleichen Gesamtzahl von Elementen umwandeln. Dabei wird eine Matrix zeilenweise gefüllt. 

In [42]:
b = a.reshape(2,5)
print(b)

[[0 1 2 3 4]
 [5 6 7 8 9]]


In [43]:
# Hier mal ein Objekt mit 3 Indizes
c = np.arange(12).reshape(2, 3, 2)
print(c)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


In [44]:
print( 'c_000=', c[0,0,0],  '      c_010=', c[0,1,0],  '        c_101=', c[1,0,1]) 

c_000= 0       c_010= 2         c_101= 7


In [45]:
# array voller Nullen: Das Argument kann eine Zahl, eine Liste [4,3] oder ein Tupel (4,3) sein
print(np.zeros([3, 5]))

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [46]:
print(np.zeros(5))

[0. 0. 0. 0. 0.]


In [47]:
# array  mit gegebenem Füllwert
print(np.full([3, 5], 2.01))

[[2.01 2.01 2.01 2.01 2.01]
 [2.01 2.01 2.01 2.01 2.01]
 [2.01 2.01 2.01 2.01 2.01]]


In [9]:
# array aus einer mit list comprehension gebildeten Liste
x = np.array([[i-j for i in range(5)] for j in range(6)])
print(x)

[[ 0  1  2  3  4]
 [-1  0  1  2  3]
 [-2 -1  0  1  2]
 [-3 -2 -1  0  1]
 [-4 -3 -2 -1  0]
 [-5 -4 -3 -2 -1]]


In [11]:
# diese Funktion erzeugt eine Nullmatrix / Einsermatrix derselben Gestalt wie das Argument
print(np.zeros_like(x))
print(np.ones_like(x))

[[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
[[1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]]


In [50]:
# Man kann aus einem numpy-array auch wieder eine Python-Liste machen:
print(x.tolist())

[[0, 1, 2, 3, 4], [-1, 0, 1, 2, 3], [-2, -1, 0, 1, 2], [-3, -2, -1, 0, 1], [-4, -3, -2, -1, 0], [-5, -4, -3, -2, -1]]


In [51]:
# 3x3 Einheitsmatrix 
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [52]:
# Diagonalmatrix aus 1-dim array 
print(np.diag([3,4,5]))

[[3 0 0]
 [0 4 0]
 [0 0 5]]


In [53]:
# A.T liefert Transponierte von A
print(np.eye(3).T)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


Zum Plotten von Funktionen recht nützlich ist **linspace**. Im Unterschied zu **arange** gibt man nach Start- und Endwert nicht die Schrittweite sondern die gewünschte Anzahl von (equidistanten) Werten im Intervall an. Der Endwert ist hier in der Folge enthalten.  

In [54]:
print(np.linspace(1,2,10))

[1.         1.11111111 1.22222222 1.33333333 1.44444444 1.55555556 1.66666667 1.77777778 1.88888889 2.        ]


### Indizes und *Slicing*

* __Indices__: Elemente eines arrays kann man über Indizes ansprechen. 
* __Slicing__: Mit der `n:m:k`-Syntax kann man Teilfelder ansprechen. Dabei ist der Startindex `n` enthalten, **der Endindex `m` ist nicht mehr enthalten** und `k` ist eine optionale Schrittweite. 

In [55]:
x = np.arange(10)
print(x)

[0 1 2 3 4 5 6 7 8 9]


In [56]:
print(x[5]) # Ein Element des Feldes

5


In [57]:
x[5] = 77 # Man kann den Elementen Werte zuweisen
print(x)

[ 0  1  2  3  4 77  6  7  8  9]


In [58]:
print("x[2:7] =", x[2:7]) # Ein Teilfeld

x[2:7] = [ 2  3  4 77  6]


In [59]:
# Zuweisung eines Teilfeldes 
x[2:4] = [-5, -6]
print(x)

[ 0  1 -5 -6  4 77  6  7  8  9]


In [60]:
print("x[0:8:2] =", x[0:8:2]) # Teilfeld mit Schrittweite
print("x[:5]    =", x[:5])    # fehlender Startindex
print("x[3:]    =", x[3:])    # fehlender Endindex
print("x[:]     =", x[:])     # fehlender Start- und Endindex
print("x[::-1]  =", x[::-1])  # nun mit negativer Schrittweite (also rückwärts)

x[0:8:2] = [ 0 -5  4  6]
x[:5]    = [ 0  1 -5 -6  4]
x[3:]    = [-6  4 77  6  7  8  9]
x[:]     = [ 0  1 -5 -6  4 77  6  7  8  9]
x[::-1]  = [ 9  8  7  6 77  4 -6 -5  1  0]


In [61]:
# Es gibt einen Unterschied zwischen x[7] und x[7:8]. Beides addressiert nur 
# ein Element, aber im 2. Fall erhält man trotzdem einen eindimensionalen Vektor
# 
print("x[7]   = ", x[7])   # ein Eleemnt
print("x[7:8] = ", x[7:8]) # ein (1,)-Vektor

x[7]   =  7
x[7:8] =  [7]


In [14]:
# 2-dimensionale Beispiele
A = np.array([
    [ 0,  1,  2],
    [ 4,  5,  6],
    [ 8,  9, 10]])
print(A)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]]


In [15]:
B = A[0:2, 1:2]
C = A[0:2, :]
D = A[::-1, ::2]
print(B, "\n\n", C, "\n\n", D)

[[1]
 [5]] 

 [[0 1 2]
 [4 5 6]] 

 [[ 8 10]
 [ 4  6]
 [ 0  2]]


In [16]:
# Umwandeln mehrdimensionaler arrays in ein (m,)-array:
print(D.flatten())
print(D.flatten().shape)

[ 8 10  4  6  0  2]
(6,)


### Kopien und Views

Numpy vermeidet aus Laufzeit- und Speicherplatzgründen das Erstellen von Kopien, solange es nicht unumgänglich oder explizit angewiesen ist. 

Einfache Zuweisungen 
```
B = A
``` 
oder Slices 
```
B = A[2:3, 4:6]
``` 
erstellen keine Kopie, sondern nur ein *View* auf die existierenden Daten. 

Vereinfacht ausgedrückt ist ein *View* ein Array, das keinen eigenen Speicherbereich für seine Elemente besitzt, sondern den Speicher eines anderen Arrays nutzt. **Modifizierungen von B modifizieren daher auch A und umgekehrt:**

In [65]:
B = A
C = A[0:2, 0:3]
print(B, "\n\n", C)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]] 

 [[0 1 2]
 [4 5 6]]


In [66]:
A[0,0] = -99
print(A, "\n\n", B, "\n\n", C)

[[-99   1   2]
 [  4   5   6]
 [  8   9  10]] 

 [[-99   1   2]
 [  4   5   6]
 [  8   9  10]] 

 [[-99   1   2]
 [  4   5   6]]


Auch wenn wir ein *View* auf ein array modifizieren, wird das ursprüngliche array verändert:

In [67]:
C[0,0] = 1000
print(C, "\n\n", A)

[[1000    1    2]
 [   4    5    6]] 

 [[1000    1    2]
 [   4    5    6]
 [   8    9   10]]


Möchte man im Zweifel überprüfen, ob ein array ein View ist, bietet sich das `.flags`-Attribut an:

In [68]:
print(A.flags)

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False



Uns interessiert vorerst nur, ob das array auf seinen eigenen Speicherbereich zeigt bzw. ihn "besitzt". Also:

In [69]:
print("A.flags['OWNDATA'] =", A.flags['OWNDATA']) # A zeigt auf eigenen Speicherbereich (kein View)
print("C.flags['OWNDATA'] =", C.flags['OWNDATA']) # C dagegen nicht, also ein View

A.flags['OWNDATA'] = True
C.flags['OWNDATA'] = False


Möchte man das array, auf dessen Speicherbereich C zeigt (in unserem Fall A), kann man das `.base`-Attribut
verwenden:

In [70]:
print(C.base) # Das ist gerade unser array A
print(A.base) # None, da A kein View ist

[[1000    1    2]
 [   4    5    6]
 [   8    9   10]]
None


In [71]:
# Explizites erstellen einer Kopie
B = A.copy()
B[0,1] = 9999
print(A)
print(B.flags['OWNDATA']) # True, da kein View

[[1000    1    2]
 [   4    5    6]
 [   8    9   10]]
True


### numpy.arrays als Funktionsparameter

arrays werden nach dem Prinzip *Call by reference* an eine Funktion übergeben, d.h. es wird weder eine Kopie noch ein View übergeben und es handelt sich um dasselbe Arrayobjekt:

In [72]:
def myfunc(x):
    print("myfunc: Speicheradresse des Arrays:", hex(id(x)))
    print("myfunc: Speicheradresse der Daten: ", hex(x.__array_interface__['data'][0]))

In [73]:
x = np.array([1,2,3])
print("außerhalb: Speicheradresse des Arrays:", hex(id(x)))
print("außerhalb: Speicheradresse der Daten: ", hex(x.__array_interface__['data'][0]))
myfunc(x)

außerhalb: Speicheradresse des Arrays: 0x11306f620
außerhalb: Speicheradresse der Daten:  0x7fbe04119870
myfunc: Speicheradresse des Arrays: 0x11306f620
myfunc: Speicheradresse der Daten:  0x7fbe04119870


### Advanced Indexing

Ein Index kann auch eine Bedingung sein. Dann werden alle Elemente geliefert, die diese
Bedingung erfüllen:

In [74]:
A[A>3]

array([1000,    4,    5,    6,    8,    9,   10])

In [75]:
# Das ist nützlich, weil man so auf genau diese Elemente  einwirken kann:
A[A>5] = 5
print(A)

[[5 1 2]
 [4 5 5]
 [5 5 5]]


In [76]:
# Noch allgemeiner: der Vergleich A>5 liefert einen Array aus Wahrheitswerten:
A>0

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [77]:
# und einen solchen Array aus Wahrheitswertne kann man als Index verwenden:
B = np.array([1,2,3,4,5,6])
C = np.array([False, False, True, False, False, True])
B[C]

array([3, 6])

###  Iterationen 

Eine Matrix ist eine Sequenz von Zeilen. 

Allgemeiner: **`for r in A`**  iteriert  über den am weitesten links stehenden Index.

In [78]:
A = np.array([[1, 2, 3], [4, 5, 6]])
for zeile in A:
    print ('Zeile = ', zeile)

Zeile =  [1 2 3]
Zeile =  [4 5 6]


In [79]:
for zeile in A:
    for element in zeile:
        print(element)

1
2
3
4
5
6


In [80]:
# diese Funktion liefert einen Iterator mit Indizes:
for (i,j), x in np.ndenumerate(A):
    print(f"a_{i},{j} =", x)

a_0,0 = 1
a_0,1 = 2
a_0,2 = 3
a_1,0 = 4
a_1,1 = 5
a_1,2 = 6


### Vergleichsoperationen
Vergleichsoperationen liefern einen array aus boolschen Werten:

In [81]:
x = np.arange(4)
x == x[:]

array([ True,  True,  True,  True])

Mit den Operatoren **all** und **any** kann man einen `array of bools` reduzieren:

In [82]:
x == np.array([0,2,2,3])

array([ True, False,  True,  True])

In [83]:
# Alles wahr?
np.all(x==np.array([0,2,2,3]))

False

In [84]:
# Irgendwas wahr?
np.any(x==np.array([0,2,2,3]))

True

### Arithmetische Operationen

* Arithmetische Operationen werden stets **elementweise** ausgeführt. 
* Multiplikation ist also nicht die Matrixmultiplikation, Inversion 1/A nicht die Matrixinversion!
* Ein Operand kann auch ein Skalar sein. Er wird dann behandelt wie ein Feld der erforderlichen Größe, das mit diesem Skalar gefüllt ist. 

Da Python objektorientiert ist, wurden die arithmetischen Operatoren (+,-,\*,\*\*,/, usw) für numpy.arrays *überladen*. Das heißt, dass wir eine übersichtliche Syntax haben und in Wirklichkeit (schnelle) numpy-Funktionen aufgerufen werden, wenn man arithmetische Operationen auf numpy.arrays anwendet:

In [85]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[2, 2], [5, 5]])
print(a + b)

[[3 4]
 [8 9]]


In [86]:
print(1/a)

[[1.         0.5       ]
 [0.33333333 0.25      ]]


In [87]:
print(a * b) # Nicht mit der Matrizenmultiplikation verwechseln!

[[ 2  4]
 [15 20]]


In [88]:
print(a + 1)

[[2 3]
 [4 5]]


In [89]:
a += 100
print(a)

[[101 102]
 [103 104]]


In [90]:
print(a**2) # Nicht mit der Matrixpotenz verwechseln!

[[10201 10404]
 [10609 10816]]


In [91]:
print(a**b)

[[      10201       10404]
 [11592740743 12166529024]]


In [92]:
# Auch alle üblichen mathematischen Funktionen werden von numpy so 
# bereitgestellt, dass sie elementweise auf ein Feld wirken 
print(np.sin(a))

[[ 0.45202579  0.99482679]
 [ 0.62298863 -0.3216224 ]]


**Wichtig:** Auch bei den arithmetischen Operationen sollte im Hinblick auf optimale Laufzeit darauf geachtet werden, dass nicht unnötigerweise eine Kopie erstellt wird. 

Beispiel für eine Kopie:

In [93]:
print("Vorher. Speicheradresse des Arrays:", hex(id(a)))
print("Vorher. Speicheradresse der Daten: ", hex(a.__array_interface__['data'][0]))
a = a + 1
print("Nachher. Speicheradresse des Arrays:", hex(id(a)))
print("Nachher. Speicheradresse der Daten: ", hex(a.__array_interface__['data'][0]))

Vorher. Speicheradresse des Arrays: 0x113076bc0
Vorher. Speicheradresse der Daten:  0x7fbe01d5f070
Nachher. Speicheradresse des Arrays: 0x11308f580
Nachher. Speicheradresse der Daten:  0x7fbe01cb7470


Während das array mit einer arithmetischen Zuweisung `+= 1` *inplace* verändert wird:

In [94]:
print("Vorher. Speicheradresse des Arrays:", hex(id(a)))
print("Vorher. Speicheradresse der Daten: ", hex(a.__array_interface__['data'][0]))
a += 1
print("Nachher. Speicheradresse des Arrays:", hex(id(a)))
print("Nachher. Speicheradresse der Daten: ", hex(a.__array_interface__['data'][0]))

Vorher. Speicheradresse des Arrays: 0x11308f580
Vorher. Speicheradresse der Daten:  0x7fbe01cb7470
Nachher. Speicheradresse des Arrays: 0x11308f580
Nachher. Speicheradresse der Daten:  0x7fbe01cb7470


### Matrix-Vektor-multiplikationen via `@`-Operator

Kann für Matrixprodukt, Matrix-Vektor-produkt and Skalarprodukt verwendet werden.


In [24]:
# shape (3, ) @ (3, ) -> scalar
v = np.array([1,2,3])
w = np.array([3,4,5])
print(v @ w) # Skalarprodukt
print(v*w)   # elementweises produkt

26
[ 3  8 15]


In [19]:
A = np.arange(6).reshape(2,3)
print(A)

[[0 1 2]
 [3 4 5]]


In [20]:
#  shape (3, 2) @ (2, 3) -> (3, 3)
#  ( .T  trasnponiert )
print(A.T @ A)

[[ 9 12 15]
 [12 17 22]
 [15 22 29]]


In [21]:
# shape (2, 3) @ (3, 2) -> (2, 2)
print(A @ A.T)

[[ 5 14]
 [14 50]]


In [22]:
# shape (2, 3) @ (3,) -> (2, )

print(A @ v)

[ 8 26]


In [25]:
# (2, ) @ (2, 3) -> (3,)
print(np.array([4,5]) @ A)

[15 24 33]



Achtung: Möchte man für $u, v \in \mathbb{R}^n$ die Matrix $B = u \cdot v^{\top} \in \mathbb{R}^{n \times n}$ berechnen, sind arrays mit *shape* `(n,1)` notwendig:

In [102]:
e = np.ones(3) # shape (3,)
e @ e.T

3.0

In [103]:
e = np.ones(3).reshape(3,1) # shape (3,) zu (3,1)
e @ e.T

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [104]:
# Alternativ kann man das äußere (Tensor)-Produkt verwenden:
np.outer(e, e)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

Möchte man für eine quadratische Matrix $A \in \mathbb{R}^{n \times n}$ die Potenz $A^n$ berechnen,
bietet sich `matrix_power` an:

In [105]:
from numpy.linalg import matrix_power

In [106]:
A = np.arange(9, dtype=np.int64).reshape(3,3)
matrix_power(A, 10)

array([[ 13732435440,  17713440288,  21694445136],
       [ 42154372512,  54374838624,  66595304736],
       [ 70576309584,  91036236960, 111496164336]])

### Reduktionsfunktionen

* Reduktionsfunktionen reduzieren die Dimension eines Arrays. 
* Beispiele: **sum, prod, amin, amax**


In [107]:
A = np.array([[1, 18, 7],
              [2, 13, 5],
              [19, -4, 1]])

In [108]:
print( np.sum(A) )
print( np.amax(A) )

62
19


In [109]:
# Spaltensumme, größtes Element jeder Spalte
print( np.sum( A, axis=0) )
print('')
print( np.amax(A, axis=0) )

[22 27 13]

[19 18  7]


In [110]:
# Zeilensumme, größtes Element jeder Zeile
print( np.sum( A, axis=1) )
print('')
print( np.amax(A, axis=1) )

[26 20 16]

[18 13 19]


In [111]:
# Summe der Diagonalelemente
print(np.trace(A))

15


## Vektorisieren

Beispiel: Rosenbrockfunktion $f: \mathbb{R}^n \to \mathbb{R}$ mit $f(x) = \sum_{i=1}^{n-1} 100 \cdot (x_{i+1}-x_i^2)^2+(1-x_i)^2$

In [112]:
# Möglichkeit 1
def rosenbrock1(x):
    x = np.asarray(x)
    res = 0.0
    for i in range(len(x)-1):
        res += 100*(x[i+1]-x[i]**2)**2 + (1-x[i])**2
    return res

In [113]:
%timeit rosenbrock1(np.arange(10000))

24 ms ± 447 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [114]:
# Möglichkeit 2 (vektorisiert)
def rosenbrock2(x):
    x = np.asarray(x)
    return np.sum(100*(x[1:]-x[:-1]**2)**2 + (1-x[:-1])**2)

In [115]:
%timeit rosenbrock2(np.arange(10000))

73.3 µs ± 14.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## Performancetipps

*What makes Python fast for development is what makes Python slow for code execution. (Jake VanderPlas)*

Lösung:

- Schleifen möglichst vermeiden, stattdessen vektorisierte numpy-Funktionen (*ufuncs*) verwenden.

- Unnötige Arraykopien vermeiden, stattdessen Views verwenden oder direkt *inplace* verändern.

- Falls Schleifen unvermeidbar sind und keine passende numpy-Funktion existiert: [Numba](http://numba.pydata.org/) oder [Cython](https://cython.org/).


Mehr z.B. unter: [[youtube] Losing your Loops. Fast Numerical Computing with NumPy](https://youtu.be/EEUXKG97YRw)
