<img src="img/python-logo-notext.svg"
     style="display:block;margin:auto;width:10%"/>
<h1 style="text-align:center;">Python: NumPy</h1>
<h2 style="text-align:center;">Coding Akademie München GmbH</h2>
<br/>
<div style="text-align:center;">Dr. Matthias Hölzl</div>

# Listen als Vektoren und Matrizen

Wir können Python Listen verwenden um Vektoren darzustellen:

In [None]:
vector1 = [3, 2, 4]
vector2 = [8, 9, 7]

Es wäre dann möglich, Vektoroperationen auf derartigen Listen zu implementieren:

In [None]:
def vector_sum(v1, v2):
    assert len(v1) == len(v2)
    result = [0] * len(v1)
    for i in range(len(v1)):
        result[i] = v1[i] + v2[i]
    return result

In [None]:
vector_sum(vector1, vector2)

Matrizen könnten dann als "Listen von Listen" dargestellt werden:

In [None]:
matrix = [[1, 2, 3],
          [2, 3, 4],
          [3, 4, 5]]

Diese Implementierungsvariante hat jedoch einige Nachteile:
- Performanz
    - Speicher
    - Geschwindigkeit
    - Parallelisierbarkeit
- Interface
    - Zu allgemein
    - `*`, `+` auf Listen entspricht nicht den Erwartungen
    - ...
- ...

# NumPy

NumPy ist eine Bibliothek, die einen Datentyp für $n$-dimensionale Tensoren (`ndarray`) sowie effiziente Operationen darauf bereitstellt.
- Vektoren
- Matrizen
- Grundoperationen für Lineare Algebra
- Tensoren für Deep Learning

Fast alle anderen mathematischen und Data-Science-orientierten Bibliotheken für Python bauen auf NumPy auf (Pandas, SciPy, Statsmodels, TensorFlow, ...).

## Überblick

In [None]:
import numpy as np

In [None]:
v1 = np.array([3, 2, 4])
v2 = np.array([8, 9, 7])

In [None]:
type(v1)

In [None]:
v1.dtype

In [None]:
v1 + v2

In [None]:
v1 * v2 # Elementweises (Hadamard) Produkt

In [None]:
v1.dot(v2)

In [None]:
v1.sum()

In [None]:
v1.mean()

In [None]:
v1.max()

In [None]:
v1.argmax(), v1[v1.argmax()]

In [None]:
m1 = np.array([[1, 2, 3],
               [4, 5, 6]])
m2 = np.array([[1, 0],
               [0, 1],
               [2, 3]])

In [None]:
 # m1 + m2

In [None]:
m1.T

In [None]:
m1.T + m2

In [None]:
m1.dot(m2)

## Erzeugen von NumPy Arrays

### Aus Python Listen

Durch geschachtelte Listen lassen sich Vektoren, Matrizen und Tensoren erzeugen:

In [None]:
vector = np.array([1, 2, 3, 4])
vector

In [None]:
vector.shape

In [None]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
matrix

In [None]:
matrix.shape

In [None]:
tensor = np.array([[[1, 2], [3, 4]],
                   [[5, 6], [7, 8]]])
tensor

In [None]:
tensor.shape

### Als Intervall bzw. Folge

In [None]:
np.arange(10)

In [None]:
np.arange(10.0)

In [None]:
np.arange(2, 10)

In [None]:
np.arange(3., 23., 5.)

In [None]:
np.linspace(0, 10, 5)

In [None]:
np.linspace(0.1, 1, 10)

In [None]:
np.arange(0.1, 1.1, 0.1)

### Konstant 0 oder 1

In [None]:
np.zeros(3)

In [None]:
np.zeros((3,))

In [None]:
np.zeros((3, 3))

In [None]:
np.ones(2)

In [None]:
np.ones((4, 5))

### Als Identitätsmatrix

In [None]:
np.eye(4)

### Aus Zufallsverteilung

Numpy bietet eine große Anzahl von möglichen [Generatoren und Verteilungen](https://docs.scipy.org/doc/numpy/reference/random/index.html) zum Erzeugen von Vektoren und Arrays mit zufälligen Elementen.

#### Setzen des Seed-Wertes

In [None]:
np.random.seed(101)

#### Gleichverteilt in [0, 1)

In [None]:
# Kompatibilität mit Matlab
np.random.seed(101)
np.random.rand(10)

In [None]:
np.random.rand(4, 5)

In [None]:
# Fehler
# np.random.rand((4, 5))

In [None]:
np.random.seed(101)
np.random.random(10)

In [None]:
np.random.random((4, 5))

#### Normalverteilte Zufallszahlen

In [None]:
# Kompatibilität mit Matlab
np.random.seed(101)
np.random.randn(10)

In [None]:
np.random.randn(4, 5)

In [None]:
# Fehler
# np.random.randn((4, 5))

In [None]:
np.random.seed(101)
np.random.standard_normal(10)

In [None]:
np.random.standard_normal((4, 5))

In [None]:
np.random.seed(101)
np.random.normal(10.0, 1.0, 10)

In [None]:
np.random.normal(0.0, 1.0, (4, 5))

In [None]:
np.random.normal(10.0, 0.2, (2, 5))

#### Multivariate Normalverteilung


In [None]:
means = np.array([0.0, 2.0, 1.0])
cov = np.array([[2.0, -1.0, 0.0],
                [-1.0, 2.0, -1.0],
                [0.0, -1.0, 2.0]])
np.random.multivariate_normal(means, cov, (3,))

#### Andere Verteilungen

In [None]:
np.random.binomial(10, 0.2, 88)

In [None]:
np.random.multinomial(20, [1/6.0] * 6, 10)

Die [Dokumentation](https://docs.scipy.org/doc/numpy/reference/random/generator.html) enthält eine Liste aller Verteilungen und ihrer Parameter.

## Mini-Workshop

- Notebook `050x-Workshop NumPy`
- Abschnitt "Erzeugen von NumPy Arrays"


## Exkurs: Lösen von Gleichungssystemen

Wie können wir das folgende Gleichungssystem mit NumPy darstellen und lösen:

$$
2x_0 + x_1 + x_2 = 4\\
x_0 + 3x_1 + 2x_2 = 5\\
x_0 = 6
$$

In [None]:
a = np.array([[2., 1., 1.],
              [1., 3., 2.],
              [1., 0., 0.]])
b = np.array([4., 5., 6.])

In [None]:
x = np.linalg.solve(a, b)
x

In [None]:
# Test:
a.dot(x), b

SciPy bietet spezielle Lösungsverfahren wie LU-Faktorisierung, Cholesky-Faktorisierung, etc. an.

In [None]:
import scipy.linalg as linalg
lu = linalg.lu_factor(a)

In [None]:
lu

In [None]:
x = linalg.lu_solve(lu, b)

In [None]:
x

In [None]:
a.dot(x)

In [None]:
# Hermite'sche Matrix, positiv definit
a = np.array([[10., -1., 2., 0.],
             [-1., 11., -1., 3.],
             [2., -1., 10., -1.],
             [0., 3., -1., 8.]])
b= np.array([6., 25., -11., 15.])

In [None]:
cholesky = linalg.cholesky(a)

In [None]:
cholesky

In [None]:
cholesky.T.conj().dot(cholesky)

In [None]:
y = np.linalg.solve(cholesky.T.conj(), b)

In [None]:
x = np.linalg.solve(cholesky, y)

In [None]:
x

In [None]:
a.dot(x)

## Mini-Workshop

- Notebook `050x-Workshop NumPy`
- Abschnitt "Gleichungssysteme"

## Attribute von Arrays

In [None]:
int_array = np.arange(36)
float_array = np.arange(36.0)

In [None]:
int_array.dtype

In [None]:
float_array.dtype

In [None]:
int_array.shape

In [None]:
int_array.size

In [None]:
int_array.itemsize

In [None]:
float_array.itemsize

In [None]:
np.info(int_array)

In [None]:
np.info(float_array)

## Ändern von Shape und Größe

In [None]:
float_array.shape

In [None]:
float_matrix = float_array.reshape((6, 6))

In [None]:
float_matrix

In [None]:
float_matrix.shape

In [None]:
float_array.shape

In [None]:
float_array.reshape(3, 12)

In [None]:
# Fehler
# float_array.reshape(4, 8)

In [None]:
float_array.reshape((4, 9), order='F')

In [None]:
float_array.reshape((9, 4)).T

In [None]:
np.resize(float_array, (4, 8))

In [None]:
float_array.shape

In [None]:
np.resize(float_array, (8, 10))

## Mini-Workshop

- Notebook `050x-NumPy`
- Abschnitt "Erzeugen von NumPy Arrays 2"


## Broadcasting von Operationen

Viele Operationen mit Skalaren werden Elementweise auf NumPy Arrays angewendet:

In [None]:
arr = np.arange(8)
arr

In [None]:
arr + 5

In [None]:
arr * 2

In [None]:
arr ** 2

In [None]:
2 ** arr

In [None]:
arr > 5

## Minimum, Maximum, Summe, ...

In [None]:
np.random.seed(101)
vec = np.random.rand(10)
vec

In [None]:
vec.max()

In [None]:
vec.argmax()

In [None]:
vec.min()

In [None]:
vec.argmin()

In [None]:
np.random.seed(101)
arr = np.random.rand(2, 5)
arr

In [None]:
arr.max()

In [None]:
arr.argmax()

In [None]:
arr.min()

In [None]:
arr.argmin()

## Mini-Workshop

- Notebook `050x-NumPy`
- Abschnitt "Extrema"


In [None]:
arr.reshape(arr.size)[arr.argmin()]

In [None]:
arr[np.unravel_index(arr.argmin(), arr.shape)]

In [None]:
arr

In [None]:
arr.sum()

In [None]:
arr.sum(axis=0)

In [None]:
arr.sum(axis=1)

In [None]:
arr.mean()

In [None]:
arr.mean(axis=0)

In [None]:
arr.mean(axis=1)

## Mini-Workshop

- Notebook `050x-NumPy`
- Abschnitt "Mittelwert"


## Exkurs: Einfache Monte Carlo Simulation

Mit der folgenden Monte Carlo Simulation kann eine Approximation von $\pi$ berechnet werden.

Die Grundidee ist zu berechnen, welcher Anteil an zufällig gezogenen Paaren aus Zahlen $(x, y)$, mit $x, y \sim SV[0, 1)$  (d.h., unabhängig und stetig auf $[0, 1)$ verteilt) eine $\ell^2$ Norm kleiner als 1 hat. Diese Zahl ist eine
Approximation von $\pi/4$.

Die folgende naive Implementiertung is in (fast) reinem Python geschrieben und verwendet NumPy nur zur Berechnung der Zufallszahlen.

In [None]:
def mc_pi_1(n):
    num_in_circle = 0
    for i in range(n):
        xy = np.random.random(2)
        if (xy ** 2).sum() < 1:
            num_in_circle += 1
    return num_in_circle * 4 / n

In [None]:
def test(mc_pi):
    np.random.seed(64)
    for n in [100, 10_000, 100_000, 1_000_000]:
        %time print(f"𝜋 ≈ {mc_pi(n)} ({n} iterations).")
        pass

In [None]:
test(mc_pi_1)

Durch Just-in-Time Übersetzung mit Numba kann die Performance erheblich gesteigert werden:

In [None]:
import numba
mc_pi_1_nb = numba.jit(mc_pi_1)

In [None]:
test(mc_pi_1_nb)

Die folgende Implementierung verwendet die Vektorisierungs-Features von NumPy:

In [None]:
def mc_pi_2(n):
    x = np.random.random(n)
    y = np.random.random(n)
    return ((x ** 2 + y ** 2) < 1).sum() * 4 / n

In [None]:
test(mc_pi_2)

In [None]:
# %time mc_pi_2(100_000_000)

Auch bei dieser Version können mit Numba Performance-Steigerungen erzielt werden, aber in deutlich geringerem Ausmaß:

In [None]:
mc_pi_2_nb = numba.jit(mc_pi_2)

In [None]:
test(mc_pi_2_nb)

In [None]:
# %time mc_pi_2_nb(100_000_000)

## Mini-Workshop

- Notebook `050x-NumPy`
- Abschnitt "Roulette"


## Indizieren von NumPy Arrays

In [None]:
vec = np.arange(10)

In [None]:
vec

In [None]:
vec[3]

In [None]:
vec[3:8]

In [None]:
vec[-1]

In [None]:
arr = np.arange(24).reshape(4, 6)

In [None]:
arr

In [None]:
arr[1]

In [None]:
arr[1][2]

In [None]:
arr[1, 2]

In [None]:
arr

In [None]:
arr[1:3]

In [None]:
arr[1:3][2:4]

In [None]:
arr[1:3, 2:4]

In [None]:
arr[:, 2:4]

In [None]:
# Vorsicht!
arr[: 2:4]

In [None]:
arr[:, 1:6:2]

## Broadcasting auf Slices

In NumPy Arrays werden Operationen oftmals auf Elemente (oder Unterarrays) "gebroadcastet":

In [None]:
arr = np.ones((3, 3))

In [None]:
arr[1:, 1:] = 2.0

In [None]:
arr

In [None]:
lst = [1, 2, 3]
vec = np.array([1, 2, 3])

In [None]:
lst[:] = [99]

In [None]:
vec[:] = [99]

In [None]:
lst

In [None]:
vec

In [None]:
vec[:] = 11
vec

### Vorsicht beim `lst[:]` Idiom! 

In [None]:
lst1 = list(range(10))
lst2 = lst1[:]
vec1 = np.arange(10)
vec2 = vec1[:]

In [None]:
lst1[:] = [22] * 10
lst1

In [None]:
lst2

In [None]:
vec1[:] = 22
vec1

In [None]:
vec2

In [None]:
vec1 = np.arange(10)
vec2 = vec1.copy()

In [None]:
vec1[:] = 22
vec1

In [None]:
vec2

## Bedingte Selektion

NumPy Arrays können als Index auch ein NumPy Array von Boole'schen Werten erhalten, das den gleichen Shape hat wie das Array.

Dadurch werden die Elemente selektiert, an deren Position der Boole'sche Vektor den Wert `True` hat und als Vektor zurückgegeben.

In [None]:
vec = np.arange(8)
bool_vec = (vec % 2 == 0)

In [None]:
vec[bool_vec]

In [None]:
arr = np.arange(8).reshape(2, 4)
bool_arr = (arr % 2 == 0)
bool_arr

In [None]:
arr[bool_arr]

In [None]:
# Fehler!
# arr[bool_vec]

In [None]:
vec[vec % 2 > 0]

In [None]:
arr[arr < 5]

### Boole'sche Operationen auf NumPy Arrays

In [None]:
bool_vec

In [None]:
neg_vec = np.logical_not(bool_vec)

In [None]:
bool_vec & neg_vec

In [None]:
bool_vec | neg_vec

## Universelle NumPy Operationen

NumPy bietet viele "universelle" Funktionen an, die auf NumPy Arrays, Listen und Zahlen angewendet werden können:

In [None]:
vec1 = np.random.randn(5)
vec2 = np.random.randn(5)
list1 = list(vec1)
list2 = list(vec2)

In [None]:
vec1

In [None]:
list1

In [None]:
np.sin(vec1)

In [None]:
np.sin(list1)

In [None]:
import math
np.sin(math.pi)

In [None]:
np.sum(vec1)

In [None]:
np.sum(list1)

In [None]:
np.mean(vec1)

In [None]:
np.median(vec1)

In [None]:
np.std(vec1)

In [None]:
np.greater(vec1, vec2)

In [None]:
np.greater(list1, list2)

In [None]:
np.greater(vec1, list2)

In [None]:
np.maximum(vec1, vec2)

In [None]:
np.maximum(list1, list2)

In [None]:
np.maximum(list1, vec2)

Eine vollständige Liste sowie weitere Dokumentation findet man [hier](https://docs.scipy.org/doc/numpy/reference/ufuncs.html).