# Numerische Datenanalyse

Reines Python ist für numerische Datenanalyse aus technischen Gründen nicht performant genug. Um dieses Problem zu umgehen, wurden verschiede Pakete entwickelt. Die meisten Pakete orientieren sich dabei an der API, welche von [Numpy](https://www.numpy.org/) entwickelt und implementiert wurde. Deshalb legen wir hier einen besonderen Fokus auf Numpy.

Numpy ist ein Paket um effizient array-basiert in Python zu rechnen. Es bietet unter Anderem:

-  Datentypen:
   -   ndarray: (mehrdimensionaler) Array eines wählbaren Datentyps
   -   masked Arrays: maskierter Array, z.B. für Daten mit Landmaske
-  Funktionen:
   -   ufunc: operieren elementweise auf Arrays (+, -, sin, cos, ...)
   -   ndarray methoden: z.B. mean, sum, max, transpose, dot ...
   -   lineare Algebra
   -   ...
   
Um Numpy zu verwenden, muss es erst importiert werden.

In [1]:
import numpy as np

---
## ndarray

Die Klasse [ndarray](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html) bilded die Basis von Numpy. Ein ndarray Objekt repräsentiert einen multidimensionalen homogenen Array aus Elementen fixer Größe. Das heißt, dass alle Elemente vom gleichen Datentypen sind.

Um ein ndarray Objekt zu erstellen, verwendet man eine der foldenden Funktionen:

-   [numpy.array](https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html)
-   [numpy.zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html)
-   [numpy.empty](https://docs.scipy.org/doc/numpy/reference/generated/numpy.empty.html)
-   [numpy.ones](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html)
-   [numpy.full](https://docs.scipy.org/doc/numpy/reference/generated/numpy.full.html)
-   [numpy.zeros_like](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros_like.html)
-   [numpy.empty_like](https://docs.scipy.org/doc/numpy/reference/generated/numpy.empty_like.html)
-   [numpy.ones_like](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones_like.html)
-   [numpy.full_like](https://docs.scipy.org/doc/numpy/reference/generated/numpy.full_like.html)

Führe folgendes Beispiel aus:

```python
a = np.array(range(9), dtype=np.int)
print(a, a[4], a[1:3])

a[5] = 3.4
print(a)

b = a[1:2]
b[0] = 20

print(a)
```

**Beobachtung**:

-   Arrays können über ein `iterable` initialisiert werden. Versuche andere `iterable`, wie Listen oder Tupel
-   Indizierung und slicing funktioniert wie bei Listen
-   Alle Elemente eines Arrays haben den selben Datentyp
-   **Wichtig**: slicing erzeugt eine Referenz, keine Kopie!

Arrays haben Attribute, die seine Meta-Daten enthalten. Die Attribute sind:

-   `ndim`: Anzahl der Dimensionen
-   `shape`: Tupel der Längen der Dimensionen
-   `size`: Anzahl aller Elemente
-   `dtype`: Datentyp der Elemente
-   `itemsize`: Elementgröße in Bytes

```python
a = np.array([[2, 3, 1], [5, 7, 3]])

print(a)
print(a.ndim)
print(a.shape)
print(a.size)
print(a.dtype)
print(a.itemsize)
```

**Aufgabe**:
-   Was ändert sich, wenn man in der Initialisierung des Array eine Zahl zum float oder zu einer komplexen Zahl macht?

Wie anfangs erwähnt, gibt es viele Möglichkeiten, einen Array zu erzeugt. Probiere ein paar aus!

```python
# Array gefüllt mit Nullen
z = np.zeros((3, 2))

# Array gefüllt mit Einsen
o = np.ones((5, 3))

# Array mit Nullen mit den gleichen Meta-daten wie o
zeros_from_ones = np.zeros_like(o)

# Array ohne initialisierte Werte
buffer = np.empty((3, 2))

# 10x10 Identitätsmatrix
a = np.eye(10)

# Wie range aber auch für floats
x1 = np.arange(1, 10, 0.1)

x2 = np.linspace(0, 2 * np.pi, 100)

y = np.sin(x)
```

---
## Indizierung und Iteration

Ein-dimensionale Arrays werden wie Listen indiziert und iteriert.

```python
a = np.arange(10) ** 3

print(a[2])
print(a[2:5])

a[:6:2] = -1000
print(a[::-1])

for e in a:
    print(i ** (1 / 3.))
```

Multi-dimensionale Arrays können ein Index pro Achse haben. Dabei werden Indextupel automatisch mit `:` nach rechts aufgefüllt.

```python
a = np.random.random((5, 4, 2))

print(a)
print(a[2, 3, 1])
print(a[:, 1, 1])
print(a[1:3, :, :])

print(a[-1])
```

Man kann `...` als Platzhalter für soviele `:` verwenden, wie nötig sind.

```python
print(a[..., 0])
print(a[2:4, ..., 1])

# Beispiel für Ellipsis (...) Schreibweise:
x = np.arange(2 * 3 * 2 * 5 * 4).reshape(2, 3, 2, 5, 4)

print((x[1, 2, ...] == x[1, 2, :, :, :]).all())
print((x[..., 3] == x[:, :, :, :, 3]).all())
print((x[1, ..., 4, :] == x[1, :, :, 4, :]).all())
```

Multi-dimensionale Arrays werden bezüglich der ersten Achse iteriert. Möchte man über alle Elemente iterieren, so kann man das `flat` Attribut verwenden.

```python
a = np.arange(5 * 3).reshape((3, 5))
for row in a:
    print(row)

for element in a.flat:
    print(element)
```

---
## Reshape

Manchmal möchte man die Form eines Arrays verändern. Dazu gibt es folgende Möglichkeiten:

-   Das `shape` Attribut eines Arrays kann überschrieben werden.
-   `transpose` gibt den transponierten Array zurück. Die Reihenfolge der Achsen ist umgedreht.
-   [reshape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html) gibt eine Referenz zu den gleichen Daten mit gändertem shape zurück.
-   [resize](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.resize.html) ändert den shape des Arrays selbt dun gibt `None` zurück.

```python
a = np.arange(3 * 4).reshape((3, 4))
print(a)

a.shape = (3, 2, 1, 2)
print(a)

print(a.transpose())
a.resize((2, 6))

print(a)
b = a.reshape((3, -1))
print(b.shape)

# b referenziert die gleichen Daten wie a!
b[2, 2] = 100
print(a)
```

**Frage:**
-   Was bedeute die `-1` in dem Aufruf der Methode `reshape`?

---
## Operationen

Numpy bietet die gleichen arithmetischen und logischen Operationen an, die wir schon aus Python kennen. Diese Operationen arbeiten immer elementweise.

```python
a = np.arange(4)
b = np.array([2, 7, 4.5, 1])

print(a - b)
print(a * b)
print(b ** 2)
print(b ** a)
print(a % 3)
print(10 * np.sin(a))
print(b <= 4)

# in-place addition
a += b
print(a)
```

Die meisten unären Operatoren (Operatoren, welche nur ein  Argument haben) sind als Methode der ndarray Klasse implementiert. Häufig ist es möglich, die Operation auch nur entlang einer oder mehrere Dimensionen zu machen.

```python
a = np.array([[1, 2], [3, 4], [5, 6]])

print(a)

# Summe aller Elemente
print(a.sum())

# Summe entlang der ersten Dimension
print(a.sum(axis=0))

# Globales minimum
print(a.min())

# Globales maximum
print(a.max())

# Mittelwert
print(a.mean())

# Kummulative Summe enlang der zweiten Dimension
print(a.cumsum(axis=1))

# Skalarprodukt (eigentlich binärer Operator)
print(a.dot(b), np.dot(a, b))

```

---
# Masked arrays

[Masked arrays](https://docs.scipy.org/doc/numpy/reference/maskedarray.html) sind eine Subklasse von ndarray. Sie erweitern die ndarray Klasse um die Möglichkeit, Elemente zu maskieren, um sie bei Berechnungen außen vor zu lassen.

Funktionen, welche masked arrays erzeugen oder mit ihnen umgehen, sind im Modul `numpy.ma` verfügbar.

Elemente können maskiert werden, indem sie den Wert `numpy.ma.masked` zugewiesen bekommen. Dadurch wird das eigentliche Element nicht verändert, sondern nur als maskiert markiert.

```python
a = np.ma.ones((2, 2))

# maskiere einen Wert
a[0, 1] = np.ma.masked
print(a)
print(a.sum())
```

Die Maske ist als Attribut des masked array Objekts verfügbar. So kann man Elemente auch wieder demaskieren. Elementweise Operationen auf einem masked array werden nur auf die Elemente angewendet, die nicht maskiert sind.

```python
a *= 2
print(a)
a.mask[0, 1] = False
print(a)
```

---
## Universal functions

Universal functions sind Funktionen, die Elementweise auf einem oder mehreren Arrays passender Größe arbeiten. Diese Funktionen sind der Grundstock der Numpy Funktionalität.

Zu den Funktionen gehören:

-   [all](https://docs.scipy.org/doc/numpy/reference/generated/numpy.all.html)
-   [any](https://docs.scipy.org/doc/numpy/reference/generated/numpy.any.html)
-   [apply_along_axis](https://docs.scipy.org/doc/numpy/reference/generated/numpy.apply_along_axis.html)
-   [argmax](https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmax.html)
-   [argmin](https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmin.html)
-   [argsort](https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html)
-   [average](https://docs.scipy.org/doc/numpy/reference/generated/numpy.average.html)
-   [bincount](https://docs.scipy.org/doc/numpy/reference/generated/numpy.bincount.html)
-   [ceil](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ceil.html)
-   [clip](https://docs.scipy.org/doc/numpy/reference/generated/numpy.clip.html)
-   [conj](https://docs.scipy.org/doc/numpy/reference/generated/numpy.conj.html)
-   [corrcoef](https://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html)
-   [cov](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html)
-   [cross](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cross.html)
-   [cumprod](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cumprod.html)
-   [cumsum](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cumsum.html)
-   [diff](https://docs.scipy.org/doc/numpy/reference/generated/numpy.diff.html)
-   [dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html)
-   [floor](https://docs.scipy.org/doc/numpy/reference/generated/numpy.floor.html)
-   [inner](https://docs.scipy.org/doc/numpy/reference/generated/numpy.inner.html)
-   [linalg.inv](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.inv.html)
-   [lexsort](https://docs.scipy.org/doc/numpy/reference/generated/numpy.lexsort.html)
-   [maximum](https://docs.scipy.org/doc/numpy/reference/generated/numpy.maximum.html)
-   [mean](https://docs.scipy.org/doc/numpy/reference/generated/numpy.mean.html)
-   [median](https://docs.scipy.org/doc/numpy/reference/generated/numpy.median.html)
-   [minimum](https://docs.scipy.org/doc/numpy/reference/generated/numpy.minimum.html)
-   [nonzero](https://docs.scipy.org/doc/numpy/reference/generated/numpy.nonzero.html)
-   [outer](https://docs.scipy.org/doc/numpy/reference/generated/numpy.outer.html)
-   [prod](https://docs.scipy.org/doc/numpy/reference/generated/numpy.prod.html)
-   [sort](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sort.html)
-   [std](https://docs.scipy.org/doc/numpy/reference/generated/numpy.std.html)
-   [sum](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html)
-   [trace](https://docs.scipy.org/doc/numpy/reference/generated/numpy.trace.html)
-   [transpose](https://docs.scipy.org/doc/numpy/reference/generated/numpy.transpose.html)
-   [var](https://docs.scipy.org/doc/numpy/reference/generated/numpy.var.html)
-   [vdot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vdot.html)
-   [vectorize](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vectorize.html)
-   [where](https://docs.scipy.org/doc/numpy/reference/generated/numpy.where.html)

**Aufgabe:**

-   Schreibe eine Funktion, die den Winkel zwischen zwei N-dimensionalen Vektoren (1-dimensionale Arrays der Länge N) im Bogenmaß zurückgibt. Verwende dabei so viele numpy Funktionen wie möglich!

---
# Broadcasting

`universal functions` oder elementweise Operationen erwarten Arrays passender Größer. Häufig haben wir aber Daten, die nicht den gleichen shape haben, z.B. Meeresoberflächentemperatur (nlat x nlon), Längengrad (nlon) und Breitengrad (nlat). Trotzdem wollen wir so etwas wie

```python
mean_sst = (sst * np.cos(lat)).mean()
```

machen können. `Numpy` mach dafür das sogenannte [Broadcasting](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html), welches nach folgenden Regeln funktioniert:

-   Falls alle Input Arrays nicht die gleiche Anzahl an Dimensionen haben, wird eine "1" zum Shape aller Arrays mit weniger Dimensionen **vorne angefügt**, bis alle Arrays den gleiche Rang haben.
-   Die Dimensionen eines Arrays, welche Länge "1" haben werden so behandelt, als wären sie so lange wie die ensprechende Dimension des größten Arrays

Da neue Dimensionen immer vorne angefügt werden, kann es sein, dass man von Hand neue Dimensionen hinzufügen muss. Dies kann man durch indizierung mit der Konstanten `numpy.newaxis` erreichen.

```python
a = np.arange(3 * 4 * 7).reshape(3, 4, 7)
b = np.arange(7)
c = np.arange(4)
d = np.arange(3 * 7).reshape((3, 7))

print(a, b)
print(a * b)

# das hier Funktioniert nicht!
print(a * c)

# aber das hier
print(a * c[:, np.newaxis])

print(a * b  * c[:, np.newaxis])
print(a * b  * c[:, np.newaxis] * d[:, np.newaxis, :])
```