Kurs 5.3 "Vom Gehirn Lernen" -- Python-Tutorial  | [Startseite](index.ipynb)

---

# 201 - Numerik mit Numpy

- [Numpy Arrays erstellen](#Numpy-Arrays-erstellen)
- [Aufgabe 1 - Numpy Arrays](#Aufgabe-1---Numpy-Arrays)
- [Aufgabe 2 - Masken & Slicing](#Aufgabe-2---Masken-&-Slicing)
- [Funktionen auf Arrays anwenden](#Funktionen-auf-Arrays-anwenden)
- [Daten einlesen und speichern](#Daten-einlesen-und-speichern)
- [Aufgabe 3 - Temperaturen in Heidelberg](#Aufgabe-3---Temperaturen-in-Heidelberg)

Python Listen sind sehr flexibel, da sie Werte unterschiedlicher Datentypen beinhalten können und einfach verändert werden können (bspw. mit `append`). 
Diese Flexibilität geht jedoch auf Kosten der Performance, sodass Listen für numerische Berechnungen nicht ideal sind.

Das [**Numpy**](https://numpy.org/) Modul definiert daher den n-dimensionalen **Array** Datentyp `numpy.ndarray`, der für numerische Berechnungen auf höchst performanten C und Fortran Code zurückgreift.

Arrays können nur Werte eines einzelnen numerischen Datentyps (bspw. Floatingpoint-Werte) enthalten und sind sehr viel starrer als Listen. 
Dies ist jedoch für viele wissenschaftliche Anwendungen, wie die Arbeit mit Datensätzen, genau was wir brauchen!

Numpy ist ein sehr umfangreiches Package mit sehr vielen ausgeklügelten Funktionalitäten.
Du musst **nicht alle Funktionen und Methoden von Anfang aus auswendig lernen**. 
Es geht viel mehr um die grundlegenden Konzepte: 
Was ist der Unterschied zwischen einer Standard-Pythonliste und einem Numpy-Array? 
Wie erstelle ich ein Numpy-Array?
Wie kann ich auf einzelne Elemente zugreifen und sie manipulieren?
Wie kann ich Funktionen auf Numpy-Arrays anwenden, um damit etwas auszurechnen?

Bedenke: Beim Programmieren geht es in erster Linie nicht darum, alle möglichen Funktionen auswendig zu lernen. 
Das wäre viel zu viel. 
Eine gute Programmiererin macht vielmehr ihre Fähigkeit aus, ein Problem zu verstehen und in kleinere, logische Einheiten zu zerlegen. 
Die dafür benötigten Funktionen und Klassen findet man dann in der jeweiligen Dokumentation (für numpy [hier](https://numpy.org/doc/stable/reference/index.html)).

> **Tipp:** Es gibt ein gutes und ausführliches [Tutorial](https://numpy.org/devdocs/user/absolute_beginners.html) auf der offiziellen Numpy-Website. Falls du Lust und Zeit hast, kannst du es dir auch anschauen. Das ist aber freiwillig, jedoch sehr empfehlenswert!


Wir importieren das Numpy Modul per Konvention unter der Abkürzung `np`:

In [None]:
import numpy as np  # Das Numpy Modul wird per Konvention als `np` abgekürzt

## Numpy Arrays erstellen

Am einfachsten erstellen wir Numpy Arrays aus Python Listen, indem wir die `numpy.array` Funktion verwenden:

In [None]:
a = np.array([1, 2, 3, 5, 8, 13])
a

Ein Array kann auch mehrdimensional sein. 
Wichtig ist, dass alle Listen entlang einer Dimension (auch _Achse_ oder im Englischen _axis_ genannt), die gleiche Länge haben müssen!

In [None]:
b = np.array([[1.5, 2.2, 3.1], [4.0, 5.2, 6.7]])
b

Numpy Arrays haben einige **Attribute**, die hilfreiche Informationen über das Array geben:

In [None]:
# Die Zahl der Dimensionen des Arrays
print(a.ndim)
print(b.ndim)

In [None]:
# Die Länge des Arrays in jeder Dimension
print(a.shape)
print(b.shape)

In [None]:
# Der Datentyp des Arrays
print(a.dtype)
print(b.dtype)

> **Erinnerung:** Verwendet die `<TAB>`-Autovervollständigung und die `?`-Dokumentation im Jupyter Notebook wenn ihr nicht wisst, welche Funktionen es gibt oder was diese bewirken!

### Es gibt viele Möglichkeiten, Arrays zu erstellen

- Die `numpy.arange` Funktion arbeitet ähnlich wie Python's `range` Funktion, kann jedoch auch floating-point Argumente annehmen:

In [None]:
np.arange(10)

In [None]:
np.arange(1.5, 2, 0.1)

- Außerdem sehr hilfreich ist `numpy.linspace`, welche eine Anzahl von Werten in linearem Abstand zwischen zwei Zahlen generiert:

In [None]:
np.linspace(10, 20, 4)

- Wir können mit `numpy.zeros` und `numpy.ones` Arrays erstellen, die mit Nullen oder Einsen gefüllt sind. Indem wir dem Argument `shape` dieser Funktionen statt einem Integer einen Tupel übergeben, können wir auch mehrdimensionale Arrays erzeugen:

In [None]:
np.zeros(5)

In [None]:
np.ones((5, 2))

Manchmal ist es nützlich, ein Array in seiner Größe (d.h. Dimensionen) zu verändern. Das können wir mit der `.reshape()`-Methode machen. 

In [None]:
arr = np.arange(12)
print(arr)
arr2 = arr.reshape(3, 4)
print(arr2, arr2.shape)
arr3 = arr2.reshape(3, 2, 2)
print(arr3, arr3.shape)

## Mit Arrays rechnen

Arrays können mit den Standardoperatoren `+ - * / **` **elementweise** kombiniert werden:

In [None]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

In [None]:
x + 2 * y

In [None]:
x**y

> **Achtung:** Für Python-Listen sind diese Operatoren völlig anders definiert!

## Funktionen auf Arrays anwenden

Während Funktionen aus dem `math` Modul wie `sin` oder `exp` auf Zahlen anwendbar sind, sind die gleichnamigen Funktionen aus dem `numpy` Modul auf Arrays anwendbar. **Die Funktion wird auf alle Element des Arrays** angewendet und ist typischerweise um einiges schneller als jedes Element einzeln zu berechnen:

In [None]:
phi = np.linspace(0, 2 * np.pi, 10)  # 10 Werte zwischen 0 und 2π
np.sin(phi)  # Der Sinus jedes dieser Werte

Außerdem gibt es viele Funktionen, die Eigenschaften eines Arrays berechnen:

In [None]:
x = np.linspace(0, 10, 100)

print(np.sum(x))  # berechnet die Summe über alle Elemente
print(np.mean(x))  # berechnet den Mittelwert aller Elemente
print(np.std(x))  # berechnet die Standardabweichung über alle Elemente

In [None]:
y = np.random.random_sample(10)  # zeiht 10 Zufallszahlen zwischen 0.0 und 1.0
print(y)

print(np.min(y))  # gibt den kleinsten Wert im Array zurück
i_min = np.argmin(y)  # gibt den Index, d.h. die Position des kleinsten Wertes zurück
print(i_min, y[i_min])

Diese Funktionen generalisieren auf mehrere Dimensionen, indem die Achse angegeben wird, auf der die Berechnung durchgeführt werden soll:

In [None]:
x = np.array([[1, 2], [3, 4]])
np.sum(x), np.sum(x, axis=0), np.sum(x, axis=1)

## Aufgabe 1 - Numpy Arrays

a) Erstelle ein Array `a`, das 11 Werte zwischen 317 und 456 in linearem Abstand enthält.

In [None]:
# DEINE LÖSUNG HIER

In [None]:
from numpy.testing import assert_array_equal

try:
    a
except NameError:
    raise NameError(
        "Es gibt keine Variable 'a'. Weise das Array einer Variablen mit diesem Namen zu."
    )
assert_array_equal(
    a,
    np.array(
        [317.0, 330.9, 344.8, 358.7, 372.6, 386.5, 400.4, 414.3, 428.2, 442.1, 456.0]
    ),
)
print("Jup.")

b) Erstelle ein Array `b`, das 2x10 Nullen enthält.

**Hinweis:** Verwende die passende Funktion, die `numpy` bereitstellt.

In [None]:
# DEINE LÖSUNG HIER

In [None]:
from numpy.testing import assert_array_equal

try:
    b
except NameError:
    raise NameError(
        "Es gibt keine Variable 'b'. Weise das Array einer Variablen mit diesem Namen zu."
    )
assert_array_equal(b, [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
print("Gut.")

c) Welche Form und welcher Datentyp hat folgendes Array? Speichere die Form und den Datentyp in den Variablen `array_shape` bzw. `array_dtype` ab.

In [None]:
superconfusing = np.array(
    [[[[[0, 1]], [[2, 3]], [[4, 5]]]], [[[[6, 7]], [[8, 9]], [[10, 11]]]]]
)

# DEINE LÖSUNG HIER

In [None]:
try:
    array_shape
except NameError:
    raise NameError("Es gibt keine Variable 'array_shape'.")
try:
    array_dtype
except NameError:
    raise NameError("Es gibt keine Variable 'array_dtype'.")
assert array_shape == (2, 1, 3, 1, 2), "Das superconfusing array hat eine andere Form!"
assert array_dtype == "int64", "Nope, das Array hat einen anderen Datentypen!"
print("Super! Du hast dich NICHT verwirren lassen!")

d) Erstelle ein Numpy-Array `foo`, das alle Zahlen von 0 bis einschließlich 23 enthält. Forme `foo` in ein zwei-dimensionales Array mit `reshape()` um. Die viele verschiedene Möglichkeiten gibt es dafür? Speichere die Anzahl in `num_possibilities` ab!

In [None]:
# DEINE LÖSUNG HIER

In [None]:
try:
    foo
except NameError:
    raise NameError(
        "Es gibt keine Variable 'foo'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    num_possibilities
except NameError:
    raise NameError("Es gibt keine Variable 'num_possibilities'.")

from numpy.testing import assert_array_equal

assert_array_equal(
    foo,
    np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23,]),  # fmt: skip
)
assert (
    num_possibilities == 8
), "Leider falsch! Überlege nochmal genau. Veilleicht hast du ein paar Möglichkeiten vergessen?"
print("Super gemacht!")

e) Erstelle die beiden Vektoren $\vec{v} = (1, -2.5, 3)$ und $\vec{w} = (2, 2, 1)$ als Numpy-Arrays.
Verrifiziere anschließend, dass die beiden Vektoren orthogonal sind!
> **Hinweis:** Zwei Vektoren sind orthogonal, wenn ihr [_Skalarprodukt_](https://de.wikipedia.org/wiki/Skalarprodukt) (oder auf englisch: _dot-product_) null ist! Suche in der [Numpy Dokumentation](https://numpy.org/doc/stable/reference/routines.linalg.html) nach einer passenden Funktion und speichere das Ergebnis in der Variable `res`.

In [None]:
# DEINE LÖSUNG HIER

In [None]:
from numpy.testing import assert_array_equal

try:
    v
except NameError:
    raise NameError(
        "Es gibt keine Variable 'v'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    w
except NameError:
    raise NameError(
        "Es gibt keine Variable 'w'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    res
except NameError:
    raise NameError(
        "Es gibt keine Variable 'res'. Weise der Variablen res das Ergebnis des Skalarprodukts zu."
    )

assert_array_equal(v, np.array([1.0, -2.5, 3.0]), "Die Werte in v sind falsch!")
assert_array_equal(w, np.array([2.0, 2.0, 1.0]), "Die Werte in w sind falsch!")
assert res == 0.0, "Das Skalarprodukt ergibt nicht null!"
print("Gute Leistung! 👏")

f) Die Flugbahn eines Volleyballs wird näherungsweise durch die Formel $h = -0.4 * x^2 + 2 * x + 1$ beschrieben, wobei $h$ die Höhe des Balls in Abhängigkeit von der Entfernung $x$ von der Spielerin (alle Einheiten in Meter) ist.
1. Erstelle eine Funktion `trajectory(x)`, die als Argument die aktuelle $x$-Koordinate des Balls annimmt und die dazugehörige Höhe $h$ zurückgibt
2. Erstelle ein Array `xs`, das die Zahlen von 0 bis 7 im Abstand von 0,5 enthält. Berechne für alle Werte in `xs` die dazugehörige Höhe und speichere sie im Array `hs` ab.

In [None]:
# DEINE LÖSUING HIER

In [None]:
from numpy.testing import assert_array_equal, assert_almost_equal

try:
    trajectory
except NameError:
    raise NameError("Es gibt keine Funktion mit dem Namen 'trajectory'.")
try:
    xs
except NameError:
    raise NameError(
        "Es gibt keine Variable 'xs'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    hs
except NameError:
    raise NameError(
        "Es gibt keine Variable 'hs'. Weise das Array einer Variablen mit diesem Namen zu."
    )

assert_array_equal(
    xs,
    np.array(
        [0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0]
    ),
)
assert_almost_equal(
    hs,
    np.array(
        [1.0, 1.9, 2.6, 3.1, 3.4, 3.5, 3.4, 3.1, 2.6, 1.9, 1.0, -0.1, -1.4, -2.9, -4.6]
    ),
)
print("Gute Leistung! 🏐")

## Numpy Arrays sind Reihen

Wir können alle Funktionen auf Numpy Arrays anwenden die für Reihen definiert sind:

In [None]:
a = np.arange(3)
len(a)

In [None]:
for x in a:
    print(x)

In [None]:
a[0]

### Slicing wählt Teile eines Arrays aus

Die **[Slicing](101%20-%20Grundlagen%20der%20Programmierung%20in%20Python.ipynb#Slicing)** Syntax von Reihen haben wir schon kennengelernt. Sie erlaubt uns, auf einzelne Elemente oder Teile einer Reihe zuzugreifen:

```python
a[start:stop:step]
```

Numpy erweitert diese Syntax auf mehrdimensionale Arrays:

```python
b[start:stop:step, start:stop:step]
```

In [None]:
x = np.arange(10)

In [None]:
x[:5]

In [None]:
x[::2]

Alternativ können wir statt einem Index auch eine **Liste von Indizes** in das Subskript schreiben und erhalten die zugehörigen Elemente aus dem Array:

In [None]:
x = np.array([1, 6, 4, 7, 9])
indices = [1, 0, 2, 1]
x[indices]

### Masking filtert ein Array

Außerdem erweitert Numpy diese Syntax um die **Masking** Funktionalität. Dabei geben wir im Subskript ein **Array von Booleans** an, welches die gleiche Länge hat, und erhalten nur die Elemente, für die wir `True` angegeben haben:

In [None]:
x = np.array([1, 6, 4, 7, 9])
mask = np.array([True, True, False, False, True])
x[mask]

Masking ist deshalb äußerst praktisch, weil die **Vergleichsoperatoren** in Kombination mit Numpy Arrays wiederum Boolean Arrays zurückgeben:

In [None]:
x > 4

Somit können wir Teile eines Arrays herausfiltern, die einer **Bedingung** entsprechen:

In [None]:
x[x > 4]

Bedingungen werden mit dem `&` Operator kombiniert:

In [None]:
x[(x > 4) & (x < 8)]

### Slices oder Masken eines Arrays kann auch zugewiesen werden

Wenn ein Slice oder eine Maske eines Arrays auf der linken Seite einer Zuweisung steht, wird diesem Teil des Original-Arrays zugewiesen:

In [None]:
x = np.array([1, 6, 4, 7, 9])
x[x > 4] = 0
x

## Aufgabe 2 - Masken & Slicing

a) Gegeben ein Array `x` der Länge `n`, berechne das Array `dx` der Länge `n-1` mit den Werten `dx[i] = x[i+1] - x[i]`. Verwende keine Schleifen sondern Slicing!

**Hinweis:** Du musst zwei Arrays subtrahieren, von denen das eine der um 1 versetzte hintere und das andere der vordere Teil von `x` ist.

**Erinnerung:** Mit negativen Zahlen im Subskript wählst du Indizes vom Ende einer Reihe aus.

In [None]:
x = np.array([1, 1, 2, 3, 5, 8])
### BEGIN SOLUTION

### END SOLUTION

In [None]:
from numpy.testing import assert_array_equal

try:
    dx
except NameError:
    raise NameError(
        "Es gibt keine Variable 'dx'. Weise das Array einer Variablen mit diesem Namen zu."
    )
assert_array_equal(dx, [0, 1, 1, 2, 3])
print("EZ 😉")

b) Gehen wir zurück zu unserem Volleyballbeispiel von vorhin! 
Wir interessieren uns jetzt für den Ort $x$, an dem der Ball auf den Boden auftritt.
Genau genommen könnten wir den Ort exakt analytisch ausrechnen - und das wäre hier auch die bessere und genauere Variante.
Es gibt aber viele mathematische Ausdrücke, die sich nicht analytisch ausrechnen lassen.
Dann müssen wir das Ergebnis mit numerischen Methoden näherungsweise bestimmen.
Das wollen wir jetzt üben!

Wieder berechnen wir den Ort des Balls an verschiedenen diskreten Orten $x$.
Diesmal brauchen wir aber viel mehr Punkte als oben.
Da wir wissen, dass der Ball ungefähr zwischen $x = 5\mathrm{m}$ und $x = 5,5\mathrm{m}$ auftrifft, erstellen wir ein Array `xs_highres`, dass im Intervall von 5 bis 5.5 100 Werte im gleichen Abstand enthält.

Für alle Werte berechnen wir nun die Höhe mit der Funktion `trajectory()` von oben und speichern es in der Variablen `hs_highres` ab.
Bestimme nun den Index des Werts, an dem die Höhe des Balls sein Vorzeichen wechselt (d.h. des kleinsten positiven Werts im Array).
Speichere den Index in der Variablen `i_zero` ab. 
Bestimme nun den x-Wert des Balls an dieser Stelle und speichere dein Ergebnis `x_zero` ab.

> **Tipp:** Wie (fast) immer gibt es auch für diese Aufgabe hilfreiche numpy-Funktionen. Weiter oben im Tutorial haben wir eventuell schon nützliche Funktionen eingeführt. Und wenn dir das nicht weiterhelfen sollte, probiere `np. <TAB>` oder suche in der numpy-Dokumentation!

In [None]:
# DEIN ERGEBIS HIER

In [None]:
from numpy.testing import assert_array_equal

try:
    xs_highres
except NameError:
    raise NameError(
        "Es gibt keine Variable 'xs_highres'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    hs_highres
except NameError:
    raise NameError(
        "Es gibt keine Variable 'hs_highres'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    i_zero
except NameError:
    raise NameError("Es gibt keine Variable 'i_zero'.")

assert (
    i_zero == 90
), "Der Index ist falsch! Beachte, dass die Zählweise von Indizes in Python bei null beginnt!"
assert x_zero == 5.454545454545455, "Der x-Wert ist falsch!"
print("Super! 🤾‍♀️")

c) Was ist die maximale Höhe des Balls? Und an welcher Stelle erreicht er sie?
Wir wissen, dass die Lösung irgendwo zwischen 2 und 3 Metern liegen muss.
Erstelle daher wieder ein Array, dass 100 Werte zwischen 2 und 3 enthält und speichere die Lösungen in `h_max` und `x_max` ab.

In [None]:
# DEINE LÖSUNG HIER

In [None]:
try:
    h_max
except NameError:
    raise NameError("Es gibt keine Variable 'h_max'.")
try:
    x_max
except NameError:
    raise NameError("Es gibt keine Variable 'x_max'.")
assert h_max == 3.4999897969594937
assert x_max == 2.494949494949495
print("👌")

## Daten einlesen und speichern

Mit der `numpy.loadtxt` Funktion können wir Daten aus einer Datei als Numpy Array einlesen:

In [None]:
data = np.loadtxt("data/temperatures.txt")
data.shape

> **Hinweis:** Pfade zu Dateien werden in Python einfach als String angegeben. Der Schrägstrich `/` kennzeichnet dabei einen Ordner. Windows verwendet statt des `/` den Backslash. Das heißt also, dass sich das File `temperatures.txt` im Ordner `data` befindet.

> **Gut zu wissen:** Es gibt zwei Arten, Pfade anzugeben: Absolute und relative.

1) Bei _absolute Pfaden_ musst du immer den gesamten Pfad, sozusagen von der "Wurzel" des Dateibaumes bis zur eigentlichen Datei angeben. In Linux wäre das z.b. `/home/asterix/Documents/path/to/my/file.txt`. In Windows sowas wie: `C:\Documents\path\to\my\file,txt`.
2) _Relative Pfade_ beziehen sich immer auf den Ort, an dem der Pythoncode ausgeführt wird (in unserem Fall, an dem das Jupyter-Notebook gespeichert ist). Das obige Beispiel `data/temperatures.txt` ist so ein relativer Pfad. Man erkennt das daran, dass er nicht mit einem `/` oder dem Laufwerksbuchstaben beginnt. Will man im Verzeichnisbaum "nach oben" (also Richtung Wurzel, d.h. ins "Elternverzeichnis") gehen, benutzt man zwei Punkte `..`. Richtig verwirrend, oder? 

**PS:** EBRAINS läuft auf einem Linux-Cluster!

Die Funktion gibt ein zweidimensionales Array mit den _Zeilen_ der eingelesenen Datei zurück. Alle Werte einer _Spalte_ können wir durch Slicing erhalten:

In [None]:
date = data[:, 0]  # Alle Zeilen, jeweils erste Spalte
T = data[:, 1]  # Alle Zeilen, jeweils zweite Spalte
date, T

> **Hinweis:** Die `numpy.loadtxt` Funktion kann auch direkt ein Array für jede Spalte zurückgeben, wenn das Argument `unpack=True` übergeben wird:
>
> ```python
> date, T = np.loadtxt('data/temperatures.txt', unpack=True)
> ```

Weitere praktische Optionen, wie die ersten Zeilen zu überspringen u.ä., findet ihr in der Dokumentation. Entfernt das '`#`'-Zeichen in der folgenden Zelle und schaut euch die Optionen mal an:

In [None]:
# np.loadtxt?

Mit der verwandten `np.savetxt` Funktion können wir Daten als Textdatei abspeichern:

In [None]:
# np.savetxt?

> **Hinweis:** Im Jupyter Notebook erhalten wir eine praktische Vorschau auf den Anfang einer Datei mit dem `!head path/to/file` Aufruf. Dies ist sehr hilfreich um die enthaltenen Daten zu prüfen, oder ob es Titelzeilen zu Überspringen gibt.

In [None]:
!head data/temperatures.txt

### Berechnungen zwischenspeichern mit `numpy.save`

Die `numpy.loadtxt` und `numpy.savetxt` Funktionen arbeiten mit Textdateien. Wenn ihr ein Numpy Array jedoch nur zwischenspeichern möchtet, bspw. das Ergebnis einer langen numerischen Berechnung, könnt ihr es auch mit `numpy.save` in einer `.npy` Binärdatei speichern:

In [None]:
# lange numerischen Berechnung hier
result = np.random.random(10)
print(result)
# Ergebnis zwischenspeichern
np.save("data/result.npy", result)

Anstatt die Berechnung jedes Mal erneut durchführen zu müssen, könnt ihr nun einfach mit `numpy.load` das zwischengespeicherte Ergebnis laden:

In [None]:
result = np.load("data/result.npy")
print(result)

> **Hinweis:** Diese Vorgehensweise kann viel Zeit sparen während ihr an einem Teil eures Programms arbeitet, das die numerische Berechnung nicht betrifft, bspw. die graphische Ausgabe als Plot.

## Aufgabe 3 - Temperaturen in Heidelberg

Die Datei `data/temperatures.txt` enthält Temperaturdaten aus Heidelberg von 1995 bis einschließlich 2012. Schaue dir die Struktur der Daten zunächst an:

In [None]:
!head data/temperatures.txt

a) Lies die Daten mithilfe der `numpy.loadtxt` Funktion ein und weise die beiden Spalten zwei Variablen `date` und `T` zu.

In [None]:
# DEINE LÖSUNG HIER

In [None]:
from numpy.testing import assert_array_almost_equal

try:
    date
except NameError:
    raise NameError(
        "Es gibt keine Variable 'date'. Weise das Array einer Variablen mit diesem Namen zu."
    )
try:
    T
except NameError:
    raise NameError(
        "Es gibt keine Variable 'T'. Weise das Array einer Variablen mit diesem Namen zu."
    )

assert_array_almost_equal(
    date[:3],
    [1995.00274, 1995.00548, 1995.00821],
    4,
    "Das Array 'date' enthält nicht die richtigen Daten. Verwende die 'unpack=True' Funktion von 'numpy.loadtxt' wie im Hinweis oben.",
)
assert_array_almost_equal(
    T[:3],
    [0.944444, -1.61111, -3.55556],
    4,
    "Das Array 'T' enthält nicht die richtigen Daten. Verwende die 'unpack=True' Funktion von 'numpy.loadtxt' wie im Hinweis oben.",
)
print("Daten eingelesen!")

b) Berechne für jedes Jahr von 1995 bis einschließlich 2012 die Durchschnittstemperatur, die minimale und die maximale Temperatur. Füge dabei der Liste `yearly_temperatures` für jedes Jahr eine Zeile mit dem Jahr und diesen drei Werten hinzu.

Die Datei enthält fehlerhafte Daten, die durch den Wert `+/-99` gekennzeichnet sind und nicht in die Berechnung mit einbezogen werden dürfen.

**Hinweis:** Gehe die Jahre in einer for-Schleife durch und verwende eine Maske für das Array `T`, sodass du nur die Temperaturdaten des entsprechenden Jahres als Slice erhälst. Darauf kannst du dann die Numpy Funktionen für den Mittelwert, das Minimum und das Maximum anwenden.

**Erinnerung:** Mehrere Masken kannst du mit dem `&`-Operator kombinieren.

In [None]:
yearly_temperatures = []
### BEGIN SOLUTION

### END SOLUTION
print("Jahr  |  Durchschnitt [°C]  |  Minimal [°C]  |  Maximal  [°C]")
for temps in yearly_temperatures:
    print("{}  |               {:6.2f}  |        {:6.2f}  |         {:6.2f}  ".format(*temps))  # fmt: skip
    # Die Zahlen in der Klammer {:6.2f} erlauben es, Zahlen mit .format() zu formattieren!
    # Wenn du mehr darüber wissen willst: https://pyformat.info/

In [None]:
from numpy.testing import assert_array_almost_equal

assert_array_almost_equal(
    yearly_temperatures[0],
    [1995, 8.7656, -13.2778, 25.9444],
    4,
    "Die Daten sind nicht richtig. Überprüfe, ob jedes Element der Liste 'yearly_temperatures' wiederum eine Liste mit den Werten Jahr, Durchschnittstemperatur, Minimum und Maximum ist und du die fehlerhaften Werte +/-99 herausgefiltert hast.",
)
print("Ganz schön warm, oder? ☀️🌴😅")

c) Berechne diese Daten analog aufgeteilt in Monate statt Jahre, also bspw. die Durschnittstemperatur im Januar im ganzen gemessenen Zeitraum.

**Hinweis:** Den Zeitpunkt innerhalb eines Jahres, wobei `0` dem Jahresanfang und `1` dem Jahresende entspricht, erhälst du mit dem Modulo Operator: `date % 1`

In [None]:
monthly_temperatures = []
### BEGIN SOLUTION

### END SOLUTION
print("Monat |  Durchschnitt [°C]  |  Minimal [°C]  |  Maximal  [°C]")
for temps in monthly_temperatures:
    print("  {:02d}  |             {:6.2f}  |        {:6.2f}  |         {:6.2f}  ".format(*temps))  # fmt: skip

In [None]:
from numpy.testing import assert_array_almost_equal

assert_array_almost_equal(
    monthly_temperatures[0][1:],
    [-0.8494, -16.7778, 12.2222],
    4,
    "Die Daten sind nicht richtig. Überprüfe, ob jedes Element der Liste 'monthly_temperatures' wiederum eine Liste mit den Werten Monat, Durchschnittstemperatur, Minimum und Maximum ist und du die fehlerhaften Werte +/-99 herausgefiltert hast.",
)
print("👍 Sieht richtig aus.")

## Numpy Performancetest

Zum Schluss wollen noch etwas Spaßiges machen und uns von Numpys unglaublicher Performance überzeugen. Dafür erstellen wir ein Numpy-Array mit einer Million (!) zufälligen Zahlen und berechnen die Summe darüber. Dasselbe machen wir mit einer normalen Pythonliste und vergleichen die Ausführungszeiten.
> **Hinweis:** Mit dem _"magischen" Jupyterbefehl_ (oder auf Englisch: _cell magic_) `%%timeit` kannst du die Ausführungszeit für eine Jupyterzelle messen.

In [None]:
%%timeit
# Numpyversion:
random_array = np.random.random_sample(1_000_000)  # erstelle 10^6 Zufallszahlen
res = np.sum(random_array)

In [None]:
import random

In [None]:
%%timeit
# Standardpython-Version:
random_list = []
for i in range(1_000_000):
    random_list.append(random.random())

res = 0.0
for i in random_list:
    res += i

---

Du kannst jetzt Daten einlesen und mit Numpy analysieren. Lerne in der nächsten Lektion, wie du mit _Matplotlib_ wissenschaftlich plotten kannst.

[Startseite](index.ipynb) | [**>> 202 - Plots mit Matplotlib**](202_Plots_mit_Matplotlib.ipynb)