# Geodatenanalyse 1


## Termin 3 - Block 1

## Einführung in *NumPy*

Ca. 30 Minuten

## Inhalt
- Was ist *NumPy*?
- Überblick über *NumPy* Objekte
- Überblick über Operationen und Methoden
- Einführung in die Indizierung und das Ausschneiden
- Kurzer Überblick über die erweiterte Funktionalität
- Kurzer Einblick in die linearen Algebra
- Kurzer Überblick über die Datums- und Zeitfunktionalität

## Was ist *NumPy*?

- *NumPy* (von *Numeric Python*) ist das grundlegende Paket für wissenschaftliches Rechnen in Python
- Es ist eine Python-Bibliothek, die ein mehrdimensionales Array-Objekt, verschiedene abgeleitete Objekte (z. B. maskierte Arrays und Matrizen) und eine Reihe von Routinen für schnelle Operationen auf Arrays bereitstellt
- Darunter mathematische, logische, Formmanipulationen, Sortieren, Auswählen
- Grundlegende lineare Algebra, grundlegende statistische Operationen, Zufallssimulation und vieles mehr
- Und erweitert noch die diskrete Fourier-Transformationen

**Bemerkung**: *NumPy* wurde kürzlich mit einer Veröffentlichung im Fachjournal *Nature* geehrt: 

> Harris, C.R., Millman, K.J., van der Walt, S.J. et al. Array programming with NumPy. Nature 585, 357–362 (2020).  [https://doi.org/10.1038/s41586-020-2649-2](https://doi.org/10.1038/s41586-020-2649-2)

In [2]:
import numpy as np

Wie gehe ich mit langen Datensätzen um? 
Wie kann ich Vektoren oder Matrizen am besten verarbeiten?

Nehmen wir an wir haben *a*, *b* und *c* mit vielen Speicherplätzen, d.h. Vektoren oder *Arrays*. 

Man möchte nun folgende Berechnung mit allen Elementen durchführen: 

$c = a \cdot b$

Die Lösung in C oder C++ wäre eine Schleife:

```c
for (i = 0; i < rows; i++): {
  c[i] = a[i]*b[i];
}
```

In [3]:
a = [1, 2, 4, 2, 3]
b = [9, 8, 4, 3, 9]
c = []

for index, value in enumerate(a):
    c.append(a[index]*b[index])
    
print(c)

[9, 16, 16, 6, 27]


Genau für solche Operationen wurde *NumPy* geschrieben! 

Hiermit lassen sich Schleifen oder auch geschachtelte Schleifen vermeiden.

In [4]:
a = np.array([1, 2, 4, 2, 3])
b = np.array([9, 8, 4, 3, 9])

c = a*b

print(c)

[ 9 16 16  6 27]


Durch die Optmierung spart man bei größeren Datenmengen viel Rechenzeit:

In [5]:
a = [1, 2, 4, 2, 3]
b = [9, 8, 4, 3, 9]
c = []

In [6]:
%%timeit
for index, value in enumerate(a):
    c.append(a[index]*b[index])

2.7 µs ± 250 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [7]:
a = np.array([1, 2, 4, 2, 3])
b = np.array([9, 8, 4, 3, 9])

In [8]:
%%timeit
c = a*b

780 ns ± 30.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


## Überblick über *NumPy* Objekte

### Datentypen von NumPy

Ähnlich wie vorher schon besprochen hat **NumPy** unterschiedliche Datentypen.

Zusätzlich zu den bereits bekannten gibt es die Folgenden:

- **float64**: Double precision float, equivalent to two 32-bit floats

- **complex64**: Complex number, represented by two 32-bit floats (real and imaginary components)

- **complex128**: Complex number, represented by two 64-bit floats (real and imaginary components)

In [10]:
# Datentyp herausfinden
import numpy as np
a = np.array([1.54378])
print(type(a))

<class 'numpy.ndarray'>


Außerdem gibt es spezielle aber **wichtige** Datentypen:

- **Kein Wert (Engl. not a number)**: Viele Datensätze haben Lücken. Wie kann man diese beschreiben? Dafür gibt es die Konstante **np.nan**

- **Unendlich (Engl. infinity)**: Wenn eine Rechenoperation zu einem Wert führt, welcher nicht mehr darstellbar ist, dann wird dieser Wert durch die Konstante **np.inf**

In [11]:
# kein Wert
a = np.nan
print(a)

nan


In [12]:
# unendlich
a = np.inf
print(a)

inf


Zur Identifikation spezieller Werte gibt es einige Methoden:

- Diese liefern ein *boolean* Objekt mit *True* (wahr) oder *False* (falsch) zurück

- Damit kann man indizieren (kommt später)

In [15]:
# Vektor erstellen
a = np.array([np.nan, 0.234, np.inf, 3])

# Testfunktionen
nans = np.isnan(a)
print(nans)

finite = np.isfinite(a)
print(finite)

[ True False False False]
[False  True False  True]


**Hinweis**: Mit *NumPy* werden auch *imaginäre Zahlen* $\Im(z)$ berechenbar:

$z = a + bi$

$i^2 = -1$

In [16]:
# eine komplexe Zahl speichern
z = 2 + 3j
print(z)

(2+3j)


###  Objekte in *NumPy*

*NumPy* hat einige Objekte, welche man unbeding kennen sollte:

- **array**: für einen eindimensionalen Vektor
- **matrix**: für eine zweidimensionale Matrix
- **ndarray**: für ein n-dimensionales Objekt!

In [17]:
# ein Vektor
a = np.array([1, 0, 4, 6, 5, 9, 8, 9, 2])
print(a.size)
print(a.shape)
print(type(a))

9
(9,)
<class 'numpy.ndarray'>


In [19]:
# eine Matrix
A = np.matrix([[1, 2], [3, 4]])
print(A.size)
print(A.shape)
print(type(A))

4
(2, 2)
<class 'numpy.matrix'>


In [20]:
# ein mehrdimensionales Array
AA = np.array([[[ 0.,  0.,  0.,  0.], [ 0.,  0.,  0.,  0.], [ 0.,  0.,  0.,  0.]], 
               [[ 0.,  0.,  0.,  0.], [ 0.,  0.,  0.,  0.], [ 0.,  0.,  0.,  0.]]])
print(AA.size)
print(AA.shape)
print(type(AA))

24
(2, 3, 4)
<class 'numpy.ndarray'>


## Überblick über Operationen und Methoden

- **WICHTIG**: Wir müssen uns daran gewöhnen, dass eine Varibale nun ganze Zahlenreihen oder Matrizen enthalten kann

- Mit *NumPy* lassen sich viele Berechnungen vereinfacht programmieren

### Beispiele für Berechnungen

Mathematische Operationen

In [21]:
a = np.array([1, 2, 3, 4, 5])
b = np.matrix([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

# Matrixmultiplication
c = b.dot(a)
print(c)

[[ 55 130]]


In [24]:
b = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

# quadrieren
c = b**2
print(c)

[[  1   4   9  16  25]
 [ 36  49  64  81 100]]


Eingebaute Methoden (Funktionen):

In [25]:
b = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

# Wurzel ziehen
c = np.sqrt(b)
print(c)

[[1.         1.41421356 1.73205081 2.         2.23606798]
 [2.44948974 2.64575131 2.82842712 3.         3.16227766]]


In [26]:
b = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# kumulative Summe
c = np.cumsum(b)
print(c)

[ 1  3  6 10 15 21 28 36 45 55]


In [27]:
a = np.array([1, 2])
b = np.array([5, 3])

# lineare Interpolation
c = np.interp(1.3, a, b)
print(c)

4.4


In *NumPy* sind unzählige Funktionen eingebaut.

Einen Überblick gibt es hier: [NumPy's Mathematical Functions](https://numpy.org/doc/stable/reference/routines.math.html)

**Achtung**: Viele weiterführende mathematische Funktionen fehlen aber auch.

Dafür gibt es andere Pakete, zum Beispiel:
- [SciPy](https://www.scipy.org/): ist eine freie (BSD-lizenzierte) Python-Bibliothek für reelle und komplexe Fließkomma-Arithmetik mit beliebiger Genauigkeit

- [mpmath](https://mpmath.org/): ist ein Python-basiertes Ökosystem von Open-Source-Software für Mathematik, Wissenschaft und Technik

Viele dieser Pakete lassen sich einwandfrei mit *NumPy* Datentypen verwenden.

Ein Beispiel für die Verwendung von **SciPy** ist die Verwendung der [Fehlerfunktion](https://de.wikipedia.org/wiki/Fehlerfunktion):

$erf(x) = \frac{2}{\sqrt{\pi}} \int_0^x{e^{-r^2}} d r$

In [28]:
import scipy.special as sp

# Fehlerfunktion ausrechnen
a = np.array([0.1, 1, 2, 3, 4])
print(sp.erf(a))

[0.11246292 0.84270079 0.99532227 0.99997791 0.99999998]


In [29]:
import mpmath as mp

# Präzision bestimmen
mp.dps = 50

# Präzision ansehen ...
print(mp.pi)
mp.nstr(mp.pi, 50)

3.14159265358979


'3.141592653589793115997963468544185161590576171875'

## Einführung in die Indizierung und das Ausschneiden

**ACHTUNG**: Verständnis dieses Teils ist sehr wichtig, da die Indizierung eines der besten Möglichkeiten für die schnelle Datenverarbeitung bietet!

Wie erfolgt der Zugriff auf einzelne Werte in einem Datenkontainer?

<p align="left">
  <img src="figures/cube.jpg" width=400 align='left' />
</p>





Durch Indizierung!

In [30]:
# ein 3D Array mit zufälligen Zahlen
a = np.random.rand(5, 5, 5)
print(a)

[[[0.56928627 0.57268122 0.43039459 0.97992301 0.17104077]
  [0.77303192 0.81674965 0.27295266 0.02324499 0.92341056]
  [0.29204172 0.53315803 0.47350882 0.01689964 0.01609405]
  [0.3245495  0.54642501 0.84620501 0.3529897  0.93338314]
  [0.28547894 0.4144744  0.60977205 0.2017892  0.39905843]]

 [[0.17712931 0.51541459 0.04294681 0.04800514 0.34711633]
  [0.32226434 0.92129115 0.88724152 0.79432405 0.38217679]
  [0.11955854 0.7862449  0.09978541 0.35705473 0.91118414]
  [0.85800592 0.06419442 0.59778959 0.33688974 0.48905851]
  [0.95410332 0.92521328 0.56335177 0.46001899 0.24626114]]

 [[0.05621515 0.31181939 0.84566862 0.32182817 0.55414071]
  [0.09229939 0.29763966 0.18881586 0.92275719 0.4856164 ]
  [0.18639311 0.9550678  0.26294475 0.60313109 0.79577757]
  [0.57553273 0.99627495 0.56948497 0.80478953 0.64884164]
  [0.44740175 0.93467698 0.31236662 0.39808436 0.2911873 ]]

 [[0.14481559 0.66632339 0.20538555 0.16450639 0.54603739]
  [0.49226493 0.75194927 0.14325043 0.9609074  0.2

Wie kann ich jetzt gezielt auf Werte zugreifen?

Zum Beispiel, gib mir alle Werte der ersten Zeile:

In [31]:
print(a[:, 3, 0])

[0.3245495  0.85800592 0.57553273 0.8049824  0.01679153]


Oder, gib mir alle Werte der ersten Spalte:

In [33]:
print(a[0, :, 3])

[0.97992301 0.02324499 0.01689964 0.3529897  0.2017892 ]


Überblick:

- die Dimensionen werden beim Zugriff mit Kommas getrennt
- der Operator ":" steht für alles, was in einer Dimension vorhanden ist
- Mit diesem Operator kann man beliebige Sequenzen ansprechen

Überblick:

<p align="left">
  <img src="figures/indexing.png" width=400 align='left' />
</p>

Quelle: [Opengenus](https://iq.opengenus.org/2d-array-in-numpy/)

Machen wir ein paar Beispiele:

In [34]:
# zuerst machen wir eine Sequenz
a = np.arange(0,100).reshape(10,10)
print(a)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


In [35]:
# gib mir Zeile 3-6 der ersten Spalte
print(a[3:7, 0])

[30 40 50 60]


In [36]:
# gib mir Spalte 2-5 der ersten Zeile
print(a[0, 2:6])

[2 3 4 5]


In [37]:
# gib mir jede weite Zeile der ersten Spalte
print(a[::2, 0])

[ 0 20 40 60 80]


**Zusammenfassung**:

- Die Indizierung jeder Dimension erfolgt generell so: **Anfang:Ende:Inkrement**
- Achtung: Das Ende ist nicht mit eingerechnet, z.B. 2:5:1 wird zu [2, 3, 4]
- Das Weglassen von **Anfang**: Fängt bei null an
- Das Weglassen von **Ende**: Hört am Schluss auf
- Das Weglassen von **Inkrement**: Standard ist 1
- Negative Werte von **Inkrement**: Zugriff erfolgt rückwärts!

In [30]:
# gib mir jede weite Zeile der ersten Spalte
# aber rückwärts!
print(a[::2, 0])

[ 0 20 40 60 80]


### Logische Indizierung

Werte in einem *NumPy* Objekt können auch durch logische Indizierung gefunden und bearbeitet werden.

Bei der logischen Indizierung wird zuerst ein *boolean* *Array* erstellt und verwendet. 

Dieses wird dann zur Erkennung der Werte verwendet.

In [39]:
# erstelle ein array mit Zufallswerten
a = np.random.rand(10)
# logische Indizierung
idx = (a > 0.5)
print(a)
print(idx)

[0.21886133 0.6409819  0.24416516 0.15321078 0.50558295 0.78740443
 0.69388958 0.4267479  0.85824811 0.83503658]
[False  True False False  True  True  True False  True  True]


In [40]:
# zeige alle Wert, die über 0.2 liegen
b = a[a > 0.2]
print(b)

[0.21886133 0.6409819  0.24416516 0.50558295 0.78740443 0.69388958
 0.4267479  0.85824811 0.83503658]


In [41]:
# zeige alle Werte, die über 0.2 und unter 0.8 liegen
b = a[(a > 0.2) & (a < 0.8)]
print(b)

[0.21886133 0.6409819  0.24416516 0.50558295 0.78740443 0.69388958
 0.4267479 ]


## Kurzer Überblick über die erweiterte Funktionalität

### Einfache Erstellung oft benötigter Objekte

Für die einfache und schnelle Erstellung von Objekten gibt es viele hilfreiche Funtionen:

In [45]:
# Erstellung eines Null-Objektes
a = np.zeros((4, 4))
print(a)

# Erstellung eines Eins-Objekts
a = np.ones((4, 4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


**Achtung**: Leider gibt es diese Funktion nicht für *NaN! Hier muss man sich etwas behelfen.

In [46]:
# Erstellung einer leeren Matrix 
a = np.empty((3, 3))
a[:] = np.nan
print(a)

[[nan nan nan]
 [nan nan nan]
 [nan nan nan]]


**Vorsicht**: Die Methode *empty()* setz einen Zeiger auf einen freien Speicherplatz! Die dortigen Werte können zufällig sein, sind also nicht verlässlich.

### Kombination von Objekten

Für die einfache und schnelle Kombination von Objekten gibt es hilfreiche Funtionen:

In [47]:
# erstelle zwei gleichlange Vektoren
a = np.random.rand(10)
print(a.shape)
b = np.random.rand(10)
print(b.shape)

# horizontale Kombination
c = np.hstack((a, b))
print(c.shape)
c = np.concatenate((a, b), axis=0)
print(c.shape)

# vertikale Kombination
c = np.vstack((a, b))
print(c.shape)

(10,)
(10,)
(20,)
(20,)
(2, 10)


In [48]:
# Objekt umdrehen (transpose)
print(a)
b = a.transpose
print(b)
# oder Auch
b = a.T
print(b)

[0.12461088 0.96516744 0.53092815 0.91008258 0.08222301 0.23555355
 0.66925652 0.38242527 0.00120328 0.94680639]
<built-in method transpose of numpy.ndarray object at 0x00000235B579FF30>
[0.12461088 0.96516744 0.53092815 0.91008258 0.08222301 0.23555355
 0.66925652 0.38242527 0.00120328 0.94680639]


### Sortieren von Werten in einem Objekt

Für die einfache und schnelle Sortierung von Werten gibt es viele hilfreiche Funtionen:

In [49]:
# erstelle zufällige Werte
a = np.random.randint(0, 10, 10)
print(a)

# sortiere diese Werte
b = np.sort(a)
print(b)

[4 6 7 4 7 8 5 2 4 2]
[2 2 4 4 4 5 6 7 7 8]


### Suchen von Werten in einem Objekt

Für die einfache und schnelle Suche von Werten gibt es viele hilfreiche Funtionen:

In [50]:
# erstelle zufällige Werte
a = np.random.randint(0, 10, 50)
print(a)

# identifiziere die Werte
bol = (a == 3)
print(bol)

# zeige den Index diser Werte
idx = np.where(bol)
print(idx)

[5 2 3 4 5 5 2 3 7 4 6 1 2 3 4 9 3 9 2 7 7 1 5 4 1 1 8 9 3 8 7 6 6 7 8 2 9
 2 9 6 9 8 8 0 2 9 4 2 6 6]
[False False  True False False False False  True False False False False
 False  True False False  True False False False False False False False
 False False False False  True False False False False False False False
 False False False False False False False False False False False False
 False False]
(array([ 2,  7, 13, 16, 28], dtype=int64),)


### Einfache Statistiken

Für einfache Statistiken gibt es viele hilfreiche Funtionen:

In [40]:
# erstelle zufällige Werte
a = np.random.rand(10000)

# der kleinste Wert
b = np.min(a)
print(b)

# der Häufigste (Median) aller Werte
b = np.median(a)
print(b)

# finde den Index des maximalen Wertes
b = np.argmax(a)
print(b)

0.00016243042428021326
0.5031321167248191
6548


### Laden von Textdateien

Auch Textdateien mit Daten können eingelesen werden:

In [51]:
# Datei zum Lesen öffnen
file = open("datasets/hydraulic_apertures.csv", "r")

# Datei in NumPy einlesen ...
data = np.genfromtxt(file, delimiter=",", skip_header=1)

# Datei schliessen
file.close()

print(data[:10, :])

[[310. 222.]
 [200. 153.]
 [160.  31.]
 [370. 584.]
 [ 90. 312.]
 [ 20. 599.]
 [ 50.  61.]
 [310.  79.]
 [ 80. 482.]
 [200. 141.]]


## Kurzer Überblick über die lineare Algebra

**Beispiel**: Lösung eines Gleichungssystems mit drei Unbekannten:

$2x + 4y -2z = 5$

$x -5y + 3z = 10$

$3x -2y -z = 8$


\begin{align*}
\left[\begin{array}{ccc}
2 & 4 & -2 \\
1 & -5 & 3 \\
3 & -2 & -1
\end{array}\right]
\begin{bmatrix}
  x  \\
  y  \\
  z
\end{bmatrix} 
= \begin{bmatrix}
  5  \\
  10  \\
  8
\end{bmatrix}
\end{align*}

\begin{align*}
\mathbf{A} \cdot x = b
\end{align*}

\begin{align*}
x = \mathbf{A}^{-1} \cdot b
\end{align*}

In [52]:
# Koeffizienten
coeff = np.matrix([[2, 4, -2], [1, -5, 3], [3, -2, -1]])

# Lösung
solution = np.matrix([[5], [10], [8]])

# Inversmatrix
coeff_inv = np.linalg.inv(coeff)

# Matrix-Multiplikation
unknown = coeff_inv.dot(solution)
print(unknown)

[[4.19444444]
 [0.72222222]
 [3.13888889]]


## Kurzer Überblick über die Datums- und Zeitfunktionalität

- Bisher haben wir nur Daten angeschaut

- Was ist mit Zeitreihen? Diese kommen häufig in den Geowissenschaften vor

- Zeitreihen sind ein langes Thema, hier gibt es nur einen kurzen EInstieg

- Mehr kommt dann später wenn das Paket *Pandas* vorgestellt wird

In [45]:
# Ein Datum
date = np.datetime64('2021-03-10')
print(date)

2021-03-10


In [44]:
# Ein Datum und eine Zeit
datetime = np.datetime64('2021-03-10T12:00')
print(datetime)

2021-03-10T12:00


Auch Zeitdifferenzen lassen sich in *NumPy* gut dastellen:

In [46]:
# eine Zeitdifferenz in Stunden
delta_t = np.timedelta64(1, 'h')
print(delta_t)

1 hours


In [47]:
# Ein Datum
date = np.datetime64('2021-03-10')
# Zeitdifferenz in Tagen
delta_t1 = np.timedelta64(3, 'D')
# Zeitdifferenz in Stunden
delta_t2 = np.timedelta64(2, 'h')
# Zeitdifferenz in Minuten
delta_t3 = np.timedelta64(22, 'm')
# das Ergebnis einer Zeitrechnung
result = date + delta_t1 + delta_t2 + delta_t3
print(result)

2021-03-13T02:22


**ACHTUNG**: Leider ist *NumPy*'s Zeitfunktionalität sehr begrenzt! Für weitere Möglichkeit benötigt man andere Pakete.

### Das *datetime* Paket in Python

- Das *datetime* Paket bietet viel mehr Funktionalität als *NumPy*

- Allerdings muss man beachten, dass es ein anderer Objekttyp ist

- Natürlich kann man Variablen konvertieren

- Leider gibt es hier oft Verwirrungen

In [73]:
import datetime as dt
import datetime

In [49]:
# Beispiel eines Datumsobjektes
date = dt.datetime(2021, 3, 12)
print(date)

2021-03-12 00:00:00


In [50]:
# Beispiel eines Datums- und Zeitobjektes
datetime = dt.datetime(2021, 3, 12, 13, 15)
print(datetime)

2021-03-12 13:15:00


In [51]:
# Was ist die momentane Zeit?
now = dt.datetime.now()
print(now)

2021-11-04 14:39:22.606155


In [52]:
# Beispiel für eine Zeitdifferenz
delta_t = dt.timedelta(minutes=13, seconds=133)
print(delta_t)

0:15:13


In [53]:
# Beispiel für eine Zeitrechnung
now = dt.datetime.now()
# wieviel Zeit wollen wir dazu zählen
delta = dt.timedelta(minutes=33, seconds=13)

# wann ist das ...?
future = now + delta
print(future)

2021-11-04 15:12:35.645090


### Konvertierung zwischen *NumPy* und *datetime*

In [77]:
# von NumPy nach datetime
when = np.datetime64('2021-03-12T12:33:34').item()
print(when)

2021-03-12 12:33:34


datetime.datetime

In [61]:
# von datetime nach NumPy
when = np.datetime64(dt.datetime.now())
print(when)

2021-11-04T14:45:28.001440


In [62]:
# an welchem Wochentag wurde ich geboren?
when = dt.datetime(1981, 4, 4)
print(when.weekday())
print(when.strftime('%A'))

5
Saturday


## Weitere Funktionalität

Was hier präsentiert wurde waren nur die absoluten Grundlagen von *NumPy* und *datetime*.

- Einen Überblick über *NumPy* gibt es hier: [*NumPy* Referenz](https://numpy.org/doc/stable/reference/)

- Einen Überblick über *datetime* gibt es hier: [*datetime* Referenz](https://docs.python.org/3/library/datetime.html)

## ENDE