# Crashkurs: Numerisches Programmieren

Numerische Programmierung befasst sich mit der Approximation mathematischer Probleme. Python, kombiniert mit Modulen wie [NumPy](https://numpy.org), [SciPy](https://www.scipy.org), [Matplotlib](https://matplotlib.org) und [Pandas](https://pandas.pydata.org), ermöglicht effiziente numerische Algorithmen. Diese Module nutzen optimierte Implementierungen in Fortran oder C.

- **NumPy**: Basis für mehrdimensionale Arrays und Matrizen, bietet grundlegende Funktionalitäten zur Manipulation dieser Strukturen.
- **SciPy**: Baut auf NumPy auf und erweitert es um Funktionen wie Minimierung, Regression und Fourier-Transformation.
- **Matplotlib**: Ermöglicht die grafische Darstellung von Daten.
- **Pandas**: Ergänzt die Familie mit leistungsstarken Datenanalyse-Tools.

## NumPy

NumPy ist ein Modul für schnelle numerische Berechnungen mit effizienten Datenstrukturen für Arrays und Matrizen. Es muss vor der Nutzung importiert werden:

In [2]:
import numpy

Meistens wird NumPy als `np` importiert:

In [3]:
import numpy as np

Ein Beispiel: Wir definieren eine Liste mit Celsius-Temperaturen:

In [4]:
cvalues = [20.1, 20.8, 21.9, 22.5, 22.7, 21.8, 21.3, 20.9, 20.1]

Diese Liste wird in ein NumPy-Array umgewandelt:

In [5]:
C = np.array(cvalues)
print(C, type(C))

[20.1 20.8 21.9 22.5 22.7 21.8 21.3 20.9 20.1] <class 'numpy.ndarray'>


Umrechnung der Celsius-Werte in Fahrenheit:

In [6]:
C * 9 / 5 + 32

array([68.18, 69.44, 71.42, 72.5 , 72.86, 71.24, 70.34, 69.62, 68.18])

Das Array `C` bleibt dabei unverändert:

In [7]:
C

array([20.1, 20.8, 21.9, 22.5, 22.7, 21.8, 21.3, 20.9, 20.1])

Verglichen mit Python-Listen ist dies deutlich effizienter:

In [8]:
fahrenheit_c = []
for value in cvalues:
    new_value = value * 9/5 + 32
    fahrenheit_c.append(new_value)
fahrenheit_c

[68.18, 69.44, 71.42, 72.5, 72.86, 71.24000000000001, 70.34, 69.62, 68.18]

Direkte skalare Operationen auf Listen führen zu Fehlern:

In [9]:
cvalues * 9 / 5 + 32

TypeError: unsupported operand type(s) for /: 'list' and 'int'

Der Operator `*` zwischen Listen und Integers hat eine andere Bedeutung:

In [10]:
test_list = [1, 6, 8, 3, 7]
print(test_list * 2)

[1, 6, 8, 3, 7, 1, 6, 8, 3, 7]


NumPy-Arrays werden intern als `ndarray` bezeichnet:

In [11]:
type(C)

numpy.ndarray

Die Begriffe „Array“ und „ndarray“ werden synonym verwendet.

### Erzeugung äquidistanter Intervalle

NumPy bietet Funktionen wie `arange` und `linspace`, um Intervalle mit gleichmäßig verteilten Werten zu erzeugen.

In [13]:
a = np.arange(1, 7)
print("a: ", a)

a:  [1 2 3 4 5 6]


In [14]:
# im Vergleich dazu nun range:
x = range(1, 7)
print("x: ", x) # x ist ein Iterator 
print("x as list: ", list(x))

x:  range(1, 7)
x as list:  [1, 2, 3, 4, 5, 6]


In [15]:
# weitere arange-Beispiele:
a1 = np.arange(7.3) 
print("a1: ", a1)
a2 = np.arange(0.5, 6.1, 0.8)
print("a2: ", a2)
a3 = np.arange(0.5, 6.1, 0.8, int)
print("a3: ", a3)

a1:  [0. 1. 2. 3. 4. 5. 6. 7.]
a2:  [0.5 1.3 2.1 2.9 3.7 4.5 5.3]
a3:  [0 1 2 3 4 5 6]


Die Syntax von `linspace`:
`linspace` gibt ein `ndarray` mit `num` gleichmäßig verteilten Werten aus dem Intervall `[start, stop]` (geschlossen) oder `[start, stop)` (halb-offen) zurück. Ob das Intervall geschlossen oder halb-offen ist, hängt vom Parameter `endpoint` ab. Ist `endpoint=False`, wird `stop` ausgeschlossen. Die Schrittweite variiert entsprechend.

In [16]:
# 50 Werte (Default) zwischen 1 und 10:
print(np.linspace(1, 10))

[ 1.          1.18367347  1.36734694  1.55102041  1.73469388  1.91836735
  2.10204082  2.28571429  2.46938776  2.65306122  2.83673469  3.02040816
  3.20408163  3.3877551   3.57142857  3.75510204  3.93877551  4.12244898
  4.30612245  4.48979592  4.67346939  4.85714286  5.04081633  5.2244898
  5.40816327  5.59183673  5.7755102   5.95918367  6.14285714  6.32653061
  6.51020408  6.69387755  6.87755102  7.06122449  7.24489796  7.42857143
  7.6122449   7.79591837  7.97959184  8.16326531  8.34693878  8.53061224
  8.71428571  8.89795918  9.08163265  9.26530612  9.44897959  9.63265306
  9.81632653 10.        ]


In [17]:
# 7 Werte zwischen 1 und 10: print(np.linspace(1, 10, 7))
# jetzt ohne Endpunkt:
print(np.linspace(1, 10, 7, endpoint=False))

[1.         2.28571429 3.57142857 4.85714286 6.14285714 7.42857143
 8.71428571]


### Eindimensionale Arrays
Eindimensionale Arrays, auch als Vektoren bekannt, sind NumPy-Container, die nur einen Datentyp enthalten können, z. B. nur Integers. Den Datentyp eines Arrays können wir mit dem Attribut `dtype` bestimmen, wie im folgenden Beispiel gezeigt wird:

In [18]:
F = np.array([1, 1, 2, 3, 5, 8, 13, 21])
V = np.array([3.4, 6.9, 99.8, 12.8]) 
print("F: ", F)
print("V: ", V)
print("Typ von F: ", F.dtype)
print("Typ von V: ", V.dtype)
print("Dimension von F: ", np.ndim(F))
print("Dimension von V: ", np.ndim(V))

F:  [ 1  1  2  3  5  8 13 21]
V:  [ 3.4  6.9 99.8 12.8]
Typ von F:  int64
Typ von V:  float64
Dimension von F:  1
Dimension von V:  1


### Zwei- und Mehrdimensionale Arrays
NumPy-Arrays sind nicht auf eine Dimension beschränkt. Sie können beliebig viele Dimensionen haben und werden durch Übergabe verschachtelter Listen (oder Tupel) an die `array`-Methode erzeugt:

In [19]:
A = np.array([[3.4, 8.7, 9.9], [1.1, -7.8, -0.7], [4.1, 12.3, 4.8]])
print("A: ", A)
print("Zahl der Dimensionen von A: ", A.ndim)

A:  [[ 3.4  8.7  9.9]
 [ 1.1 -7.8 -0.7]
 [ 4.1 12.3  4.8]]
Zahl der Dimensionen von A:  2


### Gestalt eines Arrays (shape)

Die Funktion `shape` gibt die Größe bzw. Gestalt eines Arrays als Integer-Tupel zurück. Dieses Tupel enthält die Anzahl der Elemente pro Dimension, z. B. Zeilen und Spalten bei 2D-Arrays. Im Beispiel ist `shape` (6, 3), was sechs Zeilen und drei Spalten bedeutet.

In [21]:
x = np.array([[67, 63, 87],
            [77, 69, 59],
            [85, 87, 99],
            [79, 72, 71],
            [63, 89, 93],
            [68, 92, 78]])
print(np.shape(x))
# Oder als Eigenschaft des Arrays
print(x.shape)

(6, 3)
(6, 3)


Die Gestalt eines Arrays zeigt die Reihenfolge der Indizes: zuerst Zeilen, dann Spalten und ggf. weitere Dimensionen. Mit `shape` kann die „Shape“ eines Arrays auch geändert werden:


In [22]:
x.shape = (3, 6)
print(x)
x.shape = (2, 9) 
print(x)

[[67 63 87 77 69 59]
 [85 87 99 79 72 71]
 [63 89 93 68 92 78]]
[[67 63 87 77 69 59 85 87 99]
 [79 72 71 63 89 93 68 92 78]]


Die neue Shape muss der Anzahl der Elemente des Arrays entsprechen, d.h. die Gesamtgröße des neuen Arrays muss gleich bleiben. Andernfalls wird eine Ausnahme ausgelöst, z.B. bei folgendem Fall:

In [23]:
x.shape = (4, 4)

ValueError: cannot reshape array of size 18 into shape (4,4)

### Indizierung von NumPy Arrays
Der Zugriff und die Zuweisung von Array-Elementen funktioniert ähnlich wie bei Python-Listen und -Tupeln. NumPy bietet jedoch zusätzliche, mächtige Indizierungsmöglichkeiten, die dem Teilbereichsoperator von Listen ähneln. Das Indizieren einzelner Elemente ist intuitiv:


In [24]:
F = np.array([1, 1, 2, 3, 5, 8, 13, 21]) # Ausgabe des ersten Elements von F 
print(F[0])
# Ausgabe letztes Element von F 
print(F[-1])

1
21


Mehrdimensionale Arrays können auf zwei unterschiedliche Weisen indiziert werden:

In [25]:
A = np.array([[3.4, 8.7, 9.9], [1.1, -7.8, -0.7], [4.1, 12.3, 4.8]])
print(A[1][0])
print(A[1, 0]) # Ausgabe des ersten Elements der zweiten Zeile

1.1
1.1


Für `A` haben wir auf das Element in der zweiten Zeile (Index 1) und der ersten Spalte (Index 0) zugegriffen, ähnlich wie bei einer verschachtelten Python-Liste. Die zweite Methode (eine Klammer mit Kommas) ist effizienter, da im ersten Fall ein Zwischen-Array `A[1]` erzeugt wird, aus dem dann das Element mit Index 0 abgerufen wird.


Die Verwendung von Teilbereichsoperatoren (Slicing) ist ähnlich wie bei Python-Listen und -Tupeln. Das englische „to slice“ bedeutet „schneiden“ oder „in Scheiben schneiden“, was die Arbeitsweise des Operators beschreibt: Man schneidet sich eine „Scheibe“ aus einem sequentiellen Datentyp oder Array heraus.

Die Syntax in NumPy entspricht der von Python bei eindimensionalen Arrays, kann aber auch auf mehrdimensionale Arrays angewendet werden. Die allgemeine Syntax lautet:

```python
array[start:stop:step]
```

Die Anwendung des Teilbereichsoperators auf mehrdimensionale Arrays illustrieren wir in den folgenden Beispielen. Die Bereiche für jede Dimension werden durch Kommas getrennt:

In [26]:
A = np.array([[11, 12, 13, 14, 15], 
              [21, 22, 23, 24, 25], 
              [31, 32, 33, 34, 35], 
              [41, 42, 43, 44, 45], 
              [51, 52, 53, 54, 55]])
print(A[:3, 2:])

[[13 14 15]
 [23 24 25]
 [33 34 35]]


<img src="http://jhoche.de/numpy_1.png" width="250" height="300">

In [27]:
print(A[3:, :])

[[41 42 43 44 45]
 [51 52 53 54 55]]


<img src="http://jhoche.de/numpy_2.png" width="250" height="300">

In [28]:
print(A[:, 4:])

[[15]
 [25]
 [35]
 [45]
 [55]]


<img src="http://jhoche.de/numpy_3.png" width="250" height="300">

Die folgenden beiden Beispiele benutzten auch noch den dritten Parameter `step`. Die `reshape`-Funktion benutzen wir, um ein eindimensionales Array in ein zweidimensionales zu wandeln. Wir werden `reshape` im folgenden Unterkapitel erklären:

In [29]:
X = np.arange(28).reshape(4, 7)
print(X)

[[ 0  1  2  3  4  5  6]
 [ 7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27]]


In [30]:
print(X[::2, ::3])

[[ 0  3  6]
 [14 17 20]]


<img src="http://jhoche.de/numpy_4.png" width="380" height="300">

In [31]:
print(X[::, ::3])

[[ 0  3  6]
 [ 7 10 13]
 [14 17 20]
 [21 24 27]]


<img src="http://jhoche.de/numpy_5.png" width="380" height="300">

Falls die Zahl der Objekte in dem Auswahltupel kleiner als die Dimension N ist, dann wird „:“ (alle Elemente) für die weiteren, nicht angegebenen Dimensionen angenommen:

In [32]:
print(X[::2])

[[ 0  1  2  3  4  5  6]
 [14 15 16 17 18 19 20]]


<img src="http://jhoche.de/numpy_6.png" width="380" height="300">

**Achtung**: Während der Teilbereichsoperator bei Listen und Tupel neue Objekte erzeugt, generiert er bei NumPy nur eine Sicht (englisch: „view“) auf das Originalarray. Dadurch erhalten wir eine andere Möglichkeit, das Array anzusprechen, oder besser: einen Teil des Arrays. Daraus folgt, dass wenn wir etwas in einer Sicht verändern, wir auch das Originalarray verändern:

In [33]:
A = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
S = A[2:6]
S[0] = 22
S[1] = 23
print(A)

[ 0  1 22 23  4  5  6  7  8  9]


Wenn wir das analog bei Listen tun, sehen wir, dass wir eine Kopie erhalten. Genau genommen müssten wir sagen, eine flache Kopie.

In [34]:
lst = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
lst2 = lst[2:6]
lst2[0] = 22
lst2[1] = 23
print(lst)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### Gestalt eines Arrays ändern

Wir haben gesehen, dass man durch Änderung des Attributs `shape` die Gestalt eines Arrays ändern kann. Es wird jedoch empfohlen, Attribute wie `shape` nicht direkt zu verändern. Stattdessen sollte die Methode `reshape` verwendet werden, die diese Aufgabe übernimmt, ohne eine Kopie zu erstellen.

In [35]:
x = np.array([[67, 63, 87],
              [77, 69, 59],
              [85, 87, 99],
              [79, 72, 71],
              [63, 89, 93],
              [68, 92, 78]])
y1 = np.reshape(x, (2, 9))
y2 = x.reshape((2, 9))

print("Umgeformter Array y1: ", y1)
print("Umgeformter Array y2: ", y2)
print("Ursprünglicher Array x: ", x)

Umgeformter Array y1:  [[67 63 87 77 69 59 85 87 99]
 [79 72 71 63 89 93 68 92 78]]
Umgeformter Array y2:  [[67 63 87 77 69 59 85 87 99]
 [79 72 71 63 89 93 68 92 78]]
Ursprünglicher Array x:  [[67 63 87]
 [77 69 59]
 [85 87 99]
 [79 72 71]
 [63 89 93]
 [68 92 78]]


Man muss dabei die Dimension des Arrays nicht beibehalten.

In [36]:
z = x.reshape((3, 3, 2))
print(z)

print("Dimension von x: ", x.ndim)
print("Dimension von z: ", z.ndim)

[[[67 63]
  [87 77]
  [69 59]]

 [[85 87]
  [99 79]
  [72 71]]

 [[63 89]
  [93 68]
  [92 78]]]
Dimension von x:  2
Dimension von z:  3


Manchmal kennt man die Länge einer Dimension des Arrays nicht oder möchte sie nicht berechnen. Solange nur eine Dimension fehlt, kann `reshape` diese automatisch bestimmen. Dafür verwendet man `-1` als Platzhalter.

In [37]:
x.reshape((3, -1, 2))

array([[[67, 63],
        [87, 77],
        [69, 59]],

       [[85, 87],
        [99, 79],
        [72, 71]],

       [[63, 89],
        [93, 68],
        [92, 78]]])

Sehr häufig möchte man mehrdimensionale Arrays in 1D-Arrays umwandeln. Dafür kann man zwar `reshape` verwenden, es gibt aber zwei spezielle Methoden: `flatten` und `ravel`. Während `flatten` eine Kopie des Arrays erstellt, liefert `ravel` nur eine Ansicht.

In [38]:
x_1d = x.reshape(18)  # alternativ auch mit x.reshape(-1)
flattened_x = x.flatten()
raveled_x = x.ravel()

print(x_1d)
print(flattened_x)
print(raveled_x)

[67 63 87 77 69 59 85 87 99 79 72 71 63 89 93 68 92 78]
[67 63 87 77 69 59 85 87 99 79 72 71 63 89 93 68 92 78]
[67 63 87 77 69 59 85 87 99 79 72 71 63 89 93 68 92 78]


### Lineare Algebra

Sie fragen sich vielleicht, warum hier von 1D- und 2D-Arrays die Rede ist, wenn diese doch Vektoren und Matrizen der linearen Algebra ähneln. Tatsächlich sind es Datenstrukturen, die sich besonders gut zur Darstellung von Vektoren und Matrizen eignen. In diesem Kapitel werden die wichtigsten NumPy-Funktionen zur linearen Algebra vorgestellt.

In der linearen Algebra ist das Skalarprodukt eine zentrale Operation, die das Produkt zweier Vektoren, einer Matrix mit einem Vektor oder zweier Matrizen umfasst. In NumPy wird hierfür die Funktion `dot` verwendet, die nicht nur das Skalarprodukt von Vektoren, sondern auch andere Formen des Produkts berechnet.

In [39]:
A = np.array([[11, 12, 13, 14],
             [21, 22, 23, 24],
             [31, 32, 33, 34]])
B = np.array([[5, 4, 2],
             [1, 0, 2],
             [3, 8, 2],
             [24, 12, 57]])
x = np.array([1, 2, 3, 4])
y = np.array([-3, 5, 6, -4])

print(np.dot(x, y)) # Vektor mal Vektor
print(np.dot(A, x)) # Matrix mal Vektor
print(np.dot(A, B)) # Matrix mal Matrix

9
[130 230 330]
[[ 442  316  870]
 [ 772  556 1500]
 [1102  796 2130]]


Natürlich gilt hier auch die Einschränkung, dass die Anzahl der Spalten des ersten Arrays gleich der Anzahl der Zeilen des zweiten Arrays sein muss. Ansonsten erhält man eine Fehlermeldung.

In [40]:
print(np.dot(B, x))

ValueError: shapes (4,3) and (4,) not aligned: 3 (dim 1) != 4 (dim 0)

In [41]:
print(np.dot(B.T, x)) # B.T transponiert B

[112  76 240]


Da die skalaren Operatoren `+`, `-`, `*`, `/` und `**` für elementweise Rechnungen gedacht sind, wird bei der Ausführung `A * B` versucht, die Elemente von `A` und `B` einzel miteinander zu multiplizieren. Aufgrund der unterschliedlichen Gestalten dieser zwei Arrays, erhält man eine Fehlermeldung.

In [42]:
A * B

ValueError: operands could not be broadcast together with shapes (3,4) (4,3) 

Wenn man ein Skalarprodukt unbedingt mit dieser Syntax ausführen möchte, kann man den Operator `@` verwenden.

In [43]:
A @ B

array([[ 442,  316,  870],
       [ 772,  556, 1500],
       [1102,  796, 2130]])

Speziellere Funktionen der linearen Algebra befinden sich im Untermodul `linalg`. Eine wichtige Funktion davon ist `norm`, welche, wie der Name schon sagt, die Norm eines Arrays ausgibt. 
Die Syntax von `norm`:
```
norm(x[, ord=None][, axis=None])
```
Dabei ist `x` ein Array, `ord` die Art der Norm und `axis` die Achse, entlang welcher man die Norm berechnen soll. Oft verwendet man die Euklidische Norm (2-Norm) für Vektoren und muss dafür den Argument `ord` nicht übergeben.

In [44]:
x = np.array([1, 2, 3])
x_norm_method1 = np.sqrt(np.sum(x**2)) # Alle Elemente quadrieren, summieren und Wurzel davon nehmen
x_norm_method2 = np.linalg.norm(x)

print(x_norm_method1)
print(x_norm_method2)

3.7416573867739413
3.7416573867739413


Ist `x` ein 2D-Array und man lässt `ord` weg, so wird die sog. Frobenius-Norm verwendet, die analog zur euklidischen Norm definiert ist.

In [45]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
A_norm_method1 = np.sqrt(np.sum(A**2)) # Alle Elemente quadrieren, summieren und Wurzel davon nehmen
A_norm_method2 = np.linalg.norm(A)

print(A_norm_method1)
print(A_norm_method2)

16.881943016134134
16.881943016134134


Man kann auch die Norm für jede Zeile/Spalte in `A` mit Hilfe des Arguments `axis` berechnen. 

In [46]:
A_zeilennorm = np.linalg.norm(A, axis=1)
print(A_zeilennorm)

for row in A:
    print(row, np.linalg.norm(row))

A_spaltennorm = np.linalg.norm(A, axis=0)
print(A_spaltennorm)

[ 3.74165739  8.77496439 13.92838828]
[1 2 3] 3.7416573867739413
[4 5 6] 8.774964387392123
[7 8 9] 13.92838827718412
[ 8.1240384   9.64365076 11.22497216]


Auch sehr nützlich ist die Funktion `eigh`, um Eigenwerte und Eigenvektoren von symmetrischen Matrizen zu berechnen. Da `A` noch nicht symmetrisch ist, können wir mit Hilfe der Transposition eine symmetrische Matrix erzeugen und die Eigenwerten davon berechnen. 

In [47]:
M = A + A.T
eigenwerte, eigenvektoren = np.linalg.eigh(M)
print(eigenwerte)
print(eigenvektoren)

[-2.91647287e+00 -3.84527525e-17  3.29164729e+01]
[[-0.84243284  0.40824829 -0.35162514]
 [-0.1647127  -0.81649658 -0.55335618]
 [ 0.51300744  0.40824829 -0.75508721]]


Die Eigenvektoren sind die Spalten in dem ausgegebenen Array `eigenvektoren`. Für quadratische, asymmetrische Matrizen kann die Funktion `eig` verwendet werden.