Notebook zu Python: Verwendung von numpy Arrays

Version 1.3, 5. Januar 2024, Informatik, EAH Jena

(c) Christina B. Class


### Vorspann

In diesem Notebook wird `numpy` verwendet, daher ist folgende `import` Zeile relevant. 

In [None]:
import numpy as np

Die folgende Funktion wird immer wieder verwendet.

In [None]:
def initM():
    m=np.array([[1,2,3,4,5],[3.2,1.2,4.3,5.2,3.21],[1,3,4,5,12],[4,1,3,2,6]])
    return m

# 1. Attribute

Wir erzeugen die Matrix `mat` mit obiger Funktion: 

In [None]:
mat=initM()
print(mat)

`mat` ist eine zwei-dimensionale Matrix mit 4 Zeilen und 5 Spalten. Die Anzahl Elemente ist 20.

In [None]:
print('Dimensionen:',mat.ndim)
print('Anzahl Zeilen, Spalten:',mat.shape)
print('Anzahl Elemente:',mat.size)
print('Datentyp der Elemente:',mat.dtype)

# 2. Methoden: Informationen über Werte

## 2.1 Minimum und Maximum

`min()` und `max()` sind Methoden, die den minimalen bzw. maximalen Wert des Arrays bestimmen:

In [None]:
mat=initM()
print('minimum:',mat.min())
print('maximum:',mat.max())

Manchmal wollen wir wissen, wo ein minimaler bzw. maximaler Wert steht:

In [None]:
print(mat)

In unserer Matrix gibt es den Wert 12 nur einmal. Dagegen steht der Wert 1 insgesamt dreimal in der Matrix. Die Methoden `argmin()` und `argmax()` bestimmen den Index **eines Elements** mit dem minimalen bzw. maximalen Wert, genauer bestimmen Sie den Index des **ersten** Elementes mit dem minimalen bzw. maximalen Wert:

In [None]:
print('index minimum:',mat.argmin())
print('index maximum:',mat.argmax())

Wenn Sie obigen Code laufen lassen, erhalten Sie die Indices als eine einzelne Zahl und nicht als Angabe von Zeile und Spalte. Die 12 steht hierbei an Index 14. 

Der Index ergibt sich  als der Index des Elements nach Umwandlung der Matrix **zeilenweise** in ein eindimensionales Array.

`min()`, `max()`, `argmin()` und `argmax()` haben ein optionales Attribut (`axis`), das bestimmt von welchen Werten das Minimum etc. gesucht wird:
- keine Angabe: die Bestimmung erfolgt für die **zeilenweise als eindimensionales Array angeordnete Matrix** (siehe oben). Die Rückgabe ist ein einzelner Wert.
- 0: die Bestimmung erfogt **spaltenweise**. Die Rückgabe ist ein Array mit so vielen Elementen wie die Matrix Spalten hat.
- 1: die Bestimmung erfogt **zeilenweise**. Die Rückgabe ist ein Array mit so vielen Elementen wie die Matrix Zeilen hat.


In [None]:
print(mat)
print('spaltenweise: maximum:',mat.max(axis=0))
print('spaltenweise: index maximum:',mat.argmax(axis=0))
print('zeilenweise: minimum:',mat.min(axis=1))
print('zeilenweise: index minimum:',mat.argmin(axis=1))

## 2.2 Summe und Produkt

Die Methoden `sum()` und `product()` berechnen die Summe bzw. das Produkt von Array Elementen. Mit dem optionalen Parameter `initial` spezifizieren Sie den initalien Wert.

In [None]:
a=np.array([1,2,3,4])
print(a.sum())
print(a.sum(initial=10))
print(a.prod())
print(a.prod(initial=10))

`sum()` und `axis()` verfügen auch über den oben diskutierten optionalen Parameter `axis`:

In [None]:
a=np.array([[1,1,1],[2,2,2],[3,3,3]])

print(a)
print('spaltenweise:',a.sum(axis=0))
print('zeilenweise:',a.sum(axis=1))

## 2.3 Test auf 0

**Zur Erinnerung**: Der Datentyp `bool` ist ein numerischer Datentyp. Es gilt, dass alle Zahlenwerte ungleich 0 wahr, also `True` sind.

In [None]:
print(bool(1.2))
print(bool(0.0))
print(bool(-0.001))

Die Methoden `any()` und `all()` testen, ob alle bzw. mindestens ein Wert im Array `True` sind. Sie können also auch genutzt werden, um zu testen, ob Werte ungleich 0 sind.

Gegeben sind die folgenden Arrays:

In [None]:
a1=np.array(range(11))
a2=np.array(range(1,11))
a3=np.zeros((1,5))

Mit `all()` geben wir aus, ob alle Elemente ungleich 0 sind:

In [None]:
print(a1)
print('alle Werte ungleich 0:',a1.all())
print(a2)
print('alle Werte ungleich 0:',a2.all())
print(a3)
print('alle Werte ungleich 0:',a3.all())

Mit `any()` geben wir aus, ob mind. ein Element ungleich 0 ist:

In [None]:
print(a1)
print('mind. ein Wert ungleich 0:',a1.any())
print(a2)
print('mind. ein Wert ungleich 0:',a2.any())
print(a3)
print('mind. ein Wert ungleich 0:',a3.any())

**Hinweis:** Auch `any()` und `all()` verfügen über den optionalen Parameter `axis`.

**Aufgabe:** Geben Sie aus
- ob mind. ein Wert gleich Null ist
- ob alle Werte gleich Null sind.

Verwenden Sie nur `any()` und `all()`.

In [None]:
# Ihre Loesung

## 2.4 Statistische Informationen

`numpy` bietet einige Methoden mit statistischen Informationen für `numpy` arrays an. Diese Methoden bieten alle auch den optionalen `axis` Parameter an. 

| Methode | Bedeutung|
|--------------|-----------------------|
|`mean()` | Mittelwert|
|`var()`| Varianz|
| `std()` | Standardabweichung |

**Aufgabe:** Geben Sie für die durch `initM()` erzeugte Matrix folgende Werte aus:
- den Mittelwert aller Werte
- die zeilenweise berechnete Varianz
- die spaltenweise berechnete Standardabweichung

In [None]:
# Ihre Loesung

# 3. Methoden: Veränderung von Werten

## 3.1 `clip()`

**Einführendes Beispiel:** Gehen wir davon aus, dass wir eine Reihe von Messdaten erheben. Wir wissen, dass die Werte nur zwischen 0 und 10 liegen können. Auf Grund der Messungenauigkeit der vorhandenen Sensoren, ist es jedoch möglich, dass einige Werte leicht unter 0 oder leicht über 10 sind. Um keine Fehler in der Auswertung zu erhalten, müssen diese dann auf 0 bzw 10 geändert werden. 

Dies ist die Aufgabe der Methode `clip()`. Sie erzeugt ein neues Array, in dem alle Werte im Interall `[min,max]` liegen und vergrößert zu kleine Werte zu `min` und verkleinert zu große Werte zu `max`:  

In [None]:
a=np.array([5.29, 5.68, 3.77, 6.84, 5.09, 7.69, 5.16, 1.36, 3.69, 10.01, 5.59,
 -0.04, 7.48])
print(a.min())
print(a.max())
b=a.clip(0,10)
print(a)
print(b)

## 3.2 `fill()` 

`fill()` setzt alle Werte in einem gegebenen Array auf einen bestimmten nummerischen Wert.

Soll zum Beispiel ein Array der Länge 20 erzeugt werden, das überall den Wert -99 enthält, könnte man folgendermaßen vorgehen:

In [None]:
a=np.empty(20)
a.fill(-99)
print(a)

# 4. Methoden zu shape und der Form

## 4.1 `reshape()`, `copy()` und `resize()` 

Gegeben ist folgendes Array

In [None]:
a=np.array([[1,2,3,4],[11,12,13,14],[21,22,23,24]])
print(a.shape)

Es handelt sich um eine $3 \times 4$ Matrix.

Mit `reshape()` erhalten wir eine Kopie des Arrays in einer anderen Form. Diese Kopie teilt sich die Daten mit dem übrigen Array.

Wir erzeuen eine $6 \times 2$ Kopie des Arrays:

In [None]:
kopie=a.reshape((2,6))
print('Array:\n',a)
print('Kopie:\n',kopie)

und verändern nun einen einzelnen Wert in der Kopie:

In [None]:
kopie[1,3]=-99

Auch der Wert im ursprünglichen Array hat sich geändert:

In [None]:
print('Array:\n',a)
print('Kopie:\n',kopie)

Mit `copy()` können Sie eine Kopie eines Arrays erstellen:

In [None]:
a=np.array([1,2,3,4])
kopie=a.copy()

In [None]:
print('Array:\n',a)
print('Kopie:\n',kopie)

Diese Kopie teilt sich keine Daten mit dem Originalarray:

In [None]:
kopie[0]=-99
print('Array:\n',a)
print('Kopie:\n',kopie)

Die Form eines gegebenen Arrays können Sie mit `resize()` verändern.

In [None]:
a=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print('Array:\n',a)
a.resize((2,6))
print('neue Form:\n',a)

## 4.2 `flatten()` und `ravel()`

Mit `flatten()` und `ravel()` erzeugen Sie eine Kopie des Arrays als eindimensionales Array. Hierbei teilt sich die durch `ravel()` erzeugte Kopie die Daten mit dem Originalarray:

In [None]:
a=np.array([[1,2,3],[4,5,6],[7,8,9]])
geteilteDaten=a.ravel()
kopierteDaten=a.flatten()

In [None]:
print('Array:\n',a)
print('Kopie geteilte Daten:\n',geteilteDaten)
print('Kopie kopierte Daten:\n',kopierteDaten)

Wir verändern jetzt einen Wert im Originalarray:

In [None]:
a[0,0]=-99
print('Array:\n',a)
print('Kopie geteilte Daten:\n',geteilteDaten)
print('Kopie kopierte Daten:\n',kopierteDaten)

## 4.3 `transpose()`

Die transponierte Matrix $M_T$ einer $N \times M$ Matrix $M_O$ ist eine $M \times N$ Matrix mit den an der Hauptdiagonalen gespiegelten Werten: $a_{ij}$ in $M_O$ ist $a_{ji}$ in $M_T$.

Da die Transponierte eine wichtige Rolle spielt, gibt es eine Methode `transpose()` um sie zu erzeugen. Diese erzeugt die transponierte Matrix als Kopie, die sich mit der Originalmatrix die Daten teilt.

In [None]:
a=np.array([[1,2,3],[4,5,6],[7,8,9]])
trans=a.transpose()
print('Array:\n',a)
print('Transponierte:\n',trans)

Wird in einer der beiden Matrizen ein Wert verändert, sehen beide die Veränderung, da sie sich die Daten teilen:

In [None]:
a[0,1]=-99
print('Array:\n',a)
print('Transponierte:\n',trans)

## 4.4 `astype()`

Wie bereits im Notebook zur Erzeugung von `numpy` Arrays erwähnt, wird der Datentyp bei Erzeugung eines Arrays festgelegt. 

In [None]:
a=np.array([1,2,3,4])
print(a)
print(a.dtype)

und wird nicht verändert, wenn ein Element eines anderen Datentyps in das Array geschrieben wird:

In [None]:
a[0]=5.3
print(a)
print(a.dtype)

Die Methode `astype()` erzeugt eine Kopie eines Arrays mit einem anderen Datentyp:

In [None]:
aInt=np.array([1,2,3,4])
aFloat=aInt.astype('float')
print('integer Array:\n',aInt)
print('float Kopie:\n',aFloat)

Auch hier werden die Nachkommastellen von `float` Werten bei der Umwandlung zu `int` abgeschnitten. Die Werte werden nicht gerundet.

In [None]:
aFloat=np.array([1.73,2,3.99,4.04])
aInt=aInt.astype('int')
print('float Array:\n',aFloat)
print('integer Kopie:\n',aInt)

## 4.5 `tolist()`

Mit `tolist()` können Sie ein Array in eine Liste umwandeln:

In [None]:
a=np.array([[1,2,3,4],[11,12,13,14],[21,22,23,24]])
aL=a.tolist()
print('a', type(a))
print(a)
print('aL', type(aL))
print(aL)

**Abschließende Bemerkungen:**

- Es gibt weitere als die hier vorgestellten Attribute und Methoden. Bitte sehen Sie hier in der Python Dokumentation nach: https://numpy.org/doc/stable/reference/arrays.ndarray.html

- Alle oben genannten Methoden **verändern nicht** die Größe des Arrays, also die Anzahl Elemente.

- Bitte beachten Sie, ob Kopien sich **Daten mit dem Originalarray teilen**, oder eine Kopie aller Daten erzeugt haben!

# 5. Vektorisierung

Gegeben ist folgendes Array:

In [None]:
a=np.array([1.,2,3,4,5])

Einfache mathematische Operatoren sind für das Array definiert und werden elementweise ausgeführt:

In [None]:
print(a)
print(2*a)
print(1/a)

Funktionen des Moduls `math` können nicht für `numpy` Arrays aufgerufen werden, da diese nur für ein einzelnes Element definiert sind. Sehen Sie sich bitte die Fehlermeldung an.

In [None]:
import math
b=math.sin(a)

Um Funktionen elementweise auf Arrays anzuwenden, müssen diese *vektorisiert* sein. `numpy` bietet vektorisierte mathematische Funktionen an:

In [None]:
b=np.sin(a)
print(b)

Betrachten Sie bitte folgendes Beispiel.

In [None]:
a=np.array(range(-5,6))
print(a)
b=np.sqrt(a)
print(b)

Da die Wurzel einer negativen Zahl für reele Zahlen **nicht definiert** ist, wird das Ergebnis zu `nan` (not a number) definiert.

Viele Funktionen mit einer Zahl als Parameter (einem skalaren Parameter), die wir selber geschrieben haben, können für numpy Arrays aufgerufen werden, sofern sie eine einfache Berechnung definieren: 

In [None]:
def f(x):
    return x**3-2*x+27-np.sqrt(x)

In [None]:
a=np.array([1,2,3,4,5])
print(f(a))

und

In [None]:
a=np.array(range(-5,6))
print(f(a))  # hier gibt es Fehler das die Quadratwurzel aus negativen Zahlen nicht definiert ist

Da die Wurzeln für negative Zahlen nicht definiert ist, wird in diesem Fall `nan` zurück gegeben. Wir verbessern nun unsere Funktion und verwenden die Selektion. Die Funktion gibt nun die 0 zurück, falls $x < 0$ ist:

In [None]:
def f2(x):
    if x > 0:
        return x**3-2*x+27-np.sqrt(x)
    else:
        return 0

In [None]:
print('f2(3):',f2(3))
print('f2(-3):',f2(-3))

Enthält eine Funktion eine Selektion (`if`) kann diese aber mit einem `numpy` Array als Parameter nicht mehr aufgerufen werden:

In [None]:
a=np.array([1,2,3,4,5])
print(f2(a))

`any()` oder `all()` zu nutzen, wie vorgeschlagen,  ist für obige Funktion keine Variante, da die Selektion ja für jedes einzelne Vektorelement ausgeführt werden soll. 

Um solche Funktionen dennoch aufrufen zu können, können diese mit dem Dekorator `@np.vectorize` vektorisiert werden. Dann wird die Selektion und die Berechnung des Ergebnisses elementweise ausgeführt.

In [None]:
@np.vectorize
def f3(x):
    if x > 0:
        return x**3-2*x+27-np.sqrt(x)
    else:
        return 0

In [None]:
a=np.array([1,2,3,4,5])
print(f3(a))

und

In [None]:
a=np.array(range(-5,6))
print(f(a)) # hier gibt es Fehler das die Quadratwurzel aus negativen Zahlen nicht definiert ist
print(f3(a))

**Hinweise:** 

Die Vektorisierung der Funktionen in `numpy` und `scipy` ist hardwarenah umgesetzt und daher schnell. Wenn eigene Funktionen vektorisiert werden, ist das deutlich langsamer. Versuchen Sie dies zu vermeiden.

Eine Liste der mathematischen Funktionen in `numpy` finden Sie hier: https://numpy.org/doc/stable/reference/routines.math.html

# 6. Zugriff auf einzelne Elemente und Teile der Matrix

## 6.1 Zugriff

Gegeben ist die mit `initM()` erzeugte Matrix:

In [None]:
mat=initM()
print(mat)

Der Zugriff auf ein einzelnes Element erfolgt über die Angabe des Zeilen und Spaltenindex, durch ein Komma getrennt, in `[]`.

In [None]:
print(mat[1,2])

Wie im "slicing" beim Zugriff auf sequentielle Datentypen ([Notebook zu Listen (Teil 2)](10_NB_Listen_2.ipynb)) können die Indices hier auch eingegrenzt werden. Zugriff auf die 1. bis 3. Spalte in Zeile 1:

In [None]:
print(mat[0,0:3])

und

In [None]:
print(mat[1:3,1:3])

Zur Erinnerung: Beim Slicing ist der erste Wert inklusive, der zweite exklusive. Auch hier kann einen Schrittweite definiert werden:

In [None]:
print(mat[0,0:6:2])

Um ganze Spalten oder ganze Zeilen auszugeben, können Sie den Index weglassen und durch : ersetzen:

In [None]:
print('erste Zeile:', mat[0,:])
print('erste Spalte:',mat[:,0])

## 6.2 Indexvektor

Gegeben ist folgendes Array:

In [None]:
a=np.array(range(10))

sowie eine Liste mit 10 boolschen Werten:

In [None]:
werte=[True,False,False,True,True,False,False,False,True,True]
print(len(werte))
print(werte)

Man kann diese boolschen Werte nun nehmen, um auf das Array zuzugreifen. Das resultierende Array enthält dann die Werte, für die der Index `True` ist.

In [None]:
print(a[werte])

Vergleichsoperatoren werden elementweise auf ein Array ausgefürt:

In [None]:
print(a)
print('>5:',a>5)

Nehmen wir noch einmal die Matrix `mat`:

In [None]:
print(mat)

Wir werden nun eine Teilmatrix erzeugen, die nur die Zeilen enthält, die in der ersten Spalte einen Wert größer 1 ($> 1$)enthalten.

Zuerst müssen wir bestimmen, welche Zeilen dies sind. Dies machen wir, indem wir den Vergleichsoperator auf die erste Spalte anwenden:

In [None]:
erg=mat[:,0]>1
print(erg)

Den so entstandenen Vektor können wir dann nutzen, um unsere Matrix auf die spezifischen Zeilen zu reduzieren. Der Vektor beschreibt die Zeilen, die uns interessieren:

In [None]:
mat2=mat[erg,:]
print(mat2)

Dieses Vorgehen bezeichne ich als **"Reduktion"**.

## 6.3 Beispiele

Gehen wir wieder von der Matrix `mat` aus.

In [None]:
print(mat)

Wenn Sie für einen gegebene Matrix bestimmen sollten, ob sie einen Wert größer 5 enthält, würden Sie wahrscheinlich eine Schleife nutzen und jedes einzelne Element mit 5 vergleichen. Mit `break` können Sie dies etwas optimieren, aber der Code wäre dennoch recht langsam. Wenn Sie mit großen Datenmengen arbeiten, würde Sie dies merken. 

Die Anwendung von Vergleichsoperatoren auf `numpy` Arrays ist effizient implementiert und kann genutzt werden, um obige Frage effizient zu lösen.

**Beispiel 1: Gibt es einen Wert größer $x$?**

Wir wollen festellen, ob es einen Wert größer 5 (im allgemeinen Fall $> x$) in unserer Matrix gibt.

Zuerst erstellen wir die Ergebnismatrix des Vergleichs:

In [None]:
vergleich=mat>5
print(vergleich)

Und nun wenden wir die Methode `any()` an. Diese gibt `True` zurück, wenn mindestens ein Wert ungleich 0 ist. 

**Zur Erinnerung:** `bool` ist ein numerischer Datentyp. `True` hat den Wert 1, `False` den Wert 0. 

In [None]:
print('gibt es Wert groesser 5?', vergleich.any())

Sofern wir die Ergebnismatrix nicht brauchen, müssen wir sie nicht abspeichern:

In [None]:
print('gibt es Wert groesser 5?', (mat>5).any())

**Beispiel 2: Wie viele Werte sind größer $x$?** 

Hier basieren wir auf einer ähnlichen Idee: Allerdings verwenden wir nun die Methode `sum()`:

In [None]:
print('Wie viele Werte sind groesser 5?', (mat>5).sum())

**Aufgabe:** Geben Sie alle Werte größer 5 aus.

In [None]:
# Ihre Loesung

**Aufgabe:** Geben Sie aus, ob *alle* Werte größer 0 sind.

In [None]:
# Ihre Lösung

*Ende des Notebooks*

<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/"><img alt="Creative Commons Lizenzvertrag" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Dieses Notebook wurde von Christina B. Class für die Lehre an der EAH Jena erstellt. Es ist lizenziert unter einer <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">Creative Commons Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 International Lizenz</a>.
