## <b>NumPy<b>

Offizielle Dokumentation: https://numpy.org/doc/

Für Sammlungen von numerischen Daten, die alle den gleichen Typ haben, ist es oft effizienter, den vom Numpy-Modul bereitgestellten Array-Typ (anstatt der bereits bekannten Python-Listen) zu verwenden. Ein NumPy-Array ist ein Speicherbereich mit Elementen fester Größe. Mit NumPy-Arrays können Operationen an Elementen (deutlich!) schneller durchgeführt werden, da die Elemente im Speicher in regelmäßigen Abständen angeordnet (vektorisiert) sind und mehr Operationen durch spezialisierte C-Funktionen anstelle von Python-Schleifen ausgeführt werden.

<div class="alert alert-block alert-info">
    numpy Bibliothek muss importiert werden
</div>

In [1]:
import numpy as np

### <b>Manuelle Konstruktion von numpy-Arrays</b>

#### 1-D

In [2]:
[0, 1, 2, 3]

[0, 1, 2, 3]

In [3]:
a = np.array([0, 1, 2, 3])
a.ndim

1

In [4]:
a

array([0, 1, 2, 3])

In [5]:
a.shape

(4,)

In [6]:
len(a)

4

#### 2-D, 3-D, ..., n-D

In [7]:
b = np.array([[0, 1, 2], [3, 4, 5]])    # 2 x 3 array
b

array([[0, 1, 2],
       [3, 4, 5]])

In [8]:
b.ndim

2

In [9]:
b.shape

(2, 3)

In [10]:
len(b)

2

<div class="alert alert-block alert-info">
"len" gibt die Größe der ersten Dimension zurück
</div>

In [11]:
c = np.array([[[1], [2]], [[3], [4]]])
c

array([[[1],
        [2]],

       [[3],
        [4]]])

In [12]:
c.shape

(2, 2, 1)

Es gibt mehrere Funktionen zum Erstellen von arrays, zum Beispiel:

* np.arange: liefert Array mit gleichmäßig verteilten Werten
* np.linspace: liefert Array mit bestimmter Anzahl an Werten
* np.ones / np.zeros: liefert Array mit festen Werten
* np.eye / np.diag: liefert diagonales Array

### <b>Umstrukturierung von Arrays</b>

In [20]:
b = np.arange(0, 20)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

Umstrukturieren der Werte in 2D-Array mit 4 Zeilen und 5 Spalten

In [19]:
c = np.reshape(b, (4,5)) # neue Form des Arrays: 4x5
c

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

Der Funktion `np.reshape()` kann als *eine* Dimension `-1` übergeben werden. Diese *freie* Dimension wird dann passend den anderen Arraydimensionen und der Elementanzahl gewählt.

In [21]:
c = np.reshape(b, (5,-1)) 
c.shape

(5, 4)

In [22]:
c = np.reshape(c, (10,-1)) 
c.shape

(10, 2)

In [23]:
c

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19]])

*Kollabieren* eines mehrdimensionalen Arrays zu einem 1D-Array

In [24]:
d = c.flatten()
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

Hinzufügen neuer Arraydimensionen

In [27]:
a = np.array([1, 2, 3, 4, 5])
a

array([1, 2, 3, 4, 5])

In [26]:
b = a[:, np.newaxis]
b

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [31]:
b

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [32]:
c = a[np.newaxis, :]
c

array([[1, 2, 3, 4, 5]])

In [36]:
c.shape

(1, 5)

### <b>Indizierung</b>


Auf Array-Werte kann genau so wie auf Listenwerte zugegriffen werden und sie können auch genauso gesliced werden.
<div class="alert alert-block alert-info">
Die Indizes beginnen wieder bei 0!

#### Regulär

In [37]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
a[0], a[2], a[-1]

(0, 2, 9)

In [39]:
a[0::2]

array([0, 2, 4, 6, 8])

Analog für höherdimensionale Arrays: Indizierung von Zeilen und Spalten

In [40]:
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
b

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [41]:
b[:] # Gesamtes Array (ebenso: b[:, :])

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [42]:
b[:, 0] # Alle Zeilen, 1. Spalte

array([1, 5, 9])

In [43]:
b[2, :] # 3. Zeile, alle Spalten

array([ 9, 10, 11, 12])

In [44]:
b[[0,2], :] # 1. und 3. Zeile, alle Spalten

array([[ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

#### Mittels bool-Maske

In [45]:
np.random.seed(3)
a = np.random.randint(0, 21, 15)
a

array([10,  3,  8,  0, 19, 10, 11,  9, 10,  6,  0, 20, 12,  7, 14])

In [48]:
mask = (a % 3) == 0
~mask

array([ True, False,  True, False,  True,  True,  True, False,  True,
       False, False,  True, False,  True,  True])

Nur die Werte an den Stellen, welche zu `true` evaluiert werden, werden gesliced.

In [47]:
a[mask]

array([ 3,  0,  9,  6,  0, 12])

Invertieren der Maske mittels `~`

In [49]:
a[~mask]

array([10,  8, 19, 10, 11, 10, 20,  7, 14])

In [51]:
a[a % 3 == 0] = -1
a

array([10, -1,  8, -1, 19, 10, 11, -1, 10, -1, -1, 20, -1,  7, 14])

### <b>Arithmetische Operationen</b>

In [52]:
a = np.array([1, 2, 3, 4, 5])
a + 1

array([2, 3, 4, 5, 6])

In [53]:
a * 4

array([ 4,  8, 12, 16, 20])

<div class="alert alert-block alert-info">
Reihenfolge der Operationen beachten!
</div>

In [54]:
a ** 2

array([ 1,  4,  9, 16, 25])

$\Rightarrow x^2~\forall x \in a$

In [55]:
2 ** a

array([ 2,  4,  8, 16, 32])

$\Rightarrow 2^x~\forall x \in a$

In [56]:
b = np.ones(5) + 1
print(b)
a - b

[2. 2. 2. 2. 2.]


array([-1.,  0.,  1.,  2.,  3.])

In [57]:
a * b

array([ 2.,  4.,  6.,  8., 10.])

Skalarprodukt zwischen zwei 1D-Arrays

In [58]:
np.dot(a, b)
# alternativ:
a @ b

30.0

In [59]:
j = np.arange(5)
2 ** (j + 1) - j

array([ 2,  3,  6, 13, 28])

Dauer der Operationen:

In [60]:
a = np.arange(10000)
%timeit a + 1

7.37 µs ± 1.39 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [61]:
l = range(10000)
%timeit [i+1 for i in l] 

945 µs ± 208 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


<div class="alert alert-block alert-info">
    Numpy-Operationen sind oftmals (<b>viel!</b>) schneller als herkömmliche Listenoperationen.</br>
    Mehr Informationen z.B. hier: <a>https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06</a>
</div>

Array-Multiplikation:

In [64]:
c = np.ones((3,3))
c * c

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

Matrix Multiplikation:

In [65]:
c.dot(c)

array([[3., 3., 3.],
       [3., 3., 3.],
       [3., 3., 3.]])

<div class="alert alert-block alert-info">
    Array Multiplikation ist keine Matrix Multiplikation!

Matrixprodukt zwischen zwei 2D-Arrays

In [66]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b = np.array([[1, 1, 2], [2, 0, 1], [1, 0, 2]])

np.matmul(a, b)
# alternativ:
a @ b

array([[ 8,  1, 10],
       [20,  4, 25],
       [32,  7, 40]])

### <b>Grundlegende Reduktionen</b>

*Reduktionen*: Reduzieren die Dimension des Arrays, z.B. wird ein 1D-Array auf einen einzigen Wert (Skalar) reduziert, ein 2D-Array auf ein 1D-Array, etc.

#### 1-D

In [76]:
x = np.array([1, 2, 3, 4])
np.sum(x)

10

In [73]:
x.sum()

10

<div class="alert alert-block alert-info">
    <b>Achtung:</b> Diese Schweibweise funktioniert nicht für alle Array-Funktionen! Besser: <code>np.function()</code>.
</div>

#### 2-D

In [77]:
x = np.array([[1, 2], [3, 4]])
x

array([[1, 2],
       [3, 4]])

Mit dem `axis`-Parameter kann bei vielen Funktionen die Dimension, entlang welcher die Operation angewendet werden soll, angegeben werden.

In [78]:
x.sum(axis=0)   # Spalten (erste Dimension)

array([4, 6])

In [79]:
# Gegencheck: Summe der jeweiligen Spalten
print("Spalte 1: {}".format(x[:, 0].sum()))
print("Spalte 2: {}".format(x[:, 1].sum()))

Spalte 1: 4
Spalte 2: 6


In [80]:
x.sum(axis=1)   # Zeilen (zweite Dimension)

array([3, 7])

In [81]:
# Gegencheck: Summe der jeweiligen Zeilen
print("Zeile 1: {}".format(x[0, :].sum()))
print("Zeile 2: {}".format(x[1, :].sum()))

Zeile 1: 3
Zeile 2: 7


In [83]:
x.sum(axis=None)

10

#### Minumim und Maximum

In [84]:
np.min(x), np.max(x)

(1, 4)

In [85]:
np.argmin(x), np.argmax(x) # Index von Minimum und Maximum

(0, 3)

#### Mean, Median, Std.

In [86]:
x = np.array([1, 2, 3, 1])
y = np.array([[1, 2, 3], [5, 6, 1]])

In [87]:
np.mean(x)

1.75

In [88]:
print(np.mean(y)) # axis = None => Mittelwert über alle Werte im 2D-Array (Reduktion um 2 Dimensionen)
print(np.mean(y, axis=0)) # Mittelwert entlang der Spalten
print(np.mean(y, axis=1)) # Mittelwert entlang der Zeilen

3.0
[3. 4. 2.]
[2. 4.]


In [89]:
np.median(x)

1.5

In [90]:
np.std(x)

0.82915619758885

#### Entfernen "unnötiger" Dimensionen

In [91]:
x = np.array([[1, 2, 3, 4, 5]])
x

array([[1, 2, 3, 4, 5]])

In [92]:
print(x.ndim)
print(x.shape)

2
(1, 5)


In [93]:
x = np.squeeze(x)
x

array([1, 2, 3, 4, 5])

In [94]:
print(x.ndim)
print(x.shape)

1
(5,)


### <b>Daten Sortieren</b>

In [95]:
a = np.array([[4, 3, 5], [1, 2, 1]])
a

array([[4, 3, 5],
       [1, 2, 1]])

In [98]:
a.sort(axis=1)
a

array([[1, 1, 2],
       [3, 4, 5]])

### <b>Fehlende Werte</b>

Fehlende Werte werden in Python üblicherweise mit `None` oder `NaN` (Not-a-Number) gekennzeichnet.

In [99]:
x = np.array([1, 2, 3, np.nan, 5, 6]) # 4. Arrayeintrag fehlt
x

array([ 1.,  2.,  3., nan,  5.,  6.])

In [100]:
np.sum(x), np.mean(x), np.std(x)

(nan, nan, nan)

<div class="alert alert-block alert-info">
    <b>Achtung:</b> Manche Funktionen funktionieren nicht mehr korrekt, wenn <i>NaN</i> Werte im Array enthalten sind! Trotzdem sollte man <i>NaN</i> <b>niemals</b> einfach durch andere, "unrealistische" Zahlen (z.B. -77.0, wie in SPSS üblich) ersetzen, sondern fehlende Werte anders behandeln.
</div>

#### 1D-Arrays

**Möglichkeit I**: Verwenden spezieller *NaN-sicherer* Funktionen, die NaN-Werte ignorieren

In [101]:
np.nansum(x), np.nanmean(x), np.nanstd(x)

(17.0, 3.4, 1.854723699099141)

**Möglichkeit II**: Auffinden und Maskieren von NaN-Werten

In [102]:
np.isnan(x) # bool Maske mit fehlenden Werten

array([False, False, False,  True, False, False])

In [104]:
np.sum(x[~np.isnan(x)]) # Nur Nicht-NaN-Werte werden in die Berechnung mit einbezogen

17.0

**Möglichkeit III**: Entfernen fehlender Werte

In [105]:
y = x[~np.isnan(x)] # NaN-Werte werden entfernt
print(y)
np.sum(y)

[1. 2. 3. 5. 6.]


17.0

### <b>Mehrdimensionale Arrays</b>

Mehrdimensionale Arrays verhalten sich analog:

In [106]:
x = np.array([[1, 2, 3], [4, np.nan, 5], [7, 8, np.nan], [np.nan, np.nan, np.nan]])
x

array([[ 1.,  2.,  3.],
       [ 4., nan,  5.],
       [ 7.,  8., nan],
       [nan, nan, nan]])

In [107]:
np.isnan(x)

array([[False, False, False],
       [False,  True, False],
       [False, False,  True],
       [ True,  True,  True]])

Bei 2D-Arrays gibt es zwei Möglichkeiten, fehlende Werte zu entfernen:

**Möglichkeit I**: Entfernen von Zeilen/Spalten, sobald **ein** (`any`) Eintrag *NaN* ist

In [112]:
x[~np.isnan(x).any(axis=1)] # Zeilen

array([[1., 2., 3.]])

In [113]:
x[:, ~np.isnan(x).any(axis=0)] # Spalten

array([], shape=(4, 0), dtype=float64)

**Möglichkeit II**: Entfernen von Zeilen/Spalten, sobald **alle** (`all`) Einträge *NaN* sind

In [114]:
x[~np.isnan(x).all(axis=1)] # Zeilen

array([[ 1.,  2.,  3.],
       [ 4., nan,  5.],
       [ 7.,  8., nan]])

In [115]:
x[:, ~np.isnan(x).all(axis=0)] # Spalten

array([[ 1.,  2.,  3.],
       [ 4., nan,  5.],
       [ 7.,  8., nan],
       [nan, nan, nan]])

## <b>SciPy</b>

offizielle Dokumentation: https://docs.scipy.org/doc/scipy/reference/index.html

SciPy ist eine Bibliothek von Algorithmen und mathematischen Werkzeugen, die für die Arbeit mit NumPy-Arrays entwickelt wurde.
* Lineare Algebra: `scipy.linalg`
* Statisktik: `scipy.stats`
* Optimierung: `scipy.opimize`
* dünnbesetzte Matrizen: `scipy.sparse`
* Signalverarbeitung: `scipy.signal`
* usw.

<div class="alert alert-block alert-info">
    Einzelne Komponenten müssen importiert werden:

### Beispiel: Filtern eines Signals

In [123]:
from scipy.signal import sosfiltfilt, butter

Ein Filter kann eingesetzt werden um Rauschen aus einem Signal zu entfernen:

In [124]:
import matplotlib.pyplot as plt
%matplotlib widget 
n = 201
t = np.linspace(0, 1, n)
np.random.seed(123)
signal = 1 + (t < 0.5) - 0.25 * t ** 2 + 0.05 * np.random.randn(n) # Beispielsignal mit Rauschen
sos = butter(4, 0.125, output='sos')
signal_filt = sosfiltfilt(sos, signal)

fig, ax = plt.subplots()
ax.plot(t, signal, alpha=0.5, label='ungefiltertes Signal')
ax.plot(t, signal_filt, label='gefiltertes Signal')
#ax.legend(framealpha=1, shadow=True)
ax.grid(alpha=0.25)
ax.set_xlabel('Time [s]');
# mehr zum Plotten im nächsten Video...

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …