# Numpy Teil 4

In [1]:
import numpy as np

### np.nan
np.nan steht für "Not a Number" und ist ein spezieller Wert in NumPy, der verwendet wird, um fehlende oder undefinierte Werte darzustellen. \
Es wird häufig in Datensätzen verwendet, die unvollständige Informationen enthalten, z.B. bei numerischen Berechnungen, bei denen ein Wert nicht berechnet werden kann oder fehlt. \
`np.nan` ist **nicht gleich sich selbst**, d.h., der Ausdruck np.nan == np.nan gibt False zurück.

### np.isnan()
`np.isnan()` ist eine Funktion in numpy, die überprüft, ob die Elemente eines Arrays NaN sind.
Sie wird verwendet, um in einem Array nach `np.nan`-Werten zu suchen. Die Funktion gibt ein boolesches Array zurück, das angibt, welche Elemente NaN sind. \
Beispiel: Wenn wir ein Array data haben, können Sie `np.isnan(data)` verwenden, um ein boolesches Array zu erhalten, in dem True für NaN-Werte und False für alle anderen Werte steht.

In [2]:
data = np.array([1.0, 2.0, np.nan, 4.0])

nan_check = np.isnan(data)
nan_check

array([False, False,  True, False])

### Bedingte Logik als Array Operation
Die Funktion `where()` ist eine vektorisierte Version des ternären Ausdrucks `x if condition else y`.

In [3]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

Python Methode

In [4]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

[np.float64(1.1),
 np.float64(2.2),
 np.float64(1.3),
 np.float64(1.4),
 np.float64(2.5)]

Numpy Methode

In [5]:
result = np.where(cond, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

`where()` kann auch mit multidimensionalen Arrays beutzt werden.<br>
Das zweite bzw. dritte Argument zu numpy.where muss kein Array sein, eines oder beide können Skalare sein.

In [6]:
# alle positiven Werte durch 10 und alle negativen durch -10 ersetzen
arr_w = np.random.standard_normal((4,4))
print(arr_w)
np.where(arr_w >= 0, 10, -10)

[[-0.18087412 -0.83476885 -0.72756235 -0.65434885]
 [ 0.61381308 -0.48114043 -0.88485447  0.54597558]
 [-1.77050973  0.19729784 -0.38524472 -0.39419539]
 [ 1.82463482  0.61348644  0.58892801  0.73579864]]


array([[-10, -10, -10, -10],
       [ 10, -10, -10,  10],
       [-10,  10, -10, -10],
       [ 10,  10,  10,  10]])

In [7]:
# positive Werte ersetzen, negative behalten
np.where(arr_w >= 0, 10, arr_w)

array([[-0.18087412, -0.83476885, -0.72756235, -0.65434885],
       [10.        , -0.48114043, -0.88485447, 10.        ],
       [-1.77050973, 10.        , -0.38524472, -0.39419539],
       [10.        , 10.        , 10.        , 10.        ]])

### Mathematische und statistische Funktionen
Sie sind oft doppelt vorhanden, als Funktion der numpy Bibliothek und als Array Methode.

In [8]:
arr_mf = np.random.standard_normal((5, 4))
arr_mf

array([[ 1.33576393, -1.89370257, -1.53236031,  0.67830175],
       [ 0.54203733,  0.79718568,  0.4405246 ,  1.0633166 ],
       [-0.88908384,  1.90220877,  0.96990228, -1.62848131],
       [-1.48719786, -0.16188729,  1.30499685, -0.60417834],
       [ 0.05401891, -0.32926999,  1.37628103,  0.73553203]])

`mean()` - Arithmetischer Mittelwert

In [9]:
print(arr_mf.mean() == np.mean(arr_mf))
print(arr_mf.mean())

True
0.13369541265693916


Die Methoden/Funktionen akzeptieren ein optionales `axis` Argument, so dass die Funktion an der angegebenen Achse berechnet wird.<br>
Bei zwei Dimensionen enspricht `axis=1` der Berechung über die Spalten und `axis=0` der Berechnung über die Zeilen. Das Ergebnis ist ein Array mit einer Dimension weniger: 

In [22]:
np.mean(arr_mf, axis=0), np.mean(arr_mf, axis=0).shape 

(array([-0.49823179,  0.5616146 ,  0.30371759,  0.29646361]), (4,))

In [23]:
arr_mf.mean(axis=1), arr_mf.mean(axis=1).shape 

(array([ 0.2921596 , -0.04758443,  0.33396453, -0.06798179,  0.31889711]),
 (5,))

### Grundlegende statistische Array-Methoden
<pre><b>
Methode                             Beschreibung</b>

sum                                 Summe aller Elemente in dem Array oder entlang einer Achse; Arrays der Länge null ergeben die Summe 0.

mean                                Arithmetischer Mittelwert; ungültig für Arrays der Länge null (liefert NaN).

std, var                            Standardabweichung bzw. Varianz.

min, max                            Minimum und Maximum.

argmin, argmax                      Indizes der minimalen bzw. maximalen Elemente
</pre>

### `axis` in numpy
`axis=0`: Bezieht sich auf die erste Dimension des Arrays, also die "Zeilen". Wenn Sie über `axis=0` aggregieren (z. B. mit `np.sum()`), wird die Operation auf alle Zeilen angewendet, und das Ergebnis ist eine Zusammenfassung für jede Spalte.

`axis=1`: Bezieht sich auf die zweite Dimension des Arrays, also die "Spalten". Wenn Sie über `axis=1` aggregieren, wird die Operation auf jede Zeile angewendet, und das Ergebnis ist eine Zusammenfassung für jede Zeile.

In [12]:
array = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])
print(array)
print(array.shape)

sum_axis_0 = np.sum(array, axis=0)
print("Summe über axis=0 (Spalten):", sum_axis_0)

sum_axis_1 = np.sum(array, axis=1)
print("Summe über axis=1 (Zeilen):", sum_axis_1)
sum_ganz_arr = np.sum(array)
print(sum_ganz_arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
Summe über axis=0 (Spalten): [15 18 21 24]
Summe über axis=1 (Zeilen): [10 26 42]
78


#### Methoden für boolsche Arrays
`sum()` kann benutz werden um die Anzahl von `True` bzw. `False` zu bestimmen

In [13]:
arr_b = np.random.choice([True, False], size=  9)
arr_b

array([ True, False, False,  True, False,  True, False,  True,  True])

In [14]:
(arr_b > 0).sum()

np.int64(5)

In [15]:
(arr_b == 0).sum()

np.int64(4)

`any()` wird verwendet um zu prüfen ob `True` Werte im Array vorhanden sind (wie bei eine ODER Verknüpfung).<br>
`all()` entspricht einer UND Verknüpfung. DIe Methoden können auch auf Arrays mit Zahlen angewendet werden, 0 wird dabei als `False` interpretiert, alle anderen Zahlen als `True`.

In [16]:
arr_b.any()

np.True_

In [17]:
arr_b.all()

np.False_

#### Sortieren
Für eindimensionale Arrays funktioniert das wie bei Python Listen:

In [18]:
arr_s = np.random.standard_normal(6)
arr_s

array([-0.61739245,  0.19384228, -0.50150399,  0.23067264, -0.11765724,
        1.96055102])

In [19]:
arr_s.sort()
arr_s

array([-0.61739245, -0.50150399, -0.11765724,  0.19384228,  0.23067264,
        1.96055102])

Bei 2d Arrays sortiert `axis=0` die Werte in jeder Spalte, während `axis=1` in jeder Zeile sortiert:

In [20]:
arr_s = np.random.standard_normal((5,4))
arr_s

array([[ 0.3318997 ,  1.01774248, -0.00717852, -0.30094532],
       [ 0.70820189, -0.45245923,  1.15709677,  0.7798476 ],
       [-0.14494288,  0.45633116,  0.2860969 ,  0.53633689],
       [-0.70039042,  0.16860005, -1.02295499,  0.65103586],
       [ 0.65474132, -0.07814377, -0.82487335,  1.11570882]])

In [24]:
arr_sp = arr_s.copy()
arr_sp.sort(axis=0)
arr_sp

array([[-0.70039042, -0.45245923, -1.02295499, -0.30094532],
       [-0.14494288, -0.07814377, -0.82487335,  0.53633689],
       [ 0.3318997 ,  0.16860005, -0.00717852,  0.65103586],
       [ 0.65474132,  0.45633116,  0.2860969 ,  0.7798476 ],
       [ 0.70820189,  1.01774248,  1.15709677,  1.11570882]])

In [22]:
arr_sz = arr_s.copy()
arr_sz.sort(axis=1)
arr_sz

array([[-0.30094532, -0.00717852,  0.3318997 ,  1.01774248],
       [-0.45245923,  0.70820189,  0.7798476 ,  1.15709677],
       [-0.14494288,  0.2860969 ,  0.45633116,  0.53633689],
       [-1.02295499, -0.70039042,  0.16860005,  0.65103586],
       [-0.82487335, -0.07814377,  0.65474132,  1.11570882]])

`np.sort()` liefert eine kopierte Version anstatt den Array direkt zu verändern (Stichwort `inplace`)<br>
Standard beim Sortieren ist immer `axis=0` (auch bei den Methoden).

In [23]:
arr_kopie = np.sort(arr_s)
print(arr_kopie)
print(arr_s)

[[-0.30094532 -0.00717852  0.3318997   1.01774248]
 [-0.45245923  0.70820189  0.7798476   1.15709677]
 [-0.14494288  0.2860969   0.45633116  0.53633689]
 [-1.02295499 -0.70039042  0.16860005  0.65103586]
 [-0.82487335 -0.07814377  0.65474132  1.11570882]]
[[ 0.3318997   1.01774248 -0.00717852 -0.30094532]
 [ 0.70820189 -0.45245923  1.15709677  0.7798476 ]
 [-0.14494288  0.45633116  0.2860969   0.53633689]
 [-0.70039042  0.16860005 -1.02295499  0.65103586]
 [ 0.65474132 -0.07814377 -0.82487335  1.11570882]]


#### Mengenlogik
Für eindimensionale Arrays<br>
`unique()` liefert die sortierten eindeutigen Werte in einem array zurück:

In [52]:
names = np.array(["Bob", "Will", "Joe", "Bob", "Will", "Joe", "Joe"])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

`isin()` prüft das Vorhandensein der Werte aus einem Array in einem anderen und liefert ein boolesches Array zurück:

In [54]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.isin(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True])

`intersect1d()` bildet die Schnittmenge

In [55]:
np.intersect1d([1, 2, 3], [2, 3, 4])

array([2, 3])

`union1d()` bildet die Vereinigungsmenge

In [56]:
np.union1d([1, 2, 3], [2, 3, 4])

array([1, 2, 3, 4])

`setdiff1d()` Mengendifferenz, Elemente in x, die nicht in y enthalten sind.

In [58]:
np.setdiff1d([1, 2, 3], [2, 3, 4])

array([1])

`setxor1d()` Symmetrische Mengendifferenzen, Elemente, die in einem der Arrays, aber nicht in beiden enthalten sind.

In [59]:
np.setxor1d([1, 2, 3], [2, 3, 4])

array([1, 4])