# Numpy Teil 4

In [3]:
import numpy as np

### np.nan
np.nan steht für "Not a Number" und ist ein spezieller Wert in NumPy, der verwendet wird, um fehlende oder undefinierte Werte darzustellen. \
Es wird häufig in Datensätzen verwendet, die unvollständige Informationen enthalten, z.B. bei numerischen Berechnungen, bei denen ein Wert nicht berechnet werden kann oder fehlt. \
`np.nan` ist **nicht gleich sich selbst**, d.h., der Ausdruck `np.nan == np.nan` gibt False zurück.

### np.isnan()
`np.isnan()` ist eine Funktion in numpy, die überprüft, ob die Elemente eines Arrays NaN sind.
Sie wird verwendet, um in einem Array nach `np.nan`-Werten zu suchen. Die Funktion gibt ein boolesches Array zurück, das angibt, welche Elemente NaN sind. \
Beispiel: Wenn wir ein Array data haben, können Sie `np.isnan(data)` verwenden, um ein boolesches Array zu erhalten, in dem True für NaN-Werte und False für alle anderen Werte steht.

In [4]:
data = np.array([1.0, 2.0, np.nan, 4.0])
data

array([ 1.,  2., nan,  4.])

In [5]:
nan_check = np.isnan(data)
nan_check

array([False, False,  True, False])

Elemente die keine Nan´s sind :

In [6]:
~np.isnan(data)

array([ True,  True, False,  True])

In [7]:
data * 100

array([100., 200.,  nan, 400.])

### Bedingte Logik als Array Operation
Die Funktion `where()` ist eine vektorisierte Version des ternären Ausdrucks `x if condition else y`.

In [8]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

Python Methode

In [9]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
print(result)

[np.float64(1.1), np.float64(2.2), np.float64(1.3), np.float64(1.4), np.float64(2.5)]


Numpy Methode

In [10]:
result = np.where(cond, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

In [11]:
result = np.where(cond, xarr, np.nan)
result

array([1.1, nan, 1.3, 1.4, nan])

`where()` kann auch mit multidimensionalen Arrays beutzt werden.<br>
Das zweite bzw. dritte Argument zu numpy.where muss kein Array sein, eines oder beide können Skalare sein.

In [12]:
# alle positiven Werte durch 10 und alle negativen durch -10 ersetzen
arr_w = np.arange(1,17).reshape( (4,4) )
arr_w

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [13]:
arr_w >= 10

array([[False, False, False, False],
       [False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [14]:
np.where(arr_w >= 10, "größer oder gleich 10",  "unter 10" )

array([['unter 10', 'unter 10', 'unter 10', 'unter 10'],
       ['unter 10', 'unter 10', 'unter 10', 'unter 10'],
       ['unter 10', 'größer oder gleich 10', 'größer oder gleich 10',
        'größer oder gleich 10'],
       ['größer oder gleich 10', 'größer oder gleich 10',
        'größer oder gleich 10', 'größer oder gleich 10']], dtype='<U21')

In [15]:
# positive Werte ersetzen, negative behalten
np.where(arr_w >= 10, arr_w, -1)

array([[-1, -1, -1, -1],
       [-1, -1, -1, -1],
       [-1, 10, 11, 12],
       [13, 14, 15, 16]])

### Mathematische und statistische Funktionen
Sie sind oft doppelt vorhanden, als Funktion der numpy Bibliothek und als Array Methode.

In [16]:
arr_mf = np.random.standard_normal((5, 4))
arr_mf

array([[ 0.99718798,  0.46923817, -0.68105857,  0.37641539],
       [ 1.59537929, -1.13263222,  1.04943634, -2.96650828],
       [-1.56182484, -1.38297799, -2.18044009,  0.4372416 ],
       [-0.85356034,  0.49700248,  0.56603393,  0.43892638],
       [ 0.17754029,  0.33683898,  1.50106882,  0.85229993]])

`mean()` - Arithmetischer Mittelwert

In [17]:
print(arr_mf.mean() == np.mean(arr_mf))
print(arr_mf.mean())

True
-0.07321963806784211


Die Methoden/Funktionen akzeptieren ein optionales `axis` Argument, so dass die Funktion an der angegebenen Achse berechnet wird.<br>
Bei zwei Dimensionen enspricht `axis=0` der Berechung über die Spalten und `axis=1` der Berechnung über die Zeilen. Das Ergebnis ist ein Array mit einer Dimension weniger: 

In [18]:
np.mean(arr_mf, axis=0), np.mean(arr_mf, axis=0).shape 

(array([ 0.07094448, -0.24250612,  0.05100808, -0.172325  ]), (4,))

In [19]:
arr_mf.mean(axis=1), arr_mf.mean(axis=1).shape 

(array([ 0.29044574, -0.36358122, -1.17200033,  0.16210061,  0.716937  ]),
 (5,))

### Grundlegende statistische Array-Methoden
<pre><b>
Methode                             Beschreibung</b>

sum                                 Summe aller Elemente in dem Array oder entlang einer Achse; Arrays der Länge null ergeben die Summe 0.

mean                                Arithmetischer Mittelwert; ungültig für Arrays der Länge null (liefert NaN).

std, var                            Standardabweichung bzw. Varianz.

min, max                            Minimum und Maximum.

argmin, argmax                      Indizes der minimalen bzw. maximalen Elemente
</pre>

### `axis` in numpy
`axis=1`: Bezieht sich auf die erste Dimension des Arrays, also die "Zeilen". Wenn Sie über `axis=1` aggregieren (z. B. mit `np.sum()`), wird die Operation auf alle Zeilen angewendet, und das Ergebnis ist eine Zusammenfassung für jede Spalte.

`axis=0`: Bezieht sich auf die zweite Dimension des Arrays, also die "Spalten". Wenn Sie über `axis=0` aggregieren, wird die Operation auf jede Zeile angewendet, und das Ergebnis ist eine Zusammenfassung für jede Zeile.

In [20]:
array = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])
print(array)
print(array.shape)

sum_axis_0 = np.sum(array, axis=0)
print("Summe über axis=0 (Spalten):", sum_axis_0)

sum_axis_1 = np.sum(array, axis=1)
print("Summe über axis=1 (Zeilen):", sum_axis_1)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
Summe über axis=0 (Spalten): [15 18 21 24]
Summe über axis=1 (Zeilen): [10 26 42]


#### Methoden für boolsche Arrays
`sum()` kann benutz werden um die Anzahl von `True` bzw. `False` zu bestimmen

In [38]:
arr_b = np.random.choice([True, False], size=  3)
arr_b

array([False,  True, False])

In [39]:
(arr_b > 0).sum()

np.int64(1)

In [41]:
(arr_b == 0).sum()

np.int64(2)

`any()` wird verwendet um zu prüfen ob `True` Werte im Array vorhanden sind (wie bei eine ODER Verknüpfung).<br>
`all()` entspricht einer UND Verknüpfung. DIe Methoden können auch auf Arrays mit Zahlen angewendet werden, 0 wird dabei als `False` interpretiert, alle anderen Zahlen als `True`.

In [24]:
arr_b.any()

np.True_

In [25]:
arr_b.all()

np.False_

#### Sortieren
Für eindimensionale Arrays funktioniert das wie bei Python Listen:

In [26]:
arr_s = np.random.standard_normal(6)
arr_s

array([ 1.10276043,  0.2542894 , -0.00797362,  0.53910466,  0.05852389,
        2.02597875])

In [27]:
arr_s.sort()
arr_s

array([-0.00797362,  0.05852389,  0.2542894 ,  0.53910466,  1.10276043,
        2.02597875])

Bei 2d Arrays sortiert `axis=0` die Werte in jeder Spalte, während `axis=1` in jeder Zeile sortiert:

In [28]:
arr_s = np.random.standard_normal((5,4))
arr_s

array([[ 1.55362745,  0.29116696,  0.39055583,  0.16498212],
       [ 0.54662483, -0.02560903, -0.9095729 ,  0.44630241],
       [ 0.98329884, -0.5420441 , -1.52021888, -0.68877751],
       [-0.15426318, -0.94739183, -0.65223716, -1.09144266],
       [-0.52215209, -1.68308849, -1.99455888,  0.17105827]])

In [29]:
arr_sp = arr_s.copy()
arr_sp.sort(axis=0)
arr_sp

array([[-0.52215209, -1.68308849, -1.99455888, -1.09144266],
       [-0.15426318, -0.94739183, -1.52021888, -0.68877751],
       [ 0.54662483, -0.5420441 , -0.9095729 ,  0.16498212],
       [ 0.98329884, -0.02560903, -0.65223716,  0.17105827],
       [ 1.55362745,  0.29116696,  0.39055583,  0.44630241]])

In [30]:
arr_sz = arr_s.copy()
arr_sz.sort(axis=1)
arr_sz

array([[ 0.16498212,  0.29116696,  0.39055583,  1.55362745],
       [-0.9095729 , -0.02560903,  0.44630241,  0.54662483],
       [-1.52021888, -0.68877751, -0.5420441 ,  0.98329884],
       [-1.09144266, -0.94739183, -0.65223716, -0.15426318],
       [-1.99455888, -1.68308849, -0.52215209,  0.17105827]])

`np.sort()` liefert eine kopierte Version anstatt den Array direkt zu verändern (Stichwort `inplace`)<br>
Standard beim Sortieren ist immer `axis=-1` (auch bei den Methoden).

In [31]:
arr_kopie = np.sort(arr_s)
print(arr_kopie)
print(arr_s)

[[ 0.16498212  0.29116696  0.39055583  1.55362745]
 [-0.9095729  -0.02560903  0.44630241  0.54662483]
 [-1.52021888 -0.68877751 -0.5420441   0.98329884]
 [-1.09144266 -0.94739183 -0.65223716 -0.15426318]
 [-1.99455888 -1.68308849 -0.52215209  0.17105827]]
[[ 1.55362745  0.29116696  0.39055583  0.16498212]
 [ 0.54662483 -0.02560903 -0.9095729   0.44630241]
 [ 0.98329884 -0.5420441  -1.52021888 -0.68877751]
 [-0.15426318 -0.94739183 -0.65223716 -1.09144266]
 [-0.52215209 -1.68308849 -1.99455888  0.17105827]]


#### Mengenlogik
Für eindimensionale Arrays<br>
`unique()` liefert die sortierten eindeutigen Werte in einem array zurück:

In [32]:
names = np.array(["Bob", "Will", "Joe", "Bob", "Will", "Joe", "Joe"])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

`isin()` prüft das Vorhandensein der Werte aus einem Array in einem anderen und liefert ein boolesches Array zurück:

In [33]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.isin(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True])

`intersect1d()` bildet die Schnittmenge

In [34]:
np.intersect1d([1, 2, 3], [2, 3, 4])

array([2, 3])

`union1d()` bildet die Vereinigungsmenge

In [35]:
np.union1d([1, 2, 3], [2, 3, 4])

array([1, 2, 3, 4])

`setdiff1d()` Mengendifferenz, Elemente in x, die nicht in y enthalten sind.

In [36]:
np.setdiff1d([1, 2, 3], [2, 3, 4])

array([1])

`setxor1d()` Symmetrische Mengendifferenzen, Elemente, die in einem der Arrays, aber nicht in beiden enthalten sind.

In [37]:
np.setxor1d([1, 2, 3], [2, 3, 4])

array([1, 4])