# Indizierung und Slicing

Indizierung ist die Auswahl einer Teilmenge eurer Daten oder einzelner Elemente. In eindimensionalen Arrays ist das sehr einfach; verhalten sie sich doch ähnlich wie Python-Listen:

In [1]:
import numpy as np

In [2]:
rng = np.random.default_rng()
data = rng.normal(size=(7, 3))
data

array([[ 1.1469415 , -0.12074556,  0.96897949],
       [ 1.90591685, -2.03224601,  0.4147766 ],
       [-2.12646024, -0.67572832,  0.59449158],
       [-1.1253562 , -0.81705783, -0.39329958],
       [ 0.70068163,  0.56506983,  1.85578596],
       [ 0.37420782, -0.92259016,  1.40547729],
       [ 1.12252452, -0.76139895, -0.85063084]])

In [3]:
data[4]

array([0.70068163, 0.56506983, 1.85578596])

In [4]:
data[2:4]

array([[-2.12646024, -0.67572832,  0.59449158],
       [-1.1253562 , -0.81705783, -0.39329958]])

In [5]:
data[2:4] = rng.normal(size=(2, 3))

In [6]:
data

array([[ 1.1469415 , -0.12074556,  0.96897949],
       [ 1.90591685, -2.03224601,  0.4147766 ],
       [-0.78080155, -0.2848204 ,  0.60034277],
       [ 0.63852837,  0.0104645 , -0.64995338],
       [ 0.70068163,  0.56506983,  1.85578596],
       [ 0.37420782, -0.92259016,  1.40547729],
       [ 1.12252452, -0.76139895, -0.85063084]])

<div class="alert alert-block alert-info">

**Bemerkung:**

Array-Slices unterscheiden sich von Python-Listen dadurch, dass sie Sichten (_views_) auf das ursprüngliche Array sind. Das bedeutet, dass die Daten nicht kopiert werden und dass alle Änderungen an der View im Ausgangsarray wiedergegeben werden.

Wenn ihr eine Kopie eines Teils eines `ndarray` erstellen wollt, könnt ihr das Array explizit kopieren – z.B. mit `data[2:5].copy()`.
</div>

_Slicing_ in dieser Weise führt immer zu Array-Ansichten mit der gleichen Anzahl von Dimensionen. Wenn ihr jedoch ganzzahlige Indizes und Slices mischt, erhaltet ihr Slices mit niedrigeren Dimensionen. So können wir z.B. die zweite Zeile, aber nur die ersten beiden Spalten wie folgt auswählen:

In [7]:
data[1, :2]

array([ 1.90591685, -2.03224601])

Ein Doppelpunkt bedeutet, dass die gesamte Achse genommen wird, so dass ihr auch höherdimensionale Achsen auswählen könnt:

In [8]:
data[:, :1]

array([[ 1.1469415 ],
       [ 1.90591685],
       [-0.78080155],
       [ 0.63852837],
       [ 0.70068163],
       [ 0.37420782],
       [ 1.12252452]])

## Boolesche Indizierung

Betrachten wir ein Beispiel, bei dem wir einige Daten in einem Array und ein Array von Namen mit Duplikaten haben. Ich werde hier die Funktion `normal` aus `numpy.random.default_rng` verwenden, um einige zufällige normalverteilte Daten zu erzeugen:

In [9]:
names = np.array(['Liam', 'Olivia', 'Noah', 'Liam', 'Noah', 'Olivia', 'Liam', 'Emma', 'Oliver', 'Ava'])
data = rng.normal(size=(10, 4))

In [10]:
names

array(['Liam', 'Olivia', 'Noah', 'Liam', 'Noah', 'Olivia', 'Liam', 'Emma',
       'Oliver', 'Ava'], dtype='<U6')

In [11]:
data

array([[-1.44503094, -0.62129043, -0.11906667, -0.71266029],
       [ 0.91171329, -1.67661713, -0.0865867 , -0.28459871],
       [-2.34416763, -0.73786789, -0.99996397,  0.98841761],
       [ 0.19898987,  0.38184382,  2.21104594, -0.45827622],
       [-0.41360268, -0.13110495, -0.10246082,  0.02407514],
       [-0.0881936 , -0.13354555, -2.22324467, -0.18815392],
       [-2.21865645,  1.12028967,  0.98281139,  0.54117083],
       [ 0.82470539,  0.15215646, -0.81168397, -0.10666738],
       [ 0.53583695,  0.06542501,  0.49293032,  1.86691706],
       [-1.32132386,  1.05397059,  0.2201423 , -1.11059024]])

Angenommen, jeder Name entspricht einer Zeile im Datenarray und wir wollen alle Zeilen mit dem entsprechenden Namen _Liam_ auswählen. Wie arithmetische Operationen werden auch Vergleiche wie `==` mit Arrays vektorisiert. Der Vergleich von Namen mit der Zeichenkette `Liam` ergibt also ein boolesches Array:

In [12]:
names == 'Liam'

array([ True, False, False,  True, False, False,  True, False, False,
       False])

Dieses boolesche Array kann beim Indizieren des Arrays übergeben werden:

In [13]:
data[names == 'Liam']

array([[-1.44503094, -0.62129043, -0.11906667, -0.71266029],
       [ 0.19898987,  0.38184382,  2.21104594, -0.45827622],
       [-2.21865645,  1.12028967,  0.98281139,  0.54117083]])

Dabei muss das boolesche Array die gleiche Länge haben wie die Arrayachse, die es indiziert.

<div class="alert alert-block alert-info">

**Bemerkung:**

Die Auswahl von Daten aus einem Array durch boolesche Indizierung und die Zuweisung des Ergebnisses an eine neue Variable erzeugt immer eine Kopie der Daten, selbst wenn das zurückgegebene Array unverändert ist.
</div>

Im folgenden Beispiel wähle ich die Zeilen aus, in denen `Namen == 'Liam'` ist und indiziere auch die Spalten:

In [14]:
data[names == 'Liam', 2:]

array([[-0.11906667, -0.71266029],
       [ 2.21104594, -0.45827622],
       [ 0.98281139,  0.54117083]])

Um alles außer _Liam_ auszuwählen, könnt ihr entweder `!=` verwenden oder die Bedingung mit `~` negieren:

In [15]:
names != 'Liam'

array([False,  True,  True, False,  True,  True, False,  True,  True,
        True])

In [16]:
cond = names == 'Liam'
data[~cond]

array([[ 0.91171329, -1.67661713, -0.0865867 , -0.28459871],
       [-2.34416763, -0.73786789, -0.99996397,  0.98841761],
       [-0.41360268, -0.13110495, -0.10246082,  0.02407514],
       [-0.0881936 , -0.13354555, -2.22324467, -0.18815392],
       [ 0.82470539,  0.15215646, -0.81168397, -0.10666738],
       [ 0.53583695,  0.06542501,  0.49293032,  1.86691706],
       [-1.32132386,  1.05397059,  0.2201423 , -1.11059024]])

Wenn ihr zwei der drei Namen auswählt, um mehrere boolesche Bedingungen zu kombinieren, könnt ihr die booleschen arithmetischen Operatoren `&` (und) und `|` (oder) verwenden.

<div class="alert alert-block alert-warning">

**Warnung:**

Die Python-Schlüsselwörter `and` und `or` funktionieren nicht mit booleschen Arrays.
</div>

In [17]:
mask = (names == 'Liam') | (names == 'Olivia')

In [18]:
mask

array([ True,  True, False,  True, False,  True,  True, False, False,
       False])

In [19]:
data[mask]

array([[-1.44503094, -0.62129043, -0.11906667, -0.71266029],
       [ 0.91171329, -1.67661713, -0.0865867 , -0.28459871],
       [ 0.19898987,  0.38184382,  2.21104594, -0.45827622],
       [-0.0881936 , -0.13354555, -2.22324467, -0.18815392],
       [-2.21865645,  1.12028967,  0.98281139,  0.54117083]])

## Ganzzahlige Array-Indizierung

Ganzzahlige Array-Indizierung ermöglicht die Auswahl beliebiger Elemente im Array auf der Grundlage eures N-dimensionalen Index. Jedes Integer-Array repräsentiert eine Anzahl von Indizes in dieser Dimension. 

<div class="alert alert-block alert-info">

**Siehe auch:**

* [Integer array indexing](https://numpy.org/doc/stable/user/basics.indexing.html#integer-array-indexing)
</div>