![title](./pic/indexing/label_based/1_title.png)

In [4]:
import pandas as pd

In [5]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


---

## Indexing in pandas

Der Indizierungsoperator und die Attributauswahl sind gut, weil sie genau so funktionieren wie im übrigen Python-Ökosystem. Als Anfänger kann man sie daher leicht erlernen und verwenden. Allerdings hat Pandas seine eigenen Zugriffsoperatoren, `loc` und `iloc`. Für fortgeschrittene Operationen solltest du diese verwenden.

### Label-based selection

Das zweite Paradigma für die Attributauswahl ist dasjenige, dem der `loc`-Operator folgt: die **label-based selection**. Bei diesem Paradigma kommt es auf den Datenindexwert und nicht auf seine Position an.

Um zum Beispiel den ersten Eintrag in den Namen zu erhalten, würden wir nun folgendes tun:

![title](./pic/indexing/label_based/2_loc.png)

<video width="1000" controls src="./pic/indexing/label_based/3_loc_example.mp4" />

Willst du z.B. den speziellen Namen des ersten Passagieres extrahieren, kannst du das wie folgt

In [3]:
df.loc[0, 'Name']

'Kelly, Mr. James'

`iloc` ist konzeptionell einfacher als `loc`, weil es die Indizes des Datensatzes ignoriert. Wenn wir `iloc` verwenden, behandeln wir den Datensatz wie eine große Matrix (eine Liste von Listen), in die wir nach Position indizieren müssen. `loc` hingegen verwendet die Informationen in den Indizes, um seine Arbeit zu erledigen. Da dein Datensatz in der Regel über sinnvolle Indizes verfügt, ist es in der Regel einfacher, stattdessen `loc` zu verwenden. Hier ist zum Beispiel eine Operation, die mit `loc` viel einfacher ist:

In [4]:
df.loc[:, ['PassengerId', 'Name', 'Ticket']]

Unnamed: 0,PassengerId,Name,Ticket
0,892,"Kelly, Mr. James",330911
1,893,"Wilkes, Mrs. James (Ellen Needs)",363272
2,894,"Myles, Mr. Thomas Francis",240276
3,895,"Wirz, Mr. Albert",315154
4,896,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",3101298
...,...,...,...
413,1305,"Spector, Mr. Woolf",A.5. 3236
414,1306,"Oliva y Ocana, Dona. Fermina",PC 17758
415,1307,"Saether, Mr. Simon Sivertsen",SOTON/O.Q. 3101262
416,1308,"Ware, Mr. Frederick",359309


<br>

**Wahl zwischen `loc` und `iloc`**

Bei der Wahl oder dem Übergang zwischen `loc` und `iloc` gibt es ein "Problem", das man im Auge behalten sollte, nämlich dass die beiden Methoden leicht unterschiedliche Indizierungsschemata verwenden.

`iloc` verwendet das **Python-Stdlib-Indexierungsschema**, bei dem das erste Element des Bereichs eingeschlossen und das letzte ausgeschlossen wird. `0:10` wählt also die Einträge `0,...,9` aus. `loc` indiziert hingegen inklusiv. Also wird `0:10` die Einträge `0,...,10` auswählen.

Warum die Änderung? Erinnerst du dich daran, dass `loc` jeden stdlib-Typ indizieren kann: `Strings`, zum Beispiel. Wenn wir einen DataFrame mit den Indexwerten Äpfel, ..., Kartoffeln, ... haben und "alle alphabetisch sortierten Obstsorten zwischen Äpfeln und Kartoffeln" auswählen wollen, dann ist es viel praktischer, `df.loc['Äpfel':'Kartoffeln']` zu indizieren als etwas wie `df.loc['Äpfel', 'Kartoffeln']` (wobei das t im Alphabet nach dem s kommt).

Dies ist besonders verwirrend, wenn der DataFrame-Index eine einfache numerische Liste ist, z. B. `0,...,1000`. In diesem Fall gibt `df.iloc[0:1000]` **1000** Einträge zurück, während `df.loc[0:1000]` **1001** Einträge zurückgibt! Um mit `loc` 1000 Elemente zu erhalten, müssen Sie eine Stufe tiefer gehen und nach `df.loc[0:999]` fragen.

Ansonsten ist die Semantik der Verwendung von `loc` die gleiche wie die von `iloc`.