# Zugriff auf Zeilen mit loc und iloc
*Erstellt von:* Thomas Schlögl\
*Datum:* 2024/08/18

Um einzelne Werte oder ganze Zeilen in einem DataFrame zu verändern, sind die beiden Methoden `loc[]` und `iloc[]` essentiell.

**Unterschied zwischen `.loc[]` und `.iloc[]`**
- **`.loc[]`**: Greift auf Zeilen basierend auf den **Index** (Key) zu. Dies ist besonders praktisch, wenn der DataFrame einen benutzerdefinierten Index (z.B. Strings) hat.
- **`.iloc[]`**: Greift auf Zeilen basierend auf der **numerischen Position (Zeilennummer)** im DataFrame zu. Dies ist nützlich, wenn der Zugriff auf Zeilen in der Reihenfolge ihres Auftretens im DataFrame erfolgt.

Der **Rückgabetyp** der Methoden ist entweder eine Series, ein DataFrame oder - bei Kombination mit einem Spaltennamen - ein simpler Datentyp.

**Beispiel:** Mehrere Personen mit Alter, Körpergröße und Geburtsdatum.
Im DataFrame werden für jeden Namen alle Daten gespeichert.

In [15]:
import pandas as pd

people = {
    "Name" : ["Anna", "Ben", "Clara", "David", "Eva"],
    "Alter" : [25, 30, 22, 28, 26],
    "Groesse" : [170, 168, 181, 167, 192],
    "Geburtsdatum" : ["2007-03-15", "2006-07-22", "2010-09-10", "2008-11-04", "2009-05-10"]
}

df1 = pd.DataFrame(people)
# df1 hat die Zeilennummer als Index
df1

Unnamed: 0,Name,Alter,Groesse,Geburtsdatum
0,Anna,25,170,2007-03-15
1,Ben,30,168,2006-07-22
2,Clara,22,181,2010-09-10
3,David,28,167,2008-11-04
4,Eva,26,192,2009-05-10


Wir legen einen zweiten DataFrame mit denselben Daten an, der Index ist aber der Name.

In [16]:
df2 = df1.copy() # Kopie erstellen
df2.set_index(['Name'], inplace=True); # Index setzen und in df2 ändern

# df2 hat den Namen als Index
df2

Unnamed: 0_level_0,Alter,Groesse,Geburtsdatum
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Anna,25,170,2007-03-15
Ben,30,168,2006-07-22
Clara,22,181,2010-09-10
David,28,167,2008-11-04
Eva,26,192,2009-05-10


## `loc[]` - Zugriff über ein nicht numerisches Label
`loc[]` wird verwendet, um eine Zeile anhand eines Index-Werts (Keys) der nicht numerisch ist zu selektieren.

In [17]:
# `loc[]` Bei loc kann man die Zeilennummer übergeben, wenn der DataFrame die Zeilennummer als Index hat. (Rückgabetyp Series)
df1.loc[2]

Name                 Clara
Alter                   22
Groesse                181
Geburtsdatum    2010-09-10
Name: 2, dtype: object

In [18]:
# `loc[]` Man kann auch mehrere Zeilen ausgeben (Rückgabetyp DataFrame)
df1.loc[[2,3]]

Unnamed: 0,Name,Alter,Groesse,Geburtsdatum
2,Clara,22,181,2010-09-10
3,David,28,167,2008-11-04


In [19]:
# Ausgabe einer einzigen Zeile (Rückgabetyp Series)
df2.loc['Clara']

Alter                   22
Groesse                181
Geburtsdatum    2010-09-10
Name: Clara, dtype: object

In [20]:
# Ausgabe mehrerer Zeilen (Rückgabetyp DataFrame)
df2.loc[['Clara','Ben']]

Unnamed: 0_level_0,Alter,Groesse,Geburtsdatum
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Clara,22,181,2010-09-10
Ben,30,168,2006-07-22


## `iloc[]` - Zugriff über den numerischen Index (Zeilennummer)
`iloc[]` wird verwendet, um eine Zeile anhand der Zeilennummer (numerischer Indexwert) zuzugreifen.

Dieser Zugriff funktioniert immer, auch dann wenn der Index auf ein Label gesetzt wurde.

In [21]:
# Ausgabe einer einzigen Zeile 
df2.iloc[2]

Alter                   22
Groesse                181
Geburtsdatum    2010-09-10
Name: Clara, dtype: object

In [22]:
# Ausgabe mehreren Zeilen
df2.iloc[[1, 2, 4]]

Unnamed: 0_level_0,Alter,Groesse,Geburtsdatum
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ben,30,168,2006-07-22
Clara,22,181,2010-09-10
Eva,26,192,2009-05-10


In [23]:
# funktioniert auch bei dem DataFrame der die Zeilennummern als Index hat.
df1.iloc[[1, 2, 4]]

Unnamed: 0,Name,Alter,Groesse,Geburtsdatum
1,Ben,30,168,2006-07-22
2,Clara,22,181,2010-09-10
4,Eva,26,192,2009-05-10


## Zugriff auf eine bestimmte Zelle
`loc[]` erlaubt die Angabe eines Spaltennamens, aber nur für einzelne Zeilen.
Rückgabetyp ist immer der Typ der Zelle.

In [24]:
df2.loc['Clara','Geburtsdatum'] # Angabe der Spalte bei der Übergabe

'2010-09-10'

In [25]:
# Ist eine Kurzform von:
series=df2.loc['Clara']
series['Geburtsdatum']

'2010-09-10'

In [26]:
# Umwandlung in eine Datumzeitangabe
pd.to_datetime(series['Geburtsdatum'])

Timestamp('2010-09-10 00:00:00')

Für mehrere Zeilen funktioniert es nicht, da das Ergebnis weder eine Series, noch ein DataFrame oder ein einzelner Datentyp wäre.\
`df1.loc[['Clara', 'Ben'], 'Alter']` funktioniert nicht!

### Zuweisen eines neuen Werts
`loc` unterstützt die Angabe eines Spaltennamens.

In [27]:
# David auf 30 Jahre setzen
df1.loc[3,'Alter']=30
df1

Unnamed: 0,Name,Alter,Groesse,Geburtsdatum
0,Anna,25,170,2007-03-15
1,Ben,30,168,2006-07-22
2,Clara,22,181,2010-09-10
3,David,30,167,2008-11-04
4,Eva,26,192,2009-05-10


In [28]:
# Eva auf 50 Jahre setzen
# In df2 kann mit dem Namen zugegriffen werden.
df2.loc['Eva','Alter']=50
print(df2)

       Alter  Groesse Geburtsdatum
Name                              
Anna      25      170   2007-03-15
Ben       30      168   2006-07-22
Clara     22      181   2010-09-10
David     28      167   2008-11-04
Eva       50      192   2009-05-10
