Daten einsehen - loc[ , ] und iloc[ , ]


Oft ist es notwendig auf einzelne Einträge zuzugreifen, bspw. wenn man durch eine Spalte iteriert und jeden Eintrag individuell verändern möchte. Solche Zugriffe auf einzelne Einträge erfolgen durch die Angabe von Zeile und Spalte.

Die loc[,] Methode ist hierbei eine gute Möglichkeit. Ihr übergibt man den Zeilen-index (die Bezeichnung der Zeile) und die Bezeichnung der Spalte (column).

Die iloc[,] Methode greift andersherum durch die entrsprechende gezählte Stelle auf einen Eintrag zu. Dass heißt sowohl Zeilen- als auch Spaltenangaben müssen Ganzzahlen sein.

Wichtig: In Python beginnt die Nummerierung bei 0!

D.h. die erste Zeile ist nicht die 1., sondern die 0.! Selbiges gilt auch für die Spalten.






In [4]:
import pandas as pd

In [5]:
df = pd.read_csv('bookstore.csv')

In [6]:
display(df.head())

Unnamed: 0,Title,Author,Publication Year,List Price,Sale Price,Condition
0,The Lord of the Rings,"Tolkien, J.R.R.",1992,7.99,2.69,like new
1,The Bible,International Bible Society,2003,7.5,2.49,like new
2,The Pillars of the Earth,"Follett, Ken",2002,19.95,1.49,very good
3,Perfume: The Story of a Murderer,"Süskind, Patrick",2003,19.95,1.29,very good
4,The Little Prince,"Saint-Exupéry, Antoine de",2006,24.95,2.59,good


In [7]:
# loc[,]
# Zugriff auf Zeile mit Index=2 und Column="Title"
print(df.loc[2, "Title"])

# iloc[,]
# Zugriff auf 2. Zeile und 1. Spalte
print(df.iloc[2, 0])

The Pillars of the Earth
The Pillars of the Earth


Beim Vergleichen mit dem DataFrame oben sehen wir, dass der richtige Eintrag ausgegeben wurde.

Wir können uns auch mehrere Einträge ausgeben lassen:

In [8]:
# loc[,]
# Zugriff auf Zeile mit Index=1,2 und 3 
# und Column="Title" und "Author"
display(df.loc[[1,2,3], ["Title", "Author"]])

# iloc[,]
# Zugriff auf 1., 2. und 3. Zeile
# und 1. und 2. Spalte
display(df.iloc[[1,2,3], [0,1]])

Unnamed: 0,Title,Author
1,The Bible,International Bible Society
2,The Pillars of the Earth,"Follett, Ken"
3,Perfume: The Story of a Murderer,"Süskind, Patrick"


Unnamed: 0,Title,Author
1,The Bible,International Bible Society
2,The Pillars of the Earth,"Follett, Ken"
3,Perfume: The Story of a Murderer,"Süskind, Patrick"


Hierbei ist zu beachten, dass bei Angaben von mehreren Zeilen oder Spalten diese in Klammern gesetzt werden müssen.

Eine Ausnahme hierbei ist Slicing (Auswahl durch benutzen von Doppelpunkten), bei dem keine Klammern notwendig sind:

In [9]:
# loc[,]
# Zugriff auf Zeile mit Index=3 und alles davor 
# und Column="Author" und alles danach
display(df.loc[:3, "Author":])

# iloc[,]
# Zugriff auf alles bis zur 3. Zeile 
# und alles ab der 1. Spalte
display(df.iloc[:4, 1:])

# Wichtig: Hier unterscheiden sich die ersten Einträge von loc und iloc

Unnamed: 0,Author,Publication Year,List Price,Sale Price,Condition
0,"Tolkien, J.R.R.",1992,7.99,2.69,like new
1,International Bible Society,2003,7.5,2.49,like new
2,"Follett, Ken",2002,19.95,1.49,very good
3,"Süskind, Patrick",2003,19.95,1.29,very good


Unnamed: 0,Author,Publication Year,List Price,Sale Price,Condition
0,"Tolkien, J.R.R.",1992,7.99,2.69,like new
1,International Bible Society,2003,7.5,2.49,like new
2,"Follett, Ken",2002,19.95,1.49,very good
3,"Süskind, Patrick",2003,19.95,1.29,very good


DATEN ÄNDERN


Auf die selbe Art, wie wir auf einzelne Einträge zugreifen, können wir entsprechend Einträge auch ändern.

Ändert sich bspw. der Verkaufspreis von dem ersten Buch in unserem DataFrame können wir diesen über loc[,] bzw. iloc[,] ändern:

In [10]:
print("Alter Verkaufspreis:  ", df.loc[0, "Sale Price"])

# Neuen Preis zuweisen
df.loc[0, "Sale Price"] = 1.49

print("Neuer Verkaufspreis:  ", df.loc[0, "Sale Price"])

Alter Verkaufspreis:   2.69
Neuer Verkaufspreis:   1.49


Auf die selbe Weise können wir auch den index und die columns unseres DataFrames ändern.

Wollen wir bspw. unsere columns auf deutsch haben, können wir dies durch eine einfache Zuweisung einer gleichlangen Liste ändern:

In [11]:
# Zuweisung neuer columns
df.columns = ['Titel', 'Autor', 'Erscheinungsjahr', 'Listenpreis', 'Verkaufspreis', 'Zustand']

display(df.head())

Unnamed: 0,Titel,Autor,Erscheinungsjahr,Listenpreis,Verkaufspreis,Zustand
0,The Lord of the Rings,"Tolkien, J.R.R.",1992,7.99,1.49,like new
1,The Bible,International Bible Society,2003,7.5,2.49,like new
2,The Pillars of the Earth,"Follett, Ken",2002,19.95,1.49,very good
3,Perfume: The Story of a Murderer,"Süskind, Patrick",2003,19.95,1.29,very good
4,The Little Prince,"Saint-Exupéry, Antoine de",2006,24.95,2.59,good


DATEN HINZUFÜGEN

Genauso einfach lassen sich auch neue Daten hinzufügen. Hierbei wäre es egal ob Zeilen hinzukommen, wenn weitere Bücher aufgenommen werden, oder Spalten hinzukommen, wenn wir eine neue Eigenschaft erfassen wollen.

Würden wir bspw. einen Online-Leihandel gründen und deshalb ebenfalls vermerken wollen ob ein Buch momentan ausgeliehen ist oder nicht, können wir dies in einer weiteren Spalte vermerken.

Hier ist wichtig, dass das Objekt (hier eine Liste), welches wir der neuen Spalte zuweisen wollen, auch die selbe Länge hat wie diese.

Wäre in unserem Beispie die Liste zu lang oder zu kurz, würden wir eine entsprechende Fehlermeldung erhalten.

In [14]:
# Zuweisen der neuen Spalte
df.loc[:, "Status"] = ["available"] * 30

display(df.head())

Unnamed: 0,Titel,Autor,Erscheinungsjahr,Listenpreis,Verkaufspreis,Zustand,Status
0,The Lord of the Rings,"Tolkien, J.R.R.",1992,7.99,1.49,like new,available
1,The Bible,International Bible Society,2003,7.5,2.49,like new,available
2,The Pillars of the Earth,"Follett, Ken",2002,19.95,1.49,very good,available
3,Perfume: The Story of a Murderer,"Süskind, Patrick",2003,19.95,1.29,very good,available
4,The Little Prince,"Saint-Exupéry, Antoine de",2006,24.95,2.59,good,available


Kurzschreibweise
Es gibt die Möglichkeit diese Schreibweise abzukürzen.

Wollen wir bspw. auf eine oder mehrere ganze Spalten zugreifen, so können wir auch Folgendes schreiben:

df["Titel"] anstatt df.loc[:, "Title"] (Ausgabe ist eine Series)

df[["Titel", "Autor"]] anstatt df.loc[:, ["Titel", "Autor"]] (Ausgabe ist ein DataFrame)

In [15]:
display(df["Titel"].head())

0               The Lord of the Rings
1                           The Bible
2            The Pillars of the Earth
3    Perfume: The Story of a Murderer
4                   The Little Prince
Name: Titel, dtype: object

In [16]:
display(df[["Titel", "Autor"]].head())

Unnamed: 0,Titel,Autor
0,The Lord of the Rings,"Tolkien, J.R.R."
1,The Bible,International Bible Society
2,The Pillars of the Earth,"Follett, Ken"
3,Perfume: The Story of a Murderer,"Süskind, Patrick"
4,The Little Prince,"Saint-Exupéry, Antoine de"
