# Einführung in Pandas

## Datenstrukturen
### Series

Eine Series ist ein eindimensionales Array mit einem Index.

In [4]:
import pandas as pd
import numpy as np

obj = pd.Series([4,7,-5,3])
obj # links sieht man den Index, rechts die Werte

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
obj2 = pd.Series([4,7,-5,3], index=['d', 'b', 'a', 'c' ])
obj2 # eigener Index

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index # Index anschauen, der Index ist vom Typ object

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
obj2['a'] # man kann über den Index selektieren
obj2[['a','b']] 
obj2.a # das geht auch

-5

In [9]:
obj2['d'] = 6 # so kann ich einen Wert zuordnen
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [21]:
obj2[obj2 > 0] # filtern
obj2 * 2       # multiplizieren

d     8
b    14
a   -10
c     6
dtype: int64

### DataFrame
Ein DataFrame ist eine tabellarische Datenstruktur, die **unterschiedliche** Datentypen haben können. Ein DataFrame besitzt sowohl einen Zeilenindex als auch einen Spaltenindex.

![Title](img/dataframe.png)

Ein Dataframe lässt sich z.B: über ein **Dictionary** erzeugen:

In [103]:
data = {'kanton': ['Wallis', 'Wallis', 'Wallis', 'Tessin', 'Tessin'], 'year': [2000,2001,2002, 2001,2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
data

{'kanton': ['Wallis', 'Wallis', 'Wallis', 'Tessin', 'Tessin'],
 'year': [2000, 2001, 2002, 2001, 2002],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [104]:
df = pd.DataFrame(data) # Dataframe mit dem oben definierten Dictionary instanziieren.
df

Unnamed: 0,kanton,year,pop
0,Wallis,2000,1.5
1,Wallis,2001,1.7
2,Wallis,2002,3.6
3,Tessin,2001,2.4
4,Tessin,2002,2.9


In [105]:
df['kanton'] # Spalte über den Index extrahieren ergibt eine Series
df[['kanton', 'year']] # mehrere Spalten über den Index extrahieren ergeben ein DataFrame


Unnamed: 0,kanton,year
0,Wallis,2000
1,Wallis,2001
2,Wallis,2002
3,Tessin,2001
4,Tessin,2002


In [106]:
df.year # Andere Möglichkeit, eine Spalte zu extrahieren (wieder eine Series)

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

In [107]:
frame2 = pd.DataFrame(data, columns=['year', 'kanton', 'pop', 'ausgaben'], index=['eins', 'zwei', 'drei', 'vier', 'fuenf'])
frame2 # Zeilenindex gesetzt und eine Spalte ohne Werte hinzugefügt

Unnamed: 0,year,kanton,pop,ausgaben
eins,2000,Wallis,1.5,
zwei,2001,Wallis,1.7,
drei,2002,Wallis,3.6,
vier,2001,Tessin,2.4,
fuenf,2002,Tessin,2.9,


In [108]:
frame2.loc['drei'] # Zeile auswählen (loc behandlen wir weiter unten)

year          2002
kanton      Wallis
pop            3.6
ausgaben       NaN
Name: drei, dtype: object

In [109]:
frame2['ausgaben'] = 16.5 # sehr cool: wird einfach auf die ganze Spalte angewandt
frame2

Unnamed: 0,year,kanton,pop,ausgaben
eins,2000,Wallis,1.5,16.5
zwei,2001,Wallis,1.7,16.5
drei,2002,Wallis,3.6,16.5
vier,2001,Tessin,2.4,16.5
fuenf,2002,Tessin,2.9,16.5


In [110]:
frame2['ausgaben'] = np.arange(5.) # abgedreht: so geht es auch: Funktion direkt auf die Spalte anwenden!
frame2

Unnamed: 0,year,kanton,pop,ausgaben
eins,2000,Wallis,1.5,0.0
zwei,2001,Wallis,1.7,1.0
drei,2002,Wallis,3.6,2.0
vier,2001,Tessin,2.4,3.0
fuenf,2002,Tessin,2.9,4.0


Zuweisen von Series wird automatisch an die DataFrames angepasst. Im Gegensatz dazu müssen Arrays oder Listen genau zum DataFrame passen.

In [111]:
val = pd.Series([-1.2, -1.5, -1.7], index=['drei', 'vier', 'fuenf'])
val

drei    -1.2
vier    -1.5
fuenf   -1.7
dtype: float64

In [112]:
frame2['ausgaben'] = val # man beachte NaN!
frame2

Unnamed: 0,year,kanton,pop,ausgaben
eins,2000,Wallis,1.5,
zwei,2001,Wallis,1.7,
drei,2002,Wallis,3.6,-1.2
vier,2001,Tessin,2.4,-1.5
fuenf,2002,Tessin,2.9,-1.7


Erzeugen einer nicht existierenden Spalte erzeugen eine neue.

In [113]:
frame2['sueden'] = frame2.kanton == 'Tessin' # das entspricht: Wenn Spalte state in der Zeile n = Tessin, dann wahr, ansonsten falsch
frame2

Unnamed: 0,year,kanton,pop,ausgaben,sueden
eins,2000,Wallis,1.5,,False
zwei,2001,Wallis,1.7,,False
drei,2002,Wallis,3.6,-1.2,False
vier,2001,Tessin,2.4,-1.5,True
fuenf,2002,Tessin,2.9,-1.7,True


Eine Zeile hinzufügen geht mit `append`


In [119]:
# Ziemlich aufwendig:
data = {'kanton': ['Tessin'], 'year': [2000], 'pop': [1.5], 'ausgaben' : '-1'}
df = pd.DataFrame(data, columns=['year', 'kanton', 'pop', 'ausgaben', 'sueden'], index=['sechs'])
frame2.append(df)

Unnamed: 0,year,kanton,pop,ausgaben,sueden
eins,2000,Wallis,1.5,,False
zwei,2001,Wallis,1.7,,False
drei,2002,Wallis,3.6,-1.2,False
vier,2001,Tessin,2.4,-1.5,True
fuenf,2002,Tessin,2.9,-1.7,True
sechs,2000,Tessin,1.5,-1.0,


Die Anweiseung `del` löscht eine Spalte.

In [46]:
del frame2['sueden']
frame2.columns

Index(['year', 'kanton', 'pop', 'ausgaben'], dtype='object')

Ein DataFrame kann auch aus verschachtelten *Dictionaries* erzeugt werden.

In [47]:
pop = {'Wallis': {2001: 2.4, 2002: 2.9},
       'Tessin': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [48]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Wallis,Tessin
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Transponieren

In [49]:
frame3.T # Tauscht die Achsen aus

Unnamed: 0,2001,2002,2000
Wallis,2.4,2.9,
Tessin,1.7,3.6,1.5


In [None]:
Zuletzt noch ein DataFrame aus einem Dictionary von Series:

In [50]:
pdata = {'Wallis': frame3['Wallis'][:-1],
         'Tessin': frame3['Tessin'][:2]} # Zur Erinnerung: Slicing gibt eine Series zurück
pd.DataFrame(pdata) # funktioniert auch...

Unnamed: 0,Wallis,Tessin
2001,2.4,1.7
2002,2.9,3.6


## Übungen

### Übung 1

Erzeuge ein DataFrame für folgende Tabelle:

| | | |
|-|-|-|
| Name | Beruf | Alter  |
| Bernd | Arzt | 54 |
| Viola | Informatikerin | 30 |
| Knut  | König | 70 |


### Übung 2
Füge zu dem DataFrame die Zeile "Vlademir, Bauarbeiter, 25" hinzu.

### Index

Indexe beinhalten die Achsenbeschriftungen und andere Metadaten vor und sind unveränderlich. Sie können **nicht** bearbeitet werden!

In [51]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
index[1:]

Index(['b', 'c'], dtype='object')

In [52]:
index[1] = 'd' # geht nicht! Siehe Fehlermeldung ganz unten (falls man das doch möchte: siehe redindex weiter unten)

TypeError: Index does not support mutable operations

### Wichtige Funktionen

Hierzu zählen 
- Neuindizierung
- Einträge von einer Achse löschen
- Inidizieren, selektieren und filtern


In [53]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [54]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [56]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3
obj3.reindex(range(6), method='ffill') # sehr cool, damit kann man einfach Spalten auffüllen lassen. Vorwärts ffill, rückwärts bfill

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

`reindex` kann etweder Zeilen, Spalten oder beides neu indizieren

In [59]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Wallis', 'Basel-Stadt', 'Basel-Land'])
frame
frame2 = frame.reindex(['a', 'b', 'c', 'd']) # so einfach kann man eine Zeile einfüllen!
frame2

Unnamed: 0,Wallis,Basel-Stadt,Basel-Land
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [61]:
kanton = ['Wallis', 'Tessin', 'Bern']
frame.reindex(columns=kanton) # zwei Kantone raus und zwei neue rein

Unnamed: 0,Wallis,Tessin,Bern
a,0,,
c,3,,
d,6,,


### Einträge löschen
Das geht mit `drop`.

In [65]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Wallis', 'Tessin', 'Bern', 'Basel-Stadt'],
                    columns=['eins', 'zwei', 'drei', 'vier'])
data

Unnamed: 0,eins,zwei,drei,vier
Wallis,0,1,2,3
Tessin,4,5,6,7
Bern,8,9,10,11
Basel-Stadt,12,13,14,15


In [66]:
data.drop(['Wallis', 'Bern'])

Unnamed: 0,eins,zwei,drei,vier
Tessin,4,5,6,7
Basel-Stadt,12,13,14,15


In [71]:
data.drop('zwei', axis=1) # axis=1 ist die x-Achse, axis=0 die y-Achse
data.drop(['zwei', 'vier'], axis='columns') # gleich zwei Achsen auf einmal löschen

Unnamed: 0,eins,drei
Wallis,0,2
Tessin,4,6
Bern,8,10
Basel-Stadt,12,14


### Indizieren, selektieren und filtern

In [73]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Wallis', 'Tessin', 'Bern', 'Waadt'],
                    columns=['eins', 'zwei', 'drei', 'vier'])
data
data['eins']
data[['drei', 'eins']]

Unnamed: 0,drei,eins
Wallis,2,0
Tessin,6,4
Bern,10,8
Waadt,14,12


In [74]:
data[:2]
data[data['vier'] > 5]

Unnamed: 0,eins,zwei,drei,vier
Tessin,4,5,6,7
Bern,8,9,10,11
Waadt,12,13,14,15


In [84]:
data < 5
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Selektionstechniken

- numpy-Notation
- iloc
- loc
- at
- Attribute-Access-Operator


In [75]:
import pandas as pd
df = pd.DataFrame({'Name' : ["Peter", "Karla", "Anne", "Nino", "Andrzej"],
                   'Alter': [34, 53, 16, 22, 61],
                   'Nationalität': ["deutsch", "schweizerisch", "deutsch", "italienisch", "polnisch"],
                   'Gehalt': [3400, 4000, 0, 2100, 2300]}, 
                  index = ['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'],
                 columns = ['Name', 'Alter', 'Nationalität', 'Gehalt'])
df

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-111,Anne,16,deutsch,0
ID-997,Nino,22,italienisch,2100
ID-707,Andrzej,61,polnisch,2300


### Selektion mit Numpy-Notation


- Sollen Spalten ausgewählt werden, müssen dem Indexing-Operator die entsprechenden Label übergeben werden.
- Sollen Zeilen ausgewählt werden, wird innerhalb des Indexing-Operators mit dem Slicing-Operator (der Doppelpunkt) gearbeitet.
- Soll ein Subset mit Zeilen und Spalten erstellt werden, geschieht dies sequentiell, indem der Indexing-Operator jeweils für Zeilen und Spalten verwendet wird.
- Eine Indizierung erzeugt einen View aus den originalen Daten.
- Zuweisungen unter Zuhilfenahme von numpy-Indizierungen sollten vermieden werden. Für Zuweisungen .loc und .iloc verwenden.
- Die Indizierung einer Spalte returniert eine Series.
- Wird dem Indexing-Operator eine Liste übergeben, wird ein DataFrame returniert.
- Der Slicing-Operator definiert einen Bereich in der Form: [von:bis:Schrittweite]


In [76]:
# Auswahl von Spalten
df['Name'] # Rückgabeobjekt ist eine Series.
# df[['Name']] # Rückgabe ist ein DataFrame 

ID-123      Peter
ID-462      Karla
ID-111       Anne
ID-997       Nino
ID-707    Andrzej
Name: Name, dtype: object

In [78]:
# Auswahl von Zeilen --> Bei der Zeilenindizierung wird immer der Slicing-Operator verwendet.
# df[1:2] # Rückgabe ist die erste Zeile mit dem Indexwert 1.
# df[0:5:2] # Jede zweite Zeile im Bereich 0 bis 5 wählen.
# df[:3] # Die Zeilen mit Integerindex 0 und 1 werden angezeigt.
# df[-2:] # Letzten beiden Zeilen anzeigen lassen.
df[::-1] # Sortierung umdrehen.

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-707,Andrzej,61,polnisch,2300
ID-997,Nino,22,italienisch,2100
ID-111,Anne,16,deutsch,0
ID-462,Karla,53,schweizerisch,4000
ID-123,Peter,34,deutsch,3400


In [79]:
# Sowohl Zeilen als auch Spalten selektieren
#df['Name'][4] # Rückgabe ist ein einzelner Wert gleichen Typs der Spalte, aus der er stammt.
df['Name'][2:4] # Rückgabe ist eine Series.
#df[['Name','Nationalität']][2:4] # Rückgabe ist ein DataFrame.

ID-111    Anne
ID-997    Nino
Name: Name, dtype: object

In [80]:
# Eine Zuweisung in dieser Notation sollte vermieden werden (siehe Warnung). Bei Zuweisungen loc und iloc verwenden.
df['Name'][2] = "Annemarie"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [81]:
# Indizierung mit Masken
# df[[True,False,True,False,False]] # Bei der Indizierung mit booleschen Werten werden Zeilen indiziert.
df[df['Alter'] > 30] #  Anwenden eines Filters

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-707,Andrzej,61,polnisch,2300


### iloc, loc

![title](img/slicingOperator.jpg)

#### loc

In [85]:
# Zeilenindizierung
df.loc['ID-123'] # Rückgabeobjekt bei einer Zeile ist eine Series
df.loc[['ID-123']] # Analog zur numpy-Indizierung: Wird eine Liste übergeben, wird ein DataFrame returniert
df.loc[['ID-123'],:] # Gleiche Abfrage wie eine Zeile zuvor, aber expliziter und daher (wie ich finde) stilistisch schöner
df.loc[['ID-123','ID-111'],:] # Rückgabe ist ein DataFrame mit 2 Zeilen

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-111,Annemarie,16,deutsch,0


In [86]:
# Spaltenindizierung
df.loc[:,'Name'] # Rückgabe ist eine Series
df.loc[:,['Name']] # Rückgabe ist ein DataFrame
df.loc[:,'Name':'Nationalität'] # Spannweitenindizierung auch über die Label möglich. Rückgabe ist ein DataFrame (wie obige Zeile)

Unnamed: 0,Name,Alter,Nationalität
ID-123,Peter,34,deutsch
ID-462,Karla,53,schweizerisch
ID-111,Annemarie,16,deutsch
ID-997,Nino,22,italienisch
ID-707,Andrzej,61,polnisch


In [87]:
# Indiziere Zeile und Spalte
df.loc['ID-123','Name'] # Rückgabe ist der *type* der entsprechenden Zelle
#df.loc[['ID-123','ID-111'],'Name'] # Rückgabe ist eine Series
#df.loc[['ID-123','ID-111'],['Name']] # Rückgabe ein ein DataFrame

#df.loc[:'ID-111',] # Alle Zeilen bis einschließlich dem explizit gesuchten Fall

#df.loc[['ID-123','ID-111'],'Name':'Alter'] # Hier wird eine Range angegeben: Von Name bis Alter
df.loc[['ID-123', 'ID-462'],['Name', 'Alter']]


Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53


In [88]:
# Indizierung mit Maske
df.loc[df['Name'] == 'Peter',:]

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400


Für den Fall, dass eine Ausschluss-Indizierung vorgenommen werden soll, existiert sowohl für Index- als auch für Spaltenlabel die Methode difference. Ausschluss-Indizierung meint: Alle Zeilen/Spalten nur nicht Zeile/Spalte x.

In [89]:
df.index.difference(['ID-123'])
df.columns.difference(['Name'])

# Beispiel:
df.loc[df.index.difference(['ID-123']), df.columns.difference(['Name'])]

Unnamed: 0,Alter,Gehalt,Nationalität
ID-111,16,0,deutsch
ID-462,53,4000,schweizerisch
ID-707,61,2300,polnisch
ID-997,22,2100,italienisch


#### iloc

In [90]:
# ----- Zeilenindizierung
df.iloc[1,] # --> Rückgabewert ist eine Series
df.iloc[1,:] # --> Gleicher Ausdruck wie obige Zeile, aber explizite Schreibweise 

df.iloc[1:2,:] # --> Wird in der Zeilenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein DataFrame 
df.iloc[[1,2,3],:] # --> Wird in der Zeilenindizierung eine Liste übergeben, ist der Rückgabewert ebenfalls immer ein DataFrame

# ----- Spaltenindizierung
df.iloc[:,1] # --> Rückgabewert ist eine Series
df.iloc[:,0:1] # --> Wird in der Spaltenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein dataframe
df.iloc[:,[0,1]] # --> Wird in der Spaltenindizierung eine Liste übergeben, ist der Rückgabewert immer ein dataframe

#df.iloc[[1,-1],[2,3]] # --> Kombiniert
#df.iloc[-1,::-1] # Letzte Zeile ausgewählt, Reihenfolge der Spalten umgedreht; Rückgabewert ist eine Series
#df.iloc[0:5:2,:] # Gewohnte Zeilenindizierung aus numpy: Zeile 0 bis (exklusive) Zeile 5 mit Schrittweite 2 auswählen.

# Indizierungen mit Masken sind nur über .loc verfügbar.

Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53
ID-111,Annemarie,16
ID-997,Nino,22
ID-707,Andrzej,61


### at
Einen einzelnen Wert kann man mit `at` abfragen. 

In [91]:
# .at erwartet Labels - analog zu .loc
df.at['ID-111','Name']

# Wenn dennoch über Integers abgefragt werden soll, kann dies auf diesem Weg erfolgen:
df.at[df.index[2],df.columns[0]]


'Annemarie'

## Übungen

### Übung 1

Aus folgendem DataFrame soll ein neues DataFrame erstellt werden, welches nur aus Mitarbeitern besteht, die älter als 18 Jahren sind.

In [129]:
data = {'name': ['James', 'Jason', 'Rogers', 'Jason'], 'age': [18, 20, 22, 21], 'job': ['Assistant', 'Manager', 'Clerk', 'Employee']}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,job
0,James,18,Assistant
1,Jason,20,Manager
2,Rogers,22,Clerk
3,Jason,21,Employee


### Übung 2

Aus dem DataFrame oben sollen mit Hilfe von iloc soll die 3. Zeile herausgefiltert werden. Aus dieser Zeile soll dann das Alter als Einzelwert extrahiert werden.

## Gemischtwarenladen

Recht häufig kommt es bei der Auswahl von Zeilen und Spalten vor, dass eine Mischform von Integer- und Labelindizierung vorgenommen werden soll. Beispielsweise sollen die Zeilen über ihre Position ausgewählt werden und die Spalten über ihr Label. Um solch eine Mischform in der Indizierung zu nutzen, kann .iloc in Kombination mit der Utility-Methode get_loc() verwendet werden. Die Methode get_loc() existiert sowohl für den Zeilen- als auch für den Spaltenindex.

![title](img/mixing_indexing.jpg)

In [92]:
df.iloc[df.index.get_loc('ID-111'), 0] # Gemischte Indizierung: Zeilenlabel und Spalteninteger
df.iloc[0,df.columns.get_loc('Name')] # Gemischte Indizierung: Zeileninteger und Spaltenlabel

# Den Methoden get_loc() für Index und Spalten kann keine Liste von Werten übergeben werden. Für die Suche nach mehreren Positionen kann folgende Technik verwendet werden: 
label = ['ID-123', 'ID-111']
integerLocations = [df.index.get_loc(i) for i in label]
df.iloc[integerLocations, 0]

ID-123        Peter
ID-111    Annemarie
Name: Name, dtype: object

Eine weitere Möglichkeit Integer- und Labelindizierung zu kombinieren, besteht durch das Aneinanderhängen von .loc und .iloc:

In [93]:
df.loc[:,['Name','Gehalt']].iloc[0:2,:]
df.iloc[0:2,:].loc[:,['Name','Gehalt']]


Unnamed: 0,Name,Gehalt
ID-123,Peter,3400
ID-462,Karla,4000


Eine weitere Methode um auf DataFrames zu indizieren, ist der in Python standardmäßig implementierte Access-Operator (.). Da es sich bei den Spalten eines DataFrames um Attribute handelt, können diese entsprechend über den gewohnten Attribute-Access mit df.ColumnName abgerufen werden. Auch hierbei handelt es sich um eine Indizierungstechnik: Wir filtern Daten über die explizite Ansprache der einzelner Spalten. Der Attribute-Access sollte allerdings nur dazu verwendet werden, Subsets aus dem DataFrame abzufragen. Für Zuweisungen sollen .iloc und .loc verwendet werden.

In [94]:
df.Name # --> Rückgabewert ist ein Series

ID-123        Peter
ID-462        Karla
ID-111    Annemarie
ID-997         Nino
ID-707      Andrzej
Name: Name, dtype: object

Welche dieser Methoden ist zu bevorzugen?
Grundsätzlich sind die Properties .iloc und .loc gegenüber den anderen Verfahren zu bevorzugen – auch wenn man bei dieser Aussage Einschräkungen machen muss.


## Über einen DataFrame iterieren

In [95]:
for index, row in df.iterrows():
    print(row['Name'], row['Alter'])

Peter 34
Karla 53
Annemarie 16
Nino 22
Andrzej 61


In [96]:
list(df)

['Name', 'Alter', 'Nationalität', 'Gehalt']

In [97]:
df.index.values

array(['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'], dtype=object)