# Series and dataframe

Series is the data structure for a single column of a DataFrame, not only conceptually, but literally, i.e. the data in a DataFrame is actually stored in memory as a collection of Series.

## Dataframe
- A DataFrame has rows and columns and is therefore 2-dimensional.
- It always has a row index of integer values, starting with 0 (integer index).
- The rows in the DataFrame are labelled (if no explicit label is passed to them, the rows are designated by default with integer values) (label index).
- It always has a column index of integer values, starting with 0 (integer index).
- The columns of the DataFrame always have a label (label index).

![title](img/dataframe.jpg)

In [2]:
import pandas as pd
df = pd.DataFrame({'Name' : ["Peter", "Karla", "Anne", "Nino", "Andrzej"],
                   'Alter': [34, 53, 16, 22, 61],
                   'Nationalität': ["deutsch", "schweizerisch", "deutsch", "italienisch", "polnisch"],
                   'Gehalt': [3400, 4000, 0, 2100, 2300]}, 
                  index = ['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'],
                 columns = ['Name', 'Alter', 'Nationalität', 'Gehalt'])
df

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-111,Anne,16,deutsch,0
ID-997,Nino,22,italienisch,2100
ID-707,Andrzej,61,polnisch,2300


## Numpy Indexing


- Sollen Spalten ausgewählt werden, müssen dem Indexing-Operator die entsprechenden Label übergeben werden.
- Sollen Zeilen ausgewählt werden, wird innerhalb des Indexing-Operators mit dem Slicing-Operator (der Doppelpunkt) gearbeitet.
- Soll ein Subset mit Zeilen und Spalten erstellt werden, geschieht dies sequentiell, indem der Indexing-Operator jeweils für Zeilen und Spalten verwendet wird.
- Eine Indizierung erzeugt einen View aus den originalen Daten.
- Zuweisungen unter Zuhilfenahme von numpy-Indizierungen sollten vermieden werden. Für Zuweisungen .loc und .iloc verwenden.
- Die Indizierung einer Spalte returniert eine Series.
- Wird dem Indexing-Operator eine Liste übergeben, wird ein DataFrame returniert.
- Der Slicing-Operator definiert einen Bereich in der Form: [von:bis:Schrittweite]


In [11]:
# Auswahl von Spalten
df['Name'] # Rückgabeobjekt ist eine Series.
# df[['Name']] # Rückgabe ist ein DataFrame 

ID-123      Peter
ID-462      Karla
ID-111       Anne
ID-997       Nino
ID-707    Andrzej
Name: Name, dtype: object

In [26]:
# Auswahl von Zeilen --> Bei der Zeilenindizierung wird immer der Slicing-Operator verwendet.
# df[1:2] # Rückgabe ist die erste Zeile mit dem Indexwert 1.
# df[0:5:2] # Jede zweite Zeile im Bereich 0 bis 5 wählen.
# df[:3] # Die Zeilen mit Integerindex 0 und 1 werden angezeigt.
# df[-2:] # Letzten beiden Zeilen anzeigen lassen.
 df[::-1] # Sortierung umdrehen.

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-462,Karla,53,schweizerisch,4000
ID-111,Anne,16,deutsch,0


In [29]:
# Sowohl Zeilen als auch Spalten selektieren
#df['Name'][4] # Rückgabe ist ein einzelner Wert gleichen Typs der Spalte, aus der er stammt.
df['Name'][2:4] # Rückgabe ist eine Series.
#df[['Name','Nationalität']][2:4] # Rückgabe ist ein DataFrame.

ID-111    Anne
ID-997    Nino
Name: Name, dtype: object

In [10]:
# Eine Zuweisung in dieser Notation sollte vermieden werden (siehe Warnung). Bei Zuweisungen loc und iloc verwenden.
df['Name'][2] = "Annemarie"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [15]:
# Indizierung mit Masken
# df[[True,False,True,False,False]] # Bei der Indizierung mit booleschen Werten werden Zeilen indiziert.
df[df['Alter'] > 30] #  Anwenden eines Filters

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-707,Andrzej,61,polnisch,2300


In [16]:
# Kurze Zusammenfassung:
df[[1,2]] # Integerwerte indizieren die Zeilen
df[[True,False,True,False,False]] # Boolesche Werte indizieren Zeilen
df[['Name','Gehalt']] # Column-Labels indizieren die Spalten
df['ID-111'] # Indizierung über Zeilenlabel returniert einen Key-Error. Dies liegt daran, dass Zeilennamen in numpy arrays nicht implementiert sind.

KeyError: "None of [Int64Index([1, 2], dtype='int64')] are in the [columns]"

# Pandas indexing

![title](img/slicingOperator.jpg)

## .LOC Indexing

In [33]:
# Zeilenindizierung
df.loc['ID-123'] # Rückgabeobjekt bei einer Zeile ist eine Series
df.loc[['ID-123']] # Analog zur numpy-Indizierung: Wird eine Liste übergeben, wird ein DataFrame returniert
df.loc[['ID-123'],:] # Gleiche Abfrage wie eine Zeile zuvor, aber expliziter und daher (wie ich finde) stilistisch schöner
df.loc[['ID-123','ID-111'],:] # Rückgabe ist ein DataFrame mit 2 Zeilen

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-111,Anne,16,deutsch,0


In [39]:
# Spaltenindizierung
df.loc[:,'Name'] # Rückgabe ist eine Series
df.loc[:,['Name']] # Rückgabe ist ein DataFrame
df.loc[:,'Name':'Nationalität'] # Spannweitenindizierung auch über die Label möglich. Rückgabe ist ein DataFrame (wie obige Zeile)

Unnamed: 0,Name,Alter,Nationalität
ID-123,Peter,34,deutsch
ID-462,Karla,53,schweizerisch
ID-111,Anne,16,deutsch
ID-997,Nino,22,italienisch
ID-707,Andrzej,61,polnisch


In [70]:
# Indiziere Zeile und Spalte
df.loc['ID-123','Name'] # Rückgabe ist der *type* der entsprechenden Zelle
#df.loc[['ID-123','ID-111'],'Name'] # Rückgabe ist eine Series
#df.loc[['ID-123','ID-111'],['Name']] # Rückgabe ein ein DataFrame

#df.loc[:'ID-111',] # Alle Zeilen bis einschließlich dem explizit gesuchten Fall

#df.loc[['ID-123','ID-111'],'Name':'Alter'] # Hier wird eine Range angegeben: Von Name bis Alter
df.loc[['ID-123', 'ID-462'],['Name', 'Alter']]


Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53


In [48]:
# Indizierung mit Maske
df.loc[df['Name'] == 'Peter',:]

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400


Für den Fall, dass eine Ausschluss-Indizierung vorgenommen werden soll, existiert sowohl für Index- als auch für Spaltenlabel die Methode difference. Ausschluss-Indizierung meint: Alle Zeilen/Spalten nur nicht Zeile/Spalte x.

In [50]:
df.index.difference(['ID-123'])
df.columns.difference(['Name'])

# Beispiel:
df.loc[df.index.difference(['ID-123']), df.columns.difference(['Name'])]

Unnamed: 0,Alter,Gehalt,Nationalität
ID-111,16,0,deutsch
ID-462,53,4000,schweizerisch
ID-707,61,2300,polnisch
ID-997,22,2100,italienisch


## .ILOC integer indexing
Purely integer-location based indexing for selection by position.

In [65]:
# ----- Zeilenindizierung
df.iloc[1,] # --> Rückgabewert ist eine Series
df.iloc[1,:] # --> Gleicher Ausdruck wie obige Zeile, aber explizite Schreibweise 

df.iloc[1:2,:] # --> Wird in der Zeilenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein DataFrame 
df.iloc[[1,2,3],:] # --> Wird in der Zeilenindizierung eine Liste übergeben, ist der Rückgabewert ebenfalls immer ein DataFrame

# ----- Spaltenindizierung
df.iloc[:,1] # --> Rückgabewert ist eine Series
df.iloc[:,0:1] # --> Wird in der Spaltenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein dataframe
df.iloc[:,[0,1]] # --> Wird in der Spaltenindizierung eine Liste übergeben, ist der Rückgabewert immer ein dataframe

#df.iloc[[1,-1],[2,3]] # --> Kombiniert
#df.iloc[-1,::-1] # Letzte Zeile ausgewählt, Reihenfolge der Spalten umgedreht; Rückgabewert ist eine Series
#df.iloc[0:5:2,:] # Gewohnte Zeilenindizierung aus numpy: Zeile 0 bis (exklusive) Zeile 5 mit Schrittweite 2 auswählen.

# Indizierungen mit Masken sind nur über .loc verfügbar.

Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53
ID-111,Anne,16
ID-997,Nino,22
ID-707,Andrzej,61


## .AT 
Access a single value for a row/column label pair.

In [34]:
# .at erwartet Labels - analog zu .loc
df.at['ID-111','Name']

# Wenn dennoch über Integers abgefragt werden soll, kann dies auf diesem Weg erfolgen:
df.at[df.index[2],df.columns[0]]


'Anne'

## Mixing up
When selecting rows and columns, it is quite common for a mixed form of integer and label indexing to be used. For example, the rows should be selected by their position and the columns by their label. To use such a mixed form in indexing, .iloc can be used in combination with the get_loc() utility method. The get_loc() method exists for both the row and column indexes.

![title](img/mixing_indexing.jpg)

In [35]:
df.iloc[df.index.get_loc('ID-111'), 0] # Gemischte Indizierung: Zeilenlabel und Spalteninteger
df.iloc[0,df.columns.get_loc('Name')] # Gemischte Indizierung: Zeileninteger und Spaltenlabel

# Den Methoden get_loc() für Index und Spalten kann keine Liste von Werten übergeben werden. Für die Suche nach mehreren Positionen kann folgende Technik verwendet werden: 
label = ['ID-123', 'ID-111']
integerLocations = [df.index.get_loc(i) for i in label]
df.iloc[integerLocations, 0]

ID-123    Peter
ID-111     Anne
Name: Name, dtype: object

Another way to combine integer and label indexing is to add .loc and .iloc to each other:

In [36]:
df.loc[:,['Name','Gehalt']].iloc[0:2,:]
df.iloc[0:2,:].loc[:,['Name','Gehalt']]


Unnamed: 0,Name,Gehalt
ID-123,Peter,3400
ID-462,Karla,4000


Another method for indexing to DataFrames is the default Python access operator (.). Since the columns of a DataFrame are attributes, they can be retrieved using the usual attribute access with df.ColumnName. This is also an indexing technique: We filter data by explicitly addressing the individual columns. The Attribute Access should only be used to query subsets from the DataFrame. For assignments .iloc and .loc should be used.

In [37]:
df.Name # --> Rückgabewert ist ein Series

ID-123      Peter
ID-462      Karla
ID-111       Anne
ID-997       Nino
ID-707    Andrzej
Name: Name, dtype: object

Which of these methods should be preferred?

Basically, the properties .iloc and .loc are to be preferred to the other methods - even if you have to restrict this statement.


## Iterate over DataFrame

In [74]:
for index, row in df.iterrows():
    print(row['Name'], row['Alter'])

Peter 34
Karla 53
Anne 16
Nino 22
Andrzej 61


In [75]:
list(df)

['Name', 'Alter', 'Nationalität', 'Gehalt']

In [76]:
df.index.values

array(['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'], dtype=object)