# Pandas

Pandas ist eine Python Bibliothek, welche für die Datenanalyse verwendet werden kann. Der Name leitet sich von den beiden englischen Worten "panel data" ab. Paneldaten sind mehrdimensionale Daten, welche oftmals aus einer zeitlichen aber auch nichtzeitlichen Dimension bestehen und in Tabellen organisiert werden, die aus Zeilen und Spalten bestehen, ähnlich wie man es von Excel-Tabellen kennt.

Eine Stärke von Pandas ist, dass es direkt CSV- und Excel-Dateien lesen und schreiben kann und ganz allgemein ist Pandas in der Lage grosse, mehrdimensionale Datensätze zu lesen, in überschaubare Teile zu zerlegen und wertvolle Erkenntnisse aus diesen Informationen zu gewinnen. Pandas baut auf der NumPy Bibliothek auf und nutzt daher auch Datenstrukturen von NumPy.

Wenn Sie die Anaconda-Distribution verwenden, dann ist die Python-Bibliothek Pandas bereits installiert. 

Um Pandas nutzen zu können, muss die Bibliothek importiert werden. 

In [2]:
import numpy as np
import pandas as pd

## Pandas Datenstrukturen

Pandas kennt drei Arten von Datenstrukturen: 
- Series
- DataFrame
- Panel (mehrere DataFrames als 3D Datencontainer, wird hier nicht behandelt)

## Series

Ein Series Objekt kann man sich als einzelne Spalte einer Excel-Tabelle mit dem zugehörigen Index vorstellen. <br>
Series Objekte haben ausserdem Ähnlichkeit zu den eindimensionalen Arrays in NumPy.

Pandas Series-Objekt werden mit der pandas.Series Klasse erstellt: <br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html <br>
Ein Series-Objekt behinhaltet zwei Komponenten: 
- Eine Sequenz von Werten
- Eine Sequenz von Indizes

Pandas Series erstellen

In [3]:
series_1 = pd.Series([10, 20, 30])
series_1

0    10
1    20
2    30
dtype: int64

Auf die Werte zugreifen (ist ein NumPy Array)

In [3]:
series_1.values

array([10, 20, 30])

Auf die Indizes zugreifen

In [4]:
series_1.index

RangeIndex(start=0, stop=3, step=1)

Ein wesentlicher Unterschied zu eindimensionalen NumPy Arrays liegt in der Indizierung der Elemente innerhalb eines Series Objektes. <br>

Gibt man bei der Erstellung eines Series Objektes nur eine Sequenz von Werten an (wie im oberen Beispiel), so werden diese Werte automatisch implizit mit Integerwerten von 0 bis ohne mit der Länge der Sequenz indiziert, genau wie das bei den eindimensionalen NumPy Arrays der Fall ist. <br>

Im Unterschied zu den NumPy Arrays kann ein Series Objekt aber auch einen (fast) beliebigen Typ von Index haben. Diesen - explizit gewählten - Index kann man sich wie eine Beschriftung der Zeilen innerhalb einer Excel Tabelle vorstellen:

Die Anzahl gegebener Indizes (zweites Argument) muss der Anzahl gegebener Werte (erstes Argument) entsprechen. 

In [5]:
series_2 = pd.Series([10, 20, 30], ['A', 'B', 'C'])
series_2

A    10
B    20
C    30
dtype: int64

Ein Series Objekt kann auch mit einem Dictionary erstellt werden, die Schlüssel bilden dann die Indizes

In [6]:
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})
Postleitzahlen

Zürich    8000
Bern      3000
Basel     4000
dtype: int64

Auf die Werte zugreifen

In [None]:
Postleitzahlen.values

Auf die Indizes zugreifen (es handelt sich hierbei um die Schlüssel aus dem Dictionary)

In [None]:
Postleitzahlen.index

Wird eine Index-Sequenz übergeben, so werden die Werte anhand der gegebenen Indizes neu indexiert. 

In [6]:
Postleitzahlen = pd.Series({"Zürich":8000, "Chur":7000, "Basel":4000}, ["Basel", "Chur", "Zürich"])
Postleitzahlen

Basel     4000
Chur      7000
Zürich    8000
dtype: int64

In [None]:
Postleitzahlen.values

In [None]:
Postleitzahlen.index

Series Objekte lassen sich auch vereinigen

In [7]:
lager_1 = pd.Series({"Schrauben":3 , "Nägel":25, "Muttern":33})
lager_2 = pd.Series({"Schrauben":0 , "Nägel":10, "Muttern":45})
lager_neu = lager_1 + lager_2
lager_neu

Schrauben     3
Nägel        35
Muttern      78
dtype: int64

### Zugriff auf Elemente innerhalb eines Series Objektes

In [8]:
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})

Zugriff über eckige Klammern und Positions-Index (ähnlich wie bei Listen oder NumPy Arrays)<br>
Man beachte: Obwohl die Label-Indizes durch die Dictionary-Schlüssel explizit angegeben worden sind, kann man trotzdem noch mit den (implizit gegebenen) Positions-Indizes auf die Elemente zugreifen. Die Positions-Indizes sind also immer gegeben, ob mit oder ohne explizit gegebener Label-Indizes.

In [None]:
Postleitzahlen[0]

Zugriff über eckige Klammern und Label-Index (ähnlich wie bei den Dictionaries)

In [None]:
Postleitzahlen["Zürich"]

Man kann auch auf mehrere Elemente gleichzeitig zugreifen, indem man eine Liste (oder array-ähnliches Objekt) der Indizes übergibt:

In [None]:
Postleitzahlen[["Zürich", "Bern"]]

Zugriff auf das letzte Element in der Series

In [None]:
Postleitzahlen[-1]

Zugriff auf Teilbereiche in der Series

In [None]:
Postleitzahlen[1:]

Zugriff und gleichzeitige Filterung mittels Booleschem Ausdruck

In [None]:
Postleitzahlen[Postleitzahlen > 3000]

Was ist jedoch, wenn die Indizes beim Series Objekt aus Integer Zahlen bestehen? <br>

In [2]:
Formen = pd.Series(["Kreis", "Rechteck", "Dreieck", "Quadrat"], index=[1, 2, 3, 8])
Formen

NameError: name 'pd' is not defined

Was geschieht nun, wenn man Formen[1] aufruft? <br>
Wird [1] als Positionsindex ausgewertet, so würde "Rechteck" zurück gegeben, wird [1] jedoch als Labelindex ausgewertet, dann würde "Kreis" zurück gegeben. 

In [None]:
# [1] wird als Labelindex ausgewertet
Formen[1]

Um Verwirrungen zu vermeiden bietet Pandas zwei Methoden für den Datenzugriff: 
- .loc für den Datenzugriff über den Label-Index 
- .iloc für den Datenzugriff über den Positions-Index

Man kann sich die Verwendung auch wie folgt merken: 
- Sie können .loc auf ein Series Objekt anwenden, ähnlich wie Sie [ ] bei einem Dictionary verwenden.
- Sie können .iloc auf ein Series Objekt anwenden, ähnlich wie Sie [ ] auf eine Liste oder ein NumPy Array anwenden.

Es ist empfohlen diese Methoden für den Zugriff auf die Elemente im Series-Objekt zu nutzen, da dadurch - für Sie aber auch für andere - klar definiert ist, auf welche Daten zugegriffen werden soll. <br>
Des Weiteren bieten die beiden Methoden Vorteile in der Performance gegenüber dem "normalen" Indizierungsoperator.



Zugriff auf Daten via Label-Index

In [10]:
Formen.loc[1]

'Kreis'

Zugriff auf Daten via Positions-Index

In [None]:
Formen.iloc[1]

Teilbereiche über Label-Index (INKLUSIVE dem angegebenen end-Element)

In [1]:
Formen.loc[1:2]

NameError: name 'Formen' is not defined

Teilbereiche über Positions-Index (EXKLUSIVE mit dem angegebenen end-Element)

In [11]:
Formen.iloc[1:2]

2    Rechteck
dtype: object

## DataFrame

Series Objekte sind insofern limitiert, da sie pro Index nur einen Wert speichern können. <br> 
Wenn man jedoch für jeden Index mehrere verschiedene Werte speichern möchte, dann ist das DataFrame Objekt die richtige Wahl. Diese Datenstruktur ist eine Aneinanderreihung von Series Objekten, welche denselben Index teilen.

Series Objekte zu DataFrame Objekt zusammenführen: 

In [4]:
import pandas as pd
# Zwei Series Objekte erstellen
Einwohnerzahlen = pd.Series({"Zürich":402762 , "Bern":133115, "Basel":171017})
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})

In [5]:
# Die Series Objekte werden mittels eines Dictionaries der DataFrame()-Methode übergeben und als Spalten eingefügt
Städte_Information = pd.DataFrame({"Anzahl Einwohner": Einwohnerzahlen, "Postleitzahlen": Postleitzahlen})
Städte_Information

Unnamed: 0,Anzahl Einwohner,Postleitzahlen
Zürich,402762,8000
Bern,133115,3000
Basel,171017,4000


In [6]:
# Die Series Objekte werden mittels einer Liste der DataFrame()-Methode übergeben, sie werden als Zeilen eingefügt
Städte_Information = pd.DataFrame([Einwohnerzahlen, Postleitzahlen], index=["Anzahl Einwohner", "Postleitzahlen"])
Städte_Information

Unnamed: 0,Zürich,Bern,Basel
Anzahl Einwohner,402762,133115,171017
Postleitzahlen,8000,3000,4000


Spaltennamen ändern

In [None]:
Städte_Information.columns = ["Stadt A", "Stadt B", "Stadt C"]
Städte_Information

Indexnamen ändern

In [None]:
Städte_Information.index = ["Zahlen 1", "Zahlen 2"]
Städte_Information

In [None]:
Städte_Information.index.name = "Indexspalte"
Städte_Information

Sind die Indizes der gegebenen Series Objekte unterschiedlich, so wird für jeden gegebenen Index eine Zeile im DataFrame erstellt, wobei die Zellen der "anderen" Series Objekte, welche diesen Index nicht beinhalten, mit NaN (Not a Number)
gefüllt werden: 

In [None]:
Einwohnerzahlen = pd.Series({"Zörich":402762 , "Born":133115, "Bisel":171017})
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})

In [None]:
Städte_Information = pd.DataFrame({"Anzahl Einwohner": Einwohnerzahlen, "Postleitzahlen": Postleitzahlen})
Städte_Information

Man kann ein DataFrame Objekt aber auch aus einem NumPy Array erstellen. In diesem Falle wird die Shape des Arrays im DataFrame abgebildet und die Zeilen und Spalten - sofern man nichts weiter angibt - mit Integer Werten indiziert: 

In [None]:
arr_1 = np.arange(0, 15).reshape(3, 5)
dataframe_3 = pd.DataFrame(arr_1)
dataframe_3

Man kann die Zeilen- und Spaltenbeschriftung auch definieren, indem man sie als weitere Argumente übergibt:

In [None]:
arr_1 = np.arange(0, 15).reshape(3, 5)
dataframe_4 = pd.DataFrame(arr_1, ['Zeile1', 'Zeile2', 'Zeile3'], ['Spalte1', 'Spalte2', 'Spalte3', 'Spalte4', 'Spalte5'])
dataframe_4

Die Werte, welche in einem DataFrame Objekte gespeichert sind, können wie beim Series Objekt über das values Property angesprochen werden: 

In [None]:
dataframe_4.values

Auf die Zeilen- und Spaltenbeschriftung kann mit Hilfe der axes()-Methode zugegriffen werden:

In [None]:
# Zugriff auf die Zeilenindizes
dataframe_4.axes[0]

In [None]:
# Zugriff auf die Spaltenindizes
dataframe_4.axes[1]

## Zugriff auf Elemente innerhalb eines DataFrame Objektes

In [None]:
Einwohnerzahlen = pd.Series({"Zürich":402762 , "Bern":133115, "Basel":171017})
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})
Städte_Information = pd.DataFrame({"Anzahl Einwohner": Einwohnerzahlen, "Postleitzahlen": Postleitzahlen})
Städte_Information

Die Spalten eines DataFrame Objektes können über den Indizierungs-Operator und den Spalten-Index angesprochen werden:

In [None]:
Städte_Information["Anzahl Einwohner"]

Die Spalte eines DataFrame Objektes ist ein Series Objekt

In [None]:
type(Städte_Information["Postleitzahlen"])

Handelt es sich bei der Spaltenbeschriftung um einen String, dann kann auch mit der Punkt Notation auf die Spalte
zugegriffen werden: 

Achtung: Je nach Spaltenbeschriftung kann diese Art des Zugriffs zu unerwünschtem Verhalten führen.
Wenn die Spaltenbeschriftung bspw. "shape" lautet, dann würde beim Zugriff mit der Punkt Notation auf diese Spalte
nicht der Spalteninhalt zurück gegeben werden, sondern die shape des DataFrame Objektes als Tuple. 

In [None]:
Städte_Information.Postleitzahlen

Die Zeilen von DataFrame Objekten können wie bei den Series Objekten über die loc() und iloc() Methoden angesprochen werden: 

In [None]:
# Zugriff auf die Zeile mit dem Label-Index "Zürich"
Städte_Information.loc["Zürich"]
# Städte_Information.loc["Zürich":"Bern"]

In [None]:
# Zugriff auf die Zeile mit dem Positions-Index 2
Städte_Information.iloc[2]

Beide Methoden - loc() und iloc() - akzeptieren auch ein zweites Argument, welches eine bestimmte Spalte definiert:

In [None]:
# Zugriff auf das Element in der Zeile mit dem Label-Index "Zürich" und der Spalte mit dem Index "Postleitzahlen"
Städte_Information.loc["Zürich", "Postleitzahlen"]

In [None]:
Städte_Information.loc["Zürich":"Bern", "Anzahl Einwohner"]

## Zeilen und Spalten manipulieren


In [None]:
Einwohnerzahlen = pd.Series({"Zürich":402762 , "Bern":133115, "Basel":171017})
Postleitzahlen = pd.Series({"Zürich":8000 , "Bern":3000, "Basel":4000})
Städte_Information = pd.DataFrame({"Anzahl Einwohner": Einwohnerzahlen, "Postleitzahlen": Postleitzahlen})

Neue Spalte hinzufügen

In [None]:
Städte_Information["Fläche"] = [88, 52, 24]
Städte_Information.insert(1, "Fläche", [88, 52, 24], allow_duplicates=True)
Städte_Information

Neue Zeile hinzufügen

In [None]:
neu = pd.Series(data={'Anzahl Einwohner':32957, 'Postleitzahlen':7000, 'Fläche':36}, name='Chur')
Städte_Information = Städte_Information.append(neu)
Städte_Information

Spalte umbenennen

In [None]:
Städte_Information.rename(columns={'Fläche': 'Flaeche'}, inplace = True)
# Städte_Information.set_axis(["Anzahl Einwohner", "Postleitzahlen", "Flaeche"], axis="columns",  inplace = True)
# Städte_Information.set_axis(["Anzahl Einwohner", "Postleitzahlen", "Flaeche"], axis=1,  inplace = True)
Städte_Information

Zeilen umbenennen

In [None]:
# Städte_Information.rename(index={"Zürich": "Zuerich"}, inplace=True)
# Städte_Information.set_axis(["Zuerich", "Bern", "Basel", "Chur"], axis="index",  inplace=True)
Städte_Information.set_axis(["Zuerich", "Bern", "Basel", "Chur"], axis=0,  inplace=True)
Städte_Information.index = ["Zuerich", "Bern", "Basel", "Chur"]
Städte_Information

Spalte löschen

In [None]:
Städte_Information.drop(columns=["Flaeche"], inplace=True)
# Städte_Information.drop("Flaeche", axis=1, inplace=True)
Städte_Information

Zeile löschen

In [None]:
# Städte_Information.drop(index=["Zürich"], inplace=True)
Städte_Information.drop("Zuerich", axis=0, inplace=True)
Städte_Information

## Datensätze filtern

Manchmal möchte man Teilbereiche eines Datensatzes auf Grund verschiedener Bedingungen filtern und daraus einen Teilbereich extrahieren (bspw. in ein neues DataFrame): 

In [5]:
planets = pd.read_csv('planets.csv')
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [None]:
# Nur diejenigen Planeten, welche vor dem Jahr 2000 entdeckt worden sind: 
planets_bf_2000 = planets[planets["year"] < 2000]
planets_bf_2000

In [None]:
# Nur diejenigen Planeten, deren Masse nicht NaN ist:
planets_mass = planets[planets["mass"].notna()]
planets_mass

In [None]:
# Nur diejenigen Planeten, deren Masse nicht NaN ist und vor dem Jahr 2000 entdeckt worden sind: 
planets_mass_bf_2000 = planets[(planets["mass"].notna()) & (planets["year"] < 2000)]
planets_mass_bf_2000

## Datensätze gruppieren und untersuchen

Man kann die Eigenschaften des Datensatzes mit diversen mathematischen Funktionen genauer untersuchen, es gibt auch die Möglichkeit Teile des Datensatzes neu zu gruppieren.

Mathematische Funktionen wie mean(), sum(), max(), min() lassen sich auf DataFrame und Series Objekte anwenden

In [None]:
planets["mass"].mean()

Die Daten im DataFrame Objekt lassen sich anhand einer ausgewählten Spalte sortieren: 

In [None]:
planets.sort_values(by="year", ascending=True)

Deskriptive Statistik:

In [None]:
planets.describe()

## Dateien schreiben und lesen


CSV-Datei lesen

In [None]:
planets = pd.read_csv('planets.csv')
planets

CSV-Datei schreiben

In [None]:
Städte_Information = pd.DataFrame({"Stadt": ["Zuerich", "Bern", "Basel"],
                                   "Anzahl Einwohner": [402762, 133115, 171017], 
                                    "Postleitzahlen" : [8000, 3000, 4000]})
Städte_Information.set_index("Stadt", inplace=True)
Städte_Information

In [None]:
Städte_Information.to_csv("Staedte_Info.csv")

## Von Pandas zu NumPy

In [None]:
series_1 = pd.Series([1, 2, 3])
series_2 = pd.Series([10, 20 ,30])
dataframe_1 = pd.DataFrame(np.array([series_1, series_2]), ['Zeile1', 'Zeile2'], ['Spalte1', 'Spalte2', 'Spalte3'])
dataframe_1

Neben dem values Property gibt es auch die Methode to_numpy(), welche den Inhalt eines DataFrame (oder Series) Objektes automatisch in ein NumPy ndarray transformiert. 

In [None]:
arr1 = dataframe_1.to_numpy()
arr1

## Umgang mit NaN (Not A Number)
Bei der Arbeit mit realen Daten wird immer wieder der Fall auftreten, dass vereinzelte Werte nicht vorhanden sind (bspw. weil bei der Messung der Daten ein Fehler aufgetreten ist und dadurch kurzzeitig keine Messung gemacht werden konnte). <br>
Solche fehlenden Datenpunkte werden innerhalb eines Series (oder DataFrame) Objektes mit NaN (Not A Number) gekennzeichnet. <br>
Pandas bietet ein paar nützliche Methoden, um solche fehlenden Daten zu lokalisieren und gegebenfalls auch zu löschen. 

In [None]:
Postleitzahlen = pd.Series({"Zürich":8000 , "Chur":7000, "Basel":4000}, ["Basel", "Chur", "Zürich", "St.Gallen", "Biel"])
Postleitzahlen

Auf NaN prüfen:

In [None]:
Postleitzahlen.isna()

In [None]:
Postleitzahlen.notna()

NaN löschen:<br>
(Das inplace=True Argument sorgt dafür, dass die Änderungen direkt am Objekt vorgenommen werden. Bei inplace=False wird die Änderung nur am zurückgegebenen Objekt durchgeführt, das ursprüngliche Objekt bleibt jedoch unverändert.)

In [None]:
Postleitzahlen.dropna(inplace=True)
Postleitzahlen

NaN auffüllen:

In [None]:
Postleitzahlen = pd.Series({"Zürich":8000 , "Chur":7000, "Basel":4000}, ["Basel", "Chur", "Zürich", "St.Gallen", "Biel"])
Postleitzahlen.fillna(0, inplace=True)
Postleitzahlen

Man kann die fehlenden Daten auch direkt ergänzen:

In [None]:
Postleitzahlen = pd.Series({"Zürich":8000 , "Chur":7000, "Basel":4000}, ["Basel", "Chur", "Zürich", "St.Gallen", "Biel"])
Postleitzahlen.fillna({"St.Gallen":9000, "Biel":2500}, inplace=True)

In [None]:
temp_sens = pd.read_csv('Temperatursensoren_NaN.csv')
temp_sens.set_index("Datum", inplace=True)
temp_sens

Alle Zeilen, welche NaN enthalten, löschen:

In [None]:
temp_sens.dropna()

Alle Spalten, welche NaN enthalten, löschen:

In [None]:
temp_sens.dropna(axis=1)

Anstatt einfach alle Zeilen, welche NaN enthalten zu löschen, kann man die fehlenden Werte anhand der gegebenen Messdaten auch interpolieren: 

In [None]:
temp_sens_interp = temp_sens.interpolate(method ='linear', limit_direction ='backward', limit=1)
# Ausgabe der ersten paar Zeilen des neuen DataFrame Objektes
temp_sens_interp.head()

In [None]:
# Vergleich mit ursprünglichen Daten
temp_sens.head()