# Pandas

Mit Pandas (= panel data) lassen sich tabellarische Daten sehr komfortabel handhaben. Mehr unter https://pandas.pydata.org/.

Sehr hilfrich:
- https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Pandas nutzt zwei wichtige Datenstrukturen:
- `Series` sind 1-dimensionale Arrays. Im Gegensatz zu Numpy-Arrays haben sie aber einen zusätzlichen Index, über den man komfortabel auf Einträge zugreifen kann. Intern baut dies auf Numpy-Arrays auf.
- `DataFrame` ist eine ganze Tabelle bestehend aus mehreren Series (=Spalten) gleicher Länge.

In [26]:
import numpy as np
import pandas as pd



#### DataFrames

In [27]:
starwars = pd.DataFrame({
   
    "name": ["Luke", "Chewbacca", "Darth Vader"],
    "jedi": [True, False, True],
    "height": [172, 228, 202]

})
starwars

Unnamed: 0,name,jedi,height
0,Luke,True,172
1,Chewbacca,False,228
2,Darth Vader,True,202


Jede Spalte ist eine Series.

In [28]:
starwars["height"]
type(starwars["height"])

pandas.core.series.Series

Die vorderste Spalte eines DataFrame (oder Series) ist der sogenannte Index. Er enthält die *Zeilennamen*. Standardmäßig sind dies die Zahlen 0, 1, 2, ...
Man kann jedoch auch einen anderen Index setzen.

In [29]:
starwars.index
starwars.set_index("name")


Unnamed: 0_level_0,jedi,height
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Luke,True,172
Chewbacca,False,228
Darth Vader,True,202


Man kann eine Series auch explizit erzeugen. Falls man keinen Index angibt, sind es wieder die Zahlen 0, 1, 2, ...

In [30]:
pd.Series(np.random.standard_normal(5), index = ["a","b", "f", "fjls", "sdfh"])

a       0.052905
b      -0.210778
f       0.963985
fjls    1.741944
sdfh   -2.289864
dtype: float64

#### Daten einlesen und schreiben

Pandas bietet eine Vielzahl an Möglichkeiten um Daten aus Datenbanken (via SQL) oder aus Dateien einzulesen, z.B. csv, xlsx, parquet, feather, ...

In [31]:
starwars = pd.read_csv("starwars.csv")
starwars

Unnamed: 0,name,height,mass,sex,eye_color,homeworld,jedi
0,Luke Skywalker,172,77.0,male,blue,Tatooine,True
1,R2-D2,96,32.0,none,red,Naboo,False
2,Darth Vader,202,136.0,male,yellow,Tatooine,True
3,Leia Organa,150,49.0,female,brown,Alderaan,True
4,Chewbacca,228,112.0,male,blue,Kashyyyk,False
5,Yoda,66,17.0,male,brown,,True
6,Boba Fett,183,78.2,male,brown,Kamino,False


Ersten Einblick in die Daten gewinnen.

In [32]:
starwars.head() #ersten 5 Zeilen
starwars.tail() # letzte 5 Zeilen
starwars.info() # was sind einzelne Spalten
starwars.describe() #alle numerische Spalten zeigt Standart-Info über Zahlen (mean, max usw)
#starwars.shape()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   name       7 non-null      object 
 1   height     7 non-null      int64  
 2   mass       7 non-null      float64
 3   sex        7 non-null      object 
 4   eye_color  7 non-null      object 
 5   homeworld  6 non-null      object 
 6   jedi       7 non-null      object 
dtypes: float64(1), int64(1), object(5)
memory usage: 524.0+ bytes


Unnamed: 0,height,mass
count,7.0,7.0
mean,156.714286,71.6
std,57.760177,42.646454
min,66.0,17.0
25%,123.0,40.5
50%,172.0,77.0
75%,192.5,95.1
max,228.0,136.0


Auch das Lesen und Schreiben von xlsx-Dateien ist kein Problem. Hier exemplarisch den Datensatz als xlsx abspreichern. Hierfür muss das Paket *openpyxl* installiert sein.

In [33]:
starwars.to_excel("starwars.xlsx", sheet_name = "hello", index = False)

ModuleNotFoundError: No module named 'openpyxl'

#### Auswahl von Spalten oder Zeilen

Wählt man nicht nur einen Spaltennamen sondern eine Liste von mehreren Spalten, so erhält man einen DataFrame.

In [None]:
starwars[["name", "height"]]

: 

Bei der Zeilenauswahl möchte man meistens Zeilen selektieren, die bestimmte Eigenschaften erfüllen.
Hierfür schreibt man in die eckigen Klammern `[]` einen True/False-Vektor von der Länge des DataFrames.
Oft sind Vergleichsoperatoren (`<`, `>`, `==`, `<=`, `>=`, `!=`) und Boole'sche Operatoren `&` (and), `|` (or) und `~` (not) sehr hilfreich.

In [None]:
starwars[starwars["height"] < 180]
starwars[(starwars["height"]<180) & (starwars["sex"]=="male")]
starwars[starwars["eye_color"].isin(["red", "blue"])]
starwars[~starwars["eye_color"].isin(["red", "blue"])] #alles außer rot blau
starwars[starwars["homeworld"].isna()]


: 

Möchte man *in einem Schritt* gewisse Zeilen und Spalten auswählen, eignen sich `.loc` und `.iloc`.

: 


Mittels `.loc[rows, columns]` (= location) kann man Einträge über ihren **Zeilenindex** ansprechen.

: 

: 

Mittels `.iloc[row, column]` (= integer location) kann man Einträge über ihre Zeilen-/Spalten**nummer**, d.h. über die Position und nicht über den Namen, auswählen. (Hier funktioniert das Slicing wie gewohnt.)

: 

Mit `.reset_index` lässt sich der Index zu einer normalen Spalte machen. 

: 

#### Spalten erzeugen, entfernen und umbenennen

Beim berechnen neuer Spalten wird die Mächtigkeit der Vektorisierung deutlich.
Die Berechnungen finden elementweise für jeden Eintrag des Vektors statt.
Eine explizite Schleife ist nicht nötig.

In [None]:
starwars["BMI"] = starwars["mass"]/{starwars["height"/100]}**2
starwars["dummy"] = 7 #spalte hinzufügen mit dem wert 7

starwars.drop(columns= "dummy")
starwars

: 

Möchte man komplizierte Berechnungen durchführen, kann man eine Funktion schreiben und diese mittels `map()` oder `apply()` zeilenweise 
anwenden. Mehr dazu später! 

Zur Umbenennung von Spalten übergibt man der Funktion `.rename` ein Dictionary mit Einträgen der Form `{"old_colname": "new_colname"}` oder eine geeignete String-Funktion.

In [None]:
starwars.rename(columns = {"eye_color: Augenfarbe"})
starwars

: 

#### Visualisierung

(Hier nur ganz kurz. Visualisierung bekommt noch eine Extrasession.)

In [None]:
import matplotlib.pyplot as plt


ModuleNotFoundError: No module named 'matplotlib'

In [None]:
starwars.plot.scatter(x ="height", y= "mass", c = "BMI", colormap = "virdis", title = "Star Wars") #2 Achsen x = height y = mass
for idx, row in starwars.itterrows():    #index + zeile bei itterows
    ax.annotate(row["name"], (row["height"], row["mass"])) #spalte hinzufügen mit dem wert 7
starwars

: 

#### Sortieren

In [None]:
starwars.sort_values(by = "height")
starwars.sort_values("height",ascending = False)
starwars.sort_values(["jedi", "height"], ascending = [True, False])

NameError: name 'starwars' is not defined

Die Sortierung hat natürlich Konsequenzen für den Index. 
Möchte man diesen wieder korrigieren, so kann man entweder den Index reseten oder ihn direkt bei der Sortierung ignorieren lassen. 

In [None]:
starwars.sort_values(["jedi", "height"], ascending = [True, False]).reset_index(drop = True)
#alternativ: starwars.sort_values("height", ignore_index = True)

: 

#### Aggregation von Daten

Typische Aggregationsfunktionen wie z.B. mean(), sum(), max(), quantile() ... können direkt als Methode von `Series` aufgerufen werden.

In [None]:
starwars["height"].mean()
starwars[["height", "mass"]].max()

: 

Sehr oft möchte man derartige Aggregationen gruppenweise, d.h. für jede Ausprägung eines Merkmals, durchführen. Dies ist bekannt als **Split-Apply-Combine**: Die Gesamttabelle wird gemäß der Ausprägungen eines Merkmals in Einzeltabellen geteilt, für jede solche Tabelle berechnet man die Aggregationsfunktion und anschließend werden diese Werte in einer kleineren Tabelle gesammelt.

In [None]:
starwars[["jedi", "height"]].groupby("jedi").mean() 
starwars.groupby("jedi")["mass"].mean()


: 

Soeben haben wir direkt nach `.groupby()` eine eckige Klammer mit Spaltennamen genutzt. Dies wird oft gemacht und schränkt die Einzeltabellen auf die genannten Spalten ein. Die Aggregationsfunktion wirkt dann nur noch auf diese Spalten.

Man kann auch nach mehreren Merkmalen gruppieren. Das resultierende Objekt hat dann einen MultiIndex.

: 

Sehr oft möchte man für jede Ausprägung eines Merkmals auszählen wie oft es vorkommt. Dies liefert die Grundlage für Balkendiagramme.
(Achtung: Standardmäßig bilden NA-Werte keine eigene Gruppe und werden nicht aufgeführt. Dies ist im Rahmen der Datenaufbereitung allerdings oft relevant. Hierfür kann man in `.groupby()` oder in `.value_counts()` die Option `dropna=False` setzen.)
Da das resultierende Objekt kein DataFrame ist, eignet sich ein `.reset_index()` um den Index zu einer expliziten Spalte zu machen und z.B. Sortierschritte anzuschließen.

In [None]:
starwars.groupby("sex").size().reset_index()

: 

Es gibt sowohl `.count()` als auch `.size()`. Diese sind sehr ähnlich. Während `.size()` die Zeilenanzahl zurückgibt, liefert `.count()` die Anzahl an Nicht-NA-Werten. Die eine Funktion zählt also NA-Werte mit, die andere hingegen nicht.

#### Datenschubsen für Fortgeschrittene: Long-Format und Wide-Format

<!--- Datenquelle:
- Destatis, Tabelle 12411-0015: Bevölkerung: Kreise, Stichtag (Auswahl: alle Stichtage). (Download Flat-File!)
- Destatis, Tabelle 12411-0018: Bevölkerung: Kreise, Stichtag, Geschlecht, Altersgruppen (Auswahl: alle Stichtage aber nur die 3 Kreise Aschaffenburg, Würzburg und Schweinfurt). (Download Flat-File!) -->

Es gibt verschiedene Möglichkeiten ein und die selben Daten tabellarisch darzustellen.
Je nach Anwendungsfall ist es nötig zwischen diesen Formen zu wechseln. Dies ist manchmal als "pivotieren" bekannt.
Am besten sieht man es an einem Beispiel. 

<!--- Die nachfolgende Tabelle (adaptiert nach Destatis Tabelle 12411-0016) stellt die Bevölkerungsentwicklung der drei Städte Aschaffenburg, Schweinfurt und Würzburg dar.-->

Die nachfolgende Tabelle enthält die Entwicklung der Studierendenzahlen für die TH Aschaffenburg

: 

<!--- Zur Einfachheit vernachlässigen wir zunächst die Geschlechtsunterscheidung und beschränken uns auf die Gesamtzahlen.
Die Tabelle ist im Long-Format und enthält für jede Kombination aus Ort und Zeit eine Zeile mit der Bevölkerungszahl.
Dies hat den Vorteil, dass problemlos weitere Orte und Zeiten ergänzt werden können ohne die Struktur der Tabelle ändern zu müssen.-->

Zur Einfachheit vernachlässigen wir zunächst die Gesamtstudierendenzahlen und beschränken uns nur auf die Studiengänge *BW* (Betriebswirtschaft), *SD* (Software Design) und *EIT* (Elektro- und Informationstechnik) seit dem Wintersemester 2020.

: 

Die obige Tabelle beinhaltet für jede Kombination von Studienjahr und Fach eine Zeile. 
Dies nennt man **Long-Format**.
Insbesondere für Zeitreihen ist es jedoch oft übersichtlicher die Daten anders anzuordnen.
Hier wollen wir die Anfängerzahlen jedes Faches in einer separaten Spalte darstellen.
Dies ist dann das **Wide-Format**.

Mit dem Befehl `pivot()` kann man die Felder geeignet "rotieren".
Hierbei muss man angeben welche Spalten als Index erhalten bleiben sollen, welche Spalte die neuen Spaltennamen enthält und welches die eigentlichen Werte sind.
Das Wide-Format mag übersichtlicher erscheinen, hat jedoch den Nachteil, dass man das Tabellenschema ändern muss wenn neue Studiengänge hinzukommen.

: 

Natürlich kann man auch vom Wide-Format zum Long-Format konvertieren.
Dies funktionert mit `melt()`.
(Zunächst machen wir jedoch mit `reset_index()` den Index zur einer regulären Spalte.)
Im Argument `id_vars` listet man alle Spalten, die konstant gehalten werden sollen - alle anderen Spalten werden zu zwei neuen Spalten "pivotiert", indem jede Kombination aus Spaltenname und jeweilem Eintrag eine neue Zeile bilden. 

: 

Soeben hatten wir den Datensatz noch auf die Anfängerzahlen eingeschränkt und die Spalte *Studierende* entfernt.
So haben wir `pivot()` nur die Spalte *Anfänger* pivotieren lassen.

Belässt man hingegen die Studienrendenzahlen im Datensatz, so können wir auch diese mitpivotieren.
Hierbei entsteht für die Spalten ein **MultiIndex**.

: 

: 

: 

Eng verwandt mit `pivot()` und `melt()` sind die Funktionen `stack()` und `unstack()`.
Sie sind vor allem im Zusammenspiel mit Indexen und MultiIndexen sinnvoll.

- `stack()` pivotiert ("stapelt") alle Spaltenlabel (außer dem Index) und liefert eine Series (oder einen DataFrame) mit einem zusätzlichen inneren Indexlevel.
- `unstack()` pivotiert das innerste Indexlevel zu Spaltenlabeln und erzeugt so einen DataFrame.

Beschränken wir uns zur Übersichtlichkeit auf die obigen Anfängerzahlen.

: 

`stack()` rotiert alle Spaltennamen zu einem neuen inneren Indexlevel und liefert somit eine Series mit einem zweistufigen Multiindex.

: 

Mittels `unstack()` wird das innerste Level eines MultiIndex zu neuen Spaltennamen und wir erhalten wieder den ursprünglichen DataFrame.
(Möchte man anstatt des innersten Levels ein anderes Indexlevel pivotieren, so kann man sowohl `stack` als auch `unstack` ein Indexlevel angeben.)

: 

Nebenbei: Anstatt `pivot` aufzurufen kann man auch mittels `set_index` einen MultiIndex erzeugen und im Anschluss `unstack` aufrufen.

#### Zusammenführen mehrerer Tabellen

Sehr oft möchte man mehrere Tabellen kombinieren um Informationen anzureichern.
Auch mit Pandas kann man mehrere DataFrames verjoinen, so wie man es von SQL kennt.

Die einfachste Variante um zwei DataFrames zu kombinieren ist das simple Untereinanderhängen.
Dies ergibt selbstverständlich nur dann Sinn, wenn die Spalten übereinstimmen (oder zumindest Teilmengen voneinander sind).
Betrachten wir hier beispielsweise die Daten zum Fach *MEDS* sowie zu *BW KMU*.
Mit `concat()` lassen sich die beiden Tabellen direkt hintereinanderhängen.

: 

Inhaltlich spannender ist das Verjoinen von Tabellen um zusätzliche Spalten zu erhalten.
In der bisherigen Tabelle sind z.B. nur die Studiengangskürzel enthalten und auch eine Zuordnung zu Fakultäten fehlt.
Diese Information liefert die folgende Tabelle

: 

Mittels `merge()` kann man in Pandas alle Arten von JOIN-Operationen durchführen, wie man sie aus SQL kennt.
Hier wollen wir die Tabelle *th_small* mit den jeweiligen Studiengangsinformationen anreichern.

: 

Mit `merge()` lassen sich auch andere Joins durchführen, beispielsweise ein RIGHT JOIN (aber auch INNER JOIN oder OUTER JOIN).

: 

: 