<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Machine Learning
### Sommersemester 2021
Prof. Dr. Heiner Giefers

# Pandas
Mit Beispielen von A. Geron [https://github.com/ageron/handson-ml]

Pandas (*Python Data Analysis Library*) ist eine Python-Bibliothek zum Speichern, Manipulieren und Auswerten tabellarischer Daten. Die wichtigsten Datenstrukturen in Pandas sind `Series` und `DataFrame`. 

Eine `Series` ist eine Art Vektor (oder eindimensionale Liste) zum Speichern von Zeitreihen. Ein `Dataframe` ist eine zweidimensionale Tabelle bestehend aus Zeilen und Spalten. Daneben gibt es noch die dreidimensionale Datenstruktur `Panel`, die eine Reihe von Dataframe-Objekten beschreibt.

Pandas unterstützt viele Funktionen, die aus Tabellenkalkulationen und Relationalen Datenbanken bekannt sind. Man kann Daten Selektieren, neue Spalten berechnen oder Daten als Graphen darstellen. Außerdem bietet die Bibliothek umfangreiche Funktionen zum Importtieren und Exportieren verschiedener Tabellen-Formate (CSV, Excel, HDF, SQL, JSON, HTML, ...). 

Normalerweise wird `pandas` über den Namensraum `pd` importiert.

In [3]:
import pandas as pd

## Reihen mit `Series`

Ein `Series`-Objekt wird aus einer eindimensionalen Struktur erzeugt und kann verschiedene Daten-Typen (`int`, `double`, `str`, oder andere Objekte) aufnehmen.
Eine `Series` besteht immer aus Index-Wert Paaren, die Indizes nennt man auch *Label*.

In [4]:
s = pd.Series([2,-1,3,5])
print(s)

0    2
1   -1
2    3
3    5
dtype: int64


Die Daten in einem `Series`-Objekte sind alle vom gleichen Typ.
Wenn wir die Reihe `s` wie oben mit einem `double`-Element anlegen, so wird dieser, allgemeinere Typ für alle Elemente gewählt.

In [5]:
s = pd.Series([2.0,-1,3,5])
print(s)

0    2.0
1   -1.0
2    3.0
3    5.0
dtype: float64


`Series`-Objekte sind ähnlich zu `ndarrays` und können auch in NumPy-Funktionen genutzt werden.

In [6]:
import numpy as np
n = np.power(s,2)
print(n)
print(type(n))

0     4.0
1     1.0
2     9.0
3    25.0
dtype: float64
<class 'pandas.core.series.Series'>


Arithmetische Operationen auf `Series`-Objekte funktionieren auch wie Operationen auf `ndarray`.

In [7]:
x = s + [10,20,30,40]
y = s + 1000
z = s < 0
for i in range(0,len(s)):  
    print("x[%d] = %s \t y[%d] = %s \t z[%d] = %s" %(i, x[i], i, y[i], i, z[i]) )


x[0] = 12.0 	 y[0] = 1002.0 	 z[0] = False
x[1] = 19.0 	 y[1] = 999.0 	 z[1] = True
x[2] = 33.0 	 y[2] = 1003.0 	 z[2] = False
x[3] = 45.0 	 y[3] = 1005.0 	 z[3] = False


In der obigen Code-Zelle ist `i` ein Laufvariable, die die Indizes der Zeilen angibt. `len(s)` liefert die Länge eines sequentiellen Datentyps und ist in diesem Fall gleich 4. `range(0,4)` liefert eine iterierbare Sequenz von 0 bis 4 (ausschließlich), also `0, 1, 2, 3`. Über diese Indizes kann man natürlich auch auf die einzelnen Elemente der `Series` zugreifen.

Die gleiche Folge von Indizes kann man auch (ohne die `range`-Funktion) direkt über die `Series` erhalten. Der Funktionsaufruf dazu lautet `s.index.values.tolist()`, wobei `s` der Name der `Series` ist.

### Index Label

Wir haben gerade gesehen, dass wir einzelne Elemente einer `Series` über einen Index ansprechen können. Im Standardfall ist, dass einfach die Position des Elements beginnend mit dem Index 0. Man kann aber auch eigene *Index Label* definieren. Diese definierten Label müssen auch keineswegs vom Typ `int` sein.

In [8]:
s = pd.Series([27, 21, 35], index=["Alice", "Bob", "Carol"])
print(s)
print("Bob hat %d Punkte." % s["Bob"])

Alice    27
Bob      21
Carol    35
dtype: int64
Bob hat 21 Punkte.


Der Zugriff über die Position funktioniert dann sogar immer noch:

In [9]:
print("Bob hat %d Punkte." % s[1])

Bob hat 21 Punkte.


Anstatt die Funktion `pd.Series()` mit dem Parameter `index`  aufzurufen, kann man die `Series` auch direkt aus einem Dictionary (Wörterbuch) erstellen. Die Schlüssel werden dabei zu *Labels*, die Werte bilden die Datenreihe:

In [10]:
s = pd.Series({"Alice" : 25, "Bob" : 21, "Carol" : 35})
s

Alice    25
Bob      21
Carol    35
dtype: int64

### Automatische Verknüpfungen

Wenn man mehrere `Series`-Objekte über Operationen verknüpft, so werden die Daten entsprechend ihrer Labels ausgerichtet. Im folgenden Beispiel erzeugen wir eine neue `Series` *pluspunkte*, in der die Labels *Alice* und *Bob* (in anderer Reihenfolge) auftauchen. *Carol* ist nicht in der neuen Liste, dafür aber *Dave* und *Eve*.

Wenn wir nun die `+`-Operation auf den beiden `Series` ausführen, enthält das Resultat `neueSeries` alle Einträge der beiden anderen Listen. Für diejenigen Einträge, die in beiden `Series` auftreten, wird die `+`-Operation sinnvoll ausgeführt. Alle weiteren Einträge werden zwar aufgenommen, der Wert der Operation ist aber `NaN` (*Not a Number*).

`NaN` als Ergebnis mag zwar unschön wirken, ist aber durchaus ein sinnvolles Resultat. Stellen Sie sich vor, fehlende Einträge würde als Wert `0` angenommen. Dies könnte zu Ergebnissen führen, die für die Anwendung gar nicht korrekt sind. Außerdem würden dann in der `Series` lauter Werte stehen und es wäre nicht so einfach ersichtlich, bei welchen Einträgen die Datensätze unvollständig waren.

In [11]:
pluspunkte = pd.Series({"Bob" : 1, "Alice" : 5, "Dave" : 15, "Eve" : 3})
print(s)
print(pluspunkte)
neueSeries = s + pluspunkte
print(neueSeries)

Alice    25
Bob      21
Carol    35
dtype: int64
Bob       1
Alice     5
Dave     15
Eve       3
dtype: int64
Alice    30.0
Bob      22.0
Carol     NaN
Dave      NaN
Eve       NaN
dtype: float64


##  Tabellen mit `DataFrame`

Ein `DataFrame` Objekt ist eine zweidimensionale Tabelle. Die Zeilen, wie auch die Spalten sind benannt, auch hier heißen die Namen *Label*. Jede Spalte eines `DataFrame` ist dabei im Wesentlichen `Series`-Objekt. Man kann ein `DataFrame`Objekt z.B. aus einem Dictionary von `Series`-Objekten erzeugen:

In [14]:
namen=["Alice", "Bob", "Carol", "Dave", "Eve"]
punkte = pd.Series([27, 21, 35], index=namen[0:3])
matnr =  pd.Series([833421, 831473, 700326, 833711, 831612], index=namen)
pluspunkte = pd.Series({"Bob" : 1, "Alice" : 5, "Dave" : 15, "Eve" : 3})


stud_dictionary = {
    "Bonuspunkte": punkte,
    "Matrikelnummern": matnr,
    "Pluspunkte": pluspunkte
}
stud = pd.DataFrame(stud_dictionary)
stud

Unnamed: 0,Bonuspunkte,Matrikelnummern,Pluspunkte
Alice,27.0,833421,5.0
Bob,21.0,831473,1.0
Carol,35.0,700326,
Dave,,833711,15.0
Eve,,831612,3.0


Auf einzelne Spalten des `DataFrame`-Objekts greift man wie bei einem Dictionary über den Namen der Spalte zu.

In [15]:
stud["Matrikelnummern"]

Alice    833421
Bob      831473
Carol    700326
Dave     833711
Eve      831612
Name: Matrikelnummern, dtype: int64

Es können auch mehrere Spalten ausgewählt werden. Dann müssen die Spaltennamen als Liste übergeben werden.

In [16]:
stud[["Matrikelnummern", "Bonuspunkte"]]

Unnamed: 0,Matrikelnummern,Bonuspunkte
Alice,833421,27.0
Bob,831473,21.0
Carol,700326,35.0
Dave,833711,
Eve,831612,


Auf die Daten für einzelne Zeilen der Tabelle greift man über das Attribut `loc` zu.

In [17]:
stud.loc["Bob"]

Bonuspunkte            21.0
Matrikelnummern    831473.0
Pluspunkte              1.0
Name: Bob, dtype: float64

`DataFrames` können auch direkt aus zweidimensionalen NumPy Arrays erzeugt werden. Im folgenden Beispiel wird ein `ndarray` mit Geburtsjahren, Matrikelnummern und Studiengangsnamen von Personen angelegt. Aus diesem Array `p` wird dann ein `DataFrame` erzeugt. Dazu wird `p` transponiert und mit Spalten- (`columns`) und Zeilen-Labels (`index`) versehen. Fehlende Werte im Array können z.B. mit `np.nan` angelegt werden.

In [18]:
import numpy as np
p = np.array([[1995, 1992, 1988, 2001, 1999], 
     [833421, 831473, 700326, 0, 831612],
     ["Info", "MBau", "Info", "ETech", "Info"]
    ])

namen=["Alice", "Bob", "Carol", "Dave", "Eve"]

personen = pd.DataFrame(
    p.T,
    columns=["Geburtsjahr", "Matrikelnummer", "Studiengang"],
    index=namen
    )
personen

Unnamed: 0,Geburtsjahr,Matrikelnummer,Studiengang
Alice,1995,833421,Info
Bob,1992,831473,MBau
Carol,1988,700326,Info
Dave,2001,0,ETech
Eve,1999,831612,Info


Manchmal ist es hilfreich, die Spalten einer Tabelle in weitere Klassen zu unterteilten. Dies geht mit sogenannten *Multilabels*. Im folgenden Beispiel legen wir die den obigen `DataFrame` erneut an. Nun geben aber nun statt der Spaltennamen, Tupel, bestehend aus Klassenname und Spaltenname, an. Die Funktion `pd.MultiIndex.from_tuples()` generiert daraus hierarchische Spaltenbezeichnungen.

In [19]:
personen_mult = pd.DataFrame(
    p.T,
    columns=pd.MultiIndex.from_tuples(
        [("persoenlich", "Geburtsjahr"), ("verwaltung","Matrikelnummer"), ("verwaltung","Studiengang")]
    ),
    index=namen
    )
personen_mult

Unnamed: 0_level_0,persoenlich,verwaltung,verwaltung
Unnamed: 0_level_1,Geburtsjahr,Matrikelnummer,Studiengang
Alice,1995,833421,Info
Bob,1992,831473,MBau
Carol,1988,700326,Info
Dave,2001,0,ETech
Eve,1999,831612,Info


Wenn wir nun auf eine bestimmte Klasse der Spalten zugreifen wollen, geht das einfach über den Klassennamen:

In [20]:
personen_mult["verwaltung"]

Unnamed: 0,Matrikelnummer,Studiengang
Alice,833421,Info
Bob,831473,MBau
Carol,700326,Info
Dave,0,ETech
Eve,831612,Info


Einzelne Spalten können nun über die Angabe der beiden Labels ausgewählt werden.

In [21]:
personen_mult["verwaltung","Matrikelnummer"]

Alice    833421
Bob      831473
Carol    700326
Dave          0
Eve      831612
Name: (verwaltung, Matrikelnummer), dtype: object

### DataFrames Speicher und Laden

Wir haben in diesen Abschnitt nur betrachtet, wie man DataFrames aus Listen oder NumPy Arrays erstellt. Der gebräuchlichste Weg aber, um `DataFrame`-Objekte zu erzeugen, ist das Laden von Daten aus einer Datei. Ein verbreitetes Tabellenformat ist CSV (*Comma Separated Values*). CSV-Dateien können wie folgt in einen `DataFrame` eingelesen werden:

```python
neuer_df = pd.read_csv("Tabelle.csv", index_col=0)
```

In diesem Beispiel weisen wir die `read_csv`-Methode an, die erste Spalte der Tabelle als Indexlabel zu verwenden.
Um die Spaltennamen zu setzen, können sie einen Parameter `header` auf die Nummer der Zeile setzen, in der die Tabelle die Namen der Spalten trägt.
Setzen Sie `header=infer`, so sucht Pandas automatisch nach einer passenden Zeile mit Spaltennamen.

Ähnliche Methoden existieren auch für das Exportieren von DataFrames. Darüber hinaus werden noch viele andere Formate außer CSV unterstützt.

```python
neuer_df.to_csv("MeinDataFrame.csv")
neuer_df.to_html("MeinDataFrame.html")
neuer_df.to_json("MeinDataFrame.json")
```

### DataFrames verändern

`DataFrames`  können wie NumPy Arrays mit dem `T`-Attribut transponiert werden:

In [24]:
eintraege = personen_mult.T
eintraege

Unnamed: 0,Unnamed: 1,Alice,Bob,Carol,Dave,Eve
persoenlich,Geburtsjahr,1995,1992,1988,2001,1999
verwaltung,Matrikelnummer,833421,831473,700326,0,831612
verwaltung,Studiengang,Info,MBau,Info,ETech,Info


Spalten können einfach mit den `del`-Operator aus dem `DataFrame` gelöscht werden. Im folgenden Beispiel erzeugen wir zuerst eine Kopie des `DataFrame`-Objekts mit der `copy`-Methode Beachten Sie, dass eine einfache Zuweisung an dieser Stelle nicht genügt, um einen neuen `DataFrame` zu erzeugen. Der Ausdruck `eintraege_tmp = eintraege` würde nur eine Referenz `eintraege_tmp` für das gleiche Objekt erstellen. Änderungen an `eintraege_tmp` würden dann ebenso das Objekt `eintraege` betreffen.

In [25]:
eintraege_tmp = eintraege.copy(deep=True)
del eintraege_tmp["Dave"]
eintraege_tmp

Unnamed: 0,Unnamed: 1,Alice,Bob,Carol,Eve
persoenlich,Geburtsjahr,1995,1992,1988,1999
verwaltung,Matrikelnummer,833421,831473,700326,831612
verwaltung,Studiengang,Info,MBau,Info,Info


Neue Spalten hinzufügen, kann man mit der Methode `insert()`.
Der erste Parameter gibt dabei an, nach welcher Spalte der neue Datensatz eingefügt werden soll.

In [26]:
eintraege_tmp.insert(4, "Duane", [2000, 833935, "MBau"])
eintraege_tmp

Unnamed: 0,Unnamed: 1,Alice,Bob,Carol,Eve,Duane
persoenlich,Geburtsjahr,1995,1992,1988,1999,2000
verwaltung,Matrikelnummer,833421,831473,700326,831612,833935
verwaltung,Studiengang,Info,MBau,Info,Info,MBau


### Spalten "Stapeln" und "Entstapeln"

Mit der `stack()` Methode kann man die Spalten eines `DataFrame` aufstapeln.
Angenommen, eine Tabelle hat $m$ Zeilen und $n$ Spalten.
Die `stack()`-Funktion erzeugt daraus ein `Series`-Objekt mit $m*n$ Elementen.
Jede einzelne Zeile wird dabei ver-$n$-facht, indem alle $n$ Spaltenwerte der Zeile "untereinander" geschrieben werden.
Das Label der Zeile wird kombiniert aus dem alten Zeilennamen plus dem alten Spaltennamen.

In [27]:
print(personen)
personen_stack = personen.stack()
personen_stack

      Geburtsjahr Matrikelnummer Studiengang
Alice        1995         833421        Info
Bob          1992         831473        MBau
Carol        1988         700326        Info
Dave         2001              0       ETech
Eve          1999         831612        Info


Alice  Geburtsjahr         1995
       Matrikelnummer    833421
       Studiengang         Info
Bob    Geburtsjahr         1992
       Matrikelnummer    831473
       Studiengang         MBau
Carol  Geburtsjahr         1988
       Matrikelnummer    700326
       Studiengang         Info
Dave   Geburtsjahr         2001
       Matrikelnummer         0
       Studiengang        ETech
Eve    Geburtsjahr         1999
       Matrikelnummer    831612
       Studiengang         Info
dtype: object

Mit `unstack()` macht man das Stapeln rückgängig.
Beide Methoden, `stack()` und `unstack()`, verändern dabei nicht die existierenden Objekte, sondern liefern neu (kopierte) Objekte zurück.

In [28]:
personen_neu = personen_stack.unstack()
personen_neu

Unnamed: 0,Geburtsjahr,Matrikelnummer,Studiengang
Alice,1995,833421,Info
Bob,1992,831473,MBau
Carol,1988,700326,Info
Dave,2001,0,ETech
Eve,1999,831612,Info


### Neue Spalten Erzeugen

Wenn Sie gelegentlich mit Tabellenkalkulationsprogrammen arbeiten, wissen Sie, dass es häufig nützlich ist, neue Spalten aus den Werten in bestehenden Spalten zu erzeugen. Dies können Sie bei Pandas mit der funktion `assign()` machen.

Für das Beispiel erzeugen wir uns zunächst einen neuen `DataFrame` mit `copy()`. Danach schauen wir uns über das Attribut `dtypes` an, welche Datentypen die Werte in den Spalten unseres `DataFrames` besitzen.

In [29]:
personen_neu = personen.copy(deep=True)
personen_neu.dtypes

Geburtsjahr       object
Matrikelnummer    object
Studiengang       object
dtype: object

Leider sind die Daten in unserer Tabelle bisher mit dem allgemeinen Datentyp `object` hinterlegt. Bevor wir mit den Daten arbeiten, ist es daher sinnvoll, eine Typumwandlung vorzunehmen. Umwandeln können wir den Datentyp einer `Series` mit der Funktion `astype(t)`, die einen Datentyp `t` als Parameter erwartet. In unserem Beispiel wandeln wir die Spalte *Geburtsjahr* in einen `int`-Typ um, Sie Spalte *Studiengang* in `str`. Da `astype` ein neues Objekt erzeugt, weisen wir das Ergebnis der existierenden Spalte in `DataFrame` zu.

In [30]:
personen_neu["Geburtsjahr"] = personen_neu["Geburtsjahr"].astype(int)
personen_neu["Studiengang"] = personen_neu["Studiengang"].astype(str)

Um eine sinnvolle Berechnung durchführen zu können, erweitern wir den Datensatz um zwei Spalten *Geburtsmonat* und *Geburtstag*.

In [31]:
personen_neu.insert(1, "Geburtsmonat", [1,2,3,4,5])
personen_neu.insert(2, "Geburtstag", [11,23,12,7,2])

Wir wollen nun aus dem Geburtsjahr, -monat und -tag das ungefähre Alter der Person in Tagen errechnen.
(Die Schaltjahre ignorieren wir an dieser Stelle.)
Um von den Monatszahlen auf die Tage zu kommen, legen wir ein Array `monatstage` an.
Die Werte in diesem Array geben an, wie viele Tage vor Beginn des jeweiligen Monats vergangen sind.
Im Januar sind 0 Tage vergangen, am 1. April sind bereits 91 Tage vergangen.

In [32]:
monatstage = np.cumsum([0, 31,28,31,30,31,30,31,31,30,31,30])
monatstage

array([  0,  31,  59,  90, 120, 151, 181, 212, 243, 273, 304, 334])

Mit diesem Hilfs-Array erzeigen wir nun ein neues Array, das für jede Person in dem `Dataframe` die Jahrestage vor dem jeweiligen Geburtsmonat berechnet.

In [33]:
monatstage_pro_person = np.array([monatstage[x-1] for x in personen_neu["Geburtsmonat"].values])
monatstage_pro_person

array([  0,  31,  59,  90, 120])

Nun können wir das Alter der Personen in Tagen bestimmen. Aus dem Geburtsjahr berechnen wir das Alter in Jahren (plus Eins).
Die Werte in `monatstage_pro_person` sowie die Einträge in der Spalte *Geburtstag* ergeben die verstrichenen Tage im Geburtsjahr.
Diese ziehen wir vom Jahreswert ab und erhalten damit das Alter der Person zum 1.1. des aktuellen Jahres.
Auf diesen Wert addieren wir dann die verstrichen Tage im aktuellen Jahr.

Das Resultat fügen wir als Splate *Alter* der Tabelle hinzu.
Außerdem hängen wir eine Spalte an, die beshreibt, ob eine Person Informatik studiert.

In [34]:
aktuelles_Jahr = 2019
aktueller_Tag = 78 # 18. März 

personen_neu = personen_neu.assign(
    Alter = (aktuelles_Jahr-personen_neu["Geburtsjahr"]) * 365 - 
             monatstage_pro_person -
             personen_neu["Geburtstag"] + 
             aktueller_Tag,
    Informatiker = personen_neu["Studiengang"] == "Info"
)
personen_neu

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker
Alice,1995,1,11,833421,Info,8827,True
Bob,1992,2,23,831473,MBau,9879,False
Carol,1988,3,12,700326,Info,11322,True
Dave,2001,4,7,0,ETech,6551,False
Eve,1999,5,2,831612,Info,7256,True


### Daten abfragen

Wenn die Daten in einem `DataFrame`-Objekt zusammengefastt sind, kann man einfache Anfragen mit den Funktionen `eval` und `query` an den Datensatz stellen. `eval` erwartet als Parameter einen auswertenden Ausdruck in Form eines Strings. In diesem Ausdruck können die Spaltennamen direkt über ihre Bezeichner verwendet werden. Auch Python Variable können in dem Ausdruck verwendet werden. Um Überschneidungen mit der Spaltennamen zu vermeiden, muss den Variablen ein `@` vorangestellt sein.


In [35]:
grenzwert_tage = 9000
personen_neu.eval("Alter < @grenzwert_tage and Informatiker")

Alice     True
Bob      False
Carol    False
Dave     False
Eve       True
dtype: bool

Der `eval` Ausdruck oben, liefert eine neue `Series`. Man kann aber auch die Werte in der Tabelle direkt ändern. Dazu setzen wir den Parameter `inplace=True`.

Für ein Beispiel fügen wir zunächst 3 neue Spalten an unseren `DataFrame` an:

In [36]:
personen_neu = personen_neu.assign(
    A1 = [10,5,10,10,0],
    A2 = [10,10,5,5,5],
    Aufgaben = 0
)
personen_neu

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker,A1,A2,Aufgaben
Alice,1995,1,11,833421,Info,8827,True,10,10,0
Bob,1992,2,23,831473,MBau,9879,False,5,10,0
Carol,1988,3,12,700326,Info,11322,True,10,5,0
Dave,2001,4,7,0,ETech,6551,False,10,5,0
Eve,1999,5,2,831612,Info,7256,True,0,5,0


Nun können wir die Summe der Spalten *A1* und *A2* bilden und direkt nach *Aufgaben* schreiben.

In [37]:
personen_neu.eval("Aufgaben = A1 + A2", inplace=True)
personen_neu

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker,A1,A2,Aufgaben
Alice,1995,1,11,833421,Info,8827,True,10,10,20
Bob,1992,2,23,831473,MBau,9879,False,5,10,15
Carol,1988,3,12,700326,Info,11322,True,10,5,15
Dave,2001,4,7,0,ETech,6551,False,10,5,15
Eve,1999,5,2,831612,Info,7256,True,0,5,5


Mit `eval` haben wir einen Ausdruck ausgewertet und die Ergebnisse für alle Zeilen des Datensatzes berechnet.
Die `query()`-Funktion erlaubt es, den `DataFrame` zu filtern und somit diejenigen Zeilen auszuwählen, bei denen die Auswertung eines Ausdruckes logisch Wahr ergibt.

In [38]:
min_punkte = 10
personen_neu.query("Aufgaben <= @min_punkte and Informatiker")

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker,A1,A2,Aufgaben
Eve,1999,5,2,831612,Info,7256,True,0,5,5


DataFrames können auch sortiert werden.
Mit `sort_index` erfolgt eine zeilenbasierte Sortierung bei der als Sortierschlüssel das Zeilenlabel verwendet wird.
Mit `sort_values` wird nach Spalten sortiert.
Hierbei kann man mit dem Parameter `by` die Spalte auswählen, die als Sortierschlüssel verwendet werden soll.
Um in absteigender Reihenfolge zu sortieren, setzt man den Parameter `ascending` auf `False`.

In [39]:
personen_neu.sort_index(ascending=False)

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker,A1,A2,Aufgaben
Eve,1999,5,2,831612,Info,7256,True,0,5,5
Dave,2001,4,7,0,ETech,6551,False,10,5,15
Carol,1988,3,12,700326,Info,11322,True,10,5,15
Bob,1992,2,23,831473,MBau,9879,False,5,10,15
Alice,1995,1,11,833421,Info,8827,True,10,10,20


Die Funktionen liefern dabei eine sortierte *Kopie* das `DataFrame`-Objekts zurück.
Um die Tabellen selbst zu ändern, gibt man den Parameter `inplace` mit dem Wert `True` an

In [40]:
personen_neu.sort_values(by="Matrikelnummer", inplace=True)
personen_neu

Unnamed: 0,Geburtsjahr,Geburtsmonat,Geburtstag,Matrikelnummer,Studiengang,Alter,Informatiker,A1,A2,Aufgaben
Dave,2001,4,7,0,ETech,6551,False,10,5,15
Carol,1988,3,12,700326,Info,11322,True,10,5,15
Bob,1992,2,23,831473,MBau,9879,False,5,10,15
Eve,1999,5,2,831612,Info,7256,True,0,5,5
Alice,1995,1,11,833421,Info,8827,True,10,10,20


## Operationen auf `DataFrame`-Objekten

Viele der Operationen, die mit NumPy aud `ndarrays` möglich sind, unterstüzt in gleicher oder ähnlicher Form auch Pandas mit den DataFrames. So können beispielsweise arithmetische Operationen auf komplette `DataFrame`-Objekten ausgeführt werden. Die Möglichkeiten sind sehr Umfangreich und wir geben an dieser Stelle nur einige kleine Beispiele.

In [41]:
punkte_np = np.array([[5,10,10],[10,5,5],[0, 0, 5], [5, 5, 10]])
punkte = pd.DataFrame(punkte_np, columns=["A1", "A2", "A3"], index=["Alice","Bob","Carol","Dave"])
print("Ausgangs-DataFrame:\n", punkte)
print("\nWurzel:\n", np.sqrt(punkte))
print("\nAddition:\n", punkte+10)
print("\nBedingung:\n", punkte>5)
print("\nBedingung (muss für alle Elemente einer Spalte erfüült sein):\n", (punkte>0).all())
print("\nMittelwert über alle Spalten:\n", punkte.mean())

Ausgangs-DataFrame:
        A1  A2  A3
Alice   5  10  10
Bob    10   5   5
Carol   0   0   5
Dave    5   5  10

Wurzel:
              A1        A2        A3
Alice  2.236068  3.162278  3.162278
Bob    3.162278  2.236068  2.236068
Carol  0.000000  0.000000  2.236068
Dave   2.236068  2.236068  3.162278

Addition:
        A1  A2  A3
Alice  15  20  20
Bob    20  15  15
Carol  10  10  15
Dave   15  15  20

Bedingung:
           A1     A2     A3
Alice  False   True   True
Bob     True  False  False
Carol  False  False  False
Dave   False  False   True

Bedingung (muss für alle Elemente einer Spalte erfüült sein):
 A1    False
A2    False
A3     True
dtype: bool

Mittelwert über alle Spalten:
 A1    5.0
A2    5.0
A3    7.5
dtype: float64


## Umgang mit fehlenden Daten

Ein großes Problem bei statistischen Analysen sind unvollständige Datensätze.
Pandas liefert einige Methoden, um Lücken in Datensätzen sinnvoll zu schließen.

Definieren wir uns für ein Beispiel zuerst eine Tabelle mit einigen fehlenden  Werten.

In [42]:
punkte_np = np.array([[5,np.nan,10],[np.nan,5,np.nan],[0, 0, np.nan], [np.nan, 5, 10]])
punkte = pd.DataFrame(punkte_np, columns=["A1", "A2", "A3"], index=["Alice","Bob","Carol","Dave"])
punkte

Unnamed: 0,A1,A2,A3
Alice,5.0,,10.0
Bob,,5.0,
Carol,0.0,0.0,
Dave,,5.0,10.0


Um die `NaN`-Einträge zu eliminieren, kann die `fillna()` Methode eingesetzt werden.
Damit können wir z.B. alle fehlenden Einträge durch eine `0` ersetzen.

In [43]:
punkte.fillna(0)

Unnamed: 0,A1,A2,A3
Alice,5.0,0.0,10.0
Bob,0.0,5.0,0.0
Carol,0.0,0.0,0.0
Dave,0.0,5.0,10.0


Manchmal ist es aber nicht zielführend, fehlende Einträge durch Konstanten zu ersetzen.
Eventuell möchte man die Lücken durch sinnvolle Schätzungen auffüllen.
Dies kann man mit der Methode `interpolate` realisieren.
Über den Parameter `axis` kann man angeben, nach welcher Achse die Interpolation stattfinden soll.
`axis=0` wählt die Zeilen aus, im Beispiel entspricht das einer Interpolation über die Aufgaben *A1*-*A3*.
Da Alice bei A1 5 Punkte erzielt hat und Carol 0, wird der Wert für Bob mit 2.5 abgeschätzt.
Eine solche Schätzung ist für unser Beispiel weniger sinnvoll.

In [44]:
punkte.interpolate(axis=0)

Unnamed: 0,A1,A2,A3
Alice,5.0,,10.0
Bob,2.5,5.0,10.0
Carol,0.0,0.0,10.0
Dave,0.0,5.0,10.0


Mit `axis=1` erfolgt die Interpolation über Spalten der Tabelle.
Es wird also geschätzt, wie viele Punkte eine Person für eine Aufgabe erzielt hätte.
Diese Methode passt schon eher auf unser Beispiel, denn Sie würde Personen, die tendenziell viele Punkte sammeln, höhere Punktzahlen eintragen.

In [None]:
punkte.interpolate(axis=1)

Sie sehen aber auch, dass die Lücken an den Rändern durch die Interpolation nicht geschlossen werden können.
Wir können diese Lücken nun anderweitig schließen oder die Zeilen im Notfall mit der `dropna`-Funktion komplett verwerfen.

In [45]:
(punkte.interpolate(axis=1)).dropna(axis=0)

Unnamed: 0,A1,A2,A3
Alice,5.0,7.5,10.0
Carol,0.0,0.0,0.0


### Informationen zu `DataFrame`-Objekten

Pandas stellt einige Funktionen bereit, die Ihnen allgemeine Informationen zu `DataFrame`-Objekten liefern.

Mit `head()` geben Sie die ersten 5 Zeilen der Tabelle aus.
`tail()` liefert entsprechend die 5 letzten Zeilen.

In [None]:
zahlen_np  = np.random.lognormal(0, 1, 4000).reshape((1000, 4))
zahlen = pd.DataFrame(zahlen_np, columns=["Reihe1", "Reihe2", "Reihe3", "Reihe4"])
print(zahlen.head())
print(zahlen.tail())

`info()` liefert einige Angaben zu der Anzahl von gültigen Werten in den Spalten und zeigt deren Datentyp an.

In [None]:
zahlen.info()

Mit `describe()` erhält man einige statistische Angaben zu den Werten in allen Spalten:
* `count`: Anzahl gültiger (nicht-NaN) Werte
* `mean`: Mittelwert aller gültigen Werte in der Spalte
* `std`: Standardabweichung
* `min`: Minimum der Werte in der Spalte
* `25%`, `50%`, `75%`: 0.25, 0.5 und 0.75 [Quantile](https://de.wikipedia.org/wiki/Quantil_(Wahrscheinlichkeitstheorie)#Besondere_Quantile)
* `max`: Maximum der Werte in der Spalte

In [None]:
zahlen.describe()

## Weitere Themen

Die Pandas Bibliothek ist sehr umfangreicher und umfasst deutlich mehr Funktionen, als wir an dieser Stelle vorstellen können.
Vor allem können auf `DataFrame`-Objekten viele Operationen ausgeführt werden, die auch aus relationalen Datenbanken bekannt sind, z.B. Aggregatfunktionen und Verknüpfungen.