In [None]:
%%html
<style>
td {
    font-size: 20px;
}
thead th {
    font-size: 20px;
}
</style>

## Datentabelle: *pandas*

Wir werden uns als nächstes mit Datentabellen (*DataFrames*) befassen. Es gibt verschiedene Pakete, welche ähnliche Datenstrukturen bereitstellen; wir werden *pandas* verwenden. Da es nicht zur "Grundausstattung" von Python gehört, müssen Sie es erst installieren (was bei einer Pythoninstallation mit Anaconda gleich mitgeschieht) und dann am Anfang Ihres Programms importieren:

In [3]:
import pandas as pd

Datentabellen ähneln in ihrer Struktur Exceltabellen: Daten sind zweidimensional organisiert, eine Zeile für jeden Fall und eine Spalte für jede Variable.

## Datentabellen

Datentabellen können auf verschiedene Weisen generiert werden. Eine häufig genutzte Möglichkeit besteht darin, ein Dictionary, welches mehrere Listen gleicher Länge enthält, zu einem Dataframe zu konvertieren:

In [45]:
daten1 = {'stadt': ['Berlin', 'Hamburg', 'München'],
        'bundesland': ['Berlin', 'Hamburg', 'Bayern'],
        'einwohnerzahl': [3520031,1787408,1450381]}
df1 = pd.DataFrame(daten1)

In [46]:
df1

Unnamed: 0,bundesland,einwohnerzahl,stadt
0,Berlin,3520031,Berlin
1,Hamburg,1787408,Hamburg
2,Bayern,1450381,München


## Datentabellen: Einzelne Reihen hinzufügen

Sie können jederzeit neue Reihen hinzufügen. Hier kommt eine neue Stadt hinzu. Beachten Sie den Parameter **ignore_index**. Die hinzuzufügende Zeile wird als eine *series* interpretiert, ein eindimensionaler Datentyp, der auch durch *pandas* implementiert wird und bei dem jeder Wert mit einem Indexwert verknüpft wird. Durch den Parameter wird der Indexwert der *series* ignoriert:

In [47]:
daten2 = {'stadt': 'Köln', 'bundesland': 'Nordrhein-Westfalen', 'einwohnerzahl': 1060582}
df1 = df1.append(daten2, ignore_index=True)
df1

Unnamed: 0,bundesland,einwohnerzahl,stadt
0,Berlin,3520031,Berlin
1,Hamburg,1787408,Hamburg
2,Bayern,1450381,München
3,Nordrhein-Westfalen,1060582,Köln


## Datentabellen: Mehrere Reihen hinzufügen

Wenn Sie mehrere Reihen hinzufügen möchten, können Sie diese zuerst in eine Datentabelle umwandeln und dann mit **append** ans Ende hängen:

In [48]:
daten3 = {'stadt': ['Frankfurt', 'Stuttgart'],
        'bundesland': ['Hessen', 'Baden-Württemberg'],
        'einwohnerzahl': [732688,623738]}

df2 = pd.DataFrame(daten3)
df1 = df1.append(df2, ignore_index=True)

Unnamed: 0,bundesland,einwohnerzahl,stadt
0,Berlin,3520031,Berlin
1,Hamburg,1787408,Hamburg
2,Bayern,1450381,München
3,Nordrhein-Westfalen,1060582,Köln
4,Hessen,732688,Frankfurt
5,Baden-Württemberg,623738,Stuttgart


In [49]:
df1

Unnamed: 0,bundesland,einwohnerzahl,stadt
0,Berlin,3520031,Berlin
1,Hamburg,1787408,Hamburg
2,Bayern,1450381,München
3,Nordrhein-Westfalen,1060582,Köln
4,Hessen,732688,Frankfurt
5,Baden-Württemberg,623738,Stuttgart


## Datentabelle: Daten laden

Sie können mit Pandas auch Daten aus einer externen Datei in eine Datentabelle laden. Dazu bietet Pandas verschiedene Methoden an, welche unterschiedliche Datenformate laden können (z.B. Excel, JSON, SAS, Stata). Hier verwenden wir die **read_csv**-Funktion. Diese lädt normalerweise Textdateien mit *comma-separated values*, d.h., Dateien, in denen die Werte der einzelnen Spalten durch Kommas voneinander getrennt werden. Man kann aber mit dem **sep**-Parameter aber auch ein anderes Zeichen auswählen; im Beispiel ist das ein Tabulatorzeichen:

In [8]:
 df2 = pd.read_csv("C:/Users/qubwm01/Desktop/python_ws2019/wm_2019_spielerinnen.txt", sep="\t")

In [9]:
df2

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position
0,Javiera Grez,Chile,2000,148,Stürmer
1,Orathai Srimanee,Thailand,1988,151,Stürmer
2,Maria Jose Rojas,Chile,1987,153,Stürmer
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer
4,Warunee Phetwiset,Thailand,1990,153,Abwehr
5,Yuka Momiki,Japan,1996,153,Mittelfeld
6,Rhoda Mulaudzi,Südafrika,1989,154,Stürmer
7,Katrina Gorry,Australien,1992,154,Mittelfeld
8,Yanara Aedo,Chile,1993,154,Stürmer
9,Manuela Giugliano,Italien,1997,154,Mittelfeld


## Datentabellen erweitern

Nachdem Sie eine Datentabelle erzeugt haben, können Sie diese auch erweitern. So kann man dem Datensatz df2 etwa eine Spalte hinzufügen, in der das Jahr der Weltmeisterschaft aufgeführt wird, falls man irgendwann auch frühere Veranstaltungen berücksichtigen möchte. Bei sehr langen Datensätzen können Sie sich mit der Funktion **head()** auch nur die ersten paar Zeilen anzeigen lassen:

In [10]:
df2["WM_Jahr"] = 2019

In [16]:
df2.head()

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position,WM_Jahr,Groesse_Meter
0,Javiera Grez,Chile,2000,148,Stürmer,2019,1.48
1,Orathai Srimanee,Thailand,1988,151,Stürmer,2019,1.51
2,Maria Jose Rojas,Chile,1987,153,Stürmer,2019,1.53
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer,2019,1.53
4,Warunee Phetwiset,Thailand,1990,153,Abwehr,2019,1.53


## Datentabellen erweitern

Man kann auch Spalten einfügen, die auf bereits existierenden Spalten basieren. So können wir etwa in einer neuen Spalte angeben, wie groß die jeweilige Person in Metern und nicht in Zentimetern ist:

In [None]:
df2["Groesse_Meter"] = df2["Groesse"] / 100

In [17]:
df2.head()

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position,WM_Jahr,Groesse_Meter
0,Javiera Grez,Chile,2000,148,Stürmer,2019,1.48
1,Orathai Srimanee,Thailand,1988,151,Stürmer,2019,1.51
2,Maria Jose Rojas,Chile,1987,153,Stürmer,2019,1.53
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer,2019,1.53
4,Warunee Phetwiset,Thailand,1990,153,Abwehr,2019,1.53


## Datentabellen ändern

Die Reihenfolge der Spalten lässt sich nachträglich ändern:

ValueError: If using all scalar values, you must pass an index

In [53]:
df2.head()

Unnamed: 0,Name,Geburtsjahr,Groesse,Groesse_Meter,Position,Mannschaft,WM_Jahr
0,,,,,,,
1,,,,,,,


## Zeigen

- wie kann man eine spalte in faktoren umwandeln? in python heißen die ausprägungen *categories* (in r heißen sie *levels*):
df2["wm_jahr"] = df2["wm_jahr"].astype('category')