In [1]:
%%html
<style>
td {
    font-size: 20px;
}
thead th {
    font-size: 20px;
}
</style>

## Datentabelle: *pandas*

Wir werden uns als nächstes mit Datentabellen (*DataFrames*) befassen. Es gibt verschiedene Pakete, welche ähnliche Datenstrukturen bereitstellen; wir werden *pandas* verwenden. Da es nicht zur "Grundausstattung" von Python gehört, müssen Sie es erst installieren (was bei einer Pythoninstallation mit Anaconda gleich mitgeschieht) und dann am Anfang Ihres Programms importieren:

In [2]:
import pandas as pd

Datentabellen ähneln in ihrer Struktur Exceltabellen: Daten sind zweidimensional organisiert, eine Zeile für jeden Fall und eine Spalte für jede Variable.

## Datentabellen

Datentabellen können auf verschiedene Weisen generiert werden. Eine häufig genutzte Möglichkeit besteht darin, ein Dictionary, welches mehrere Listen gleicher Länge enthält, zu einem Dataframe zu konvertieren:

In [3]:
daten1 = {'stadt': ['Berlin', 'Hamburg', 'München'],
        'bundesland': ['Berlin', 'Hamburg', 'Bayern'],
        'einwohnerzahl': [3520031,1787408,1450381]}
df1 = pd.DataFrame(daten1)

In [4]:
df1

Unnamed: 0,stadt,bundesland,einwohnerzahl
0,Berlin,Berlin,3520031
1,Hamburg,Hamburg,1787408
2,München,Bayern,1450381


## Datentabellen: Einzelne Reihen hinzufügen

Sie können jederzeit neue Reihen hinzufügen. Hier kommt eine neue Stadt hinzu. Beachten Sie den Parameter **ignore_index**. Die hinzuzufügende Zeile wird als eine *series* interpretiert, ein eindimensionaler Datentyp, der auch durch *pandas* implementiert wird und bei dem jeder Wert mit einem Indexwert verknüpft wird. Durch den Parameter wird der Indexwert der *series* ignoriert:

In [5]:
daten2 = {'stadt': 'Köln', 'bundesland': 'Nordrhein-Westfalen', 'einwohnerzahl': 1060582}
df1 = df1.append(daten2, ignore_index=True)

In [6]:
df1

Unnamed: 0,stadt,bundesland,einwohnerzahl
0,Berlin,Berlin,3520031
1,Hamburg,Hamburg,1787408
2,München,Bayern,1450381
3,Köln,Nordrhein-Westfalen,1060582


## Datentabellen: Mehrere Reihen hinzufügen

Wenn Sie mehrere Reihen hinzufügen möchten, können Sie diese zuerst in eine Datentabelle umwandeln und dann mit **append** ans Ende hängen:

In [7]:
daten3 = {'stadt': ['Frankfurt', 'Stuttgart'],
        'bundesland': ['Hessen', 'Baden-Württemberg'],
        'einwohnerzahl': [732688,623738]}

df2 = pd.DataFrame(daten3)
df1 = df1.append(df2, ignore_index=True)

In [8]:
df1

Unnamed: 0,stadt,bundesland,einwohnerzahl
0,Berlin,Berlin,3520031
1,Hamburg,Hamburg,1787408
2,München,Bayern,1450381
3,Köln,Nordrhein-Westfalen,1060582
4,Frankfurt,Hessen,732688
5,Stuttgart,Baden-Württemberg,623738


## Datentabelle: Daten laden

Sie können mit Pandas auch Daten aus einer externen Datei in eine Datentabelle laden. Dazu bietet Pandas verschiedene Methoden an, welche unterschiedliche Datenformate laden können (z.B. Excel, JSON, SAS, Stata). Hier verwenden wir die **read_csv**-Funktion. Diese lädt normalerweise Textdateien mit *comma-separated values*, d.h., Dateien, in denen die Werte der einzelnen Spalten durch Kommas voneinander getrennt werden. Man kann aber mit dem **sep**-Parameter aber auch ein anderes Zeichen auswählen; im Beispiel ist das ein Tabulatorzeichen. Bitte beachten Sie dass der Dateipfad von Computer zu Computer unterschiedlich sein kann:

In [9]:
 df2 = pd.read_csv("C:/Users/marku/Desktop/python_winter_2019_2020/wm_2019_spielerinnen.txt", sep="\t")

In [10]:
df2

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position
0,Javiera Grez,Chile,2000,148,Stürmer
1,Orathai Srimanee,Thailand,1988,151,Stürmer
2,Maria Jose Rojas,Chile,1987,153,Stürmer
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer
4,Warunee Phetwiset,Thailand,1990,153,Abwehr
5,Yuka Momiki,Japan,1996,153,Mittelfeld
6,Rhoda Mulaudzi,Südafrika,1989,154,Stürmer
7,Katrina Gorry,Australien,1992,154,Mittelfeld
8,Yanara Aedo,Chile,1993,154,Stürmer
9,Manuela Giugliano,Italien,1997,154,Mittelfeld


## Datentabellen erweitern

Nachdem Sie eine Datentabelle erzeugt haben, können Sie diese auch erweitern. So kann man dem Datensatz df2 etwa eine Spalte hinzufügen, in der das Jahr der Weltmeisterschaft aufgeführt wird, falls man irgendwann auch frühere Veranstaltungen berücksichtigen möchte. Bei sehr langen Datensätzen können Sie sich mit der Funktion **head()** auch nur die ersten paar Zeilen anzeigen lassen:

In [11]:
df2["WM_Jahr"] = 2019

In [12]:
df2.head()

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position,WM_Jahr
0,Javiera Grez,Chile,2000,148,Stürmer,2019
1,Orathai Srimanee,Thailand,1988,151,Stürmer,2019
2,Maria Jose Rojas,Chile,1987,153,Stürmer,2019
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer,2019
4,Warunee Phetwiset,Thailand,1990,153,Abwehr,2019


## Datentabellen erweitern

Man kann auch Spalten einfügen, die auf bereits existierenden Spalten basieren. So können wir etwa in einer neuen Spalte angeben, wie groß die jeweilige Person in Metern und nicht in Zentimetern ist:

In [13]:
df2["Groesse_Meter"] = df2["Groesse"] / 100

In [14]:
df2.head()

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position,WM_Jahr,Groesse_Meter
0,Javiera Grez,Chile,2000,148,Stürmer,2019,1.48
1,Orathai Srimanee,Thailand,1988,151,Stürmer,2019,1.51
2,Maria Jose Rojas,Chile,1987,153,Stürmer,2019,1.53
3,Gabrielle Aboudi Onguene,Kamerun,1989,153,Stürmer,2019,1.53
4,Warunee Phetwiset,Thailand,1990,153,Abwehr,2019,1.53


## Datentabellen: Spalten auswählen

Wenn Sie aus einer Datentabelle eine individuelle Spalte auswählen möchten, können Sie dies tun, indem Sie den Spaltennamen in eckige Klammern setzen:

In [15]:
df2["Name"].head()

0                Javiera Grez
1            Orathai Srimanee
2            Maria Jose Rojas
3    Gabrielle Aboudi Onguene
4           Warunee Phetwiset
Name: Name, dtype: object

## Datentabellen: Spalten auswählen

Bei mehreren Spalten benötigen Sie zwei Klammern:

In [16]:
df2[["Name", "Geburtsjahr"]].head()

Unnamed: 0,Name,Geburtsjahr
0,Javiera Grez,2000
1,Orathai Srimanee,1988
2,Maria Jose Rojas,1987
3,Gabrielle Aboudi Onguene,1989
4,Warunee Phetwiset,1990


## Datentabellen: *shape* und *columns*

Datentabellen haben Attribute, die Eigenschaften der Datentabelle beschreiben. Mit **shape** können Sie sich besipielsweise die Dimensionen (Anzahl der Zeilen und Spalten) der Datentabelle anzeigen lassen, während **columns** die Variablennamen ausgibt:

In [17]:
df2.shape

(552, 7)

In [18]:
df2.columns

Index(['Name', 'Mannschaft', 'Geburtsjahr', 'Groesse', 'Position', 'WM_Jahr',
       'Groesse_Meter'],
      dtype='object')

## Datentabellen: value_counts()

Bei der Arbeit mit Datentabellen stehen Ihnen zahlreiche Funktionen zur Auswahl. So können Sie sich etwa mit **value_counts()** anzeigen lassen, wie oft jeder Wert in einer Spalte vorkommt. Mit dem folgenden Beispiel kann man etwa für jede Größenangabe sehen, wie viele Spielerinnen in diese Kategorie fallen:

In [19]:
df2["Groesse"].value_counts().head()

170    48
168    40
172    36
160    34
165    33
Name: Groesse, dtype: int64

## Datentabellen: min() und max()

**min()** und **max()** zeigen Ihnen die Minimal- und Maximalwerte einer Spalte:

In [20]:
df2["Groesse"].min()

148

In [21]:
df2[["Name","Groesse"]].max()

Name       Zecira Musovic
Groesse               187
dtype: object

## Datentabellen: mean()

Mit **mean()** können Sie den Durchschnittswert ausgewählter Spalten berechnen, solange die Spalten numerische Datentypen enthalten:

In [22]:
df2.mean()

Geburtsjahr      1992.434783
Groesse           167.548913
WM_Jahr          2019.000000
Groesse_Meter       1.675489
dtype: float64

## Datentabellen: idxmax() und idxmin()

**idxmax()** und **idxmin()** geben Ihnen den Indexwert des höchsten bzw. niedrigsten Wertes. Wenn es mehrere Zeilen mit dem gleichen Wert gibt, wird nur die erste Zeile berücksichtigt:

In [23]:
df2["Groesse"].idxmax()

550

## Datentabellen: loc und iloc

Wenn Sie dann die Indexwerte haben, können Sie den Indexoperator **loc** verwenden, um die Zeilen aus der Datentabelle auszuwählen:

In [24]:
df2[["Name", "Groesse"]].loc[df2["Groesse"].idxmax()]

Name       Wendie Renard
Groesse              187
Name: 550, dtype: object

## Datentabellen: Zeilen auswählen

Bei mehreren gleichen Höchstwerten können Sie einen Vergleich und die Funktion **max()** verwenden (oder **min()** bei Niedrigstwerten):

In [25]:
df2[["Name", "Groesse"]].loc[df2['Groesse'] == df2["Groesse"].max() - 10]

Unnamed: 0,Name,Groesse
508,Xiaolin Bi,177
509,Abby Erceg,177
510,Nicole Stratford,177
511,Sari van Veenendaal,177
512,Jennifer Beattie,177
513,Irene,177
514,Erin Nayler,177
515,Amanda Ilestedt,177
516,Rebecca Quinn,177
517,Kailen Sheridan,177


## Datentabellen: groupby()

**groupby** ist immer hilfreich, wenn Sie Ihren Datensatz nach Werten in einer oder mehrerer Spalten gruppieren  und dann etwa Durchschnittswerte für jede dieser Gruppen berechnen wollen:

In [26]:
df2.groupby("Mannschaft")["Geburtsjahr"].mean().sort_values()

Mannschaft
USA            1989.869565
Kamerun        1990.869565
Brasilien      1991.000000
Italien        1991.260870
England        1991.347826
Schottland     1991.521739
Südkorea       1991.652174
Thailand       1991.695652
Argentinien    1991.739130
Neuseeland     1992.043478
Schweden       1992.130435
Frankreich     1992.217391
China          1992.695652
Niederlande    1992.913043
Nigeria        1992.913043
Chile          1992.913043
Südafrika      1993.000000
Deutschland    1993.086957
Australien     1993.173913
Norwegen       1993.173913
Kanada         1993.739130
Spanien        1993.826087
Japan          1994.260870
Jamaika        1995.391304
Name: Geburtsjahr, dtype: float64

## Datensatz: sort_values()

Mit **sort_values()** können Sie einen Datensatz sortieren:

In [27]:
df2.sort_values(by=["Mannschaft", "Groesse"]).head()

Unnamed: 0,Name,Mannschaft,Geburtsjahr,Groesse,Position,WM_Jahr,Groesse_Meter
10,Dalila Ippolito,Argentinien,2002,155,Mittelfeld,2019,1.55
25,Lorena Benitez,Argentinien,1998,156,Mittelfeld,2019,1.56
29,Virginia Gomez,Argentinien,1991,157,Mittelfeld,2019,1.57
95,Natalie Juncos,Argentinien,1990,161,Abwehr,2019,1.61
113,Gabriela Chavez,Argentinien,1989,162,Abwehr,2019,1.62


## Datentabellen: astype()

Mit **astype()** verändern Sie den Datentyp einer Spalte. So kann man etwa die Werte in einer geeigneten Spalte in Faktoren umwandeln. Am Ende können Sie dann die unterschiedlichen Ausprägungen (*categories*) des Faktors sehen:

In [29]:
df2["Mannschaft"].astype("category").head()

0       Chile
1    Thailand
2       Chile
3     Kamerun
4    Thailand
Name: Mannschaft, dtype: category
Categories (24, object): [Argentinien, Australien, Brasilien, Chile, ..., Südafrika, Südkorea, Thailand, USA]