# pandas im Notebook nutzen

## Quelle für dieses Beispiel:

Cyrille Rossant: *IPython Interactive Computing and Visualization Cookbook*, Packt Publishing, Kap. 7

## Import

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

## Ein csv-Datensatzes zum Thema Tennis

In [None]:
df = pd.read_csv("Roger-Federer.csv")

Einen Überblick über die verfügbaren Daten erhält man so:

In [None]:
df

Welche unterschiedlichen Werte gibt es für das Feld "surface"?

In [None]:
set(df["surface"])

Spiele, die Roger Federer gewonnen hat:

In [None]:
df["win"] = df["winner"] == "Roger Federer"

Das Ergebnis der ersten acht Spiele in der Datei aus Sicht des Roger Federer:

In [None]:
df["win"].head(8)

In [None]:
df["winner"].head(8)

Die entsprechende Quote für alle in der Datei enthaltenen Spiele:

In [None]:
q = df.win.mean()
print("Gewinnquote für alle Spiele: {quote:.0f} %".format(quote=q * 100))

Wie ist denn die Quote für Rasen?

In [None]:
grass_matches = df[df.surface == "Outdoor: Grass"]
grass_matches_winner = grass_matches["winner"] == "Roger Federer"
qg = grass_matches_winner.mean()
print("Gewinnquote für Spiele auf Rasen: {quote:.0f} %".format(quote=qg * 100))

Das geht auch eleganter, wenn wir die Quoten für alle Beläge wissen wollen:

In [None]:
df.groupby("surface")["win"].mean() * 100

Jetzt betrachten wir das Verhältnis von Doppelfehlern zu Punkten:

In [None]:
df["dblfaults"] = (
    df["player1 double faults"] / df["player1 total points total"]
)

Eine einfache statistische Auswertung:

In [None]:
df["dblfaults"].describe()

Eine besondere Stärke von *pandas* ist die Verarbeitung von Zeitreihen.
Hier ist der Inhalt der Datei:

Umwandlung in 'datetime':

In [None]:
from datetime import datetime

date = []
for d in df["start date"]:
    day, month, year = d.split(".")
    date.append(datetime(int(year), int(month), int(day)))

Anzeige der Doppelfehler-Quote als Funktion der Zeit:

In [None]:
plt.plot_date(date, df["dblfaults"])