# Pandas Tutorial

Pandas ist ein Python Paket welches performante und benutzerfreundliche Datenstrukturen sowie Datenanalysetools bereitstellt.

Pandas stellt mit *Series* und *Dataframe* zwei zentrale Datenstrukturen bereit, die im folgenden genauer beschrieben werden. Die [Pandas Getting Started Tutorials](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html) bieten viele weitergehende Informationen (auf englisch) zu Pandas.

Das Pandas Paket kann über `pip` installiert werden

In [45]:
!pip install pandas



Danach kann es wie folgt importiert werden, wobei es üblich ist das Paket unter dem Namen `pd` zu importieren.

In [46]:
import pandas as pd

## Dataframe

Ein DataFrame ist eine zweidimensionale Datenstruktur welche Informationen unterschiedlicher Datentypen spaltenbasiert speichern kann (z.B. Ganzzahlen, Zeichenfolgen, Gleitkommazahlen, Python-Objekte usw.) - ähnlich wie bei einer Tabellenkalkulation ("Excel") oder einer SQL Datenbank.

Die folgende Tabelle besteht aus 3 Spalten, wobei jede Spalte eine Beschreibung besitzt. Diese Beschreibungen sind *Stadt*, *Einwohner* und *Bundesland*.

In [47]:
pd.DataFrame(
    {
        "Stadt": ["Soest","München","Berlin"],
        "Einwohner": [47514, 1484226, 3669491],
        "Bundesland": ["Nordrhein-Westfalen", "Bayern", "Berlin"],
    }
)

Unnamed: 0,Stadt,Einwohner,Bundesland
0,Soest,47514,Nordrhein-Westfalen
1,München,1484226,Bayern
2,Berlin,3669491,Berlin


Jede Spalte eines Dataframe ist eine [Series](Series) die im folgenden beschrieben wird.

## Series

Series ist ein eindimensionales beschriftetes Array , welches einen beliebigen Datentyp (Ganzzahlen, Zeichenfolgen, Gleitkommazahlen, Python-Objekte usw.) enthalten kann. Die Achsenbeschriftungen werden zusammen als Index bezeichnet. Eine Series kann wie folgt erstellt werden: 

In [48]:
pd.Series(["Dortmund", "Schalke", "Köln", "Frankfurt", "München"], index=["a", "b", "c", "d", "e"])

a     Dortmund
b      Schalke
c         Köln
d    Frankfurt
e      München
dtype: object

Auf Elemente innerhalb einer Series kann über die Position (die erste Position ist 0!) sowie den Index zugegriffen werden.

In [49]:
series = pd.Series(["Dortmund", "Schalke", "Köln", "Frankfurt", "München"], index=["a", "b", "c", "d", "e"])
print(f"Element an Position 0: { series[0] }")
print(f"Element unter Index c: { series['c'] }")

Element an Position 0: Dortmund
Element unter Index c: Köln


## Datenverarbeitung

Es gibt vielfältige Möglichkeiten Daten in einen Dataframe oder eine Series einzulesen, z.B. über direkte Angabe der Werte, einlesen aus einer [CSV Datei](https://de.wikipedia.org/wiki/CSV_(Dateiformat)) oder Abruf der Daten über eine [REST API](https://de.wikipedia.org/wiki/Representational_State_Transfer).

Python bietet mit dem Paket `requests` eine einfache Möglichkeit um Daten über eine REST API abzurufen. Die Daten werden häufig im [JSON Format](https://de.wikipedia.org/wiki/JavaScript_Object_Notation) bereitgestellt, welches mit dem Python Standard Paket `json` verarbeitet werden kann.

Das `rquests` Paket muss mit `pip` installiert werden, `json` ist Teil von Python.

In [50]:
!pip install requests



Danach können die Pakete importiert werden.

In [51]:
import requests
import json

Nun ist es möglich Daten von einer REST Schnittstelle wie z.B. der OpenLigaDB für Sportdaten abzurufen.

In [52]:
antwort = requests.get('https://www.openligadb.de/api/getbltable/bl1/2020')

Die JSON basierten Daten können dann in einen DataFrame importiert werden.

In [53]:
bundesliga = pd.DataFrame(antwort.json())
bundesliga

Unnamed: 0,TeamInfoId,TeamName,ShortName,TeamIconUrl,Points,OpponentGoals,Goals,Matches,Won,Lost,Draw,GoalDiff
0,40,FC Bayern München,Bayern,https://upload.wikimedia.org/wikipedia/commons...,49,29,61,21,15,2,4,32
1,1635,RB Leipzig,Leipzig,https://upload.wikimedia.org/wikipedia/en/thum...,44,18,37,21,13,3,5,19
2,91,Eintracht Frankfurt,Frankfurt,https://upload.wikimedia.org/wikipedia/commons...,39,29,43,21,10,2,9,14
3,131,VfL Wolfsburg,Wolfsburg,https://upload.wikimedia.org/wikipedia/commons...,39,19,32,21,10,2,9,13
4,6,Bayer Leverkusen,Leverkusen,https://upload.wikimedia.org/wikipedia/de/thum...,36,23,39,21,10,5,6,16
5,7,BV Borussia Dortmund 09,Dortmund,https://upload.wikimedia.org/wikipedia/commons...,33,31,41,21,10,8,3,10
6,87,Borussia Mönchengladbach,Gladbach,https://upload.wikimedia.org/wikipedia/commons...,33,31,37,21,8,4,9,6
7,112,SC Freiburg,Freiburg,https://upload.wikimedia.org/wikipedia/de/thum...,31,33,35,21,8,6,7,2
8,80,1. FC Union Berlin,Union Berlin,https://upload.wikimedia.org/wikipedia/commons...,30,25,34,21,7,5,9,9
9,16,VfB Stuttgart,Stuttgart,https://upload.wikimedia.org/wikipedia/commons...,26,35,38,21,6,7,8,3


Nun kann die Tabelle gefiltert, sortiert, abgefragt und zusammengefasst werden. Hier einige Beispiele.

In [54]:
print("Übersicht von Anzahl, Mittelwert, Standardabweichung, Minimum, 25ste, 50ste und 75ste Percentile sowie Maximum")
bundesliga.describe()

Übersicht von Anzahl, Mittelwert, Standardabweichung, Minimum, 25ste, 50ste und 75ste Percentile sowie Maximum


Unnamed: 0,TeamInfoId,Points,OpponentGoals,Goals,Matches,Won,Lost,Draw,GoalDiff
count,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0
mean,161.166667,28.222222,31.888889,31.888889,20.888889,7.333333,7.333333,6.222222,0.0
std,370.838041,10.740553,8.209671,11.276675,0.323381,3.531372,3.970479,2.073802,16.991347
min,6.0,9.0,18.0,15.0,20.0,1.0,2.0,3.0,-37.0
25%,43.5,21.25,27.5,21.75,21.0,5.0,4.25,5.0,-12.5
50%,82.0,28.0,32.0,33.0,21.0,6.5,7.0,6.0,2.5
75%,107.75,35.25,35.0,37.75,21.0,10.0,10.75,8.0,12.25
max,1635.0,49.0,52.0,61.0,21.0,15.0,14.0,9.0,32.0


In [55]:
bundesliga['ShortName']

0           Bayern
1          Leipzig
2        Frankfurt
3        Wolfsburg
4       Leverkusen
5         Dortmund
6         Gladbach
7         Freiburg
8     Union Berlin
9        Stuttgart
10          Bremen
11      Hoffenheim
12        Augsburg
13            Köln
14          Hertha
15       Bielefeld
16           Mainz
17         Schalke
Name: ShortName, dtype: object

In [56]:
print(f"Durchschnittliche Tore: { bundesliga['Goals'].mean() }")
print(f"Verein mit den meisten Gegentoren: { bundesliga.iloc[bundesliga['OpponentGoals'].idxmax()]['TeamName'] }")

Durchschnittliche Tore: 31.88888888888889
Verein mit den meisten Gegentoren: FC Schalke 04


In [57]:
print("Vereine mit mehr Toren als der durchschnittlichen Anzahl an Toren")
bundesliga[bundesliga['Goals'] > bundesliga['Goals'].mean()]

Vereine mit mehr Toren als der durchschnittlichen Anzahl an Toren


Unnamed: 0,TeamInfoId,TeamName,ShortName,TeamIconUrl,Points,OpponentGoals,Goals,Matches,Won,Lost,Draw,GoalDiff
0,40,FC Bayern München,Bayern,https://upload.wikimedia.org/wikipedia/commons...,49,29,61,21,15,2,4,32
1,1635,RB Leipzig,Leipzig,https://upload.wikimedia.org/wikipedia/en/thum...,44,18,37,21,13,3,5,19
2,91,Eintracht Frankfurt,Frankfurt,https://upload.wikimedia.org/wikipedia/commons...,39,29,43,21,10,2,9,14
3,131,VfL Wolfsburg,Wolfsburg,https://upload.wikimedia.org/wikipedia/commons...,39,19,32,21,10,2,9,13
4,6,Bayer Leverkusen,Leverkusen,https://upload.wikimedia.org/wikipedia/de/thum...,36,23,39,21,10,5,6,16
5,7,BV Borussia Dortmund 09,Dortmund,https://upload.wikimedia.org/wikipedia/commons...,33,31,41,21,10,8,3,10
6,87,Borussia Mönchengladbach,Gladbach,https://upload.wikimedia.org/wikipedia/commons...,33,31,37,21,8,4,9,6
7,112,SC Freiburg,Freiburg,https://upload.wikimedia.org/wikipedia/de/thum...,31,33,35,21,8,6,7,2
8,80,1. FC Union Berlin,Union Berlin,https://upload.wikimedia.org/wikipedia/commons...,30,25,34,21,7,5,9,9
9,16,VfB Stuttgart,Stuttgart,https://upload.wikimedia.org/wikipedia/commons...,26,35,38,21,6,7,8,3


In [58]:
bundesliga.sort_values(by="TeamName")

Unnamed: 0,TeamInfoId,TeamName,ShortName,TeamIconUrl,Points,OpponentGoals,Goals,Matches,Won,Lost,Draw,GoalDiff
13,65,1. FC Köln,Köln,https://upload.wikimedia.org/wikipedia/en/thum...,21,35,20,21,5,10,6,-15
8,80,1. FC Union Berlin,Union Berlin,https://upload.wikimedia.org/wikipedia/commons...,30,25,34,21,7,5,9,9
16,81,1. FSV Mainz 05,Mainz,https://upload.wikimedia.org/wikipedia/commons...,14,42,21,21,3,13,5,-21
15,83,Arminia Bielefeld,Bielefeld,https://upload.wikimedia.org/wikipedia/de/thum...,18,35,18,20,5,12,3,-17
5,7,BV Borussia Dortmund 09,Dortmund,https://upload.wikimedia.org/wikipedia/commons...,33,31,41,21,10,8,3,10
4,6,Bayer Leverkusen,Leverkusen,https://upload.wikimedia.org/wikipedia/de/thum...,36,23,39,21,10,5,6,16
6,87,Borussia Mönchengladbach,Gladbach,https://upload.wikimedia.org/wikipedia/commons...,33,31,37,21,8,4,9,6
2,91,Eintracht Frankfurt,Frankfurt,https://upload.wikimedia.org/wikipedia/commons...,39,29,43,21,10,2,9,14
12,95,FC Augsburg,Augsburg,https://upload.wikimedia.org/wikipedia/de/b/b5...,22,34,21,21,6,11,4,-13
0,40,FC Bayern München,Bayern,https://upload.wikimedia.org/wikipedia/commons...,49,29,61,21,15,2,4,32
