<img src="https://www.bwhpc-c5.de/img/layout/kit_logo_V2.png" width="200" /> <img src="images/HochschuleEsslingen_Logo_RGB_DE.png" width="200" /> <img src="images/Konstanz_Logo.svg" width="200" /> <img src="images/KIT_Logo.png" width="200" />

## Pandas

* Library fuer Datenanalyse
* Erstellung von Series und DataFrames
* Lesen und Schreiben von Daten zwischen verschiedenen Formaten




### Pandas-Series
* Eindimensional
* NumPy-Array hat einen numerischen Index
* Pandas-Series kann stattdessen ein Label haben

#### Pandas-Series aus Listen erstellen

In [None]:
import numpy as np
import pandas as pd
import s3fs

index = ['Germany', 'France', 'Netherlands']
data = [83000000, 67000000, 17000000]
series = pd.Series(data=data) ##Pandas-Series ohne Label erstellen
series

In [None]:
series = pd.Series(data=data, index=index) ##Pandas-Series mit Label erstellen
series

In [None]:
series[0] ##Zugriff auf erstes Element über Index

In [None]:
series['Germany'] ##Zugriff auf erstes Element über Label

#### Pandas-Series aus Python-Dictionary erstellen

In [None]:
alter = {'Pia':20, 'Felix':26} ##Python-Dictionary
pd.Series(alter) ##Konvertierung in Pandas-Series

#### Operationen auf Pandas Series

In [None]:
jahr_1990 = {'Germany':70000000, 'France': 50000000, 'Netherlands': 12000000}
jahr_2021 = {'Germany':83000000, 'France': 67000000, 'Netherlands': 17000000, 'Greece': 13000000}

einwohner_1990 = pd.Series(jahr_1990) ##Konvertierung in Pandas-Series
einwohner_2021 = pd.Series(jahr_2021)
einwohner_1990 ##Ausgabe der Einwohner im Jahr 1990

In [None]:
einwohner_1990['France'] ##Zugriff über Label

In [None]:
einwohner_1990 / einwohner_2021 ##Division

In [None]:
einwohner_1990.div(einwohner_2021, fill_value=10000000) ##Fehlenden Wert bei Division nachtragen

### Pandas DataFrames
* Gruppe von Pandas-Series mit gleichem Index

<p style="text-align: center;"> Pandas-Series 1: </p>

| Index       | Einwohner 2021     |
|-------------|----------|
| Germany     | 82000000 |
| France      | 67000000 |
| Netherlands | 17000000 |

<p style="text-align: center;"> Pandas-Series 2: </p>

| Index       | Einwohner 1990     |
|-------------|----------|
| Germany     | 70000000 |
| France      | 50000000 |
| Netherlands | 12000000 |

<p style="text-align: center;"> Pandas-Dataframe zusammengesetzt aus vorherigen Pandas-Series: </p>

| Index       | Einwohner 1990 | Einwohner 2021 |
|-------------|----------|----------|
| Germany     | 70000000 | 82000000 |
| France      | 50000000 | 67000000 | 
| Netherlands | 12000000 | 17000000 |

#### Pandas-DataFrames aus Python generieren

In [None]:
np.random.seed(42)
data = np.random.randint(0,101,(4,3)) ##Numpy-Array mit zufälligen Werten generieren
data

In [None]:
index = ['Berlin', 'BW', 'Bayern', 'Hessen']
columns = ['Jan', 'Feb', 'Mar']

df = pd.DataFrame(data=data, index=index, columns=columns) ##Pandas DataFrame erstellen
df

In [None]:
df.info() ##Weitere Informationen über DataFrame erhalten

#### DataFrame aus CSV einlesen

In [None]:
df = pd.read_csv('s3://nyc-tlc/trip data/green_tripdata_2019-02.csv', nrows=1000) ##CSV aus S3 einlesen; Beschränkung auf 1000 Zeilen
df

In [None]:
df.columns ## Spalten anzeigen

In [None]:
df.index ## Index anzeigen

In [None]:
df.head(6) ## Zeige erste 6 Elemente

In [None]:
df.describe().transpose() ## Statistische Übersicht erstellen (Min, Max, Quantile, ....)

#### Arbeiten mit Spalten

In [None]:
df['tip_amount'] ## Ausgage einer spezifischen Spalte des DataFrames

In [None]:
type(df['tip_amount']) ## Einzelne Spalte eines DataFrames ist eine Series

In [None]:
cols = ['tip_amount','total_amount']
df[cols] ## Mehrere Spalten ausgeben

In [None]:
type(df[cols]) ## Zwei Spsalten eines DataFrames ist wieder ein DataFrame


In [None]:
100 * df['tip_amount'] / df['total_amount'] ## Prozentualer Anteil des Trinkegelds

In [None]:
df['tip_percentage'] = 100 * df['tip_amount'] / df['total_amount'] ## Neue Spalte in DataFrame einfügen
df.head()

In [None]:
df.drop('tip_percentage', axis=1) ## Spalte löschen

In [None]:
df ##'tip_percentage' ist ja noch immer da?!?

In [None]:
df = df.drop('tip_percentage', axis=1) ## Hier wird 'tip_percentage' endgültig gelöscht
df

In [None]:
df.shape ## Dimension des DataFrames

In [None]:
df.shape[0] ##Index=0 --> Zeilen

In [None]:
df.shape[1] ##Index=1 --> Spalten

#### Arbeiten mit Zeilen

In [None]:
df.index

In [None]:
df = df.set_index("lpep_pickup_datetime") ## Index ändern
## Achtung: "lpep_pickup_datetime" ist jetzt keine Spalte mehr!

In [None]:
df.head()

In [None]:
df.reset_index() ## Index zurücksetzen

In [None]:
df.iloc[0:6] ##Integer-basiert die ersten 6 Zeilen ausgeben

In [None]:
df.loc[['2019-02-01 00:10:19','2019-02-01 00:02:16']] ## Nur Zeilen mit bestimmtem Datum anzeigen

In [None]:
df.drop('2019-02-01 00:10:19', axis=0) ## Einzelne Zeile wegwerfen

In [None]:
row = df.iloc[0] ## Einzelne Zeile selektieren

In [None]:
row ## Details anzeigen

In [None]:
df = df.append(row) ## Zeile unten anhängen

In [None]:
df

#### Filtern mit Bedingungen

Jede Spalte nennen wir ein Feature der Daten. Jede Zeile nennen wir eine Instanz der Daten.

In [None]:
df = pd.read_csv('s3://nyc-tlc/trip data/green_tripdata_2019-02.csv', nrows=1000) ##Neu einlesen

In [None]:
df["tip_amount"] > 3 ##Wo ist 'tip_amount' größer 3?

In [None]:
var1 = df["tip_amount"] > 3 ## Neue Variable einführen mit Boolean

In [None]:
df[var1] ## DataFrame wird gefiltert

In [None]:
df[(df["tip_amount"] > 3) & (df["total_amount"] > 40)] ## Filtern in einer Zeile

In [None]:
filter = [2,5] ## Filter, der nur 2 und 5 auswählt
df['passenger_count'].isin(filter).iloc[500:510]

In [None]:
df.iloc[501] ## 501 ist false da 'passenger_count'=1 und nicht 2 oder 5

In [None]:
df.head()

In [None]:
df.info() ## Informationen über Typen

In [None]:
def last_two(number): ## Letzte 2 Zahlen jeder Zeile einer Spalte ausgeben
    return int(str(number)[-2:])

In [None]:
last_two(1234567)

In [None]:
df['PULocationID'].apply(last_two) ##Anwenden auf Spalte in DataFrame

In [None]:
df['PULocationID_last_two'] = df['PULocationID'].apply(last_two)

In [None]:
df.head()

In [None]:
df['total_amount'].mean()