# 04-Funktionen
DataFrames und Serien haben mächtige Funktionen. Die wichtigsten möchten wir uns im folgenden anschauen. Manchmal allerdings fehlen **Pandas** Funktionen. An diesen Stellen hilft meist **Numpy** weiter. Pandas ist auf Basis von Numpy geschrieben, weshalb alle Funktionen von **Numpy** gut mit Pandas DataFrames und Series zusammenarbeiten.

In [None]:
# Neben pandas importieren wir auch Numpy
import pandas as pd
import numpy as np

In [None]:
# Importieren des Datensatzes
df_pokemon = pd.read_csv('../src/pokemon.csv')
df_pokemon.head()

# WENN
Wenn ist eine beliebte Funktion in <font color='green'>**Excel**</font>. Auch mit Pandas und Numpy ist diese Funktion möglich, wir benutzen hierfür `np.where()`. Im folgenden Überprüfen wir eine Bedingung in einer Spalte und erzeugen in Abhängigkeit von dieser eine neue Spalte.

In [None]:
# Wie wir besonders starke Pokemon auswählen wissen wir bereits
df_pokemon[df_pokemon['HP'] > 100].head(10)

In [None]:
# Nun möchten wir abhänig davon, ob ein Pokemon dazuzählt, dieses in einer neuen
# Spalte Description vermerken.
df_pokemon['Description'] = np.where(df_pokemon['HP'] > 100, 'Super Strong', '')
df_pokemon.sample(20)

In [None]:
# np.where funktioniert also genau gleich wie das Filtern. Wir erzeugen eine Serie mit False/True werten
df_pokemon['Description2'] = np.where((df_pokemon['HP'] > 100) & (df_pokemon['Attack'] > 100), 'Super Strong', '')
df_pokemon.sample(20)

# Mathematische Funktionen (Zusammenfassend)
Mathematische Funktionen bzw. statistische Werte sind essentiell für die Arbeit mit DataFrames. Die Folgenden Funktionen lassen sich für Series spielend leicht berechen.

* Anzahl
* Summe
* Mittelwert
* Median
* Min
* Max

In [None]:
len(df_pokemon)

In [None]:
df_pokemon['Total'].sum()

In [None]:
df_pokemon['Total'].sum() / len(df_pokemon)

In [None]:
df_pokemon['Total'].mean()

In [None]:
df_pokemon['Total'].median()

In [None]:
df_pokemon['Total'].min()

In [None]:
df_pokemon['Total'].max()

## Zusammen aller Spalten `.describe()`

In [None]:
# Zusammenfassen aller Spalten -> Ergebnis ist eine Serie
df_pokemon.max()

In [None]:
# Oder alle statistischen Werte für alle Spalten auf einmal
df_pokemon.describe()

# Mathematische Funktionen in Kombination mit Filtern

In [None]:
# Summe vom Wert "Total", wenn vom Typ Grass
df_pokemon[df_pokemon['Type 1'] == 'Grass'].head()

In [None]:
df_pokemon[df_pokemon['Type 1'] == 'Grass'].sum()

In [None]:
df_pokemon[df_pokemon['Type 1'] == 'Grass']['Total'].sum()

In [None]:
df_pokemon[(df_pokemon['Type 1'] == 'Grass') & (df_pokemon['Type 2'] == 'Poison')]

In [None]:
df_pokemon[(df_pokemon['Type 1'] == 'Grass') & (df_pokemon['Type 2'] == 'Poison')]['Total'].sum()

# Kombinieren von Spaltenwerten

In [None]:
# Wir können ganz einfach zwei Spaltenwerte addieren und erhalten eine neue Series
df_pokemon['HP'] + df_pokemon['Attack']

In [None]:
df_pokemon['Total 2'] = df_pokemon['HP'] + df_pokemon['Attack']
df_pokemon.sample(10)

# Runden
Die `.round()` Funktion entspricht der Funktion `=Runden()` in <font color='green'>**Excel**</font>. 

In [None]:
(df_pokemon['Total 2']/df_pokemon['Total']).head(10)

In [None]:
# Wir schreiben das obige Beispiel um und speichern die Ergebnisse in einer neuen Spalte
df_pokemon['Anteil T2'] = df_pokemon['Total 2']/df_pokemon['Total']
df_pokemon['Anteil T2'].head(10)

In [None]:
# Alles in einem un mit Runden des Ergebnisses auf 2 Nachkommastellen
df_pokemon['Anteil T2'] = df_pokemon['Total 2']/df_pokemon['Total']
df_pokemon['Anteil T2'] = df_pokemon['Anteil T2'].round(2)
df_pokemon.head(10)

# Tipps und Tricks
### Übersicht zu Serien:

* ...aller möglichen einfachen Datentypen einer Serie: https://docs.scipy.org/doc/numpy/user/basics.types.html
* ...aller Funktionen einer Serie https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html