![Pandas Comic from Realpython](../imgs/pandas_comic.png)

(c) [Realpython.com](https://realpython.com)

# deskriptive Datenanalyse mit Pandas

Die Daten, die wir für unsere Analysen als Grundlage haben, liegen uns meist als Textdateien oder in Form von Datenbankeinträgen vor.

Wir wollen uns in diesem Kurs der Einfachheit halber mit Daten in Textform beschäftigen. Auch hier gibt es viele Formate, wie Daten in Reintext strukturiert werden. Komplexere Formate sind XML und JSON, einfachere Formate sind z.B. CSV Dateien. Letztere wollen wir auch für diesen Kurs verwenden. Bei CSV Dateien stehen die Werte pro Eintrag in einer Spalte. Die einzelnen Variablen werden meist mit Kommata von einander abgetrennt (daher auch der Name *Comma Seperated Values*). Längere Werte (wie, z.B. Text) werden noch einmal mit Hochkommata abgegrenzt.

So sieht eine Beispiel-CSV aus:

```
id,first_name,last_name,class,language,rating,favorite_subjects
02,Stefan,Boehringer,5,german,3.2,'history, english'
13,Kathrin,Boehringer,5,german,3.8,'religion, german'
```

Allerdings ist die Separierung per Kommata, die im angloamerikanischen Raum präferiert wird, im deutschen Sprachraum, wegen der Verwendung anderer Dezimaltrenner und Hochkommata problematisch. Hier hat sich eher dieses Format eingebürgert:

```
id;Vorname;Nachname;Klasse;Sprache;Note;Lieblingsfaecher
02;Stefan;Böhringer;5;Deutsch;3,2;"Geschichte, Englisch"
13;Kathrin;Böhringer;5;Deutsch;3,8;"Religion, Deutsch"
```

Beide Varianten können natürlich mit Pandas eingelesen werden.

## Pandas importieren

Um das Modul Pandas verwenden zu können, muss es zuallererst *importiert* werden. Python kommt standardmäßig mit einer mächtigen Grundfunktionalität. Allerdings sind weder die Python Standard-Datenstrukturen noch die Funktionalität auf die Domäne "Datenanalyse, Numerik, wissenschaftliches Rechnen etc." ausgelegt. Hierfür sind mehrere Bibilotheken entstanden, die in Python über *Paketmanager* installiert und dann über sog. *Module* importiert werden müssen.

Als Paketmanager steht in Python standardmäßig PIP zur Verfügung, der Pakete aus PyPi (dem *Py*thon *P*ackage*i*ndex) inlusive aller Abhängigkeiten herunterlädt und installiert. Benutzen Sie allerdings die *Anaconda* Python Distribution (was im Fall von Data Science sehr wahrscheinliche ist), dann ist der mitgelieferte Paketmanager *CONDA*.

Die Befehle zum installieren lauten bei PIP:

```
pip install <paketname>
```

bzw. bei CONDA:

```
conda install <paketname>
```

Den tatsächlichen Installationsbefehl für alle Pakete finden Sie in den Verzeichnissen von [PyPi](https://pypi.org/) und von [Anaconda](https://anaconda.org/anaconda/repo).

Sind die Pakete installiert, können Sie dann über den `import` Befehl in das Python Skript eingebunden werden.

In [2]:
import pandas as pd

Hier haben wir `pandas` importiert und gleichzeitig den Namen `pd` als Alias für den "Namensraum" vergeben. Das ist nicht notwendig, aber hilfreich, möchte man sich Tipparbeit ersparen. Nach dem Import kann man dann über den Namen des Moduls, bzw. über den Alias auf die Funktionen des Moduls zugreifen. Der Zugriff erfolgt über den `.`-Operator: `pandas.funktion()`, bzw. `pd.funktion()`.

So können wir nun die Funktion [`.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) des Pandas Moduls aufrufen, die es uns ermöglicht, CSV Dateien einzulesen.

## CSV Dateien einlesen

In [3]:
df = pd.read_csv("../data/pokedex.csv")

Hier sind nun gleich mehrere Erklärungen für den Umgang mit Python nötig.

### Exkurs 1: Funktionen in Python aufrufen

Funktionen sind eine Art Miniprogramm, dessen Code beim Aufruf ausgeführt wird. Meist erwartet eine Funktion ein oder mehrere Parameter, sog. Argumente. Z.B. braucht `.read_csv()` die Angabe eines Dateipfades als *String* über den die einzulesende Datei gefunden werden kann. Die Syntax für Funktionsaufrufe lautet also:

```
<Funktionsname>(<arg1>, <arg2>, ...)
```

Welche Argumente eine Funktion entgegen nimmt oder entgegen nehmen kann, sieht man an der sog. *Signatur* einer Funktion, die man wiederum in der Dokumentation nachschlagen kann.

### Exkurs 2: Strings in Python

Oben wurde der Pfad zur Datei als String angegeben. Ein String ist eine Sequenz von Zeichen, sog. *Characters*. Ein String wird in Python durch das Einfassen von Zeichen in doppelte `"` oder einfache `'` Hochkommata generiert.

In [4]:
# definieren eines Strings
s = "Das ist ein String."

In [5]:
# Ausgabe des Typs
type(s)

str

In [6]:
# die Länge eines Strings
len(s)

19

In [7]:
# Strings über den Aufruf von Methoden (Punkt-Operator!) verändern
s.lower()

'das ist ein string.'

In [8]:
s.upper()

'DAS IST EIN STRING.'

In [9]:
s.replace("ein", "kein")

'Das ist kein String.'

### Exkurs 3: Dateipfade

In Python werden Dateipfade so angegeben, wie das Betriebsystem es verlangt. Man unterscheidet Pfadangaben im Unix-Format (unter Linux und Mac-OS) und Windows-Format. Dabei beginnt der Pfad immer mit einem "/" unter Mac und Linux, bzw. mit einem "C:\" unter Windows (dem sog. *Wurzelverzeichnis*). Dieses markiert die unterste Ebene der Festplatte. Von da aus geht man sukzessive über die ganzen Unterordner bis man in dem Ordner landet, in den man möchte. Hier ein paar Beispiele:

![Ordnerstruktur Windows](../imgs/folder_structure_win.png)

![Ordnerstruktur Mac OSX](../imgs/folder_structure_mac.png)

Oben wurde der Pfad als `../data/datei.csv` angegeben. Mit `..` wechselt man in den übergeordneten Ordner. Folgendes Bild veranschaulicht dies:

![in Ordner wechseln](../imgs/folder_movement.png)

Dateien, die direkt im Ordner des Python Skripts liegen können auch referenziert werden, ohne die Ordner voranzustellen.

#### Die Eingabeaufforderung

Die Eingabeaufforderung, oder auch Kommandozeile oder Konsole ist eine Umgebung innerhalb des Betriebssystems, in die Befehle eingetippt werden können, um mit dem Betriebssystem zu interagieren. Je nach Betriebssystem lässt sich damit mehr oder weniger bewerkstelligen. Sie brauchen Sie manchmal, um z.B. wie oben erwähnt per `pip` oder `conda` neue Pakete zu installieren. Auch können Sie dort eine interaktive Python-Umgebung starten, die die Grundlage von *Jupyter-Notebooks* ist: IPython.

![die Eingabe Aufforderng](../imgs/python_repl.png)

Windows: Unter Windows erreichen Sie die Eingabeaufforderung entweder indem Sie in ihrem Windows Menü (nach Drücken der Windows-Taste) „cmd“ eingeben, oder „cmd“ nach dem Drücken der Tastenkombination „Windows-Taste“+„r“ eingeben.

Mac OSX: Auf einem Mac gelangen Sie über die App Terminal in die Eingabeaufforderung. Starten sie „Terminal.app“ aus dem Ordner „Programme/Dienstprogramme“, oder drücken Sie die Tastenkombination „Command“+„Leertaste“ und geben Sie „Terminal“ ein.

Linux: Da es verschiedene Terminalprogramme für die unterschiedlichsten Linux Desktops gibt, kann hier keine allgemeine Aussage getroffen werden. Meist heißen diese Programme aber auch „Terminal“, „Konsole“ oder „Console“.

### Exkurs 4: Variablen in Python

Über die Funktion `.read_csv()` wurde die CSV eingelesen und der Variablen `df` (für *D*ata*F*rame - später dazu mehr) zugewiesen.

Variablen sind Namen für Verweise im Speicher ihres Computers auf Python Objekte (oder primitive Datentypen). Jeder Datentyp und jedes Objekt in Python hat eine Referenz im Hauptspeicher (RAM) ihres Rechner. Sie können sich diese Referenzen über die Funktion `id` anzeigen lassen.

In [10]:
num = 345

string = "drei, vier, fünf"

id(num)

140422366380272

In [11]:
id(string)

140423421985776

Über solche Namen kann man dann die Objekte im Speicher immer wieder im Laufe seines Skriptes oder Programmes ansprechen.

Für den Namen einer Variablen kann so gute wie jede arbiträre Abfolge von Zeichen benutzt werden. Zwei wichtige weitere Einschränkungen gibt es aber:
1. Der Variablenname muss mit einem führenden Unterstrich oder einem Buchstaben beginnen.
2. Der Variablenname darf nicht indentisch sein mit in Python verwendeten Schlüsselbegriffen.

Und noch eine Konvention: da Variablennamen keine Leerzeichen enthalten, manche Namen aber sinnvollerweise aus mehreren Wörtern bestehen, benutzt man in den Python den Unterstrich `_` zur Trennung der Wörter; z.B. `new_data_frame`, `get_user_id` oder `build_csv`.

## Pandas DataFrames

Die Funktion `.read_csv()`, wie übrigens alle anderen `pd.read_...()` Funktionen aus dem Pandas Modul speichern die Werte in der Pandas eigenen Datenstruktur **DataFrame**.

Ein DataFrame ist ein zweidimensionales *tabellarisches Datenformat* mit je einem gelabelten Index für Zeilen und Spalten.

### Funktionen für die erste Analyse und Orientierung

Es gibt mehrere Funktionen, mit denen man sich einen Überblick über einen DataFrame verschaffen kann.

- `.head()` gibt die ersten Zeilen (Defaultwert ist 5) eines DataFrames zurück.

In [12]:
df.head()

Unnamed: 0.1,Unnamed: 0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,...,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
0,0,1,Bulbasaur,Bisasam,フシギダネ (Fushigidane),1,Normal,Seed Pokémon,2,Grass,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
1,1,2,Ivysaur,Bisaknosp,フシギソウ (Fushigisou),1,Normal,Seed Pokémon,2,Grass,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
2,2,3,Venusaur,Bisaflor,フシギバナ (Fushigibana),1,Normal,Seed Pokémon,2,Grass,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
3,3,3,Mega Venusaur,Bisaflor,フシギバナ (Fushigibana),1,Normal,Seed Pokémon,2,Grass,...,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
4,4,4,Charmander,Glumanda,ヒトカゲ (Hitokage),1,Normal,Lizard Pokémon,1,Fire,...,2.0,1.0,1.0,0.5,2.0,1.0,1.0,1.0,0.5,0.5


Es fällt auf, dass ein Index automatisch von Pandas vergeben wurde, der in der CSV-Datei als erste Spalte enthalten war. Wir können Pandas mitteilen, dass es nun diese Spalte als Index benutzen soll.

In [4]:
df.index = df['Unnamed: 0']

df.index.name = 'Index'

Anschliessend können wir die überflüssige Spalte "Unnamed: 0" löschen.

In [5]:
df = df.drop(columns=['Unnamed: 0'])

- `.tail()` gibt gegenüber `.head()` die letzten Zeilen (Defaultwert ebenfalls 5) eines Dataframes zurück.

In [15]:
df.tail(7)

Unnamed: 0_level_0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,type_2,...,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1038,894,Regieleki,Regieleki,レジエレキ (Regieleki),8,Sub Legendary,Elektron Pokémon,1,Electric,,...,2.0,0.5,1.0,1.0,1.0,1.0,1.0,1.0,0.5,1.0
1039,895,Regidrago,Regidrago,レジドラゴ (Regidrago),8,Sub Legendary,Dragon Orb Pokémon,1,Dragon,,...,1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,2.0
1040,896,Glastrier,Polaross,ブリザポス (Burizaposu),8,Sub Legendary,Wild Horse Pokémon,1,Ice,,...,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,2.0,1.0
1041,897,Spectrier,Phantoross,レイスポス (Reisuposu),8,Sub Legendary,Swift Horse Pokémon,1,Ghost,,...,1.0,1.0,1.0,0.5,1.0,2.0,1.0,2.0,1.0,1.0
1042,898,Calyrex,Coronospa,バドレックス (Budrex),8,Legendary,King Pokémon,2,Psychic,Grass,...,0.5,2.0,0.5,4.0,1.0,2.0,1.0,2.0,1.0,1.0
1043,898,Calyrex Ice Rider,Coronospa,バドレックス (Budrex),8,Legendary,High King Pokémon,2,Psychic,Ice,...,1.0,1.0,0.5,2.0,2.0,2.0,1.0,2.0,2.0,1.0
1044,898,Calyrex Shadow Rider,Coronospa,バドレックス (Budrex),8,Legendary,High King Pokémon,2,Psychic,Ghost,...,1.0,1.0,0.5,1.0,1.0,4.0,1.0,4.0,1.0,1.0


In unserem DataFrame gibt es also 1045 Zeilen. Dies sehen wir aber nur, weil Pandas beim Einlesen der CSV Datei einen fortlaufenden Index vergeben hat. Der Index könnte aber, wie die Spalten auch mit einem anderen Wert gelabelt werden. Z.B. könnten die Namen der Pokemon den Index bilden. Wie man das macht, sehen wir später noch. Wollen wir dennoch zuverlässig wissen, welche Zeilen- und Spaltenlänge ein Dataframe hat, können wir das Attribut `.shape` abrufen. Der erste Wert gibt dabei die Anzahl an Zeilen, der zweite Wert die Anzahl an Spalten an.

In [16]:
df.shape

(1045, 50)

In [7]:
print('Zeilen:', df.shape[0], ' Spalten:', df.shape[1])

Zeilen: 1045  Spalten: 50


### Exkurs 5: Methoden und Attribute von Objekten

Bis auf wenige primitive Datentypen ist alles in Python ein Objekt. Ohne hier näher auf das Thema [Objektorientierung](https://de.wikipedia.org/wiki/Objektorientierte_Programmierung) eingehen zu können, kann man sagen, dass Daten und Code in Python als *Objekte* vorliegen. Objekte kapseln Daten zusammen mit Funktionen. Mit Hilfe von Objekten will man die Komplexität von Softwaredesign reduzieren und gleichzeitig "die Welt" modellieren. Jedes Objekt kann dabei Daten, sog. *Attribute* und Funktionen sog. *Methoden* enthalten. Sowohl auf Attribute, als auch auf Methoden kann man mit dem `.`-Operator zugreifen. Einzig die runden Klammern beim Aufruf von Methoden fallen bei den Attributen weg. Näheres zu Methoden und Attributen in Python finden Sie unter [diesem Link](https://stackoverflow.com/questions/46312470/difference-between-methods-and-attributes-in-python).

### Exkurs 6: Dimensionen und Achsen

Wenn wir über DateFrames oder generell tabelarische Strukturen in Python reden, so reden wir von Dimensionen und von Achsen. Im Prinzip ist dabei das Gleiche gemeint. Die Achse gibt dabei die Richtung an. Die Richtung entlang der Zeilen ist Achse 0, entlang der Spalten Achse 1, jede weitere Dimension zählt die Achse um eins hoch.

Ein Schaubild veranschaulicht dies wohl am besten:

![Schaubild Dimensionen](../imgs/array_axis1.png)

### die .info Methode

- `.info()` listet übersichtlich alle Informationen zur Beschreibung eines Dataframes auf. Dazu gehören die Anzahl der Einträge, die verschiedenen Spalten inkl. Namen, wie viele Zeilen einen Wert in der Spalte haben und welchen Datentyp die jeweilige Spalte hat.

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1045 entries, 0 to 1044
Data columns (total 50 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   pokedex_number    1045 non-null   int64  
 1   name              1045 non-null   object 
 2   german_name       1045 non-null   object 
 3   japanese_name     1045 non-null   object 
 4   generation        1045 non-null   int64  
 5   status            1045 non-null   object 
 6   species           1045 non-null   object 
 7   type_number       1045 non-null   int64  
 8   type_1            1045 non-null   object 
 9   type_2            553 non-null    object 
 10  height_m          1045 non-null   float64
 11  weight_kg         1044 non-null   float64
 12  abilities_number  1045 non-null   int64  
 13  ability_1         1042 non-null   object 
 14  ability_2         516 non-null    object 
 15  ability_hidden    813 non-null    object 
 16  total_points      1045 non-null   int64  


### Exkurs 7: Datentypen in Pandas

Pandas benutzt intern die Datentypen des Moduls *NumPy* und bringt noch einige eigene mit. Wie NumPy mit Pandas zusammenhängt, werden wir später noch sehen. Die wichtigsten Datentypen, die Pandas benutzt sind folgende:

| Datentyp | Art der Daten | Bezeichnung in Pandas |
|:---|:---:|:---|
| Int64DType | Ganz- und Fließkommazahlen | int64, int32, float64 ... |
| StringDType |  Sequenz von Zeichen | string |
| BooleanDType | Logisches `True` und `False` | boolean |
| CategoricalDType | kategorische Daten | category |
| DatetimeTZDtype | Zeitzonen sensitives Datums- und Zeitformat | datetime64 |

Mit der Funktion `.astype()` kann man Spalten eines Dataframes einen neuen Typ geben. So sind z.B. die vier Variablen *status*, *species*, *type_1* und *type_2* in unserem Pokemon Datensatz *kategoriale* Daten.

Mit der `.astype()` Funktion können wir diese Spalten in einen *CategoricalDType* umwandeln. Dazu müssen wir der Funktion Schüssel-Wert-Paare (key-value-pairs) übergeben, wobei in Python für diese Datenstruktur das sog. *Dictionary* zur Verfügung steht. Als Schüssel wird jeweils der Spaltenindex bzw. Spaltenname und als Wert die Art des DTypes angegeben.

Ruft man nur die Funktion `.astype()` auf, so wird nur ein sog. "View" generiert, aber der Dataframe nicht verändert. Möchte man die Veränderung aber "speichern" so muss man den View erneut dem Dataframe zuweisen; man überschreibt ihn gewissermaßen.

In [18]:
df = df.astype({'status': 'category', 'species': 'category', 'type_1': 'category', 'type_2': 'category'})

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1045 entries, 0 to 1044
Data columns (total 50 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   pokedex_number    1045 non-null   int64   
 1   name              1045 non-null   object  
 2   german_name       1045 non-null   object  
 3   japanese_name     1045 non-null   object  
 4   generation        1045 non-null   int64   
 5   status            1045 non-null   category
 6   species           1045 non-null   category
 7   type_number       1045 non-null   int64   
 8   type_1            1045 non-null   category
 9   type_2            553 non-null    category
 10  height_m          1045 non-null   float64 
 11  weight_kg         1044 non-null   float64 
 12  abilities_number  1045 non-null   int64   
 13  ability_1         1042 non-null   object  
 14  ability_2         516 non-null    object  
 15  ability_hidden    813 non-null    object  
 16  total_points      1045 n

Sehen Sie, wie nun die Spalten 5, 6, 8 und 9 den Datentyp `category` haben.

Wir können uns sogar ansehen, welche Kategorien die Spalte "type_1" nun enthält.

In [20]:
df.type_1.cat.categories

Index(['Bug', 'Dark', 'Dragon', 'Electric', 'Fairy', 'Fighting', 'Fire',
       'Flying', 'Ghost', 'Grass', 'Ground', 'Ice', 'Normal', 'Poison',
       'Psychic', 'Rock', 'Steel', 'Water'],
      dtype='object')

Über den Zugriff auf Spalten und Zeilen innerhalb eines Dataframes werden wir gleich noch zu reden haben. Zuvor aber noch ein kleiner Abstecher zu den eben erwähnten Dictonaries.

### Exkurs 8: Python Dictionary

Dictionaries bestehen aus einer Menge an Schlüssel-Wert-Paaren, die durch ein Komma getrennt werden. Diese Paare stehen in geschweiften Klammern „{}“. Schlüssel und Wert werden mit einem Doppelpunkt getrennt:

```
{<schlüssel1>:<wert>, <schlüssel2>:<wert>}
```

Die Schlüssel müssen dabei *hashable* sein (mehr zu Hashes [hier]()). Meistens nimmt man aber Integer oder Strings. Die Werte wiederum können jede Art von in Python verfügbaren Datentypen, Objekten und Datenstrukturen sein.

In [21]:
my_dict = {0: False, 1: "eins", 2: {"name": "Stefan", "beruf": "Pythonista"}}

my_dict

{0: False, 1: 'eins', 2: {'name': 'Stefan', 'beruf': 'Pythonista'}}

Auf die einzelnen Werte kann man mit mit dem `[]`-Operator zugreifen, indem man ihm den Schlüssel übergibt:

In [22]:
my_dict[1]

'eins'

In [23]:
my_dict[2]

{'name': 'Stefan', 'beruf': 'Pythonista'}

In [24]:
my_dict[2]["beruf"]

'Pythonista'

Beachten Sie hier das letzte Beispiel: `my_dict[2]` gibt wiederum ein Dictionary zurück, nämlich `{"name":"Stefan", "beruf":"Pythonista"}`. Auf dieses wird dann wieder über `["beruf"]` auf den Schlüssel "beruf" zugegriffen und der Wert "Pythonista" zurückgegeben.

Die Dictionary-Methoden `.values()`, `.keys()` und `.items()` geben jeweils eine Liste der gespeicherten Werte (der ersten Ebene), eine Liste der Schlüssel und eine Liste an Tupeln mit Schlüssel und Wert zurück (was Python Listen sind, erfahren wir gleich noch).

In [25]:
my_dict.values()

dict_values([False, 'eins', {'name': 'Stefan', 'beruf': 'Pythonista'}])

In [26]:
my_dict.keys()

dict_keys([0, 1, 2])

In [27]:
my_dict.items()

dict_items([(0, False), (1, 'eins'), (2, {'name': 'Stefan', 'beruf': 'Pythonista'})])

Neue Werte kann man dem Dictionary ganz einfach über den `[]`-Operator mitgeben.

In [28]:
my_dict["neu"] = "ein neues Item"

my_dict

{0: False,
 1: 'eins',
 2: {'name': 'Stefan', 'beruf': 'Pythonista'},
 'neu': 'ein neues Item'}

Wenn man der Python Funktion `del()` ein Dictionary samt Schlüssel übergibt, so löscht `del()` diesen Eintrag "on-the-fly" im angegebenen Dictionary.

In [29]:
del(my_dict[1])

my_dict

{0: False,
 2: {'name': 'Stefan', 'beruf': 'Pythonista'},
 'neu': 'ein neues Item'}

### die .describe Methode

Eine letzte Methode, um uns einen Überblick über den DataFrame zu verschaffen, ist die Methode `.describe()`. Sie gibt eine Reihe deskriptiver statistischer Kennwerte zurück, dazu gehören die zentrale Tendenz, die Streuung und die Form der Verteilung eines Datensatzes, wobei NaN-Werte (also fehlende Werte) ausgeschlossen sind.

In [30]:
df.describe()

Unnamed: 0,pokedex_number,generation,type_number,height_m,weight_kg,abilities_number,total_points,hp,attack,defense,...,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
count,1045.0,1045.0,1045.0,1045.0,1044.0,1045.0,1045.0,1045.0,1045.0,1045.0,...,1045.0,1045.0,1045.0,1045.0,1045.0,1045.0,1045.0,1045.0,1045.0,1045.0
mean,440.769378,4.098565,1.529187,1.374067,71.216571,2.2689,439.35311,70.067943,80.476555,74.670813,...,1.082297,1.1689,0.977273,0.998086,1.238278,1.01866,0.977033,1.071053,0.981579,1.091148
std,262.517231,2.272788,0.499386,3.353349,132.259911,0.803154,121.992897,26.671411,32.432728,31.259462,...,0.782683,0.592145,0.501934,0.610411,0.69656,0.568056,0.375812,0.465178,0.501753,0.536285
min,1.0,1.0,1.0,0.1,0.1,0.0,175.0,1.0,5.0,5.0,...,0.0,0.25,0.0,0.0,0.25,0.0,0.0,0.25,0.0,0.0
25%,212.0,2.0,1.0,0.6,9.0,2.0,330.0,50.0,55.0,50.0,...,0.5,1.0,1.0,0.5,1.0,1.0,1.0,1.0,0.5,1.0
50%,436.0,4.0,2.0,1.0,29.5,2.0,458.0,68.0,77.0,70.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
75%,670.0,6.0,2.0,1.6,70.5,3.0,515.0,82.0,100.0,90.0,...,1.5,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0
max,898.0,8.0,2.0,100.0,999.9,3.0,1125.0,255.0,190.0,250.0,...,4.0,4.0,4.0,4.0,4.0,4.0,2.0,4.0,4.0,4.0


Von den 50 Variablen könnten 37 mit der `.describe()` Methode angezeigt werden, aber nur 20 werden tatsächlich angezeigt. Wir sollten Pandas in diesem Jupyter Notebook so einstellen, dass wir immer alle Spalten sehen.

In [99]:
pd.set_option('display.max_columns', df.shape[1])

Ausserdem ist es bei dieser Ansicht etwas mühselig, immer so weit nach rechts zu scrollen, um den Überblick über die komplette Ausgabe von `.describe()` zu haben. Wir können aber jederzeit das Attribute `.T` (großes "T" für "transpose") aufrufen, das Zeilen mit Spalten vertauscht.

In [100]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pokedex_number,1045.0,440.769378,262.517231,1.0,212.0,436.0,670.0,898.0
generation,1045.0,4.098565,2.272788,1.0,2.0,4.0,6.0,8.0
type_number,1045.0,1.529187,0.499386,1.0,1.0,2.0,2.0,2.0
height_m,1045.0,1.374067,3.353349,0.1,0.6,1.0,1.6,100.0
weight_kg,1044.0,71.216571,132.259911,0.1,9.0,29.5,70.5,999.9
abilities_number,1045.0,2.2689,0.803154,0.0,2.0,2.0,3.0,3.0
total_points,1045.0,439.35311,121.992897,175.0,330.0,458.0,515.0,1125.0
hp,1045.0,70.067943,26.671411,1.0,50.0,68.0,82.0,255.0
attack,1045.0,80.476555,32.432728,5.0,55.0,77.0,100.0,190.0
defense,1045.0,74.670813,31.259462,5.0,50.0,70.0,90.0,250.0


## Dataframes filtern

Natürlich sind hier nun einige unsinnigen Variablen dabei, deren "Statistiken" wertlos sind. Dazu gehören die Pokedex Nummern, die Generation, die Typ- oder Fähigkeitsnummern.

Es wäre also sehr praktisch, nur einen *Teil* des DataFrames zu *filtern*, auf den wir dann die Funktion `.describe()` anwenden können.

Mit Hilfe von Pandas bestimmte Spalten eines DataFrames auszuwählen oder über bestimmte Bedingungen auf Zeilenebene zu filtern ist eigentlich sehr einfach. Aber für ein eigentliches Verständnis der ganzen Operationen brauchen wir doch wieder einiges an Hintergrundwissen und damit Exkurse, wie Datenstrukturen in Python generell gefiltert werden, wie ein Pandas DataFrame eigentlich aufgebaut ist, und was das ganze mit dem Modul NumPy zu tun hat.

### Der Aufbau eines Pandas DataFrames

Was vielen Anfängern bei der Benutzung von Pandas DataFrames Schwierigkeiten macht, ist deren Aufbau und damit aber auch die *Rückgabewerte* bei der Filterung. Mit Rückgabewert ist die Art des Objekts gemeint, das bei der Filterung eines DataFrames zurückgegeben wird. Mit der Art des Objektes ändern sich aber auch die Eigenschaften und vor allem die "Dinge", die man mit diesem Objekt machen kann; also wie wir im Exkurs 5: "Methoden und Attribute von Objekten" (Kap. 1.3.2) schon gesehen haben, ändern sich die *Methoden* der Objekte.

Um dies besser zu verstehen, schauen wir uns das am Besten einfach direkt an.

Zu aller erst: **Wie wählt man bestimmte Spalten (und damit Variablen) aus einem Dateframe aus?**

Hier hilft uns, wie wir im letzten Exkurs 8: "Python Dictionaries" (Kap. 1.3.6) schon gesehen haben, der `[]`-Operator. Beim Dictionary haben wir dort den Schlüssel angegeben, bei DataFrames können wir hier nun den Namen einer Spalte übergeben und Python wird diese "Spalte" zurückgeben.

In [32]:
names = df['name']

names.head()

Index
0        Bulbasaur
1          Ivysaur
2         Venusaur
3    Mega Venusaur
4       Charmander
Name: name, dtype: object

Was wir hier schon sehen können: es wird ein Objekt zurück gegeben, dass einen Index hat (der selbe Index wie im gesamten DataFrame) und einen Namen (hier den Name der Variable - zufälligerweise auch 'name'). Was wir auch bemerken sollten: das ganze sieht nicht wie ein DataFrame-Objekt aus.

Die Python Funktion `type()` kann uns Auskunft über die Art des Objekts geben, wenn wir ihr das Objekt als Argument übergeben.

In [33]:
type(names)

pandas.core.series.Series

Es handelt sich also tatsächlich um kein DataFrame Objekt sondern ein "Pandas Series" Objekt. Was das ist, werden wir gleich noch sehen. Das DataFrame Objekt hat definitiv einen anderen Typ:

In [34]:
type(df)

pandas.core.frame.DataFrame

Was ist aber nun, wenn wir mehrere Spalten/Variablen auswählen wollen, um damit z.B. die `describe()` Funktion aufzurufen? Wir können dem `[]`-Operator eine **Liste** an Namen von Spalten übergeben.

Eine Python Liste selbst wird ebenefalls in eckigen Klammern geschrieben, zwischen denen man per Komma getrennte Werte schreiben kann. Als Wert kann jeder primitive Datentyp und jede Art von Python-Objekt (selbst Funktionen!) übergeben werden. Also z.B.:

In [35]:
my_list = ['ein string', 'ein Name', 376, 5.44, False, max]
my_list

['ein string', 'ein Name', 376, 5.44, False, <function max>]

So können wir uns nun z.B. die Spalten aller Namen und deren Übersetzung für die einzelnen Pokemon ausgeben lassen.

In [36]:
name_vars = ['name', 'german_name', 'japanese_name']

df_all_names = df[name_vars]

df_all_names.head()

Unnamed: 0_level_0,name,german_name,japanese_name
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Bulbasaur,Bisasam,フシギダネ (Fushigidane)
1,Ivysaur,Bisaknosp,フシギソウ (Fushigisou)
2,Venusaur,Bisaflor,フシギバナ (Fushigibana)
3,Mega Venusaur,Bisaflor,フシギバナ (Fushigibana)
4,Charmander,Glumanda,ヒトカゲ (Hitokage)


Die Rückgabe hat auch hier einen Index, aber es fehlt der Name. Ausserdem sieht der Output verdächtig nach einem DataFrame aus. Wir können prüfen, ob dies auch wirklich der Fall ist:

In [37]:
type(df_all_names)

pandas.core.frame.DataFrame

Tatsächlich! Wenn wir **nur eine** Variable eines DataFrames auswählen, dann bekommen wir ein *Pandas Series Objekt* zurück, wenn wir aber **mehrere** Variablen auswählen, dann bekommen wir wieder einen DataFrame mit all seinen Attributen und Methoden zurück. Wie hängt dies zusammen?

Die einzelnen Spalten sind eigentlich einzelne Pandas Series Objekte, die mit einem Index (den Labels der Spalten) verknüpft sind. Was aber ist nun ein Pandas Series Objekt? Um diese Frage zu beantworten, müssen wir aber kurs auf das Modul NumPy eingehen.

### Exkurs 9: Warum NumPy?

Das Modul [**Numpy**](https://numpy.org/doc/stable/index.html) bildet, so kann man sagen, die Grundlage des gesamten *Python Science Stacks*. NumPy ist eine *numerische* Programmbibliothek für das Rechnen mit Vektoren und Matrizen. Darüber hinaus bietet NumPy effektive Array Datenstrukturen, sowie Funktionen für numerische Berechnungen.

Auch wenn Sie im täglichen Umgang mit NumPy eher weniger direkt in Berührung kommen, sondern mehr mit Pandas arbeiten, so nutzt doch letzteres "unter der Haube" jenes NumPy Modul. Wenn Sie natürlich in ihrer wissenschaftlichen Praxis stärker auf numerische Berechnungen oder lineare Algebra setzen, dann sollten sie sich NumPy noch genauer ansehen.

NumPy ist die Grundlage des kompletten Python Science Stacks:

![Numpy Lifting](../imgs/numpy_lifting.png)

Sie finden alle Informationen zu NumPy und die aktuelle Dokumentation, die ich Ihnen zum Selbststudium nur wärmstens ans Herz legen kann auf der offiziellen Internetpräsenz [numpy.org](https://numpy.org/). Ihr Einstiegspunkt für viele Fragen stellt die [API Referenz](https://numpy.org/doc/stable/reference/index.html) dar, die aber am Anfang auch sehr abschreckend wirken kann. Versuchen Sie sich in einer ruhigen Minute einen Überblick zu verschaffen, indem Sie das Inhaltsverzeichnis ein bisschen "durchklicken".

NumPy können wir über folgenden Befehl importieren (die Abkürzung "np" ist wie "pd" bei Pandas gängige Konvention!):

In [38]:
import numpy as np

Es gibt vor allem zwei Gründe für die Entwicklung von NumPy, die übrigens schon im Jahre 1995 unter dem Acronym *Numeric* begann: einerseits eine effiziente Datenstruktur mit hoher Zugriffszeit, sowie die Möglichkeit des Rechnens mit diesen Datenstrukturen.

Werfen wir zuerst einen Blick auf das Thema Geschwindigkeit. Schreiben wir ein kleine Funktion, die einfach die ganzen Zahlen von 1 bis n summiert (*Sie müssen den Code nicht verstehen! Alles was sie sich merken müssen ist, dass wir über eine Reihe an Zahlen iterieren und jede Zahl zu einer Variablen hinzuaddieren*).

In [39]:
def sum_integers(n: int) -> int:
    s = 0
    i = 1
    while i < n:
        s += i
        i += 1
    return s

%timeit sum_integers(1_000_000)

74.4 ms ± 2.58 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Da Python in der Programmiersprache C geschrieben ist, und bestimmte Funktionen direkt in C ausführen kann, können wir den Code mit Hilfe dieser Funktionen schon etwas beschleunigen (*auch hier gilt: merken Sie sich nur, dass wir nun eine optimierte Funktion von Python aufrufen*).

In [40]:
def sum_integers_py(n: int) -> int:
    return sum(range(n))

%timeit sum_integers_py(1_000_000)

15.6 ms ± 670 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Mit der Hilfe von NumPy können wir das ganze nun noch einmal extrem beschleunigen.

In [41]:
def sum_integers_numpy(n: int) -> int:
    return np.array(np.arange(n), dtype=np.int32).sum()

%timeit sum_integers_numpy(1_000_000)

2.18 ms ± 190 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Damit dies funktioniert, arbeitet NumPy mit sog. Arrays, Datenstrukturen, auf deren Elemente sehr schnell im Speicher zugegriffen werden kann. In Numpy heiẞen diese Array-Objekte **ndarrays** (N-dimensionale Arrays). Die NumPy Arrays unterscheiden sich von klassischen sequentiellen Datenstrukturen in Python wie Listen und Tupel in folgenden Punkten:
  - Bei ihrer Generierung haben *ndarrays* eine fest gesetzte Gröẞe, anders als Listen, die dynamisch wachsen können. Wird der Array verändert, wird ein neues Array erstellt und der alte im Speicher gelöscht.
  - Alle Elemente eines Arrays müssen den gleichen Datentyp haben und damit auch die gleiche Gröẞe im Speicher. Einzige Ausnahme: jedes Python Objekt kann auch Teil eines *ndarrays* sein.
  - Es sind, wie schon gezeigt, mathematische Funktionen für diese Arrays vorhanden, mit denen man auf diesen Objekten sehr effizient operieren kann, ohne viel Code zu schreiben.

Wie wird nun ein *ndarray* erzeugt? Hierfür gibt es die Funktion `np.array()`, der wir eine ganz normale Python Liste samt Elementen übergeben.

In [42]:
my_array = np.array([2, 4, 6, 8, 10])

my_array

array([ 2,  4,  6,  8, 10])

Mehr müssen Sie erst einmal nicht über NumPy Arrays wissen, ausser, dass sie die Grundlage für das Pandas Series Objekt bilden. Auf eine Kleinigkeit müssen wir aber dennoch noch eingehen, bevor wir auf das Pandas Series Objekt zu sprechen kommen. Denn dort wird es auch um den sog. *Index* gehen. Deshalb müssen wir kurz auf das Thema "Indexing" eingehen.

### Exkurs 10: Indexing

Oben haben wir den NumPy Array `my_array` erstellt. Wie aber kann man nun auf die einzelnen Elemente solch eines Arrays zugreifen? Wie wir uns schon denken können, benutzen wir dafür wieder den `[]`-Operator. Was aber übergeben wir dem Operator? Wir haben schliesslich keine Namen oder Schlüsselwerte.

Hier kommt das sog. "Indexing" ins Spiel. Man kann die Elemente von Arrays, wie auch von ganz normalen Python Listen über deren Index innerhalb der Datenstruktur ansprechen.

Jedes iterierbare Objekt lässt sich der Reihe nach in einzelne Elemente zerlegen, die von vorne nach hinten über einen sog. Index durchnummeriert werden und über diese Nummern auch angesprochen werden können. Ähnlich wie bei einem langen Zug bei dem man vorne bei der Lok zu zählen beginnt und jedem weiteren Waggon eine Nummer n+1 gibt. Die Lok wäre der Index 0, der erste Waggon der Index 1, der zweite Waggon der Index 2 usw., bis zum letzten Waggon. Von vorne nach hinten gezählt ist aber die Lok das erste Bauteil, der erste Waggon das zweite usw.

![Index Zug](../imgs/index_zug.png)

Genauso zählt auch Python die Elemente einer sequentiellen Datenstruktur durch (diese heißen in Python übrigens *iterable*). Das erste Element hat immer den Index 0, das zweite den Index 1 und das letzte hat den Index „Anzahl der Elemente minus 1“.

In [43]:
# das erste Element
my_array[0]

2

In [44]:
# das zweite Element
my_array[1]

4

In [45]:
# das letzte Element
my_array[4]

10

Wie oben schon erwähnt, ist das *letzte* Element ja dasjenige mit folgender Indexnummer: *Länge der Datenstruktur minus eins*. Dies können wir auch mit Python ausdrücken. Dazu hilft uns die Funktion `len()`, die uns die Anzahl an Elementen und damit die Länge eines Iterables zurückgibt (wir haben sie weiter oben im Exkurs 2: "Strings in Python" schon kurz in Aktion gesehen; denn auch ein String ist ja ein *Iterable*). Der Ausdruck lautet also:

```
len(<iterable>) - 1
```

In [46]:
last_index = len(my_array) - 1

last_index

4

In [47]:
my_array[last_index]

10

Natürlich können wir den Ausdruck `len(<iterable>) - 1` auch gleich an den `[]`-Operator übergeben, der diesen Ausdruck zuerst auswertet:

In [48]:
my_array[len(my_array) - 1]

10

Da dies aber zu mühselig ist, immer zu schreiben, gibt es in Python eine *abkürzende Schreibweise*, sog. [syntaktischen Zucker](https://de.wikipedia.org/wiki/Syntaktischer_Zucker) dafür. Man kann einfach den Index `-1` übergeben und damit "von hinten" anfangen die Indices zu zählen und darüber auf die Elemente zuzugreifen.

In [49]:
# das letzte Element
my_array[-1]

10

In [50]:
# das vorletzte Element
my_array[-2]

8

### Das Pandas Series Objekt

Wie schon gesagt, baut das Pandas Series Objekt auf dem NumPy Array auf. Ja, man kann sagen, eigentlich ist es nichts anderes, als ein solcher Array, dem allerdings noch ein Index-Attribut und ein Name-Attribut mit auf den Weg gegeben wurde. Beim NumPy Array ist der Index *implizit*, beim Series-Objekt aber *explizit*, so dass man diesen auch *verändern* kann.

Series Objekte erstellt man über die Methode `pd.Series()`.

In [51]:
my_series = pd.Series(my_array)

my_series

0     2
1     4
2     6
3     8
4    10
dtype: int64

Wird das Series Objekt ohne explizite Angabe des Indexes erstellt, so wird, wie auch bei Python Listen und bei NumPy Arrays der Index von 0 an hochgezählt.

In [52]:
my_series.index

RangeIndex(start=0, stop=5, step=1)

Da man den Index aber auch explizit angeben kann, kann man ihn auch verändern:

In [53]:
my_series.index = ['a', 'b', 'c', 'd', 'e']

my_series

a     2
b     4
c     6
d     8
e    10
dtype: int64

Zuletzt kann man eben noch einen Namen für das Series Objekt vergeben:

In [54]:
my_series.name = 'even_nums'

my_series

a     2
b     4
c     6
d     8
e    10
Name: even_nums, dtype: int64

Wir können also nun, Schritt für Schritt noch einmal einen DataFrame generieren, indem wir uns zuerst zwei NumPy Arrays erstellen, diese an zwei Pandas Series Objekten übergeben, denen wir den gleichen Index und jeweils einen Namen geben. Diese zwei Series Objekte fügen wir dann zu einem Pandas DataFrame mit der Funktion `pd.concat()` zusammen, wobei wir noch die Achse angeben müssen (wir sagen `concat` also: füge die Series Objekte an der Achse 1, als Spalten aneinander!).

In [55]:
first_array = np.array(["Stefan", "Peter", "Paul", "Maria"])
second_array = np.array([42, 50, 23, 33])

print(type(first_array), "\n")

id_index = ['id012', 'id034', 'id089', 'id120']

print(type(id_index), "\n")

first_series_obj = pd.Series(first_array, index=id_index, name='Vorname')
second_series_obj = pd.Series(second_array, index=id_index, name='Alter')

print(type(first_series_obj), "\n")
print(first_series_obj)

dataframe = pd.concat([first_series_obj, second_series_obj], axis=1)

print(type(dataframe), "\n")

<class 'numpy.ndarray'> 

<class 'list'> 

<class 'pandas.core.series.Series'> 

id012    Stefan
id034     Peter
id089      Paul
id120     Maria
Name: Vorname, dtype: object
<class 'pandas.core.frame.DataFrame'> 



In [56]:
dataframe

Unnamed: 0,Vorname,Alter
id012,Stefan,42
id034,Peter,50
id089,Paul,23
id120,Maria,33


**Beachten Sie aber,** dass das, was wir hier *explizit* der Veranschaulichung halber durchexerzieren, meist *implizit* passiert, wie z.B. ganz am Anfang, als wir die CSV Datei mit Hilfe von `pd.read_csv()` eingelesen haben oder wenn wir einen DataFrame über ein Python Dictionary erstellen:

In [57]:
my_dict = {"Name": ["Maier", "Müller", "Schmidt", "Huber", "Bäcker"],
           "Notenschnitt": [2.75, 2.5, 3.2, 3.8, 1.9],
           "Klasse": [5, 5, 6, 7, 7]}

dataframe_from_dict = pd.DataFrame(my_dict, index=[1, 2, 3, 4, 5])

dataframe_from_dict

Unnamed: 0,Name,Notenschnitt,Klasse
1,Maier,2.75,5
2,Müller,2.5,5
3,Schmidt,3.2,6
4,Huber,3.8,7
5,Bäcker,1.9,7


Zusammenfassend ergibt sich folgendes Schaubild für den Zusammenhang zwischen **NumPy Array**, **Pandas Series Objekt** und **Pandas DataFrame**:

![Zusammenhang Pandas Numpy](../imgs/pandas_numpy_connection.png)

## Filtern mit .loc und .iloc

DataFrames bieten aber eine noch weitere Methode der Filterung. Beim Filtern eines Datensatzes möchte man vielleicht nicht nur explizeit angeben, welche Spaltennamen man filtern möchte, sondern auch eine "Spanne" angeben können; in etwa: "Gib alle Variablen ab Spalte X bis zur Spalte Y aus".

Aber nicht nur das, was ist, wenn man ist, wenn man auf Individuen-, also Zeilenebene filtern möchte. Ein Dataframe besitzt ja schließlich zwei Indices: einen für die Zeilen und einen für die Spalten.

Zu diesem Zweck gibt es die Attribute `.loc` und `.iloc` ("loc" für "location").

In [58]:
df.loc

<pandas.core.indexing._LocIndexer at 0x7fb6908f3bd0>

In [59]:
df.iloc

<pandas.core.indexing._iLocIndexer at 0x7fb6908f3cc0>

Dies sind Pandas spezifische Objekte, die jeweils die Indices eines Dataframes vorhalten und auf die per "[lazy Evaluation](https://de.wikipedia.org/wiki/Lazy_Evaluation)" zugegriffen werden kann.

Der Zugriff erfolgt wie bei sämtlichen iterativen Datenstrukturen in Python per `[]`-Operator.

Der Unterschied zwischen `.loc` und `.iloc` ist, dass man `.loc` die Namen der Indices, `.iloc` dagegen die Nummer der einzelnen Indices übergibt (deshalb auch "**i**loc" für "**I**ndex").

Um die Syntax von `.loc` und `.iloc` aber verstehen zu können, müssen wir zuerst über das sog. **Slicing** in Python erfahren, also die Möglichkeit, bestimmte Subsequenzen aus sequentiellen Datenstrukturen herauszulösen. Das die Syntax hier immer gleich ist, werden wir das Verfahren am Beispiel von einfachen Python Listen kennen lernen.

### Exkurs 11: Slicing

Das *Slicing* ist also eine Möglichkeit Subsequenzen aus längeren Sequenzen herauszulösen. Dabei die Syntax folgende:

```
<iterable>[start : ende : schritte]
```

Am besten wir konstruieren uns dazu ein sehr verständliches Beispiel, indem wir die Zahlen von 0 bis 9 in eine Liste stecken, so dass Index-Nummer und Zahlenwert des Elements übereinstimmen:

In [60]:
my_nums = list(range(10))

my_nums

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [61]:
# hole Subsequenz [2, 3, 4] (die Schritte ignorieren wir erst einmal)

my_nums[2:5]

[2, 3, 4]

Wie sie sehen können macht die Syntax `[start:ende]` ein halboffenes Intervall $[start, ende[$ auf, d.h. "start" ist der Index an dem dies Subsequenz beginnt (eingeschlossen diesem Start-Index), "ende" ist der Index, an dem die Subsequenz stoppt; dieser Wert ist ausgeschlossen, also *nicht mehr* in der Subsequent enthalten!

In [62]:
my_nums[5:9]

[5, 6, 7, 8]

In [63]:
# möchte man eine Subsequenz ab dem 1. Index haben, könnte man schreiben:

my_nums[0:6]

[0, 1, 2, 3, 4, 5]

In [64]:
# man kann hier aber die Null auch weglassen. Es wird dann implizit der Startindex auf den Anfang
# der Sequenz gesetzt

my_nums[:6]

[0, 1, 2, 3, 4, 5]

In [65]:
# die gleiche Abkürzung können wir nutzen, wenn wir den letzten Index mit einschliessen möchten

my_nums[7:]

[7, 8, 9]

In [66]:
# folgendes Beispiel - und dies wird gleich noch wichtig (!) - gibt einfach die volle Sequenz zurück

my_nums[:]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [67]:
# zuletzt kann man auch die Schritte angeben
# z.B. von Index 1 bis Index 8, nur jedes dritte Element

my_nums[1:9:3]

[1, 4, 7]

In [68]:
# nur jedes zweite Element, also die geraden Zahlen:

my_nums[::2]

[0, 2, 4, 6, 8]

**Nun können wir uns der Syntax für `.loc` und `.iloc` widmen.**

Man übergibt sowohl `.loc` als auch `.iloc` über den `[]`-Operator **zwei** Werte, die man mit einem Komma trennt:

1. ein Slicing über die Zeilen, also die Achse 0,
2. ein Slicing über die Spalten, also die Achse 1.

```
<dataframe>.loc[<slicing_0_axis>, <slicing_1_axis>]

<dataframe>.iloc[<slicing_0_axis>, <slicing_1_axis>]
```

Möchte man dabei sagen, dass man **alle** Zeilen, aber nur bestimmte Spalten filtern möchte, so muss man, wie oben bei den Listen gesehen, einen Doppelpunkt `:` im Sinne von: "Nimm als Startindex und Endindex implizit den Anfang und das Ende der Sequent!" übergeben.

Zum besseren Verständnis "bauen" wir uns noch einmal einen übersichtlichen DataFrame, dessen Spalten mit den Zahlen von 1 bis 5 und dessen Zeilen von 'a' bis 'e' indiziert sind. Die Elemente seien entsprechend 'a1', 'a2', 'a3' ... etc.

In [69]:
import string
ascii_list = list(string.ascii_lowercase[:5])
nums = list(range(1, 6))
structure = dict()

for i in nums:
    structure[i] = [c + str(i) for c in ascii_list]
        
structured_df = pd.DataFrame(structure)
structured_df.index = ascii_list
structured_df.columns = nums

structured_df

Unnamed: 0,1,2,3,4,5
a,a1,a2,a3,a4,a5
b,b1,b2,b3,b4,b5
c,c1,c2,c3,c4,c5
d,d1,d2,d3,d4,d5
e,e1,e2,e3,e4,e5


In [70]:
# filtere die Spalten 2 bis 4

structured_df.loc[:, '2':'4']

Unnamed: 0,2,3,4
a,a2,a3,a4
b,b2,b3,b4
c,c2,c3,c4
d,d2,d3,d4
e,e2,e3,e4


In [71]:
# das gleich mit .iloc

structured_df.iloc[:, 1:4] # Achtung: das Index, hier wieder halboffenes (!) Intervall

Unnamed: 0,2,3,4
a,a2,a3,a4
b,b2,b3,b4
c,c2,c3,c4
d,d2,d3,d4
e,e2,e3,e4


In [72]:
# jetzt wollen wir nur die Zeilen b bis d

structured_df.loc['b':'d', :]

Unnamed: 0,1,2,3,4,5
b,b1,b2,b3,b4,b5
c,c1,c2,c3,c4,c5
d,d1,d2,d3,d4,d5


In [73]:
# dies kann man auch abkürzen

structured_df['b':'d']

Unnamed: 0,1,2,3,4,5
b,b1,b2,b3,b4,b5
c,c1,c2,c3,c4,c5
d,d1,d2,d3,d4,d5


In [74]:
# und nun wieder das selbe mit .iloc

structured_df.iloc[1:4] # auch hier: halboffenes Intervall!

Unnamed: 0,1,2,3,4,5
b,b1,b2,b3,b4,b5
c,c1,c2,c3,c4,c5
d,d1,d2,d3,d4,d5


In [75]:
# nun noch eine Kombination aus Zeilen und Spalten
# wir wollen nur die Zeilen d und e und nur die Spalten 1 und 2

structured_df.loc['d':, :'2']

Unnamed: 0,1,2
d,d1,d2
e,e1,e2


In [76]:
# und mit .iloc

structured_df.iloc[3:, :2]

Unnamed: 0,1,2
d,d1,d2
e,e1,e2


### Übung:

**Nun sind Sie dran!**

Versuchen Sie, unseren Pokemon Datensatz mit den Ihnen bis jetzt bekannten Methoden zu filtern:

1. Lassen Sie sich die Spalten 'abilities_number', 'ability_1', 'ability_2' und 'ability_hidden' ausgeben.
2. Was sind die Namen (englisch, deutsch und japanisch) der ersten 196 Pokemon Einträge (also der ersten Generation)?
3. Lassen Sie sich die Spalten von 'against_normal' bis 'against_fairy' für die Einträge 500 bis 600 ausgeben.

In [77]:
df.loc[:, 'abilities_number':'ability_hidden']

Unnamed: 0_level_0,abilities_number,ability_1,ability_2,ability_hidden
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2,Overgrow,,Chlorophyll
1,2,Overgrow,,Chlorophyll
2,2,Overgrow,,Chlorophyll
3,1,Thick Fat,,
4,2,Blaze,,Solar Power
...,...,...,...,...
1040,1,Chilling Neigh,,
1041,1,Grim Neigh,,
1042,1,Unnerve,,
1043,1,As One,,


In [78]:
df.loc[:196, 'name':'japanese_name']

Unnamed: 0_level_0,name,german_name,japanese_name
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Bulbasaur,Bisasam,フシギダネ (Fushigidane)
1,Ivysaur,Bisaknosp,フシギソウ (Fushigisou)
2,Venusaur,Bisaflor,フシギバナ (Fushigibana)
3,Mega Venusaur,Bisaflor,フシギバナ (Fushigibana)
4,Charmander,Glumanda,ヒトカゲ (Hitokage)
...,...,...,...
192,Dragonite,Dragoran,カイリュー (Kairyu)
193,Mewtwo,Mewtu,ミュウツー (Mewtwo)
194,Mega Mewtwo X,Mewtu,ミュウツー (Mewtwo)
195,Mega Mewtwo Y,Mewtu,ミュウツー (Mewtwo)


In [79]:
df.loc[500:600, 'against_normal':]

Unnamed: 0_level_0,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
500,1.0,2.0,1.0,2.0,0.25,2.0,0.25,1.0,0.0,2.0,1.0,0.50,4.0,1.0,1.0,1.0,1.0,1.0
501,1.0,2.0,1.0,2.0,0.25,2.0,0.25,1.0,0.0,2.0,1.0,0.50,4.0,1.0,1.0,1.0,1.0,1.0
502,1.0,1.0,1.0,0.5,1.00,1.0,1.00,1.0,2.0,0.5,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
503,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
504,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
596,1.0,0.5,2.0,1.0,0.50,0.5,1.00,1.0,2.0,2.0,2.0,0.25,1.0,1.0,1.0,0.5,0.5,1.0
597,1.0,0.5,2.0,1.0,0.50,0.5,1.00,1.0,2.0,2.0,2.0,0.25,1.0,1.0,1.0,0.5,0.5,1.0
598,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
599,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0


## Komplexes Filten mit der .filter() Methode

Die `.filter()` Methode gibt uns die Möglichkeit auch komplexeres Filtern auf einen der zwei Indices eines DataFrames anzuwenden. Dabei sind vor allem die zwei Parameter `like=` und `regex=` interessant. Mit dem Parameter `axis=` geben wir an, ob wir über den Zeilenindex (0) oder den Spaltenindex (1) filtern möchten.

So hätten wir oben auf die Spalten, die mit "against" beginnen auch folgendermaßen filtern können:

In [80]:
df.filter(like='against', axis=1)

Unnamed: 0_level_0,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
0,1.0,2.0,0.5,0.5,0.25,2.0,0.5,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
1,1.0,2.0,0.5,0.5,0.25,2.0,0.5,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
2,1.0,2.0,0.5,0.5,0.25,2.0,0.5,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
3,1.0,1.0,0.5,0.5,0.25,1.0,0.5,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5
4,1.0,0.5,2.0,1.0,0.50,0.5,1.0,1.0,2.0,1.0,1.0,0.5,2.0,1.0,1.0,1.0,0.5,0.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1040,1.0,2.0,1.0,1.0,1.00,0.5,2.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,2.0,1.0
1041,0.0,1.0,1.0,1.0,1.00,1.0,0.0,0.5,1.0,1.0,1.0,0.5,1.0,2.0,1.0,2.0,1.0,1.0
1042,1.0,2.0,0.5,0.5,0.50,2.0,0.5,2.0,0.5,2.0,0.5,4.0,1.0,2.0,1.0,2.0,1.0,1.0
1043,1.0,2.0,1.0,1.0,1.00,0.5,1.0,1.0,1.0,1.0,0.5,2.0,2.0,2.0,1.0,2.0,2.0,1.0


Möchten wir nur die "egg types" filtern, so könnten wir schreiben:

In [81]:
df.filter(like='egg', axis=1)

Unnamed: 0_level_0,egg_type_number,egg_type_1,egg_type_2,egg_cycles
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2,Grass,Monster,20.0
1,2,Grass,Monster,20.0
2,2,Grass,Monster,20.0
3,2,Grass,Monster,20.0
4,2,Dragon,Monster,20.0
...,...,...,...,...
1040,1,Undiscovered,,120.0
1041,1,Undiscovered,,120.0
1042,1,Undiscovered,,120.0
1043,1,Undiscovered,,120.0


Der Parameter `like=` funktioniert dabei wie der Python Operator `in`, mit dem man prüden kann, ob sich eine Subsequenz innerhalb einer anderen Sequenz befindet:

In [82]:
"egg" in "a_egg_type"

True

In [83]:
"egg" in "a_Egg_type"

False

Der `in` Operator und `like=` sind also *case sensitive*, d.h. sie beachten Groß- und Kleinschreibung. Möchten Sie zwischen diesen nicht unterscheiden, so müssten Sie komplexere Muster über RegEx ([Regular Expression](https://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck)) einsetzen. Es ist hier aber nicht der Platz, näher auf RegEx einzugehen. Sie sollten lediglich über diese Möglichkeit Bescheid wissen.

### Exkurs 12: Methodenverkettung (chaining)

Bemühen wir noch einmal unseren oben "gebauten" DataFrame `structured_df` und machen uns klar, was es bedeutet, damit sowohl auf Zeilen, als auch auf Spaltenebene *gleichzeitig* zu filtern. `.filter()` kann ja nur ein Achsenelement entgegen nehmen; d.h. man kann nur *entweder* Spalten *oder* Zeilen filtern. Möchte man aber beides gleichzeitig, so muss man `.filter()` *zweimal* anwenden. Entweder durch ein *Zwischenspeichern* in einer Variablen, oder - was manchen eleganter ist - durch das hintereinander Ausführen der `.filter()` Methode durch sog. *chaining*. Man nutzt also den Rückgabewert der einen `.filter()` Methode (was ja nur ein Pandas DataFrame oder Series sein kann) und wendet darauf dann wieder die `.filter()` Methode an.

```
<DataFrame>.filter().filter()
```

Auf diese Weise kann man auch beliebige Methoden (wenn die Rückgabewerte stimmen!) verketten: `<DataFrame>.iloc[<index>].filter(like=<Ausdruck>)`.

In [84]:
# zuerst das Beispiel mit Zwischenspeichern

temp = structured_df.loc[:, '2':'4']

temp.filter(like='b', axis=0)

Unnamed: 0,2,3,4
b,b2,b3,b4


In [85]:
# das ganze verkettet

structured_df.loc[:, '2':'4'].filter(like='b', axis=0)

Unnamed: 0,2,3,4
b,b2,b3,b4


### Übung:

Wir können die obigen Übungen auch noch einmal mit der `.filter()` Methode wiederholen. Benutzen, sie `.filter()` und lösen sie (noch einmal) folgende Aufgaben damit:

1. Lassen Sie sich die Spalten 'abilities_number', 'ability_1', 'ability_2' und 'ability_hidden' ausgeben.
2. Was sind die Namen (englisch, deutsch und japanisch) der ersten 196 Pokemon Einträge (also der ersten Generation)?
3. Lassen Sie sich die Spalten von 'against_normal' bis 'against_fairy' für die Einträge 500 bis 600 ausgeben.

In [86]:
df.filter(like='abilit')

Unnamed: 0_level_0,abilities_number,ability_1,ability_2,ability_hidden
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2,Overgrow,,Chlorophyll
1,2,Overgrow,,Chlorophyll
2,2,Overgrow,,Chlorophyll
3,1,Thick Fat,,
4,2,Blaze,,Solar Power
...,...,...,...,...
1040,1,Chilling Neigh,,
1041,1,Grim Neigh,,
1042,1,Unnerve,,
1043,1,As One,,


In [87]:
df.filter(like='name').iloc[:196]

Unnamed: 0_level_0,name,german_name,japanese_name
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Bulbasaur,Bisasam,フシギダネ (Fushigidane)
1,Ivysaur,Bisaknosp,フシギソウ (Fushigisou)
2,Venusaur,Bisaflor,フシギバナ (Fushigibana)
3,Mega Venusaur,Bisaflor,フシギバナ (Fushigibana)
4,Charmander,Glumanda,ヒトカゲ (Hitokage)
...,...,...,...
191,Dragonair,Dragonir,ハクリュー (Hakuryu)
192,Dragonite,Dragoran,カイリュー (Kairyu)
193,Mewtwo,Mewtu,ミュウツー (Mewtwo)
194,Mega Mewtwo X,Mewtu,ミュウツー (Mewtwo)


In [88]:
df.filter(like='against').iloc[500:601]

Unnamed: 0_level_0,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
500,1.0,2.0,1.0,2.0,0.25,2.0,0.25,1.0,0.0,2.0,1.0,0.50,4.0,1.0,1.0,1.0,1.0,1.0
501,1.0,2.0,1.0,2.0,0.25,2.0,0.25,1.0,0.0,2.0,1.0,0.50,4.0,1.0,1.0,1.0,1.0,1.0
502,1.0,1.0,1.0,0.5,1.00,1.0,1.00,1.0,2.0,0.5,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
503,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
504,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
596,1.0,0.5,2.0,1.0,0.50,0.5,1.00,1.0,2.0,2.0,2.0,0.25,1.0,1.0,1.0,0.5,0.5,1.0
597,1.0,0.5,2.0,1.0,0.50,0.5,1.00,1.0,2.0,2.0,2.0,0.25,1.0,1.0,1.0,0.5,0.5,1.0
598,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0
599,1.0,0.5,0.5,2.0,2.00,0.5,1.00,1.0,1.0,1.0,1.0,1.00,1.0,1.0,1.0,1.0,0.5,1.0


## Filtern durch Maskierung

![Japanische Holzmasken](../imgs/masks.jpg)

<div align="center">&#169; <a href="https://unsplash.com/@finan?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Finan Akbar</a> on <a href="https://unsplash.com/s/photos/japanese-masks?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a></div>
  

Einzelne Zeilen und Spalten zu filtern können wir nun. Allerdings filtern wir immer nur auf die *ganze* Zeile, oder *ganze* Spalte. Was ist aber, wenn wir bestimmte *Bedingungen* für das Filtern angeben wollen, z.B. "gib mir alle Pokemon, deren Gewicht kleiner/größer X ist" oder "gib mir nur die Pokemon vom Typ 'water'", oder was ist, wenn ich sagen will "gib mir genau das Pokemon mit der Pokedexnummer X oder dem Namen Y"? Das bedeutet also, wir wollen die Fähigkeit haben, innerhalb von Variablen nach bestimmten Bedingungen zu filtern und nur die Einträge "übrig zu lassen", bei denen die Bedingung "wahr" oder in Python-Sprache `True` ist.

Da es sich bei den Variablen (Spalten) um Pandas Series handelt und diese wiederum angereicherte NumPy Arrays, kann man mit ihnen auch arbeiten, wie mit NumPy Arrays. Solche Arrays kann man einem gewöhnlichen *konditionalen Operator* in Python übergeben und NumPy prüft dann die Bedingung auf *jedes* Element im Array.

In Python existieren folgende Vergleichsoperatoren:

| Operator | Bedeutung |
|:---:|:---|
| `==` | ist gleich |
| `!=` | ist ungleich |
| `>` | ist grösser |
| `<` | ist kleiner |
| `>=` | ist grösser oder gleich |
| `<=` | ist kleiner oder gleich |

Anstelle des Python `in` Operators kann die `.isin()` Methode verwendet werden.

In [3]:
nums = pd.Series([23, 34, 43, 44, 67, 78, 88, 90])

nums < 67

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
dtype: bool

In [4]:
nums >= 78

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
dtype: bool

In [5]:
nums % 2 != 0

0     True
1    False
2     True
3    False
4     True
5    False
6    False
7    False
dtype: bool

In [6]:
# nur falls sie sich wundern: das waren eigentlich zwei Operationen
# mit dem "%" Operator wurde jedes Element durch 2 geteilt und der Rest ausgegeben

nums % 2

0    1
1    0
2    1
3    0
4    1
5    0
6    0
7    0
dtype: int64

In [9]:
nums.isin([34, 44, 78, 88])

0    False
1     True
2    False
3     True
4    False
5     True
6     True
7    False
dtype: bool

In [10]:
nums.isin(range(40, 71))

0    False
1    False
2     True
3     True
4     True
5    False
6    False
7    False
dtype: bool

Diese **Masken** an `True` und `False` Werten können wir nun benutzen, um unseren DataFrame zu filtern. Wir können diese Maske nun an den `[]`-Operator übergeben. Jede Zeile, die dann so einen `False` Wert hat wird ausgeblendet, alle anderen Zeilen werden behalten.

![Schaubild Maskierung](../imgs/pandas_masking.png)

In [102]:
# alle Pokemon, die schwerer als 900 Kg sind

greater_900kg = df['weight_kg'] > 900

df[greater_900kg]

Unnamed: 0_level_0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,type_2,height_m,weight_kg,abilities_number,ability_1,ability_2,ability_hidden,total_points,hp,attack,defense,sp_attack,sp_defense,speed,catch_rate,base_friendship,base_experience,growth_rate,egg_type_number,egg_type_1,egg_type_2,percentage_male,egg_cycles,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1
451,376,Mega Metagross,Metagross,メタグロス (Metagross),3,Normal,Iron Leg Pokémon,2,Steel,Psychic,2.5,942.9,1,Tough Claws,,,700,80,145,150,105,110,110,3.0,35.0,315.0,Slow,1,Mineral,,,40.0,0.5,2.0,1.0,1.0,0.5,0.5,1.0,0.0,2.0,0.5,0.25,1.0,0.5,2.0,0.5,2.0,0.5,0.5
461,383,Groudon,Groudon,グラードン (Groudon),3,Legendary,Continent Pokémon,1,Ground,,3.5,950.0,1,Drought,,,670,100,150,140,100,90,90,3.0,0.0,302.0,Slow,1,Undiscovered,,,120.0,1.0,1.0,2.0,0.0,2.0,2.0,1.0,0.5,1.0,1.0,1.0,1.0,0.5,1.0,1.0,1.0,1.0,1.0
462,383,Primal Groudon,Groudon,グラードン (Groudon),3,Legendary,Continent Pokémon,2,Ground,Fire,5.0,999.7,1,Desolate Land,,,770,100,180,160,150,90,90,5.0,0.0,347.0,Slow,1,Undiscovered,,,120.0,1.0,0.5,0.0,0.0,1.0,1.0,1.0,0.5,2.0,1.0,1.0,0.5,1.0,1.0,1.0,1.0,0.5,0.5
882,750,Mudsdale,Pampross,バンバドロ (Banbadoro),7,Normal,Draft Horse Pokémon,1,Ground,,2.5,920.0,3,Own Tempo,Stamina,Inner Focus,500,100,125,100,55,85,35,60.0,70.0,175.0,Medium Fast,1,Field,,50.0,20.0,1.0,1.0,2.0,0.0,2.0,2.0,1.0,0.5,1.0,1.0,1.0,1.0,0.5,1.0,1.0,1.0,1.0,1.0
923,790,Cosmoem,Cosmovum,コスモウム (Cosmovum),7,Legendary,Protostar Pokémon,1,Psychic,,0.1,999.9,1,Sturdy,,,400,43,29,131,29,131,37,45.0,0.0,140.0,Slow,1,Undiscovered,,,120.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5,1.0,1.0,1.0,0.5,2.0,1.0,2.0,1.0,2.0,1.0,1.0
930,797,Celesteela,Kaguron,テッカグヤ (Tekkaguya),7,Sub Legendary,Launch Pokémon,2,Steel,Flying,9.2,999.9,1,Beast Boost,,,570,97,101,103,107,101,61,45.0,0.0,257.0,Slow,1,Undiscovered,,,120.0,0.5,2.0,1.0,2.0,0.25,1.0,1.0,0.0,0.0,0.5,0.5,0.25,1.0,1.0,0.5,1.0,0.5,0.5
1032,890,Eternatus,Endynalos,ムゲンダイナ (Mugendina),8,Legendary,Gigantic Pokémon,2,Poison,Dragon,20.0,950.0,1,Pressure,,,690,140,85,95,145,95,130,255.0,,,Slow,1,Undiscovered,,,120.0,1.0,0.5,0.5,0.5,0.25,2.0,0.5,0.5,2.0,1.0,2.0,0.5,1.0,1.0,2.0,1.0,1.0,1.0


In [94]:
# wähle ein zufälliges Pokemon aus

random_pokedex_num = np.random.randint(1, 898) # generiere eine zufällige Ganzzahl zwischen 1 und 898

random_pokemon = df['pokedex_number'] == random_pokedex_num

df[random_pokemon]

Unnamed: 0_level_0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,type_2,height_m,weight_kg,abilities_number,ability_1,ability_2,ability_hidden,total_points,hp,attack,defense,sp_attack,sp_defense,speed,catch_rate,base_friendship,base_experience,growth_rate,egg_type_number,egg_type_1,egg_type_2,percentage_male,egg_cycles,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1
863,738,Vikavolt,Donarion,クワガノン (Kuwagannon),7,Normal,Stag Beetle Pokémon,2,Bug,Electric,1.5,45.0,1,Levitate,,,500,77,70,90,145,75,43,45.0,70.0,225.0,Medium Fast,1,Bug,,50.0,15.0,1.0,2.0,1.0,0.5,0.5,1.0,0.5,1.0,0.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,0.5,1.0


### Logische Kombinatoren

Möchte man mehrere Bedingungem in unterschiedlichen Variablen prüfen, so kann man die Masken der Prüfungen mit den Logischen Operatoren "und" (`&`), "oder" (`|`) und "nicht" (`~`) kombinieren.

So kann man z.B. filtern auf alle "mythical" Pokemon, die als zweiten Typ "psychic" haben; oder alle Pokemon, die entweder vom Typ "steel" sind, oder einen Attacke Wert größer 150 haben; oder alle Pokemon, die *nicht* als Status "normal" haben.

In [95]:
# mythical Pokemon, die "psychic" als Type_2 haben

mythical = df['status'] == 'Mythical'
psych_t2 = df['type_2'] == 'Psychic'

df[mythical & psych_t2]

Unnamed: 0_level_0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,type_2,height_m,weight_kg,abilities_number,ability_1,ability_2,ability_hidden,total_points,hp,attack,defense,sp_attack,sp_defense,speed,catch_rate,base_friendship,base_experience,growth_rate,egg_type_number,egg_type_1,egg_type_2,percentage_male,egg_cycles,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1
465,385,Jirachi,Jirachi,ジラーチ (Jirachi),3,Mythical,Wish Pokémon,2,Steel,Psychic,0.3,1.1,1,Serene Grace,,,600,100,100,100,100,100,100,3.0,100.0,270.0,Slow,1,Undiscovered,,,120.0,0.5,2.0,1.0,1.0,0.5,0.5,1.0,0.0,2.0,0.5,0.25,1.0,0.5,2.0,0.5,2.0,0.5,0.5
759,648,Meloetta Aria Forme,Meloetta,メロエッタ (Meloetta),5,Mythical,Melody Pokémon,2,Normal,Psychic,0.6,6.5,1,Serene Grace,,,600,100,77,77,128,128,90,3.0,100.0,270.0,Slow,1,Undiscovered,,,120.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5,2.0,1.0,0.0,1.0,2.0,1.0,1.0


In [96]:
# entweder type_1 'steel' oder attack > 150

steel_t1 = df['type_1'] == 'Steel'
attack_gt_150 = df['attack'] > 150

df[steel_t1 | attack_gt_150]

Unnamed: 0_level_0,pokedex_number,name,german_name,japanese_name,generation,status,species,type_number,type_1,type_2,height_m,weight_kg,abilities_number,ability_1,ability_2,ability_hidden,total_points,hp,attack,defense,sp_attack,sp_defense,speed,catch_rate,base_friendship,base_experience,growth_rate,egg_type_number,egg_type_1,egg_type_2,percentage_male,egg_cycles,against_normal,against_fire,against_water,against_electric,against_grass,against_ice,against_fight,against_poison,against_ground,against_flying,against_psychic,against_bug,against_rock,against_ghost,against_dragon,against_dark,against_steel,against_fairy
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1
69,52,Galarian Meowth,Mauzi,ニャース (Nyarth),1,Normal,Scratch Cat Pokémon,1,Steel,,0.4,7.5,3,Pickup,Tough Claws,Unnerve,290,50,65,55,40,40,40,,,,Medium Fast,1,Field,,,20.0,0.5,2.0,1.0,1.0,0.5,0.5,2.0,0.0,2.0,0.5,0.5,0.5,0.5,1.0,0.5,1.0,0.5,0.5
164,127,Mega Pinsir,Pinsir,カイロス (Kailios),1,Normal,Stag Beetle Pokémon,2,Bug,Flying,1.7,59.0,1,Aerilate,,,600,65,155,120,65,90,105,45.0,70.0,210.0,Slow,1,Bug,,50.0,25.0,1.0,2.0,1.0,2.0,0.25,2.0,0.25,1.0,0.0,2.0,1.0,0.5,4.0,1.0,1.0,1.0,1.0,1.0
168,130,Mega Gyarados,Garados,ギャラドス (Gyarados),1,Normal,Atrocious Pokémon,2,Water,Dark,6.5,305.0,1,Mold Breaker,,,640,95,155,109,70,130,81,45.0,70.0,224.0,Slow,2,Dragon,Water 2,50.0,5.0,1.0,0.5,0.5,2.0,2.0,0.5,2.0,1.0,1.0,1.0,0.0,2.0,1.0,0.5,1.0,0.5,0.5,2.0
194,150,Mega Mewtwo X,Mewtu,ミュウツー (Mewtwo),1,Legendary,Genetic Pokémon,2,Psychic,Fighting,2.3,127.0,1,Steadfast,,,780,106,190,100,154,100,130,3.0,0.0,351.0,Slow,1,Undiscovered,,,120.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5,1.0,1.0,2.0,1.0,1.0,0.5,2.0,1.0,1.0,1.0,2.0
255,208,Steelix,Stahlos,ハガネール (Haganeil),2,Normal,Iron Snake Pokémon,2,Steel,Ground,9.2,400.0,3,Rock Head,Sturdy,Sheer Force,510,75,85,200,55,65,30,25.0,70.0,179.0,Medium Fast,1,Mineral,,50.0,25.0,0.5,2.0,2.0,0.0,1.0,1.0,2.0,0.0,2.0,0.5,0.5,0.5,0.25,1.0,0.5,1.0,0.5,0.5
256,208,Mega Steelix,Stahlos,ハガネール (Haganeil),2,Normal,Iron Snake Pokémon,2,Steel,Ground,10.5,740.0,1,Sand Force,,,610,75,125,230,55,95,30,25.0,70.0,214.0,Medium Fast,1,Mineral,,50.0,25.0,0.5,2.0,2.0,0.0,1.0,1.0,2.0,0.0,2.0,0.5,0.5,0.5,0.25,1.0,0.5,1.0,0.5,0.5
264,214,Mega Heracross,Skaraborn,ヘラクロス (Heracros),2,Normal,Single Horn Pokémon,2,Bug,Fighting,1.7,62.5,1,Skill Link,,,600,80,185,115,40,105,75,45.0,70.0,210.0,Slow,1,Bug,,50.0,25.0,1.0,2.0,1.0,1.0,0.5,1.0,0.5,1.0,0.5,4.0,2.0,0.5,1.0,1.0,1.0,0.5,1.0,2.0
278,227,Skarmory,Panzaeron,エアームド (Airmd),2,Normal,Armor Bird Pokémon,2,Steel,Flying,1.7,50.5,3,Keen Eye,Sturdy,Weak Armor,465,65,80,140,40,70,70,25.0,70.0,163.0,Slow,1,Flying,,50.0,25.0,0.5,2.0,1.0,2.0,0.25,1.0,1.0,0.0,0.0,0.5,0.5,0.25,1.0,1.0,0.5,1.0,0.5,0.5
301,248,Mega Tyranitar,Despotar,バンギラス (Bangiras),2,Normal,Armor Pokémon,2,Rock,Dark,2.5,255.0,1,Sand Stream,,,700,100,164,150,95,120,71,45.0,35.0,315.0,Slow,1,Monster,,50.0,40.0,0.5,0.5,2.0,1.0,2.0,1.0,4.0,0.5,2.0,0.5,0.0,2.0,1.0,0.5,1.0,0.5,2.0,2.0
312,257,Mega Blaziken,Lohgock,バシャーモ (Bursyamo),3,Normal,Blaze Pokémon,2,Fire,Fighting,1.9,52.0,1,Speed Boost,,,630,80,160,80,130,80,100,45.0,70.0,284.0,Medium Slow,1,Field,,87.5,20.0,1.0,0.5,2.0,1.0,0.5,0.5,1.0,1.0,2.0,2.0,2.0,0.25,1.0,1.0,1.0,0.5,0.5,1.0


In [97]:
# alle Pokemon die nicht Status "normal" haben

normal = df['status'] == 'Normal'

df[~ normal].filter(like='name')

Unnamed: 0_level_0,name,german_name,japanese_name
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
184,Articuno,Arktos,フリーザー (Freezer)
185,Galarian Articuno,Arktos,フリーザー (Freezer)
186,Zapdos,Zapdos,サンダー (Thunder)
187,Galarian Zapdos,Zapdos,サンダー (Thunder)
188,Moltres,Lavados,ファイヤー (Fire)
...,...,...,...
1040,Glastrier,Polaross,ブリザポス (Burizaposu)
1041,Spectrier,Phantoross,レイスポス (Reisuposu)
1042,Calyrex,Coronospa,バドレックス (Budrex)
1043,Calyrex Ice Rider,Coronospa,バドレックス (Budrex)


## DataFrames sortieren

Oft ist es bei der Beantwortung mancher Fragen, die man sich über seinen Datensatz stellt, hilfreich, den Datensatz nach bestimmten Variablen zu sortieren. So kann man Fragen an den Datensatz stellen wie "was sind eigentlich die kleinsten/größten Pokemon?" oder "welche Pokemon sind am stärksten/schwächsten?" oder auch "welche Pokemon haben die längsten Namen?".

Um einen DataFrame zu sortieren, gibt es die Methode `.sort_values()`.

In [6]:
df['attack'].sort_values()

Index
147      5
526      5
166     10
262     10
294     10
      ... 
467    180
464    180
931    181
264    185
194    190
Name: attack, Length: 1045, dtype: int64

Mit dem Parameter "ascending" (= engl. "aufsteigend") den man auf `True` oder `False` setzen kann, kann man die Sortierreihenfolge auf- oder absteigend einstellen.

In [8]:
df['attack'].sort_values(ascending=False)

Index
194    190
264    185
931    181
462    180
464    180
      ... 
294     10
262     10
166     10
526      5
147      5
Name: attack, Length: 1045, dtype: int64

# Übungen

1. Suchen Sie die Pokemon, die eine "schnelle" Wachstumsrate (growth_rate: "fast") haben. Geben Sie deren Namen und deren Pokedex Nummer zurück.

1. Was ist die Anzahl an Pokemon in der 1., der 2. und der 3. Generation?

1. Lesen Sie den Datensatz "wide_df.csv" ein, den Sie auch im Verzeichnis "data" finden.

    a. "Reinigen" Sie den DataFrame von der überflüssigen ersten Spalte.
    
    b. Verschaffen Sie sich einen Überblick. Wie viele Spalten hat der Datensatz?
    
    c. Geben Sie nur die Spalten aus, die "Fach" im Namen tragen.
    
    d. Suchen Sie alle Spalten die "fw" im Namen tragen.