# 03 - Suchen, Sortieren und Filtern
Wir schauen uns jetzt mal genauer an, wie wir mit den Daten arbeiten können. Dazu wollen wir zunächst betrachten, wie Suchen, Sortieren und Filtern in einem DataFrame funktioniert.

## Laden des Datensatzes
Als ersten importieren wir wie üblich die benötigten Bibliotheken. Anschließend lasen wir mit `pd.read_csv()` die .csv-Dateien mit unseren Daten. Als Ergebnis erhalten wir ein DataFrame Objekt.

In [None]:
import pandas as pd

In [None]:
# Einlesen der .csv Datei
df_pokemon = pd.read_csv('../src/pokemon.csv')
df_pokemon.head()

## Suchen
Die Grundlage für Filtern und Sortieren ist das Suchen nach Werten. Das Suchen in<br> einer Spalte erzeugt immer eine sogenannte ``pd.Series``oder auch kurz **Series**, deren Einträge entweder Wahr oder Falsch ist.

In [None]:
# Erzeugen einer Serie durch Auswahl einer einzigen Spalte.
df_pokemon['Type 1']

## Series/Arrays
Schauen wir uns Series mal genauer an.

In [None]:
# Komprimiertere Darstellung, will nicht so viele Werte sehen
s_type = df_pokemon['Type 1']
s_type.sample(10)

In [None]:
# Einzigartige Werte in einer Serie mit .unique()
s_type.unique()

In [None]:
# Alternativ auch mit .value_counts() dann sehen wir gleich wie viele es von welcher Spezies gibt
s_type.value_counts()

In [None]:
# Wir suchen jetzt alle Pokemon, die von der Spezies Fairy sind.
s_type == 'Fairy'

In [None]:
# Wir speichern das Ergebnis zwischen damit wir nicht immer erneut suchen müssen.
s_is_fairy = (s_type == 'Fairy')
s_is_fairy.head()

In [None]:
# Wir geben beiden Längen aus und sehen das die beiden Series identisch Lang sind. 
print(len(s_type))
print(len(s_is_fairy))

In [None]:
# Dh. wir haben unser gewünschtes Ergebnis und wir wissen jetzt bei welchen Eintrag 
# unser Suchkriterium "Type 1" = Fairy zutrifft. Den Dort steht jetzt Wahr.

## Filtern
Filtern gehört zur Grundausstattung, wenn wir mit großen Datenmengen arbeiten wollen. Es ist daher besonders wichtig zu verstehen, wie das Filtern eines DataFrames funktioniert.

In [None]:
# Wir selektieren nun nur alle Einträge, bei welchen in der Spalte 'Type 1' Fairy steht
df_pokemon[s_is_fairy]

In [None]:
# Anstatt nun drei Zeilen und zwei Variablen zu verwenden, können wir das ganze
# auch zusammenfassen.

# -----------------
# Herleitung
# -----------------
s_type = df_pokemon['Type 1']
s_is_fairy = (s_type == 'Fairy')
df_pokemon[s_is_fairy]

# Entspricht
df_pokemon[(s_type == 'Fairy')]

# Entspricht
df_pokemon[(df_pokemon['Type 1'] == 'Fairy')]

In [None]:
# Ich möchte jetzt alle Fairys deren HP(Health Points also Leben) > 70 sind. 
# Wie ich alle Fairys filter weiß ich bereits:
df_pokemon[(df_pokemon['Type 1'] == 'Fairy')].head()

In [None]:
# Entsprechend der oben beschriebenen Logik kann ich auch nach den Health Points filtern
df_pokemon[(df_pokemon['HP'] >= 70)].head()

In [None]:
# Beide Filter kann ich verbinden, ich brauche nur wieder eine Series mit Wahr/Falsch Werten.
# Diese erhalten wir indem wir die beiden Filter mit einem UND verknüpfen
(df_pokemon['Type 1'] == 'Fairy') & (df_pokemon['HP'] >= 70)

In [None]:
# Benutz ich jetzt diese Serie als Filter hab ich mein gewünschtes Ergebnis
df_pokemon[(df_pokemon['Type 1'] == 'Fairy') & (df_pokemon['HP'] >= 70)]

## Vergleichs Operatoren
Möchte ich eine Serie mit einem Wert vergleich kann ich folgende Operatoren nutzen:

| Operator | Funktion      |
|----------|---------------|
|    ==    | gleich        |
|    !=    | ungleich      |
|    >     | größer        |
|    >=    | größer/gleich |
|    <     | kleiner       |
|    <=    | kleiner/gleich|

## Logische Operatoren (Verknüpfung)
| Operator | Funktion      |
|----------|---------------|
|    &     | und           |
|  &#124;  | oder          |
|    ~     | invertieren   |

In [None]:
# Alle Pokemon die nicht vom Typ Fairy sind
df_pokemon[~(df_pokemon['Type 1'] == 'Fairy')]['Type 1'].value_counts()

## Sortieren

In [None]:
df_pokemon.sort_values('HP').head()

In [None]:
# Möchte jetzt mir anschauen, wie ich innerhalb einer Sotierung noch eine weiter Sotierebene Anwenden kann.
df_pokemon.sort_values(['HP', 'Attack'], ascending=False).head(10)

In [None]:
df_pk_hp_at = df_pokemon.sort_values(['HP', 'Attack'], ascending=False).head(10)
df_pk_hp_at[['Name', 'HP', 'Attack']]

# Spalte Legendary: Boolean Datentyp

In [None]:
df_pokemon.info()

In [None]:
df_pokemon['Legendary'].head()

In [None]:
df_pokemon['Legendary'].astype(str).head()

# Tipps und Tricks
### Unterschiedliches Sortieren
Möchte ich die Spalten nicht einheitlich sortieren sondern jede Spalte unterschiedlich, z.B. Spalte **HP aufsteigend und Attack absteigend** nutze ich eine weitere Eigenschaft des acending-Parameters.

`df_pokemon.sort_values(['HP', 'Attack'], ascending=[True, False])`

Wichtig hierbeit ist, das die Reihenfolge der Sortierparameter mit der Reihenfolge der zu Sortierenden Spalten übereinstimmen muss!