# 03 - Suchen, Sortieren und Filtern
Wir schauen uns jetzt mal genauer an, wie wir mit den Daten arbeiten können. Dazu wollen wir zunächst betrachten, wie Suchen, Sortieren und Filtern in einem DataFrame funktioniert.

## Laden des Datensatzes
Als ersten importieren wir wie üblich die benötigten Bibliotheken. Anschließend lasen wir mit `pd.read_csv()` die .csv-Dateien mit unseren Daten. Als Ergebnis erhalten wir ein DataFrame Objekt.

In [3]:
import pandas as pd

In [4]:
# Einlesen der .csv Datei
df_pokemon = pd.read_csv('../src/pokemon.csv')
df_pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


## Suchen
Die Grundlage für Filtern und Sortieren ist das Suchen nach Werten. Das Suchen in<br> einer Spalte erzeugt immer eine sogenannte ``pd.Series``oder auch kurz **Series**, deren Einträge entweder Wahr oder Falsch ist.

In [5]:
# Erzeugen einer Serie durch Auswahl einer einzigen Spalte.
df_pokemon['Type 1']

0         Grass
1         Grass
2         Grass
3         Grass
4          Fire
5          Fire
6          Fire
7          Fire
8          Fire
9         Water
10        Water
11        Water
12        Water
13          Bug
14          Bug
15          Bug
16          Bug
17          Bug
18          Bug
19          Bug
20       Normal
21       Normal
22       Normal
23       Normal
24       Normal
25       Normal
26       Normal
27       Normal
28       Poison
29       Poison
         ...   
770       Fairy
771    Fighting
772    Electric
773        Rock
774      Dragon
775      Dragon
776      Dragon
777       Steel
778       Ghost
779       Ghost
780       Ghost
781       Ghost
782       Ghost
783       Ghost
784       Ghost
785       Ghost
786       Ghost
787       Ghost
788         Ice
789         Ice
790      Flying
791      Flying
792       Fairy
793        Dark
794      Dragon
795        Rock
796        Rock
797     Psychic
798     Psychic
799        Fire
Name: Type 1, Length: 80

## Series/Arrays
Schauen wir uns Series mal genauer an.

In [6]:
# Komprimiertere Darstellung, will nicht so viele Werte sehen
s_type = df_pokemon['Type 1']
s_type.sample(10)

688    Normal
565    Normal
472     Ghost
507     Water
574     Water
9       Water
605       Bug
296     Grass
243       Ice
273     Grass
Name: Type 1, dtype: object

In [7]:
# Einzigartige Werte in einer Serie mit .unique()
s_type.unique()

array(['Grass', 'Fire', 'Water', 'Bug', 'Normal', 'Poison', 'Electric',
       'Ground', 'Fairy', 'Fighting', 'Psychic', 'Rock', 'Ghost', 'Ice',
       'Dragon', 'Dark', 'Steel', 'Flying'], dtype=object)

In [8]:
# Alternativ auch mit .value_counts() dann sehen wir gleich wie viele es von welcher Spezies gibt
s_type.value_counts()

Water       112
Normal       98
Grass        70
Bug          69
Psychic      57
Fire         52
Rock         44
Electric     44
Dragon       32
Ghost        32
Ground       32
Dark         31
Poison       28
Fighting     27
Steel        27
Ice          24
Fairy        17
Flying        4
Name: Type 1, dtype: int64

In [9]:
# Wir suchen jetzt alle Pokemon, die von der Spezies Fairy sind.
s_type == 'Fairy'

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
770     True
771    False
772    False
773    False
774    False
775    False
776    False
777    False
778    False
779    False
780    False
781    False
782    False
783    False
784    False
785    False
786    False
787    False
788    False
789    False
790    False
791    False
792     True
793    False
794    False
795    False
796    False
797    False
798    False
799    False
Name: Type 1, Length: 800, dtype: bool

In [10]:
# Wir speichern das Ergebnis zwischen damit wir nicht immer erneut suchen müssen.
s_is_fairy = (s_type == 'Fairy')
s_is_fairy.head()

0    False
1    False
2    False
3    False
4    False
Name: Type 1, dtype: bool

In [11]:
# Wir geben beiden Längen aus und sehen das die beiden Series identisch Lang sind. 
print(len(s_type))
print(len(s_is_fairy))

800
800


In [12]:
# Dh. wir haben unser gewünschtes Ergebnis und wir wissen jetzt bei welchen Eintrag 
# unser Suchkriterium "Type 1" = Fairy zutrifft. Den Dort steht jetzt Wahr.

## Filtern
Filtern gehört zur Grundausstattung, wenn wir mit großen Datenmengen arbeiten wollen. Es ist daher besonders wichtig zu verstehen, wie das Filtern eines DataFrames funktioniert.

In [13]:
# Wir selektieren nun nur alle Einträge, bei welchen in der Spalte 'Type 1' Fairy steht
df_pokemon[s_is_fairy]

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
40,Clefairy,Fairy,,323,70,45,48,60,65,35,1,False
41,Clefable,Fairy,,483,95,70,73,95,90,60,1,False
187,Cleffa,Fairy,,218,50,25,28,45,55,15,2,False
189,Togepi,Fairy,,245,35,20,65,40,65,20,2,False
190,Togetic,Fairy,Flying,405,55,40,85,80,105,40,2,False
225,Snubbull,Fairy,,300,60,80,50,40,40,30,2,False
226,Granbull,Fairy,,450,90,120,75,60,60,45,2,False
519,Togekiss,Fairy,Flying,545,85,50,95,120,115,80,4,False
737,Flabébé,Fairy,,303,44,38,39,61,79,42,6,False
738,Floette,Fairy,,371,54,45,47,75,98,52,6,False


In [14]:
# Anstatt nun drei Zeilen und zwei Variablen zu verwenden, können wir das ganze
# auch zusammenfassen.

# -----------------
# Herleitung
# -----------------
s_type = df_pokemon['Type 1']
s_is_fairy = (s_type == 'Fairy')
df_pokemon[s_is_fairy]

# Entspricht
df_pokemon[(s_type == 'Fairy')]

# Entspricht
df_pokemon[(df_pokemon['Type 1'] == 'Fairy')]

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
40,Clefairy,Fairy,,323,70,45,48,60,65,35,1,False
41,Clefable,Fairy,,483,95,70,73,95,90,60,1,False
187,Cleffa,Fairy,,218,50,25,28,45,55,15,2,False
189,Togepi,Fairy,,245,35,20,65,40,65,20,2,False
190,Togetic,Fairy,Flying,405,55,40,85,80,105,40,2,False
225,Snubbull,Fairy,,300,60,80,50,40,40,30,2,False
226,Granbull,Fairy,,450,90,120,75,60,60,45,2,False
519,Togekiss,Fairy,Flying,545,85,50,95,120,115,80,4,False
737,Flabébé,Fairy,,303,44,38,39,61,79,42,6,False
738,Floette,Fairy,,371,54,45,47,75,98,52,6,False


In [15]:
# Ich möchte jetzt alle Fairys deren HP(Health Points also Leben) > 70 sind. 
# Wie ich alle Fairys filter weiß ich bereits:
df_pokemon[(df_pokemon['Type 1'] == 'Fairy')].head()

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
40,Clefairy,Fairy,,323,70,45,48,60,65,35,1,False
41,Clefable,Fairy,,483,95,70,73,95,90,60,1,False
187,Cleffa,Fairy,,218,50,25,28,45,55,15,2,False
189,Togepi,Fairy,,245,35,20,65,40,65,20,2,False
190,Togetic,Fairy,Flying,405,55,40,85,80,105,40,2,False


In [16]:
# Entsprechend der oben beschriebenen Logik kann ich auch nach den Health Points filtern
df_pokemon[(df_pokemon['HP'] >= 70)].head()

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
2,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,CharizardMega Charizard Y,Fire,Flying,634,101,104,78,159,115,100,1,False


In [17]:
# Beide Filter kann ich verbinden, ich brauche nur wieder eine Series mit Wahr/Falsch Werten.
# Diese erhalten wir indem wir die beiden Filter mit einem UND verknüpfen
(df_pokemon['Type 1'] == 'Fairy') & (df_pokemon['HP'] >= 70)

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
770     True
771    False
772    False
773    False
774    False
775    False
776    False
777    False
778    False
779    False
780    False
781    False
782    False
783    False
784    False
785    False
786    False
787    False
788    False
789    False
790    False
791    False
792     True
793    False
794    False
795    False
796    False
797    False
798    False
799    False
Length: 800, dtype: bool

In [18]:
# Benutz ich jetzt diese Serie als Filter hab ich mein gewünschtes Ergebnis
df_pokemon[(df_pokemon['Type 1'] == 'Fairy') & (df_pokemon['HP'] >= 70)]

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
40,Clefairy,Fairy,,323,70,45,48,60,65,35,1,False
41,Clefable,Fairy,,483,95,70,73,95,90,60,1,False
226,Granbull,Fairy,,450,90,120,75,60,60,45,2,False
519,Togekiss,Fairy,Flying,545,85,50,95,120,115,80,4,False
739,Florges,Fairy,,552,78,65,68,112,154,75,6,False
752,Spritzee,Fairy,,341,78,52,60,63,65,23,6,False
753,Aromatisse,Fairy,,462,101,72,72,99,89,29,6,False
755,Slurpuff,Fairy,,480,82,80,86,85,75,72,6,False
770,Sylveon,Fairy,,525,95,65,65,110,130,60,6,False
792,Xerneas,Fairy,,680,126,131,95,131,98,99,6,True


## Vergleichs Operatoren
Möchte ich eine Serie mit einem Wert vergleich kann ich folgende Operatoren nutzen:

| Operator | Funktion      |
|----------|---------------|
|    ==    | gleich        |
|    !=    | ungleich      |
|    >     | größer        |
|    >=    | größer/gleich |
|    <     | kleiner       |
|    <=    | kleiner/gleich|

## Logische Operatoren (Verknüpfung)
| Operator | Funktion      |
|----------|---------------|
|    &     | und           |
|  &#124;  | oder          |
|    ~     | invertieren   |

In [19]:
# Alle Pokemon die nicht vom Typ Fairy sind
df_pokemon[~(df_pokemon['Type 1'] == 'Fairy')]['Type 1'].value_counts()

Water       112
Normal       98
Grass        70
Bug          69
Psychic      57
Fire         52
Rock         44
Electric     44
Ground       32
Dragon       32
Ghost        32
Dark         31
Poison       28
Fighting     27
Steel        27
Ice          24
Flying        4
Name: Type 1, dtype: int64

## Sortieren

In [20]:
df_pokemon.sort_values('HP').head()

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
316,Shedinja,Bug,Ghost,236,1,90,45,30,30,40,3,False
55,Diglett,Ground,,265,10,55,25,35,45,95,1,False
388,Duskull,Ghost,,295,20,40,90,30,90,25,3,False
230,Shuckle,Bug,Rock,505,20,10,230,10,230,5,2,False
487,Mime Jr.,Psychic,Fairy,310,20,25,45,70,90,60,4,False


In [21]:
# Möchte jetzt mir anschauen, wie ich innerhalb einer Sotierung noch eine weiter Sotierebene Anwenden kann.
df_pokemon.sort_values(['HP', 'Attack'], ascending=False).head(10)

Unnamed: 0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
261,Blissey,Normal,,540,255,10,10,75,135,55,2,False
121,Chansey,Normal,,450,250,5,5,35,105,50,1,False
217,Wobbuffet,Psychic,,405,190,33,58,33,58,33,2,False
351,Wailord,Water,,500,170,90,45,90,45,60,3,False
655,Alomomola,Water,,470,165,75,80,40,45,65,5,False
155,Snorlax,Normal,,540,160,110,65,65,110,30,1,False
313,Slaking,Normal,,670,150,160,100,95,65,100,3,False
545,GiratinaOrigin Forme,Ghost,Dragon,680,150,120,100,120,100,90,4,True
544,GiratinaAltered Forme,Ghost,Dragon,680,150,100,120,100,120,90,4,True
473,Drifblim,Ghost,Flying,498,150,80,44,90,54,80,4,False


In [22]:
df_pk_hp_at = df_pokemon.sort_values(['HP', 'Attack'], ascending=False).head(10)
df_pk_hp_at[['Name', 'HP', 'Attack']]

Unnamed: 0,Name,HP,Attack
261,Blissey,255,10
121,Chansey,250,5
217,Wobbuffet,190,33
351,Wailord,170,90
655,Alomomola,165,75
155,Snorlax,160,110
313,Slaking,150,160
545,GiratinaOrigin Forme,150,120
544,GiratinaAltered Forme,150,100
473,Drifblim,150,80


# Spalte Legendary: Boolean Datentyp

In [23]:
df_pokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
Name          800 non-null object
Type 1        800 non-null object
Type 2        414 non-null object
Total         800 non-null int64
HP            800 non-null int64
Attack        800 non-null int64
Defense       800 non-null int64
Sp. Atk       800 non-null int64
Sp. Def       800 non-null int64
Speed         800 non-null int64
Generation    800 non-null int64
Legendary     800 non-null bool
dtypes: bool(1), int64(8), object(3)
memory usage: 69.6+ KB


In [25]:
df_pokemon['Legendary'].head()

0    False
1    False
2    False
3    False
4    False
Name: Legendary, dtype: bool

In [29]:
df_pokemon['Legendary'].astype(str).head()

0    False
1    False
2    False
3    False
4    False
Name: Legendary, dtype: object

# Tipps und Tricks
### Unterschiedliches Sortieren
Möchte ich die Spalten nicht einheitlich sortieren sondern jede Spalte unterschiedlich, z.B. Spalte **HP aufsteigend und Attack absteigend** nutze ich eine weitere Eigenschaft des acending-Parameters.

`df_pokemon.sort_values(['HP', 'Attack'], ascending=[True, False])`

Wichtig hierbeit ist, das die Reihenfolge der Sortierparameter mit der Reihenfolge der zu Sortierenden Spalten übereinstimmen muss!