# Pandas: Selektieren, Slicen, Filtern

### Beispiel-Datensätze: `seaborn` Paket

`seaborn` ist ein wichtiges package, mit dem man vor allem Daten visualisiert.
Wir werden im weiteren Kursverlauf auch darauf weiter eingehen. Für den Moment wollen wir uns aber nur bei den Beispieldatensätzen bedienen, die es mitliefert.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

# seaborn hat einige Datensätze zur Auswahl, hier die Liste
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [2]:
# Laden eines Datensatzes:
peng_df = sns.load_dataset("penguins")
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


In [3]:
# Datensatz besteht aus 344 Zeilen.
# Wollen wir nur einen Teil davon sehen, nutzen wir
# .head(x) (zeigt nur die ersten x Zeilen an)
# Beispiel mit 8 Zeilen:
peng_df.head(8)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male


In [4]:
# Standard (default value) sind übrigens 5 Zeilen:
peng_df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [5]:
# oder .tail(x) (zeigt nur die unteren x Zeilen an)
# auch hier ist 5 Standardwert:
peng_df.tail(7)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
337,Gentoo,Biscoe,48.8,16.2,222.0,6000.0,Male
338,Gentoo,Biscoe,47.2,13.7,214.0,4925.0,Female
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female
343,Gentoo,Biscoe,49.9,16.1,213.0,5400.0,Male


In [6]:
# Dieses mal gibt es mehr zu beschreiben:
peng_df.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [7]:
# Welche Form hat mein DataFrame? (Zeilen, Spalten)
peng_df.shape

(344, 7)

In [8]:
# Wie viele Einträge gibt es insgesamt in df?
# --> Einträge = Zeilen * Spalten
peng_df.size

2408

In [9]:
# Welche Dimension hat mein DataFrame?
peng_df.ndim

2

In [10]:
# Welche Datentypen stecken in den Spalten?
peng_df.dtypes

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
dtype: object

### DataFrame Indexing und Bearbeitung

In [11]:
# Spalten können als Index oder Instanzen-Attribut abgerufen werden
print(peng_df["species"])
print()
print(peng_df.species)
# Wir werden im Weiteren die letztere Schreibweise ignorieren,
# da sie weniger Flexibilität bietet.

0      Adelie
1      Adelie
2      Adelie
3      Adelie
4      Adelie
        ...  
339    Gentoo
340    Gentoo
341    Gentoo
342    Gentoo
343    Gentoo
Name: species, Length: 344, dtype: object

0      Adelie
1      Adelie
2      Adelie
3      Adelie
4      Adelie
        ...  
339    Gentoo
340    Gentoo
341    Gentoo
342    Gentoo
343    Gentoo
Name: species, Length: 344, dtype: object


In [12]:
# Welchen Datentyp hat unsere Spalte?
type(peng_df["species"])

pandas.core.series.Series

In [13]:
# Wie sieht der df momentan aus?
peng_df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [14]:
# Neue Spalten können zu bestehenden df einfach hinzugefügt werden:
peng_df["alive"] = 1
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,alive
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,1
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,1
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,1
3,Adelie,Torgersen,,,,,,1
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,1
...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,1
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,1
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1


In [15]:
# Wenn wir für alle Zeilen unterscheidliche Werte eintragen wollen,
# müssen wir so viele Werte wie Zeilen liefern

alive_status = list(np.random.randint(0, 2, 344))
alive_status

peng_df["alive"] = alive_status
peng_df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,alive
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,0
3,Adelie,Torgersen,,,,,,1
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,0
...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,1
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,0
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1


In [16]:
# Checken, welche Werte in der alive-Spalte vorkommen:
peng_df['alive'].unique()

array([0, 1], dtype=int32)

In [17]:
# Jetzt seid ihr dran: Wie prüfe ich, welche Spezies / Inseln / Geschlechter vorkommen?


In [18]:
# Will man nur wissen, wie viele einzigartige Werte vorkommen, dann hilft
# nunique:
peng_df['species'].nunique()

3

In [19]:
# Möchte man wissen, wie viele Einträge pro Label vorkommen, dann hilft value_counts():
peng_df['species'].value_counts()

species
Adelie       152
Gentoo       124
Chinstrap     68
Name: count, dtype: int64

In [20]:
# Es wird noch besser: value_counts kann direkt die Anteile ausrechnen!
peng_df['species'].value_counts(normalize=True)

species
Adelie       0.441860
Gentoo       0.360465
Chinstrap    0.197674
Name: proportion, dtype: float64

In [21]:
# Abruf von mehreren Spalten mit einem Befehl
# erfordert eine Liste innerhalb der []:
peng_df[["species", "sex"]]

Unnamed: 0,species,sex
0,Adelie,Male
1,Adelie,Female
2,Adelie,Female
3,Adelie,
4,Adelie,Female
...,...,...
339,Gentoo,
340,Gentoo,Female
341,Gentoo,Male
342,Gentoo,Female


In [22]:
# Abruf von mehreren Spalten mit begrenzter Anzahl an Zeilen
# und nur jede zweite Zeile
# Achtung: Ende ist inklusiv!
peng_df.loc[:50:2, ["species", "island", "alive"]]

Unnamed: 0,species,island,alive
0,Adelie,Torgersen,0
2,Adelie,Torgersen,0
4,Adelie,Torgersen,0
6,Adelie,Torgersen,1
8,Adelie,Torgersen,0
10,Adelie,Torgersen,0
12,Adelie,Torgersen,1
14,Adelie,Torgersen,1
16,Adelie,Torgersen,0
18,Adelie,Torgersen,1


In [23]:
# Normalerweise ist der Endindex beim Programmieren exklusiv
# Bsp. Liste:
liste1 = ["a", "b", "c", "d"]
liste1[:2]

['a', 'b']

In [24]:
# Mit .iloc ist es auch in der Tat exklusiv!
peng_df.iloc[:50:2]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,alive
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,0
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female,1
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,,0
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,,0
12,Adelie,Torgersen,41.1,17.6,182.0,3200.0,Female,1
14,Adelie,Torgersen,34.6,21.1,198.0,4400.0,Male,1
16,Adelie,Torgersen,38.7,19.0,195.0,3450.0,Female,0
18,Adelie,Torgersen,34.4,18.4,184.0,3325.0,Female,1


In [25]:
# Mit select_dtypes können wir bequem nur den Teil des DataFrames herausgreifen,
# der Objekte des gewählten Typs enthält!
# Bsp. object führt hier zu allen Spalten, die Strings enthalten (auch object ist weiter gefasst!):
peng_df.select_dtypes('object')

Unnamed: 0,species,island,sex
0,Adelie,Torgersen,Male
1,Adelie,Torgersen,Female
2,Adelie,Torgersen,Female
3,Adelie,Torgersen,
4,Adelie,Torgersen,Female
...,...,...,...
339,Gentoo,Biscoe,
340,Gentoo,Biscoe,Female
341,Gentoo,Biscoe,Male
342,Gentoo,Biscoe,Female


In [26]:
# Number gibt uns alles Numerische her:
peng_df.select_dtypes('number')

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,alive
0,39.1,18.7,181.0,3750.0,0
1,39.5,17.4,186.0,3800.0,0
2,40.3,18.0,195.0,3250.0,0
3,,,,,1
4,36.7,19.3,193.0,3450.0,0
...,...,...,...,...,...
339,,,,,1
340,46.8,14.3,215.0,4850.0,0
341,50.4,15.7,222.0,5750.0,1
342,45.2,14.8,212.0,5200.0,1


In [27]:
# Man kann aber spezifischer sein:
peng_df.select_dtypes('int')

Unnamed: 0,alive
0,0
1,0
2,0
3,1
4,0
...,...
339,1
340,0
341,1
342,1


In [28]:
# Floats:
peng_df.select_dtypes('float')

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
0,39.1,18.7,181.0,3750.0
1,39.5,17.4,186.0,3800.0
2,40.3,18.0,195.0,3250.0
3,,,,
4,36.7,19.3,193.0,3450.0
...,...,...,...,...
339,,,,
340,46.8,14.3,215.0,4850.0
341,50.4,15.7,222.0,5750.0
342,45.2,14.8,212.0,5200.0


In [29]:
# und natürlich auch mit Datetime-Objekten:
peng_df.select_dtypes('datetime')

0
1
2
3
4
...
339
340
341
342
343


In [30]:
# Verkettung ist leicht möglich:
peng_df.select_dtypes('object').describe()

Unnamed: 0,species,island,sex
count,344,344,333
unique,3,3,2
top,Adelie,Biscoe,Male
freq,152,168,168


#### Übungsaufgabe mit DataFrame
Lade den Titanic-Datensatz und löse die nachfolgenden Aufgabenstellungen<br>
Zeit: 20 Minuten<br><br>
Tipp: Wenn du bei einer Aufgabe einfach nicht weiter weißt, geh erstmal zur nächsten.
<hr>


In [31]:
# Führe diesen Code aus, um den Titanic-Datensatz zu laden:
titanic_df = sns.load_dataset("titanic")

In [45]:
# Schaue dir die obersten zehn Einträge an:
titanic_df.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [46]:
# Wie viele Zeilen und Spalten umfasst der Datensatz?
titanic_df.shape

(891, 15)

In [47]:
# Wie viele Elemente / Daten enthält der Datensatz?
titanic_df.size

13365

In [49]:
# Lass dir eine statistische Zusammenfassung 
# der Altersverteilung auf der Titanic anzeigen:
titanic_df.value_counts('age')

age
24.0    30
22.0    27
18.0    26
19.0    25
30.0    25
        ..
53.0     1
66.0     1
70.5     1
74.0     1
80.0     1
Name: count, Length: 88, dtype: int64

In [70]:
titanic_df['age'].describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: age, dtype: float64

In [53]:
# Wie viele Menschen (absolute Zahlen) sind gestorben oder haben überlebt? 
# Zeige mit Pandas-Mitteln:
titanic_df.value_counts('survived')

survived
0    549
1    342
Name: count, dtype: int64

In [71]:
# Wie hoch waren die Anteile der verschiedenen Klassen auf der Titanic? 
# Zeige mit Pandas-Mitteln:
titanic_df.value_counts('pclass', normalize=True)

pclass
3    0.551066
1    0.242424
2    0.206510
Name: proportion, dtype: float64

In [59]:
# Welche Städte (mit Namen) gab es, an denen Passagiere zugestiegen sind?
titanic_df['embark_town'].unique()

array(['Southampton', 'Cherbourg', 'Queenstown', nan], dtype=object)

In [66]:
# Was hat ein Ticket im Schnitt gekostet? 
# Was hat das teuerste, was das günstigste gekostet?
avg_fare = titanic_df['fare'].mean()
min_fare = titanic_df['fare'].min()
max_fare = titanic_df['fare'].max()
print(f"Avg Fare: {avg_fare:.2f} £")
print(f"Min Fare: {min_fare:.2f} £")
print(f"Max Fare: {max_fare:.2f} £")

Avg Fare: 32.20 £
Min Fare: 0.00 £
Max Fare: 512.33 £


In [72]:
titanic_df['fare'].describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: fare, dtype: float64

In [73]:
# Wähle einen Ausschnitt aus dem DataFrame aus, der Folgendes umfasst: 
# Spalten 'survived', 'sex', 'adult_male' und 'class' sowie die ersten 250 Zeilen.
titanic_df.loc[:250, ['survived', 'sex', 'adult_male', 'class']]

Unnamed: 0,survived,sex,adult_male,class
0,0,male,True,Third
1,1,female,False,First
2,1,female,False,Third
3,1,female,False,First
4,0,male,True,Third
...,...,...,...,...
246,0,female,False,Third
247,1,female,False,Second
248,1,male,True,First
249,0,male,True,Second


In [69]:
# Szenario: Für die weitere Analyse brauchst du keine Strings.
# Wie wählst du nur die numerischen Spalten des Dataframes aus?
titanic_df.select_dtypes('number')

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
0,0,3,22.0,1,0,7.2500
1,1,1,38.0,1,0,71.2833
2,1,3,26.0,0,0,7.9250
3,1,1,35.0,1,0,53.1000
4,0,3,35.0,0,0,8.0500
...,...,...,...,...,...,...
886,0,2,27.0,0,0,13.0000
887,1,1,19.0,0,0,30.0000
888,0,3,,1,2,23.4500
889,1,1,26.0,0,0,30.0000


In [42]:
### Ende der Übung!

### Löschen und Umbenennen


In [43]:
# Zurück zu den Pinguinen:
peng_df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,alive
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,0
3,Adelie,Torgersen,,,,,,1
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,0


In [44]:
# Spalten löschen mit del:
del peng_df["last_spotted"]
peng_df.head()

KeyError: 'last_spotted'

In [None]:
# Typischer: Zeilen und/oder Spalten löschen mit .drop()
# Warum klappt das nicht einfach mit Spaltennamen?
peng_df.drop('alive', axis=1)
# Wir müssen die Achse festlegen, sonst sucht Pandas nach 'alive' in den Zeilen!

In [None]:
# Aber: df unverändert nach .drop()
peng_df.head()

In [None]:
# Was wir oben sahen ist eine Kopie des DataFrames.
# Damit der ursprünglich DF damit überschrieben wird, müssen wir inplace auf True setzen:
peng_df.drop('alive', axis=1, inplace=True)

In [None]:
# Jetzt passt es:
peng_df.head()

In [None]:
# Wegwerfspalten erstellen:
peng_df['Wegwerfspalte1'] = -999
peng_df['Wegwerfspalte2'] = -999
peng_df['Wegwerfspalte3'] = -999
peng_df.head()

In [None]:
# Mit Listen möglich:
peng_df.drop(['Wegwerfspalte1', 'Wegwerfspalte2', 'Wegwerfspalte3'], axis=1, inplace=True)
peng_df.head()

In [None]:
# Wegwerfspalten erstellen:
peng_df['Wegwerfspalte1'] = -999
peng_df['Wegwerfspalte2'] = -999
peng_df['Wegwerfspalte3'] = -999
peng_df.head()

In [None]:
# Ohne axis auch über columns-Parameter möglich:
peng_df.drop(columns=["Wegwerfspalte1", "Wegwerfspalte2", "Wegwerfspalte3"], 
             inplace=True)

In [None]:
peng_df.head()

In [None]:
# Die erste fünf Indexeinträge wegschmeißen über axis 0:
peng_df.drop([0, 1, 2, 3, 4], axis=0, inplace=True)
peng_df.head()

In [None]:
# Die nächsten fünf Zeilen wegschmeißen mit Parameter index und dann ohne axis:
peng_df.drop(index=[5, 6, 7, 8, 9], inplace=True)
peng_df.head()

In [None]:
# Zeilen / Spalten umbenennen
peng_df.rename(columns={"bill_length_mm": "Schnabellaenge",
                        "bill_depth_mm": "Schnabeltiefe",
                        "flipper_length_mm": "Fluegellaenge"},
               index={10: "Start"},
               inplace=True)
peng_df

### Filtern von DataFrames

##### Mit Methode `filter` (good to know)
Über Zeilen oder Spalten mit einem Filter gehen

In [None]:
# Filter von Spalten mit Namensbestandteilen
peng_df.filter(like="Schnabel", axis=1)

In [None]:
# KI-generierte falsche IBANs:
data = {
    'Name': [
        'John Doe', 'Alice Müller', 'Max Mustermann', 'Maria Schmidt', 'Lukas Weber', 
        'Anna Bauer', 'Paul Klein', 'Julia Richter', 'Stefan Maier', 'Katrin Hoffmann',
        'Timo Schmitt', 'Laura Fischer', 'David Braun', 'Hannah Wagner', 'Sebastian Klein',
        'Felix Schuster', 'Eva Lange', 'Simon Meyer', 'Clara Zimmermann', 'Nico Becker'
    ],
    'Country': [
        'Germany', 'Austria', 'Germany', 'Luxembourg', 'Austria', 
        'Germany', 'Luxembourg', 'Austria', 'Germany', 'Luxembourg',
        'Germany', 'Austria', 'Germany', 'Austria', 'Luxembourg',
        'Germany', 'Austria', 'Germany', 'Luxembourg', 'Austria'
    ],
    'IBAN': [
        'DE89370400440532013000',  # Germany
        'AT611904300234573201',  # Austria
        'DE12500105170648489890',  # Germany
        'LU280019400644750000',  # Luxembourg
        'AT611904300234573202',  # Austria
        'DE25500105175665137000',  # Germany
        'LU280019400644750001',  # Luxembourg
        'AT611904300234573203',  # Austria
        'DE12500105170648489891',  # Germany
        'LU280019400644750002',  # Luxembourg
        'DE89500105175665137100',  # Germany
        'AT611904300234573204',  # Austria
        'DE17500105170648489892',  # Germany
        'AT611904300234573205',  # Austria
        'LU280019400644750003',  # Luxembourg
        'DE15500105175665137200',  # Germany
        'AT611904300234573206',  # Austria
        'DE89500105170648489893',  # Germany
        'LU280019400644750004',  # Luxembourg
        'AT611904300234573207'   # Austria
    ]
}

# Construct the DataFrame
accounts_df = pd.DataFrame(data)

print(accounts_df)

In [None]:
# Schauen wir uns später genauer an, ernennt aber eine Spalte zum Index:
accounts_df.set_index('IBAN', inplace=True)

In [None]:
# Nun filtern wir alle deutschen IBANs heraus!
accounts_df.filter(like='DE', axis=0)

--> Filter wird nur auf die Spalten- oder Zeilen-Label verwendet, nicht auf die Inhalte der Tabelle.

In [None]:
# Hier könnte Ihre Mini-Pause stattfinden! (sofern die Zeit es erlaubt)

#### Über Bedingungen: Conditional Slicing mit Wahrheitsmasken (important to know)

In [None]:
# Wir wollen den Ausschnitt des DataFrames für die Spezies 'Adelie' haben:
# Mit dieser Wahrheitsmaske werden wir unser Ziel erreichen.
# Bei den Zeilen, in denen Adelies vorkommen steht ein True:
peng_df["species"] == "Adelie"

In [None]:
# Damit slicen wir nun den gesamten DataFrame!
adelies_only = peng_df[peng_df["species"] == "Adelie"]
adelies_only

In [None]:
# Wie testen wir, ob wirklich nur Adelies vorkommen?
adelies_only['species'].unique()

In [None]:
# Wir wollen alle Informationen haben, aber nur für
# Pinguine mit Schnabellänge > 40
peng_df[peng_df["Schnabellaenge"] > 40]

In [None]:
# Wir wollen nur die species wissen, von Pinguinen mit 
# einer body_mass < 3000
peng_df[["species"]][peng_df["body_mass_g"] < 3000]

In [None]:
# Kurz über Flügellängen schauen:
peng_df['Fluegellaenge'].describe()

In [None]:
# Uns interessieren nur Pinguine mit Flügellänge 190 - 214
peng_df['Fluegellaenge'].between(190, 214, inclusive='both')  # 'both' ist aber ohnehin Standard

In [None]:
# Slicen:
interesting = peng_df[peng_df['Fluegellaenge'].between(190, 214, inclusive='both')]
interesting

In [None]:
interesting['Fluegellaenge'].describe()

In [None]:
# Kurz ein weiteres Dataset für weitere Beispiele:
health_df = sns.load_dataset('healthexp')
health_df.head()

In [None]:
health_df['Country'].unique()

In [None]:
# Für Deutschland und Frankreich (oder):
health_df[(health_df['Country'] == 'Germany') | (health_df['Country'] == 'France')]

In [None]:
# Für Deutschland und mit Jahr ab 2000:
health_df[(health_df['Country'] == 'Germany') & (health_df['Year'] >= 2000)]

In [None]:
# Negation (das not im Slicing)
# Hier alle mit Ausnahme von Deutschland:
health_df[~(health_df['Country'] == 'Germany')]

In [None]:
# Für eins der Länder: 'Great Britain', 'Japan', 'USA', 'Canada'
# Zunächst einmal Wahrheitsmaske zeigen:
countries = ['Great Britain', 'Japan', 'USA', 'Canada']
health_df['Country'].isin(countries)

In [None]:
# Das eigentliche Slicen:
health_df[health_df['Country'].isin(countries)]

#### Sortieren mit `sort_values` und `sort_index`

In [None]:
peng_df.head()

In [None]:
# Erzeugung eines neuen fortlaufenden numerischen Index,
# drop=True sorgt dafür, dass alter Index gelöscht wird:
peng_df.reset_index(drop=True, inplace=True)
peng_df.head()

In [None]:
# Sortieren nach einer Spalte aufsteigend (Standardverhalten):
peng_df.sort_values("Schnabeltiefe")

In [None]:
# Sortieren nach einer Spalte ABSTEIGEND (über Parameter ascending):
peng_df.sort_values("Schnabeltiefe", ascending=False)

In [None]:
# Sortieren nach mehreren Inhalten:
peng_df.sort_values(["Fluegellaenge", "Schnabellaenge"]).head(10)

In [None]:
# Sortieren des Index (absteigend):
peng_df.sort_index(ascending=False)

In [None]:
# Sortieren der Spalten anhand ihres Index
peng_df.sort_index(axis=1)

In [None]:
# Ihr seid Helden! Bald werden sich die Dinge immer mehr wiederholen!