# Pandas: Selektieren, Slicen, Filtern

### Beispiel-Datensätze: `seaborn` Paket

`seaborn` ist ein wichtiges package, mit dem man vor allem Daten visualisiert.
Wir werden im weiteren Kursverlauf auch darauf weiter eingehen. Für den Moment wollen wir uns aber nur bei den Beispieldatensätzen bedienen, die es mitliefert.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

# seaborn hat einige Datensätze zur Auswahl, hier die Liste
sns.get_dataset_names()

In [None]:
# Laden eines Datensatzes:
peng_df = sns.load_dataset("penguins")
peng_df

In [None]:
# Datensatz besteht aus 344 Zeilen.
# Wollen wir nur einen Teil davon sehen, nutzen wir
# .head(x) (zeigt nur die ersten x Zeilen an)
# Beispiel mit 8 Zeilen:
peng_df.head(8)

In [None]:
# Standard (default value) sind übrigens 5 Zeilen:
peng_df.head()

In [None]:
# oder .tail(x) (zeigt nur die unteren x Zeilen an)
# auch hier ist 5 Standardwert:
peng_df.tail(7)

In [None]:
# Dieses mal gibt es mehr zu beschreiben:
peng_df.describe()

In [None]:
# Welche Form hat mein DataFrame? (Zeilen, Spalten)
peng_df.shape

In [None]:
# Wie viele Einträge gibt es insgesamt in df?
# --> Einträge = Zeilen * Spalten
peng_df.size

In [None]:
# Welche Dimension hat mein DataFrame?
peng_df.ndim

In [None]:
# Welche Datentypen stecken in den Spalten?
peng_df.dtypes

### DataFrame Indexing und Bearbeitung

In [None]:
# Spalten können als Index oder Instanzen-Attribut abgerufen werden
print(peng_df["species"])
print()
print(peng_df.species)
# Wir werden im Weiteren die letztere Schreibweise ignorieren,
# da sie weniger Flexibilität bietet.

In [None]:
# Welchen Datentyp hat unsere Spalte?
type(peng_df["species"])

In [None]:
# Wie sieht der df momentan aus?
peng_df.head()

In [None]:
# Neue Spalten können zu bestehenden df einfach hinzugefügt werden:
peng_df["alive"] = 1
peng_df

In [None]:
# Wenn wir für alle Zeilen unterscheidliche Werte eintragen wollen,
# müssen wir so viele Werte wie Zeilen liefern

alive_status = list(np.random.randint(0, 2, 344))
alive_status

peng_df["alive"] = alive_status
peng_df

In [None]:
# Checken, welche Werte in der alive-Spalte vorkommen:
peng_df['alive'].unique()

In [None]:
# Jetzt seid ihr dran: Wie prüfe ich, welche Spezies / Inseln / Geschlechter vorkommen?


In [None]:
# Will man nur wissen, wie viele einzigartige Werte vorkommen, dann hilft
# nunique:
peng_df['species'].nunique()

In [None]:
# Möchte man wissen, wie viele Einträge pro Label vorkommen, dann hilft value_counts():
peng_df['species'].value_counts()

In [None]:
# Es wird noch besser: value_counts kann direkt die Anteile ausrechnen!
peng_df['species'].value_counts(normalize=True)

In [None]:
# Abruf von mehreren Spalten mit einem Befehl
# erfordert eine Liste innerhalb der []:
peng_df[["species", "sex"]]

In [None]:
# Abruf von mehreren Spalten mit begrenzter Anzahl an Zeilen
# und nur jede zweite Zeile
# Achtung: Ende ist inklusiv!
peng_df.loc[:50:2, ["species", "island", "alive"]]

In [None]:
# Normalerweise ist der Endindex beim Programmieren exklusiv
# Bsp. Liste:
liste1 = ["a", "b", "c", "d"]
liste1[:2]

In [None]:
# Mit .iloc ist es auch in der Tat exklusiv!
peng_df.iloc[:50:2]

In [None]:
# Mit select_dtypes können wir bequem nur den Teil des DataFrames herausgreifen,
# der Objekte des gewählten Typs enthält!
# Bsp. object führt hier zu allen Spalten, die Strings enthalten (auch object ist weiter gefasst!):
peng_df.select_dtypes('object')

In [None]:
# Number gibt uns alles Numerische her:
peng_df.select_dtypes('number')

In [None]:
# Man kann aber spezifischer sein:
peng_df.select_dtypes('int')

In [None]:
# Floats:
peng_df.select_dtypes('float')

In [None]:
# und natürlich auch mit Datetime-Objekten:
peng_df.select_dtypes('datetime')

In [None]:
# Verkettung ist leicht möglich:
peng_df.select_dtypes('object').describe()

#### Übungsaufgabe mit DataFrame
Lade den Titanic-Datensatz und löse die nachfolgenden Aufgabenstellungen<br>
Zeit: 20 Minuten<br><br>
Tipp: Wenn du bei einer Aufgabe einfach nicht weiter weißt, geh erstmal zur nächsten.
<hr>


In [None]:
# Führe diesen Code aus, um den Titanic-Datensatz zu laden:
titanic_df = sns.load_dataset("titanic")

In [None]:
# Schaue dir die obersten zehn Einträge an:


In [None]:
# Wie viele Zeilen und Spalten umfasst der Datensatz?


In [None]:
# Wie viele Elemente / Daten enthält der Datensatz?


In [None]:
# Lass dir eine statistische Zusammenfassung 
# der Altersverteilung auf der Titanic anzeigen:


In [None]:
# Wie viele Menschen (absolute Zahlen) sind gestorben oder haben überlebt? 
# Zeige mit Pandas-Mitteln:


In [None]:
# Wie hoch waren die Anteile der verschiedenen Klassen auf der Titanic? 
# Zeige mit Pandas-Mitteln:


In [None]:
# Welche Städte (mit Namen) gab es, an denen Passagiere zugestiegen sind?


In [None]:
# Was hat ein Ticket im Schnitt gekostet? 
# Was hat das teuerste, was das günstigste gekostet?


In [None]:
# Wähle einen Ausschnitt aus dem DataFrame aus, der Folgendes umfasst: 
# Spalten 'survived', 'sex', 'adult_male' und 'class' sowie die ersten 250 Zeilen.


In [None]:
# Szenario: Für die weitere Analyse brauchst du keine Strings.
# Wie wählst du nur die numerischen Spalten des Dataframes aus?


In [None]:
### Ende der Übung!

### Löschen und Umbenennen


In [None]:
# Zurück zu den Pinguinen:
peng_df.head()

In [None]:
# Spalten löschen mit del:
del peng_df["last_spotted"]
peng_df.head()

In [None]:
# Typischer: Zeilen und/oder Spalten löschen mit .drop()
# Warum klappt das nicht einfach mit Spaltennamen?
peng_df.drop('alive', axis=1)
# Wir müssen die Achse festlegen, sonst sucht Pandas nach 'alive' in den Zeilen!

In [None]:
# Aber: df unverändert nach .drop()
peng_df.head()

In [None]:
# Was wir oben sahen ist eine Kopie des DataFrames.
# Damit der ursprünglich DF damit überschrieben wird, müssen wir inplace auf True setzen:
peng_df.drop('alive', axis=1, inplace=True)

In [None]:
# Jetzt passt es:
peng_df.head()

In [None]:
# Wegwerfspalten erstellen:
peng_df['Wegwerfspalte1'] = -999
peng_df['Wegwerfspalte2'] = -999
peng_df['Wegwerfspalte3'] = -999
peng_df.head()

In [None]:
# Mit Listen möglich:
peng_df.drop(['Wegwerfspalte1', 'Wegwerfspalte2', 'Wegwerfspalte3'], axis=1, inplace=True)
peng_df.head()

In [None]:
# Wegwerfspalten erstellen:
peng_df['Wegwerfspalte1'] = -999
peng_df['Wegwerfspalte2'] = -999
peng_df['Wegwerfspalte3'] = -999
peng_df.head()

In [None]:
# Ohne axis auch über columns-Parameter möglich:
peng_df.drop(columns=["Wegwerfspalte1", "Wegwerfspalte2", "Wegwerfspalte3"], 
             inplace=True)

In [None]:
peng_df.head()

In [None]:
# Die erste fünf Indexeinträge wegschmeißen über axis 0:
peng_df.drop([0, 1, 2, 3, 4], axis=0, inplace=True)
peng_df.head()

In [None]:
# Die nächsten fünf Zeilen wegschmeißen mit Parameter index und dann ohne axis:
peng_df.drop(index=[5, 6, 7, 8, 9], inplace=True)
peng_df.head()

In [None]:
# Zeilen / Spalten umbenennen
peng_df.rename(columns={"bill_length_mm": "Schnabellaenge",
                        "bill_depth_mm": "Schnabeltiefe",
                        "flipper_length_mm": "Fluegellaenge"},
               index={10: "Start"},
               inplace=True)
peng_df

### Filtern von DataFrames

##### Mit Methode `filter` (good to know)
Über Zeilen oder Spalten mit einem Filter gehen

In [None]:
# Filter von Spalten mit Namensbestandteilen
peng_df.filter(like="Schnabel", axis=1)

In [None]:
# KI-generierte falsche IBANs:
data = {
    'Name': [
        'John Doe', 'Alice Müller', 'Max Mustermann', 'Maria Schmidt', 'Lukas Weber', 
        'Anna Bauer', 'Paul Klein', 'Julia Richter', 'Stefan Maier', 'Katrin Hoffmann',
        'Timo Schmitt', 'Laura Fischer', 'David Braun', 'Hannah Wagner', 'Sebastian Klein',
        'Felix Schuster', 'Eva Lange', 'Simon Meyer', 'Clara Zimmermann', 'Nico Becker'
    ],
    'Country': [
        'Germany', 'Austria', 'Germany', 'Luxembourg', 'Austria', 
        'Germany', 'Luxembourg', 'Austria', 'Germany', 'Luxembourg',
        'Germany', 'Austria', 'Germany', 'Austria', 'Luxembourg',
        'Germany', 'Austria', 'Germany', 'Luxembourg', 'Austria'
    ],
    'IBAN': [
        'DE89370400440532013000',  # Germany
        'AT611904300234573201',  # Austria
        'DE12500105170648489890',  # Germany
        'LU280019400644750000',  # Luxembourg
        'AT611904300234573202',  # Austria
        'DE25500105175665137000',  # Germany
        'LU280019400644750001',  # Luxembourg
        'AT611904300234573203',  # Austria
        'DE12500105170648489891',  # Germany
        'LU280019400644750002',  # Luxembourg
        'DE89500105175665137100',  # Germany
        'AT611904300234573204',  # Austria
        'DE17500105170648489892',  # Germany
        'AT611904300234573205',  # Austria
        'LU280019400644750003',  # Luxembourg
        'DE15500105175665137200',  # Germany
        'AT611904300234573206',  # Austria
        'DE89500105170648489893',  # Germany
        'LU280019400644750004',  # Luxembourg
        'AT611904300234573207'   # Austria
    ]
}

# Construct the DataFrame
accounts_df = pd.DataFrame(data)

print(accounts_df)

In [None]:
# Schauen wir uns später genauer an, ernennt aber eine Spalte zum Index:
accounts_df.set_index('IBAN', inplace=True)

In [None]:
# Nun filtern wir alle deutschen IBANs heraus!
accounts_df.filter(like='DE', axis=0)

--> Filter wird nur auf die Spalten- oder Zeilen-Label verwendet, nicht auf die Inhalte der Tabelle.

In [None]:
# Hier könnte Ihre Mini-Pause stattfinden! (sofern die Zeit es erlaubt)

#### Über Bedingungen: Conditional Slicing mit Wahrheitsmasken (important to know)

In [None]:
# Wir wollen den Ausschnitt des DataFrames für die Spezies 'Adelie' haben:
# Mit dieser Wahrheitsmaske werden wir unser Ziel erreichen.
# Bei den Zeilen, in denen Adelies vorkommen steht ein True:
peng_df["species"] == "Adelie"

In [None]:
# Damit slicen wir nun den gesamten DataFrame!
adelies_only = peng_df[peng_df["species"] == "Adelie"]
adelies_only

In [None]:
# Wie testen wir, ob wirklich nur Adelies vorkommen?
adelies_only['species'].unique()

In [None]:
# Wir wollen alle Informationen haben, aber nur für
# Pinguine mit Schnabellänge > 40
peng_df[peng_df["Schnabellaenge"] > 40]

In [None]:
# Wir wollen nur die species wissen, von Pinguinen mit 
# einer body_mass < 3000
peng_df[["species"]][peng_df["body_mass_g"] < 3000]

In [None]:
# Kurz über Flügellängen schauen:
peng_df['Fluegellaenge'].describe()

In [None]:
# Uns interessieren nur Pinguine mit Flügellänge 190 - 214
peng_df['Fluegellaenge'].between(190, 214, inclusive='both')  # 'both' ist aber ohnehin Standard

In [None]:
# Slicen:
interesting = peng_df[peng_df['Fluegellaenge'].between(190, 214, inclusive='both')]
interesting

In [None]:
interesting['Fluegellaenge'].describe()

In [None]:
# Kurz ein weiteres Dataset für weitere Beispiele:
health_df = sns.load_dataset('healthexp')
health_df.head()

In [None]:
health_df['Country'].unique()

In [None]:
# Für Deutschland und Frankreich (oder):
health_df[(health_df['Country'] == 'Germany') | (health_df['Country'] == 'France')]

In [None]:
# Für Deutschland und mit Jahr ab 2000:
health_df[(health_df['Country'] == 'Germany') & (health_df['Year'] >= 2000)]

In [None]:
# Negation (das not im Slicing)
# Hier alle mit Ausnahme von Deutschland:
health_df[~(health_df['Country'] == 'Germany')]

In [None]:
# Für eins der Länder: 'Great Britain', 'Japan', 'USA', 'Canada'
# Zunächst einmal Wahrheitsmaske zeigen:
countries = ['Great Britain', 'Japan', 'USA', 'Canada']
health_df['Country'].isin(countries)

In [None]:
# Das eigentliche Slicen:
health_df[health_df['Country'].isin(countries)]

#### Sortieren mit `sort_values` und `sort_index`

In [None]:
peng_df.head()

In [None]:
# Erzeugung eines neuen fortlaufenden numerischen Index,
# drop=True sorgt dafür, dass alter Index gelöscht wird:
peng_df.reset_index(drop=True, inplace=True)
peng_df.head()

In [None]:
# Sortieren nach einer Spalte aufsteigend (Standardverhalten):
peng_df.sort_values("Schnabeltiefe")

In [None]:
# Sortieren nach einer Spalte ABSTEIGEND (über Parameter ascending):
peng_df.sort_values("Schnabeltiefe", ascending=False)

In [None]:
# Sortieren nach mehreren Inhalten:
peng_df.sort_values(["Fluegellaenge", "Schnabellaenge"]).head(10)

In [None]:
# Sortieren des Index (absteigend):
peng_df.sort_index(ascending=False)

In [None]:
# Sortieren der Spalten anhand ihres Index
peng_df.sort_index(axis=1)

In [None]:
# Ihr seid Helden! Bald werden sich die Dinge immer mehr wiederholen!