# Filtern mit boolsche Serien
Wie wir im Kapitel zu den `boolschen Serien` gesehen haben, können wir mit arithmetischen sowie boolschen Operatoren boolsche Serien erzeugen. Diese Serien können wir nutzen, um Spalten zu indizieren. Damit kann man also Spalten filtern.  Die boolsche Serie ist unsere `Filterbedingung`.

Um ein gefiltertes Dataframe zu erzeugen, indiziert man den Dataframe mit der boolschen Serie.

## Beispiel-Datei
Wir lesen als Übungsdatei die `netflix_titles.csv` - Datei ein, die alle Filme und Serien, die auf Netflix verfügbar sind (bzw. 2019 waren) abbildet.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("../data/netflix_titles.csv")

### Beispiel aus dem Kapitel `boolsche Serien`.
wir erstellen eine boolsche Serie `australian_titles` und übergeben diese dem Index-Operator des Dataframes `df`. Damit werden alle Zeilen rausgefiltert, die in der Serie den Wert `False` haben.

* True zeigt Zeilen im Dataframe, deren Spaltenwert Australia ist
* False  zeigt Zeilen im Dataframe, deren Spaltenwert NICHT Australia ist

In [3]:
australian_titles = (df.country == "Australia")
df[australian_titles].head(2)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
137,s138,TV Show,72 Cutest Animals,,,Australia,"June 1, 2016",2016,TV-PG,1 Season,"Docuseries, International TV Shows, Science & ...",This series examines the nature of cuteness an...
138,s139,TV Show,72 Dangerous Animals: Asia,,Bob Brisbane,Australia,"August 10, 2018",2018,TV-14,1 Season,"Docuseries, International TV Shows, Science & ...","From fangs to claws to venomous stings, they a..."


### Beispiel: alle Filme von Director Steven Spielberg
Wir müssen die boolsche Serie nicht unbedingt einer Variablen zuweisen. wir können die Filter-Bedingung gleich im Index-Operator angeben.

In [4]:
steven_spielberg_movies = df[df.director=="Steven Spielberg"]
steven_spielberg_movies.head(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1242,s1243,Movie,Catch Me If You Can,Steven Spielberg,"Leonardo DiCaprio, Tom Hanks, Christopher Walk...","United States, Canada","January 1, 2021",2002,PG-13,141 min,Dramas,An FBI agent makes it his mission to put cunni...
2799,s2800,Movie,Hook,Steven Spielberg,"Dustin Hoffman, Robin Williams, Julia Roberts,...",United States,"January 15, 2021",1991,PG,142 min,Children & Family Movies,"Peter Pan, now grown up and a workaholic, must..."
2990,s2991,Movie,Indiana Jones and the Kingdom of the Crystal S...,Steven Spielberg,"Harrison Ford, Cate Blanchett, Karen Allen, Ra...",United States,"January 1, 2019",2008,PG-13,123 min,"Action & Adventure, Children & Family Movies, ...",Indiana Jones is drawn into a Russian plot to ...


### Beispiel: alle Actionfilme aus dem Jahr 2018 und 2019
Es bietet sich bei komplexen Fragen an, diverse Filterserien zu erstellen und dann mit logischen Operatoren zu verknüpfen.

In [19]:
# # Aufgabe. Verknüpfe mit UND und filtere df
# Alle Filme aus dem Jahr 2018 und 2019. 
# Alle Title aus dem type Movie. 
# Alle Title in denen das Wort "Action" in der Spalte listed_in 
# gebe den Shape des neuen DataFrames aus und zeige mit head(3) die ersten Einträge

# Intermezzo: VIEWS vs COPY
ein für Anfänger häufig schwer nachzuvollziehendes Problem in der Arbeit mit Filtern und Dataframes ist die `SettingsWithCopyWarning`. Um zu verstehen, worum es bei SettingWithCopyWarning geht, ist es hilfreich zu verstehen, dass einige Aktionen in Pandas eine `View` der Daten zurückgeben können und andere eine `Kopie` zurückgeben.

Eine View auf einen Dataframe ist quasi nur eine Ansicht auf dahinterliegende Daten in einem anderen Dataframe, eine Copy ist ein richtiger Dataframe. 

![alt text](view-vs-copy.png "view")

Wie wir oben sehen können, ist die `View df2` auf der linken Seite nur eine Teilmenge der ursprünglichen `df1`, während die `Kopie auf der rechten Seite` ein `neues, eindeutiges Objekt df2` erstellt.

Dies kann möglicherweise zu Problemen führen, wenn wir versuchen, Änderungen vorzunehmen. SettingWithCopyWarning ist ein Hinweis darauf, dass Ihre Änderungen möglicherweise nicht das ursprüngliche Objekt betreffen.

Da es sich hier um ein relativ schwieriges Thema handelt, verlinke ich auf ein Tutorial:
https://realpython.com/pandas-settingwithcopywarning/


Best Practice: Verwenden Sie immer .loc oder .iloc, wenn Sie Werte in einem DataFrame ändern möchten. Das macht den Code robuster und vermeidet potenzielle Probleme mit SettingWithCopyWarning.


### Beispiel
Wir wollen nun von dem oben erstellten Dataframe `steven_spielberg_movies` das `director`-Feld auf lowercase setzen. Dazu müssen wir auf die Spalte `director` einen String-Accessor anwenden. Wir bekommen ein `SettingWithCopyWarning`, da Pandas nicht weiß, ob wir den Originalen Dataframe `df` verändern wollen oder nur eine View darauf `steven_spielberg_movies`. Eine Lösung wäre, die Copy-Methode zu nutzen. Damit erstellen wir von dem gefilterten Dataframe explizit eine neue, eigenständige Kopie. 

In [21]:
# alle Title von Steven Spielberg.
# Überschreibe Spalte director mit der Lowercase-Version von Steven Spielberg

## Aufgabe 
Wir sind an der durchschnittlichen `Dauer (duration)` aller Filme (`type` movie) aus dem `country` United States im Jahr 2008 `release_date` interessiert.

Die Spalte `duration` enthält nicht-numerische Zeichen, versuche diese zu entfernen, um den Mittelwert `mean` zu berechnen. Erstelle die entsprechenden Filter. 

### Vorgehen

* 0. Lade das netflix dataset mit read_csv
* 1. Lege die filter an (Type Movie, Jahr 2008, Land USA)
* 2. Filtere den Dataframe mit den filtern und führe eine copy-Methode aus, um den Dataframe zu kopieren (df_filtered)
* 3. entferne das "min" aus der Spalte duration. Speichere die bereinigte Dauer in der (neuen) Spalte duration_cleaned.
* 4. Setze den Type der Spalte duration_cleaned auf int (nutze dazu astype("int16"))
* 5. Errechne den Mittelwert, die Standardabweichung, den Min und Max-Wert von duration_cleaned
  6. Happy Coding!

In [23]:
df = pd.read_csv("../data/netflix_titles.csv")

## Umgang mit NaN-Werten
wir hatten in einem vorhergehenden Kapitel schon gesehen, wie wir mit NaN-Werten umgehen können. Wir wollen nun fehlende Sensordaten in Spalte A mit dem Durchschnittswert der Sensordaten B und C ersetzen. 
Falls in B oder C NaN-Werte vorhanden sein sollten, werden diese Zeilen vorweg gelöscht.

In [24]:
df_sensordata = pd.read_csv("../data/sensordata.csv", header=None, names=["SensorA", "SensorB", "SensorC"])

# Zeilen löschen, wo SensorB oder SensorC NaN-Werte beinhaltet

### 1.) Erstellen einer boolschen Serie mit fehlenden Sensordaten von Sensor A
dazu können wir die Methode `isna()` nutzen.

In [25]:
# sensordatan Missing A

### 2.) Durchschnittswert zwischen Sensor B und Sensor C errechnen

In [28]:
# Serie mit Durchschnitt-Sensordaten von SensorB und SensorC an den fehlenden Stellen von Sensor A erstellen

### 3.) boolsche Serie als Maske nutzen für die loc-Methode

In [30]:
# Alle fehlenden Stellen von Sensor A die Mittelwerte aus 2) auffüllen