# Filtern mit boolsche Serien
Wie wir im Kapitel zu den `boolschen Serien` gesehen haben, können wir mit arithmetischen sowie boolschen Operatoren boolsche Serien erzeugen. Diese Serien können wir nutzen, um Spalten zu indizieren. Damit kann man also Spalten filtern.  Die boolsche Serie ist unsere `Filterbedingung`.

Um ein gefiltertes Dataframe zu erzeugen, indiziert man den Dataframe mit der boolschen Serie.

## Beispiel-Datei
Wir lesen als Übungsdatei die `netflix_titles.csv` - Datei ein, die alle Filme und Serien, die auf Netflix verfügbar sind (bzw. 2019 waren) abbildet.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("data/netflix_titles.csv")

### Beispiel aus dem Kapitel `boolsche Serien`.
wir erstellen eine boolsche Serie `australian_titles` und übergeben diese dem Index-Operator des Dataframes `df`. Damit werden alle Zeilen rausgefiltert, die in der Serie den Wert `False` haben.

* True zeigt Zeilen im Dataframe, deren Spaltenwert Australia ist
* False  zeigt Zeilen im Dataframe, deren Spaltenwert NICHT Australia ist

In [2]:
australian_titles = (df.country == "Australia")
df[australian_titles].head(2)

# Anzahl aller Vorkommen für spalte type und country
x = df.type.value_counts()
c = df.country.value_counts()
x, c

(type
 Movie      5377
 TV Show    2410
 Name: count, dtype: int64,
 country
 United States                                     2555
 India                                              923
 United Kingdom                                     397
 Japan                                              226
 South Korea                                        183
                                                   ... 
 Germany, United States, United Kingdom, Canada       1
 Peru, United States, United Kingdom                  1
 Saudi Arabia, United Arab Emirates                   1
 United Kingdom, France, United States, Belgium       1
 France, Norway, Lebanon, Belgium                     1
 Name: count, Length: 681, dtype: int64)

### Beispiel: alle Filme von Director Steven Spielberg
Wir müssen die boolsche Serie nicht unbedingt einer Variablen zuweisen. wir können die Filter-Bedingung gleich im Index-Operator angeben.

In [21]:
steven_spielberg_movies = df[df.director=="Steven Spielberg"]
steven_spielberg_movies_2 = df.loc[df.director=="Steven Spielberg", ["title", "type"]]  # aternative
steven_spielberg_movies[["type", "title"]]
# df.loc[:2,"type":"cast"]

Unnamed: 0,type,title
1242,Movie,Catch Me If You Can
2799,Movie,Hook
2990,Movie,Indiana Jones and the Kingdom of the Crystal S...
2991,Movie,Indiana Jones and the Last Crusade
2992,Movie,Indiana Jones and the Raiders of the Lost Ark
2993,Movie,Indiana Jones and the Temple of Doom
3646,Movie,Lincoln
5430,Movie,Schindler's List
6069,Movie,The Adventures of Tintin
7478,Movie,War Horse


### Beispiel: alle Actionfilme aus dem Jahr 2018 und 2019
Es bietet sich bei komplexen Fragen an, diverse Filterserien zu erstellen und dann mit logischen Operatoren zu verknüpfen.

In [4]:
titles_2018_2019 = df.release_year.between(2018,2019)
action_titles = df.listed_in.str.contains("Action")
movies = df.type == "Movie"

df_action_movies_2018_2019 = df[
    titles_2018_2019 & action_titles & movies
]

df_action_movies_2018_2019.shape

(121, 12)

# Intermezzo: VIEWS vs COPY
ein für Anfänger häufig schwer nachzuvollziehendes Problem in der Arbeit mit Filtern und Dataframes ist die `SettingsWithCopyWarning`. Um zu verstehen, worum es bei SettingWithCopyWarning geht, ist es hilfreich zu verstehen, dass einige Aktionen in Pandas eine `View` der Daten zurückgeben können und andere eine `Kopie` zurückgeben.

Eine View auf einen Dataframe ist quasi nur eine Ansicht auf dahinterliegende Daten in einem anderen Dataframe, eine Copy ist ein richtiger Dataframe. 

![alt text](view-vs-copy.png "view")

Wie wir oben sehen können, ist die `View df2` auf der linken Seite nur eine Teilmenge der ursprünglichen `df1`, während die `Kopie auf der rechten Seite` ein `neues, eindeutiges Objekt df2` erstellt.

Dies kann möglicherweise zu Problemen führen, wenn wir versuchen, Änderungen vorzunehmen. SettingWithCopyWarning ist ein Hinweis darauf, dass Ihre Änderungen möglicherweise nicht das ursprüngliche Objekt betreffen.

Da es sich hier um ein relativ schwieriges Thema handelt, verlinke ich auf ein Tutorial:
https://realpython.com/pandas-settingwithcopywarning/


Best Practice: Verwenden Sie immer .loc oder .iloc, wenn Sie Werte in einem DataFrame ändern möchten. Das macht den Code robuster und vermeidet potenzielle Probleme mit SettingWithCopyWarning.


### Beispiel
Wir wollen nun von dem oben erstellten Dataframe `steven_spielberg_movies` das `director`-Feld auf lowercase setzen. Dazu müssen wir auf die Spalte `director` einen String-Accessor anwenden. Wir bekommen ein `SettingWithCopyWarning`, da Pandas nicht weiß, ob wir den Originalen Dataframe `df` verändern wollen oder nur eine View darauf `steven_spielberg_movies`. Eine Lösung wäre, die Copy-Methode zu nutzen. Damit erstellen wir von dem gefilterten Dataframe explizit eine neue, eigenständige Kopie. 

In [7]:
steven_spielberg_movies = df[df.director=="Steven Spielberg"].copy()  # ohne copy() Warning!
steven_spielberg_movies["director"] = steven_spielberg_movies["director"].str.lower()
steven_spielberg_movies

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1242,s1243,Movie,Catch Me If You Can,steven spielberg,"Leonardo DiCaprio, Tom Hanks, Christopher Walk...","United States, Canada","January 1, 2021",2002,PG-13,141 min,Dramas,An FBI agent makes it his mission to put cunni...
2799,s2800,Movie,Hook,steven spielberg,"Dustin Hoffman, Robin Williams, Julia Roberts,...",United States,"January 15, 2021",1991,PG,142 min,Children & Family Movies,"Peter Pan, now grown up and a workaholic, must..."
2990,s2991,Movie,Indiana Jones and the Kingdom of the Crystal S...,steven spielberg,"Harrison Ford, Cate Blanchett, Karen Allen, Ra...",United States,"January 1, 2019",2008,PG-13,123 min,"Action & Adventure, Children & Family Movies, ...",Indiana Jones is drawn into a Russian plot to ...
2991,s2992,Movie,Indiana Jones and the Last Crusade,steven spielberg,"Harrison Ford, Sean Connery, Denholm Elliott, ...",United States,"January 1, 2019",1989,PG-13,127 min,"Action & Adventure, Children & Family Movies, ...","Accompanied by his father, Indiana Jones sets ..."
2992,s2993,Movie,Indiana Jones and the Raiders of the Lost Ark,steven spielberg,"Harrison Ford, Karen Allen, Paul Freeman, Rona...",United States,"January 1, 2019",1981,PG,116 min,"Action & Adventure, Children & Family Movies, ...",When Indiana Jones is hired by the government ...
2993,s2994,Movie,Indiana Jones and the Temple of Doom,steven spielberg,"Harrison Ford, Kate Capshaw, Amrish Puri, Rosh...",United States,"January 1, 2019",1984,PG,119 min,"Action & Adventure, Children & Family Movies, ...","Indiana Jones, his young sidekick and a spoile..."
3646,s3647,Movie,Lincoln,steven spielberg,"Daniel Day-Lewis, Sally Field, David Strathair...","United States, India","February 21, 2018",2012,PG-13,150 min,Dramas,Director Steven Spielberg takes on the towerin...
5430,s5431,Movie,Schindler's List,steven spielberg,"Liam Neeson, Ben Kingsley, Ralph Fiennes, Caro...",United States,"April 1, 2018",1993,R,195 min,"Classic Movies, Dramas",Oskar Schindler becomes an unlikely humanitari...
6069,s6070,Movie,The Adventures of Tintin,steven spielberg,"Jamie Bell, Andy Serkis, Daniel Craig, Nick Fr...","United States, New Zealand, United Kingdom","November 20, 2019",2011,PG,107 min,Children & Family Movies,This 3-D motion capture adapts Georges Remi's ...
7478,s7479,Movie,War Horse,steven spielberg,"Emily Watson, David Thewlis, Peter Mullan, Nie...","United States, India","May 6, 2019",2011,PG-13,147 min,Dramas,"During World War I, the bond between a young E..."


## Aufgabe 
Wir sind an der durchschnittlichen `Dauer (duration)` aller Filme (`type` movie) aus dem `country` United States im Jahr 2008 `release_date` interessiert.

Die Spalte `duration` enthält nicht-numerische Zeichen, versuche diese zu entfernen, um den Mittelwert `mean` zu berechnen. Erstelle die entsprechenden Filter. 

### Vorgehen

* 0. Lade das netflix dataset mit read_csv
* 1. Lege die filter an (Type Movie, Jahr 2008, Land USA)
* 2. Filtere den Dataframe mit den filtern und führe eine copy-Methode aus, um den Dataframe zu kopieren (df_filtered)
* 3. entferne das "min" aus der Spalte duration. Speichere die bereinigte Dauer in der (neuen) Spalte duration_cleaned.
* 4. Setze den Type der Spalte duration_cleaned auf int (nutze dazu astype("int16"))
* 5. Errechne den Mittelwert, die Standardabweichung, den Min und Max-Wert von duration_cleaned

In [89]:
df = pd.read_csv("netflix_titles.csv")

usa_titles = df.country == "United States"
titles_2008 = df.release_year == 2008
movies = df.type == "Movie"

query = (usa_titles) & (titles_2008) & (movies)
# hier copy verwenden
df_filtered = df[query].copy()
df_filtered["duration_cleaned"] = df_filtered["duration"].str.replace("min", "")
df_filtered["duration_cleaned"] = df_filtered["duration_cleaned"].astype("int16")

df_filtered["duration_cleaned"].describe()

count     33.000000
mean     102.393939
std       19.683336
min       45.000000
25%       95.000000
50%      101.000000
75%      113.000000
max      145.000000
Name: duration_cleaned, dtype: float64

## Umgang mit NaN-Werten
wir hatten in einem vorhergehenden Kapitel schon gesehen, wie wir mit NaN-Werten umgehen können. Wir wollen nun fehlende Sensordaten in Spalte A mit dem Durchschnittswert der Sensordaten B und C ersetzen. 
Falls in B oder C NaN-Werte vorhanden sein sollten, werden diese Zeilen vorweg gelöscht.

In [119]:
df_sensordata = pd.read_csv("sensordata.csv", header=None, names=["SensorA", "SensorB", "SensorC"])

# Zeilen löschen, wo SensorB oder SensorC NaN-Werte beinhaltet
df_sensordata.dropna(subset=['SensorB', 'SensorC'], inplace=True)

df_sensordata

Unnamed: 0,SensorA,SensorB,SensorC
0,,1218.00,1210.18
4,2043.03,1103.48,1143.08
5,2081.55,662.27,1799.80
6,276.57,1324.42,1063.86
7,,881.55,2054.76
...,...,...,...
995,637.47,806.51,727.65
996,951.60,1535.97,147.27
997,1289.55,914.46,929.24
998,1717.64,397.15,735.26


### 1.) Erstellen einer boolschen Serie mit fehlenden Sensordaten von Sensor A
dazu können wir die Methode `isna()` nutzen.

In [113]:
sensor_A_missing = df_sensordata['SensorA'].isna()
sensor_A_missing

0       True
4      False
5      False
6      False
7       True
       ...  
995    False
996    False
997    False
998    False
999    False
Name: SensorA, Length: 960, dtype: bool

### 2.) Durchschnittswert zwischen Sensor B und Sensor C errechnen

In [114]:
sensor_mean = (df_sensordata[sensor_A_missing]["SensorB"] + df_sensordata[sensor_A_missing]["SensorC"]) / 2

### 3.) boolsche Serie als Maske nutzen für die loc-Methode

In [123]:
df_sensordata.loc[sensor_A_missing, 'SensorA'] = sensor_mean
df_sensordata

Unnamed: 0,SensorA,SensorB,SensorC
0,1214.090,1218.00,1210.18
4,2043.030,1103.48,1143.08
5,2081.550,662.27,1799.80
6,276.570,1324.42,1063.86
7,1468.155,881.55,2054.76
...,...,...,...
995,637.470,806.51,727.65
996,951.600,1535.97,147.27
997,1289.550,914.46,929.24
998,1717.640,397.15,735.26
