# Boolsche Serien
Durch Vergleichsoperatoren lassen sich Boolsche Serien erstellen, wie man das schon von Numpy kennt. Diese Serien lassen sich in einem weiteren Schritt für Filteroperationen nutzen.

## Beispiel-Datei
Wir lesen als Übungsdatei die `netflix_titles.csv` - Datei ein, die alle Filme und Serien, die auf Netflix verfügbar sind (bzw. 2019 waren) abbildet.

### Untersuchen des Datensatzes
Bevor wir mit dem Filtern beginnen, wollen wir den Datensatz untersuchen:

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("../data/netflix_titles.csv")

# Sehen wir uns die ersten und letzten zwei Einträge an. 
display(df.head(2))
display(df.tail(2))


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...
7786,s7787,Movie,ZZ TOP: THAT LITTLE OL' BAND FROM TEXAS,Sam Dunn,,"United Kingdom, Canada, United States","March 1, 2020",2019,TV-MA,90 min,"Documentaries, Music & Musicals",This documentary delves into the mystique behi...


In [4]:
df.shape

(7787, 12)

In [5]:
df.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

#### eindeutige Werte einer Spalte bestimmen
mit `unique()` lassen sich alle Vorkommen eines Wertes in einer Spalte bestimmen. So gibt es in der Spalte `type` nur die beiden Werte `TV Show` und `Movie`. Das ist nur sinnvoll anzuwenden bei Kategorien oder diskreten Werten.

In [3]:
# unique auf Spalte

#### Value Counts: Häufigkeiten zählen
mit `value_counts()` können wir die Häufigkeiten der vorkommen bestimmen. Das ist natürlich ebenso wie `unique` nur sinnvoll bei Kategorien oder diskreten Werten.

In [1]:
# Häufigkeit von Direktoren

In [2]:
# Tortendiagramm der Direktoren

## Boolsche Serie erstellen
Für das erstellen einer Boolschen Serie, d.h. einer Spalte mit Wahrheitswerten, stehen uns neben den arithmetischen Vergleichsoperatoren >, <, >=, <= auch boolsche Operatoren & (UND), | (ODER) und ! (NOT) zur Verfüfung.

eine boolsche Serie enthält genausoviele Einträge wie die Ausgangsserie. An den Stellen, wo die Bedingung zutrifft, steht ein True, andernfalls ein False.

### Beispiel: boolsche Serie mit equals
eine boolsche Serie mit allen Werken aus Australien.

In [4]:
# eine boolsche Serie mit allen Werken aus Australien. Shape ausgeben

### Beispiel: kleiner gleich

In [5]:
# Title kleiner als 2020

### Beispiel: kleiner gleich UND Bedingung
Im folgenden Beipsiel wird eine Serie erstellt mit allen Werden vor 2019 dir NUR aus dem Land Australien stammen. Das Feature `country` ist nämlich in den Ausgangsdaten eine kommaseparierte Liste.

In [6]:
# Australische Title jünger als 2020 

### Beispiel: kleiner gleich UND Bedingung

In [7]:
# Stevens Spielberg Title aus dem Jahr 2017

# Datentyp-spezifische Zugriffsmethoden:
Es gibt in Pandas 4 datentyp-spezifische Zugriffsmethoden, sogenannte `Accessors`. wir unterscheiden zwischen folgenden Accessoren:

* str (für String-Operationen)
* dt (für Datums-Operationen)
* cat (für kategorische Operationen)
* sparse (für Datensparsame Verwaltung von Dataframes)

## String-Funktionen
Pandas bietet über den String-Zugriff `str` Zugriff auf vielfältige String-Methoden. Eine Übersicht aller findet sich in der Doku:

https://www.geeksforgeeks.org/top-10-string-methods-in-pandas/

In [58]:
type(df.country.str)

pandas.core.strings.accessor.StringMethods

### Beispiel: kleiner gleich ODER Bedingung mit Stringfunktion contains
Um den Inhalt bzw. das Vorkommen von Substrings zu prüfen, können wir mit dem String-Accessor `str` arbeiten. Im Beispiel alle Titel, die mit oder in Zusammenarbeit mit Australien erstellt wurden. Nachteil ist, dass diese Prüfung unzuverlässig ist. Ein Land namens `Australiana` würde ebenfalls matchen.

In [59]:
australian_titles = df.country.str.contains('Australia')
australian_titles.sum()

144

### Beispiel: Oder Bedingung mit startswith

In [60]:
se_ge_titles = df.director.str.startswith("Se") | df.director.str.startswith("Ge")
se_ge_titles.sum()

68

In [61]:
se_ge_titles.memory_usage() / 1024

7.7294921875

## Beispiel: Intervall
mit `between` prüfen, ob Wert in einem gewissen Wertebereich liegt. Über den Parameter `inclusive` lässt sich noch Steuern, ob Start und Entwerte berücksichtig werden sollen. 

`inclusive{“both”, “neither”, “left”, “right”}`

In [62]:
titles_2014_2018 = df.release_year.between(2014, 2018, inclusive="both")
titles_2014_2018

0       False
1        True
2       False
3       False
4       False
        ...  
7782    False
7783     True
7784    False
7785    False
7786    False
Name: release_year, Length: 7787, dtype: bool

### Sparse Data Accessor-Beispiel
mit dem `Sparse`-Data Accessor lassen sich Series und Dataframes speicherreduziert speichern. Im Falle von sehr vielen und sehr großen Datenmengen macht diese Operation Sinn.

In [63]:
## sparse data
se_ge_titles = se_ge_titles.astype("Sparse[bool]")
se_ge_titles.memory_usage(), se_ge_titles.shape

(468, (7787,))

## Aufgabe: Netflix-Daten analysieren

## Aufgaben
### Erstes Slicing
- Wähle nur die Spalten `title`, `type`, `director`, `country`, `release_year`, `rating`, `duration` und `listed_in` aus.
- Speichere das Ergebnis als `df_filtered`.

### Boolean-Filterung
- Erstelle einen neuen DataFrame `df_movies`, der nur **Filme (`type == "Movie"`)** enthält.
- Erstelle einen weiteren DataFrame `df_series`, der nur **Serien (`type == "TV Show"`)** enthält.

### Datenbereinigung und Umwandlung (Movies)
- Entferne alle Zeilen aus `df_movies`, bei denen `duration` fehlt.
- Wandle die `duration`-Spalte für Filme um, sodass nur die **Anzahl der Minuten als `int`** gespeichert wird.
  - Beispiel: `"90 min"` → `90`. Andere Angaben ohne min sollen ignoriert werden (leer)
- Speichere das bereinigte Ergebnis als `df_movies_cleaned`.

### `apply()`-Funktion verwenden
- Füge in `df_movies_cleaned` eine neue Spalte `"old_or_new"` hinzu:
  - Falls der Film vor **2000** erschienen ist, soll `"Old"` eingetragen werden.
  - Falls er ab **2000** erschienen ist, soll `"New"` eingetragen werden.

---

## Erwartetes Ergebnis

| title                 | type  | director     | country       | release_year | rating | duration | listed_in       | old_or_new |
|-----------------------|------|-------------|--------------|--------------|--------|----------|----------------|------------|
| The Irishman         | Movie | Martin Scorsese | USA          | 2019         | R      | 209      | Drama          | New        |
| The Godfather        | Movie | Francis Ford Coppola | USA | 1972         | R      | 175      | Crime, Drama   | Old        |
| Inception           | Movie | Christopher Nolan | USA | 2010         | PG-13  | 148      | Sci-Fi, Action | New        |
| Pulp Fiction        | Movie | Quentin Tarantino | USA | 1994         | R      | 154      | Crime, Drama   | Old        |

---

## Bonus-Aufgabe (optional)
1. Finde heraus, wie viele Filme **pro Altersfreigabe (`rating`)** existieren.
2. Erstelle eine **sortierte Liste** mit den Ländern, die die meisten Filme produziert haben.

Happy Coding!
