# Python Pandas Übung

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 1. Installieren und Importieren

In [1]:
import numpy as np
import pandas as pd

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 2. Kernkomponenten von Pandas: Series und DataFrames

Die beiden Hauptkomponenten von Pandas sind **Series** und **DataFrame**. 

Eine `Serie` ist im Wesentlichen eine Spalte und ein `DataFrame` ist eine mehrdimensionale Tabelle, die aus einer Sammlung von Serien besteht.

<img src="src/series-and-dataframe.png" width=600px />

**DataFrames** und **Series** sind sich insofern sehr ähnlich, als das viele Operationen, die mit dem einen Objekt durchführbar sind, auch mit dem anderen möglich ist (z. B. das Einfügen von Nullwerten und die Berechnung des Mittelwerts).

Sie werden sehen, wie diese Komponenten funktionieren, wenn wir unten mit den Daten arbeiten. 

### 2.1. Pandas Series

- Datenstruktur Pandas Series ist ein **one-dimensional labelled array**
- Ist primärer Baustein für einen DataFrame, aus dem seine Zeilen und Spalten bestehen

Die Elemente einer Serie wird wie folgt bestimmt:

```python
# pandas.Series
series = pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

- `data` akzeptiert verschiedene Datentypen wie ndarray, dictionaries und scalar values
- `index` Parameter akzeptiert array-like objects, welche erlauben die Index-Axis zu labeln (Wenn kein index-Parameter übergeben wird, dann verwendet Pandas die dictionary keys als Indexbezeichnungen
- `dtype` bestimmt den Datentyp für die Series. Wenn kein Datentyp angegeben wird, zieht Pandas den Datentypen, die die Serie haben sollte
- `name` Parameter erlaubt die Benamung der Serie, die erstellt wurde

Die offizielle Dokumentation zu `Series` findet Ihr hier: [Series Dokumentation Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

#### Anwendungsbeispiele

In [2]:
# Erstellung einer Series mit Hilfe eines Python Dictionaries
if __name__ == "__main__":
    # Erstellung eines Python Dictionaries
    data = {"a": 1.0, "b": 2.0, "c": 3.0, "d": 4.0}
    # Erstellung Series auf Basis Data Dictionaries mit Namen 'series_from_dict'
    series = pd.Series(data=data, name="series_from_dict")
    print(series)

a    1.0
b    2.0
c    3.0
d    4.0
Name: series_from_dict, dtype: float64


In [3]:
if __name__ == "__main__":
    # Erstellung eines NumPy arrays
    data = np.random.randint(0, 10, 5)
    series = pd.Series(
        data=data,
        index=["a", "b", "c", "d", "e"],
        name="series_from_ndarray",
        dtype="int",
    )
    print(series)

a    8
b    4
c    9
d    3
e    0
Name: series_from_ndarray, dtype: int64


**Aufgabe 1**: Verändere die Variable so, dass die Datenreihe den Datentype float besitzt?

In [4]:
### CODE HERE ###

In [5]:
### SOLUTION ###
if __name__ == "__main__":
    # Erstellung eines NumPy arrays
    data = np.random.randint(0, 10, 5)
    series = pd.Series(
        data=data,
        index=["a", "b", "c", "d", "e"],
        name="series_from_ndarray",
        dtype="float",
    )
    print(series)

a    7.0
b    6.0
c    7.0
d    8.0
e    4.0
Name: series_from_ndarray, dtype: float64


### 2.2. Pandas DataFrame

- Datenstruktur Pandas DataFrame ist eine **two-dimensional data structure**
- Besteht aus Zeilen und Spalten
- Ähnlich einer relationalen Datenbanktabelle oder einem CSV, sehr ähnlich zu einer Exceltabelle

Die Elemente einer DataFrame wird wie folgt bestimmt:

```python
# pandas.DataFrame
df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

Die Parameter sind sehr ähnlich zu dem einer Serie. Zusätzlich kann über den Parameter `columns` die Spaltennanmen definiert werden.

Die offizielle Dokumentation zu `DataFrames` findet Ihr hier: [DataFrame Dokumentation Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)

#### Anwendungsbeispiele

In [6]:
if __name__ == "__main__":
    data = {
        "column_a": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
        "column_b": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
        "column_c": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
    }
    df = pd.DataFrame(data=data)
    print(df)

   column_a  column_b  column_c
a        84        46        74
b        67        82        30
c        40        42        55
d        37        20        63
e        61        98        36


In [7]:
if __name__ == "__main__":
    data = {"column_a": [1, 2, 3], "column_b": [4, 5, 6], "column_c": [7, 8, 9]}
    df = pd.DataFrame(data=data, index=["row_a", "row_b", "row_c"])
    print(df)

       column_a  column_b  column_c
row_a         1         4         7
row_b         2         5         8
row_c         3         6         9


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 3. Umgang mit DataFrames

### 3.1. Laden und Speichern von DataFrames

Angenommen wir haben einen Obststand, der Äpfel und Orangen verkauft. Wir möchten eine Spalte für jede Frucht und eine Zeile für jeden Kundenkauf haben. Um dies als Dictionary für Pandas zu organisieren, könnten wir etwas tun wie:

In [8]:
data = {"apples": [3, 2, 0, 1], "oranges": [0, 3, 7, 2]}

**Aufgabe 2:** Überführung in ein pandas DataFrame. Nenne den DataFrame `purchases_df` und verwende `index_p` als Index. Jede Obstart hat hierbei eine eigene Spalte.

In [9]:
index_p = ["June", "Robert", "Lily", "David"]

In [10]:
## CODE HERE ###

In [11]:
### SOLUTION HERE ###
purchases_df = pd.DataFrame(data=data, index=index_p)
purchases_df

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Nun können wir eine Bestellung auf Basis des Kundennamens **auffinden** - `loc`ate:

In [12]:
purchases_df.loc["June"]

apples     3
oranges    0
Name: June, dtype: int64

**Einlesen von Datenset auf Basis eines CSVs mit Hilfe von [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):**

In [13]:
# CSVs haben keine Indizes wie unsere DataFrames, also müssen wir beim Lesen die `index_col` definieren
df = pd.read_csv("./src/purchases.csv", index_col=0)
df

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


#### Einlesen der Daten von  JSON

In [14]:
# Wenn Sie eine JSON-Datei haben - die im Wesentlichen ein gespeichertes Python-Dict ist
# - kann Pandas diese ebenso einfach lesen:
df = pd.read_json("./src/purchases.json")
df

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Euch wird aufgefallen sein, dass unser Index dieses Mal korrekt mitkam, da die Verwendung von **JSON die Verschachtelung von Indizes ermöglicht**. 

Pandas wird versuchen herauszufinden, wie man einen DataFrame erstellt, indem es die Struktur Ihres JSON analysiert, und manchmal wird es nicht direkt funktionieren. Oft muss der Parameter `orient` abhängig von der Struktur gesetzt werden.

**Dokumentation:** [.read_json](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html)

#### Rückführung des DataFrames zu CSV oder JSON

Nach einer Analyse und Transformation der Daten wird der Bedarf entstehen, die Daten wieder in eine CSV bzw. JSON-Datei zu überführen. Das kann mit einfachen Befehlen geschehen.

In [15]:
df.to_csv("./src/new_purchases.csv")
df.to_json("./src/new_purchases.json")

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 4. Wichtigste DataFrame Funktionen

DataFrames verfügen über Hunderte von Methoden und andere Operationen, die für die jeweilige Analyse nützich sein kann. Als erstes sollten wir die Operationen kennen, die einfache Transformationen der Daten und grundlegende statistische Analysen ermöglichen.

Lassen Sie uns zunächst den IMDB-Film-Datensatz laden:

In [16]:
# Ladet einmal das DataSet und definiert die Index-Zeile mit der Spalte "Titel"
movies_df = pd.read_csv("./src/IMDB-Movie-Data.csv", index_col="Title")

Wir können uns auch jederzeit den Source Code der Funktion angucken - lass uns einmal einen Blick darauf werfen: [Source Code](https://github.com/pandas-dev/pandas/blob/v1.2.5/pandas/io/parsers.py#L533-L610)

### 4.1 Erstsichtung der Daten

Das erste, was man beim Öffnen eines neuen Datensatzes macht, ist, ein paar Zeilen zu visualisieren. Wir erreichen dies mit `.head()`:

Dokumentation: [pandas.DataFrame.head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)

In [17]:
movies_df.head(10)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
The Great Wall,6,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036,45.13,42.0
La La Land,7,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0
Mindhorn,8,Comedy,A has-been actor best known for playing the ti...,Sean Foley,"Essie Davis, Andrea Riseborough, Julian Barrat...",2016,89,6.4,2490,,71.0
The Lost City of Z,9,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188,8.01,78.0
Passengers,10,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177,100.01,41.0


**Was sind Eure Beobachtungen hinsichtlich des Datensets?**

Mit `.head()` werden standardmäßig die **ersten** fünf Zeilen des DataFrames ausgegeben. Wir haben eine Zahl übergeben, `movies_df.head(10)`, sodass die obersten zehn Zeilen ausgeben werden. 

Um die **letzten** fünf Zeilen zu sehen, kann `.tail()` verwendet werden. Auch `tail()` akzeptiert eine Zahl, und in diesem Fall bilden wir die unteren zehn Zeilen ab:

In [18]:
movies_df.tail(10)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Underworld: Rise of the Lycans,991,"Action,Adventure,Fantasy",An origins story centered on the centuries-old...,Patrick Tatopoulos,"Rhona Mitra, Michael Sheen, Bill Nighy, Steven...",2009,92,6.6,129708,45.8,44.0
Taare Zameen Par,992,"Drama,Family,Music",An eight-year-old boy is thought to be a lazy ...,Aamir Khan,"Darsheel Safary, Aamir Khan, Tanay Chheda, Sac...",2007,165,8.5,102697,1.2,42.0
Take Me Home Tonight,993,"Comedy,Drama,Romance","Four years after graduation, an awkward high s...",Michael Dowse,"Topher Grace, Anna Faris, Dan Fogler, Teresa P...",2011,97,6.3,45419,6.92,
Resident Evil: Afterlife,994,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
Project X,995,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


#### Erhalte Informationen über dein Datenset

`info()` sollte einer der ersten Befehle sein, die Sie nach dem Laden Ihrer Daten ausführen:

In [19]:
movies_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Genre               1000 non-null   object 
 2   Description         1000 non-null   object 
 3   Director            1000 non-null   object 
 4   Actors              1000 non-null   object 
 5   Year                1000 non-null   int64  
 6   Runtime (Minutes)   1000 non-null   int64  
 7   Rating              1000 non-null   float64
 8   Votes               1000 non-null   int64  
 9   Revenue (Millions)  872 non-null    float64
 10  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB


`.info()` bereitgestellte Informationen:
- Anzahl der Zeilen und Spalten
- Anzahl der **non-null Werte** (siehe fehlende Werte in `Revenue` und `Metascore`)
- Größe des DataFrames in Memory
- Datentyp pro Zeile (Identifizierung möglicher Umwandlung von String `object` zu `int64` um mathematische Operationen durchzuführen)

Eine weitere Information über das Datenset kann über `.shape` eingeholt werden, welches eine Übersicht über die Anzahl der **(Zeilen, Spalten)** gibt.

Eine weitere Möglichkeit die Anzahl der einendeutigen Merkmale ausgeben zu lassen, ist die Funktion `.nunique`. Die Dokumentation hierfür kann **[hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html)** entnommen werden.

In [20]:
movies_df.nunique()

Rank                  1000
Genre                  207
Description           1000
Director               644
Actors                 996
Year                    11
Runtime (Minutes)       94
Rating                  55
Votes                  997
Revenue (Millions)     814
Metascore               84
dtype: int64

In [21]:
movies_df.shape

(1000, 11)

**Fragen:**
- Wann kann Shape hilfreich sein?
- Welches Datenformat ist der Response von `.shape`?

**Dokumentation:** https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html

### 4.2 Umgang mit Duplikaten

Dieser Datensatz hat keine doppelten Zeilen, aber es ist immer wichtig zu überprüfen, dass keine doppelten Zeilen vorhanden sind. Es kann auch gute Gründe geben, dass doppelte Zeilen vorhanden sind.

Um das zu demonstrieren, verdoppeln wir einfach unseren Movie DataFrame, indem wir ihn an sich selbst anhängen:

In [22]:
temp_df = movies_df.append(movies_df)
temp_df.shape

  temp_df = movies_df.append(movies_df)


(2000, 11)

Die Verwendung von `append()` gibt eine Kopie zurück, ohne den ursprünglichen DataFrame zu beeinflussen. Wir fangen diese Kopie in `temp` ein, so dass wir nicht mit den echten Daten arbeiten.

Beachtet, dass der Aufruf von `.shape` beweist, dass sich unsere DataFrame-Zeilen verdoppelt haben.
Jetzt haben wir einen DataFrame, für welchen wir Duplikate löschen `.drop_duplicates()`können. Dafür gibt es folgende Optionen unter dem Parameter `keep`:
* `first`: (Voreinstellung) Duplikate bis auf das erste Vorkommen verwerfen
* `last`: Duplikate bis auf das letzte Vorkommen verwerfen
* `False`: Alle Duplikate verwerfen

Dokumentation zu [.drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

**Frage**: Warum kann der Parameter wichtig sein?

In [23]:
# Nutzung von Drop Duplicates
temp_df = temp_df.drop_duplicates()

# Überprüfung der Ergebnisse
temp_df.shape

(1000, 11)

**Optimierung:** Es ist etwas umständlich, DataFrames immer wieder der gleichen Variablen zuzuweisen, wie in diesem Beispiel. Aus diesem Grund hat das Team um Pandas den Parameter `inplace` bei vielen seiner Methoden eingeführt. Wenn `inplace=True` verwendet wird, wird der DataFrame an Ort und Stelle modifiziert:

In [24]:
temp_df = movies_df.append(movies_df)
temp_df.drop_duplicates(inplace=True, keep=False)
temp_df.shape

  temp_df = movies_df.append(movies_df)


(0, 11)

Da es sich bei allen Zeilen um Duplikate handelte, wurden mit `keep=False` alle Zeilen gelöscht, so dass null Zeilen übrig blieben.

### 4.3 Transformation von Zeilen

Oft haben Datensätze wortreiche Spaltennamen mit Symbolen, Wörtern in Groß- und Kleinschreibung, Leerzeichen und Tippfehlern. Um die Auswahl von Daten nach Spaltennamen zu erleichtern, können wir die Spalten in einem Datenset anpassen.

Eine erste Übersicht erhalten wir mit `.columns` - dies kann auch hilfreich sein, wenn Ihr einen `Error` erhaltet bei der Selektion einer Spalte.

In [25]:
movies_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

Wir können die Methode `.rename()` und `.columns` verwenden, um bestimmte oder alle Spalten in einem `Dict` umzubenennen. 

**Aufgabe 3:** 
- Im ersten Schritt wollen wir die Klammern auflösen, also benennt `Runtime (Minutes)` in `Runtime` und `Revenue (Millions)` in `Revenue_millions` um. Dokumentation könnt Ihr [Dokumentation hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html) einsehen
- Außerdem wollen wir alle Spalten zu `lowercase` umbenennen. Hierzu könnt Ihr die Methode [`.columns`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html#) oder `.rename()` verwenden

**Tipp:** Für die 2. Übung, schaut auf List Comprehension für Python

In [26]:
### CODE HERE ###

In [27]:
### SOLUTION HERE ###

# Aufgabe 1
movies_df.rename(
    columns={"Runtime (Minutes)": "Runtime", "Revenue (Millions)": "Revenue_millions"},
    inplace=True,
)

# Aufgabe 2
movies_df.columns = [
    "rank",
    "genre",
    "description",
    "director",
    "actors",
    "year",
    "runtime",
    "rating",
    "votes",
    "revenue_millions",
    "metascore",
]

for n in range(len(list(movies_df.columns))):
    movies_df.columns.values[n] = movies_df.columns[n].lower()

movies_df.columns = [col.lower() for col in movies_df]

movies_df

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


Es ist eine gute Idee Kleinbuchstaben zu verwenden, Sonderzeichen zu entfernen und Leerzeichen durch Unterstriche zu ersetzen. Das ist gerade sinnvoll, wenn Ihr eine Zeit lang mit einem Datensatz arbeiten werdet.

### 4.4 Umgang mit fehlenden Werten (NULL-Values)

Wenn wir Daten untersuchen, werden wir höchstwahrscheinlich auf fehlende oder Null-Werte stoßen, die im Wesentlichen Platzhalter für nicht vorhandene Werte sind. Am häufigsten werden Sie Pythons `None` oder NumPys `np.nan` sehen, die beide in einigen Situationen unterschiedlich behandelt werden.

Wir lernen später mehr, was die Möglichkeiten sind mit fehlenden Werten umzugehen und was dies für Implikationen auf die Datenanalyse hat.

Lass uns zuerst einmal die **Gesamtzahl der NULL-Values** in jeder Spalte unseres Datensatzes feststellen. Der erste Schritt besteht darin zu prüfen, welche Zellen in unserem DataFrame null sind:

In [28]:
# 'isnull()' gibt ein DataFrame wieder, mit False True Werten, wenn Daten fehlen
movies_df.isnull()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,False,False,False,False,False,False,False,False,False,False,False
Prometheus,False,False,False,False,False,False,False,False,False,False,False
Split,False,False,False,False,False,False,False,False,False,False,False
Sing,False,False,False,False,False,False,False,False,False,False,False
Suicide Squad,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,False,False,False,False,False,False,False,False,False,True,False
Hostel: Part II,False,False,False,False,False,False,False,False,False,False,False
Step Up 2: The Streets,False,False,False,False,False,False,False,False,False,False,False
Search Party,False,False,False,False,False,False,False,False,False,True,False


**Dokumentation:** [`.isnull()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html)

Um die Anzahl der Nullen in jeder Spalte zu zählen, verwenden wir eine Aggregatfunktion zum Summieren:

In [29]:
movies_df.isnull().sum()

rank                  0
genre                 0
description           0
director              0
actors                0
year                  0
runtime               0
rating                0
votes                 0
revenue_millions    128
metascore            64
dtype: int64

Wir können nun sehen, dass unsere Daten **128** fehlende Werte für `revenue_millions` und **64** fehlende Werte für `metascore` haben.

Datenanalysten stehen regelmäßig vor dem Dilemma, **Nullwerte zu entfernen oder zu imputieren**, und es ist eine Entscheidung, die eine genaue Kenntnis Eurer Daten und deren Kontext erfordert. Insgesamt wird das Entfernen von Nulldaten nur dann empfohlen, wenn Ihr eine **geringe Menge an fehlenden Daten** haben.

Das Entfernen von Zeilen mit **Nullwerten** ist ziemlich einfach mit der Funktion [`.dopna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html):

In [30]:
movies_df.dropna()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Resident Evil: Afterlife,994,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
Project X,995,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0


Wir Ihr germerkt habt, werden **alle Zeilen gelöscht, die mindestens ein NULL-Value aufweisen**. Die Methode gibt einen neuen DataFrame als Return-Statement zurück. 

**Aufgabe 4**: 
- Welchen Parameter müssten wir setzen, um den DataFrame direkt anzupassen?
- Welchen Parameter müssten wir anpassen, wenn wir nicht Zeilen sondern Spalten löschen wollen?

**`BEGRÜNDUNG HERE`**

**Grundsätzlich:** Das Entfernen von 162 Zeilen scheint eine Verschwendung zu sein, weil die Informationen in all den anderen Spalten grundsätzlich okay ist. Es geht eher darum, wie wir die Daten "imputieren" können.

### Imputieren von Werten

Imputation ist eine herkömmliche Technik von Feature Engineering, um Daten mit Nullwerten zu erhalten. 

Es kann Fälle geben, in denen das Löschen jeder Zeile mit einem Nullwert einen zu großen Teil Ihres Datensatzes entfernt, so dass wir stattdessen diesen Nullwert mit einem anderen Wert imputieren können, normalerweise mit...
... dem **Mittelwert** oder
... dem **Median** dieser Spalte. 

Schauen wir uns nun die fehlenden Werte in der Spalte `revenue_millions` an. Zuerst extrahieren wir diese Spalte in eine eigene Variable:

In [31]:
revenue = movies_df["revenue_millions"]
print(revenue)

Title
Guardians of the Galaxy    333.13
Prometheus                 126.46
Split                      138.12
Sing                       270.32
Suicide Squad              325.02
                            ...  
Secret in Their Eyes          NaN
Hostel: Part II             17.54
Step Up 2: The Streets      58.01
Search Party                  NaN
Nine Lives                  19.64
Name: revenue_millions, Length: 1000, dtype: float64


Die Verwendung von eckigen Klammern ist die allgemeine Art, wie wir Spalten in einem DataFrame auswählen. Das geschieht sehr ähnlich zum Kontext und Umgang mit Python Dictionaries. Der Spaltenname ist hier der Key, ähnlich wie bei der Kreierung des DataFrames.

**Frage:** Was ist der Pandas Datentyp von der Variable `revenue`?

**Aufgabe 5:**
- Berechne den Mittelwert des `revenue` und befülle die Werte direkt in den DataFrame
- Nutze hierfür `fillna` als Funktion im Package Pandas

In [32]:
### CODE HERE ###

In [33]:
### SOLUTION HERE ###
revenue.fillna(revenue.mean(), inplace=True)

# Check Dein Ergebnis
revenue.isnull().sum()

0

Eine ganze Spalte mit demselben Wert zu imputieren, ist ein einfaches Beispiel. Es wäre eine bessere Idee, eine granularere Imputation nach Genre oder Regisseur zu versuchen. 

Sie würden z. B. den Mittelwert der Einnahmen eines jeden Genres generieren und die Nullen in jedem Genre mit dem Mittelwert dieses Genres imputieren.

Sehen wir uns nun weitere Möglichkeiten an, den Datensatz zu untersuchen und zu verstehen.

**Aufgabe 6 (Zusatzaufgabe):**
- Generiert den Mittelwert Revenue_Millions pro Genre
- Identifiziert die NAN-Values in Revenue_Millions
- Ersetzt die Werte mit dem durschschnittlichen Genre

**Tipps:**
- Schneidet die Genres erst einmal nicht, sondern nutzt jede Kombination
- Wenn es für ein Genre kein Mittelwert gibt, nutzt den übergreifenden Mittelwert

In [34]:
### CODE HERE ###

In [35]:
### SOLUTION HERE ###
subset_movies_df = movies_df[["genre", "revenue_millions"]]
mean_revenue_by_genre = subset_movies_df.groupby("genre").mean()

mean_revenue = movies_df["revenue_millions"].mean()

for index, row in subset_movies_df.iterrows():
    revenue_new = mean_revenue_by_genre.loc[row["genre"]].values[0]
    if np.isnan(row["revenue_millions"]):
        subset_movies_df.loc[index, "revenue_millions"] = revenue_new
    if np.isnan(row["revenue_millions"]):
        subset_movies_df.loc[index, "revenue_millions"] = mean_revenue

### 4.5 Verstehen von Variablen

Mit `.describe()` aufhalten wir eine vollständige Zusammenfassung der Verteilung von **kontinuierlichen Variablen**. Darüber hinaus ist es hilfreich zu wissen welchen Spalten kontinuierlich sind, da die Form der Visualisierung später davon auch mit abhängig ist.

In [36]:
movies_df.describe()

Unnamed: 0,rank,year,runtime,rating,votes,revenue_millions,metascore
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,936.0
mean,500.5,2012.783,113.172,6.7232,169808.3,82.956376,58.985043
std,288.819436,3.205962,18.810908,0.945429,188762.6,96.412043,17.194757
min,1.0,2006.0,66.0,1.9,61.0,0.0,11.0
25%,250.75,2010.0,100.0,6.2,36309.0,17.4425,47.0
50%,500.5,2014.0,111.0,6.8,110799.0,60.375,59.5
75%,750.25,2016.0,123.0,7.4,239909.8,99.1775,72.0
max,1000.0,2016.0,191.0,9.0,1791916.0,936.63,100.0


Die Funktion `.describe()` kann auch auf eine kategorische Variable angewendet werden, um die Anzahl der Zeilen, die eindeutige Anzahl der Kategorien, die häufigste Kategorie und die Häufigkeit der obersten Kategorie zu ermitteln:

In [37]:
movies_df["genre"].describe()

count                        1000
unique                        207
top       Action,Adventure,Sci-Fi
freq                           50
Name: genre, dtype: object

`.value_counts()` veranschaulicht die Häufigkeit der Werte für eine kategorische Spalte:

In [38]:
movies_df["genre"].value_counts().head(10)

Action,Adventure,Sci-Fi       50
Drama                         48
Comedy,Drama,Romance          35
Comedy                        32
Drama,Romance                 31
Animation,Adventure,Comedy    27
Action,Adventure,Fantasy      27
Comedy,Drama                  27
Comedy,Romance                26
Crime,Drama,Thriller          24
Name: genre, dtype: int64

### 4.6 Veranschaulich von Beziehungen zwischen Variablen

Durch die Verwendung der Korrelationsmethode `.corr()` können wir die **Korrelation** zwischen den einzelnen kontinuierlichen Variablen erzeugen:

In [39]:
movies_df.corr()

Unnamed: 0,rank,year,runtime,rating,votes,revenue_millions,metascore
rank,1.0,-0.261605,-0.221739,-0.219555,-0.283876,-0.252996,-0.191869
year,-0.261605,1.0,-0.1649,-0.211219,-0.411904,-0.117562,-0.079305
runtime,-0.221739,-0.1649,1.0,0.392214,0.407062,0.247834,0.211978
rating,-0.219555,-0.211219,0.392214,1.0,0.511537,0.189527,0.631897
votes,-0.283876,-0.411904,0.407062,0.511537,1.0,0.607941,0.325684
revenue_millions,-0.252996,-0.117562,0.247834,0.189527,0.607941,1.0,0.133328
metascore,-0.191869,-0.079305,0.211978,0.631897,0.325684,0.133328,1.0


Korrelationstabellen sind eine numerische Darstellung der bivariaten Beziehungen im Datensatz.

Positive Werte bedeuten eine positive Korrelation - der eine Wert steigt, die andere steigt - und negative Zahlen stehen für eine umgekehrte Korrelation - ein Wert steigt, die andere sinkt. 1,0 zeigt eine perfekte Korrelation an. 

Es gibt anscheinend eine realtiv hohe Korrelation zwischen `votes` and `revenue_millions`. **Frage:** Woran kann das liegen?

Die Untersuchung bivariater Beziehungen ist nützlich, wenn Sie ein Ergebnis oder eine abhängige Variable im Auge haben und die Merkmale sehen möchten, die am stärksten mit der Zunahme oder Abnahme des Ergebnisses korrelieren.

**Dokumentation:** [`.corr()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 5. DataFrame *slicing, selecting, extracting*

Bis jetzt haben wir uns auf einige grundlegende Übersichten und Zusammenfassungen unserer Daten konzentriert. Im Folgenden konzentrieren wir uns auf das Zerlegen, Auswählen und Extrahieren.

Es ist zu beachten, dass obwohl viele Methoden gleich sind, DataFrames und Serien unterschiedliche Funktionen haben. Geht also sicher, dass Ihr wisst welche Operation Ihr worauf anwendet.

#### Auswählen einer Spalte

In [40]:
genre_col = movies_df["genre"]
# Ausgabe des Datentyps
type(genre_col)

pandas.core.series.Series

Dies gibt eine *Serie* zurück. Um eine Spalte als **DataFrame** zu extrahieren, müssen wir eine Liste von Spaltennamen übergeben. In unserem Fall ist das nur eine einzelne Spalte:

In [41]:
genre_col = movies_df[["genre"]]
type(genre_col)

pandas.core.frame.DataFrame

Da es sich nur um eine Liste handelt, ist das Hinzufügen eines weiteren Spaltennamens einfach:

In [42]:
subset = movies_df[["genre", "rating"]]
subset.head()

Unnamed: 0_level_0,genre,rating
Title,Unnamed: 1_level_1,Unnamed: 2_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",8.1
Prometheus,"Adventure,Mystery,Sci-Fi",7.0
Split,"Horror,Thriller",7.3
Sing,"Animation,Comedy,Family",7.2
Suicide Squad,"Action,Adventure,Fantasy",6.2


Des weiteren gibt es auch die Möglichkeit **Zeilen** bei *Name* und bei *Index* zu selektieren. Hierfür bietet das Element DataFrame zwei unterschiedliche Funktionen:

- `.loc` - **loc**ates in Bezug auf den Name der Spalte
- `.iloc`- **loc**ates in Bezug auf den Numerischen **I**ndex der Zeile

Erinnert Euch, dass wir die Tabelle indexiert haben nach dem Titel. Wenn wir `.loc` verwenden, wird es einen Filmtitel benötigen.

In [43]:
prom = movies_df.loc["Prometheus"]
prom

rank                                                                2
genre                                        Adventure,Mystery,Sci-Fi
description         Following clues to the origin of mankind, a te...
director                                                 Ridley Scott
actors              Noomi Rapace, Logan Marshall-Green, Michael Fa...
year                                                             2012
runtime                                                           124
rating                                                            7.0
votes                                                          485820
revenue_millions                                               126.46
metascore                                                        65.0
Name: Prometheus, dtype: object

Andererseits können wir über `.iloc` eine bestimmte Zeile auf Basis des numerischen Wertes auswählen.

In [44]:
prom = movies_df.iloc[1]

prom

rank                                                                2
genre                                        Adventure,Mystery,Sci-Fi
description         Following clues to the origin of mankind, a te...
director                                                 Ridley Scott
actors              Noomi Rapace, Logan Marshall-Green, Michael Fa...
year                                                             2012
runtime                                                           124
rating                                                            7.0
votes                                                          485820
revenue_millions                                               126.46
metascore                                                        65.0
Name: Prometheus, dtype: object

`loc` und `iloc` können im weitesten Sinne ähnlich verwendet werden wie das `list slicing` in Python.

**Aufgabe 7:**
- Selektiere mit `loc` die Titel `Prometheus` bis `Sing`
- Selektiere mit `iloc` die Reihen `1 bis 4`
- Selektiere mit `iloc` die Reihen 1 und 2, aber als DataFrame und nicht als Serie

**Dokumentation:**
- [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)
- [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
- [`isin`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html)

In [45]:
### CODE HERE 7.1###

In [46]:
### SOLUTION HERE 7.1###
movie_subset = movies_df.loc[["Prometheus", "Sing"]]
movie_subset

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0


In [47]:
### CODE HERE 7.2###

In [48]:
### SOLUTION HERE 7.2###
movies_subset = movies_df.iloc[1:4]
movies_subset

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0


In [49]:
### CODE HERE 7.3###

In [50]:
### SOLUTION HERE 7.3###
movies_subset = movies_df.iloc[[0, 1]]
movies_subset

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0


**Aufgabe 8 (Zusatzaufgabe):**
- Selektiere alle Reihen mit `loc`, die das Genre `Horror` oder `Comedy` haben
- Filtere auf `Genre == Comedy` bzw. `Horror` und selektiere die Spalten `director`, `year`, `rating`, `rating_millions` mit Hilfe von `iloc` oder `loc`

In [51]:
### CODE HERE 8.1###

In [52]:
### SOLUTION HERE 8.1###
genre_list = ["Horror", "Comedy"]
movies_subset = movies_df.loc[movies_df["genre"].isin(genre_list)]

In [53]:
### CODE HERE 8.2###

In [54]:
### SOLUTION HERE 8.2###
movies_df[(movies_df["genre"] == "Comedy") | (movies_df["genre"] == "Horror")].iloc[
    :, [1, 3, 5, 7, 9]
]

Unnamed: 0_level_0,genre,director,year,rating,revenue_millions
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mindhorn,Comedy,Sean Foley,2016,6.4,82.956376
Paris pieds nus,Comedy,Dominique Abel,2016,6.8,82.956376
Bad Moms,Comedy,Jon Lucas,2016,6.2,113.08
Why Him?,Comedy,John Hamburg,2016,6.3,60.31
Don't Fuck in the Woods,Horror,Shawn Burkett,2016,2.7,82.956376
The Comedian,Comedy,Taylor Hackford,2016,5.4,1.66
Office Christmas Party,Comedy,Josh Gordon,2016,5.8,54.73
Superbad,Comedy,Greg Mottola,2007,7.6,121.46
The Hangover,Comedy,Todd Phillips,2009,7.8,277.31
Lights Out,Horror,David F. Sandberg,2016,6.4,67.24


#### Bedingte Selektionen

In der letzten Fragestellung der vorangegangenen Aufgabe haben wir ja bereits erste bedingte Selektionen vorgenommen. Das können wir noch etwas weiter führen. Was wäre zum Beispiel, wenn wir unseren `movies_df` so filtern , dass nur Filme von `Ridley Scott` angezeigt werden? 

In [55]:
condition = movies_df["director"] == "Ridley Scott"
condition.head()

Title
Guardians of the Galaxy    False
Prometheus                  True
Split                      False
Sing                       False
Suicide Squad              False
Name: director, dtype: bool

Ähnlich zu `.isnull()`, gibt der Aufruf ene Serie mit `True` und `False` Werten zurück. 

Nun möchten wir nur die Zeilen selektieren, die tatsächlch Ridley Scott als Direktor des Filmes hatten. Dazu müssen wir die Kondition (==True) in dem DataFrame mit aufnehmen. Übersetzt heißt die Selektion nicht anderes als: 
> Select movies_df where movies_df director equals Ridley Scott

In [56]:
movies_df[movies_df["director"] == "Ridley Scott"]

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
The Martian,103,"Adventure,Drama,Sci-Fi",An astronaut becomes stranded on Mars after hi...,Ridley Scott,"Matt Damon, Jessica Chastain, Kristen Wiig, Ka...",2015,144,8.0,556097,228.43,80.0
Robin Hood,388,"Action,Adventure,Drama","In 12th century England, Robin and his band of...",Ridley Scott,"Russell Crowe, Cate Blanchett, Matthew Macfady...",2010,140,6.7,221117,105.22,53.0
American Gangster,471,"Biography,Crime,Drama","In 1970s America, a detective works to bring d...",Ridley Scott,"Denzel Washington, Russell Crowe, Chiwetel Eji...",2007,157,7.8,337835,130.13,76.0
Exodus: Gods and Kings,517,"Action,Adventure,Drama",The defiant leader Moses rises up against the ...,Ridley Scott,"Christian Bale, Joel Edgerton, Ben Kingsley, S...",2014,150,6.0,137299,65.01,52.0
The Counselor,522,"Crime,Drama,Thriller",A lawyer finds himself in over his head when h...,Ridley Scott,"Michael Fassbender, Penélope Cruz, Cameron Dia...",2013,117,5.3,84927,16.97,48.0
A Good Year,531,"Comedy,Drama,Romance",A British investment broker inherits his uncle...,Ridley Scott,"Russell Crowe, Abbie Cornish, Albert Finney, M...",2006,117,6.9,74674,7.46,47.0
Body of Lies,738,"Action,Drama,Romance",A CIA agent on the ground in Jordan hunts down...,Ridley Scott,"Leonardo DiCaprio, Russell Crowe, Mark Strong,...",2008,128,7.1,182305,39.38,57.0


**Aufgabe 9:** 
- Wie sehe eine Selektion aus, die nur Filme aufnimmt, dessen **Rating** größer bzw. gleich **8.5** sind?
- Welche Filme haben dabei einen Umsatz von mehr als **200 Millionen US-Dollar** gemacht?
- Da es anscheinend einige sehr erfolgreiche Direktoren gab, gebe einmal alle Filme aus, die entweder **Christopher Nolan oder Ridley Scott** gemacht haben?
- **Zusatzaufgabe:** Was sind die Filme, die **zwischen 2005 und 2010** veröffentlicht wurden, ein **Rating >= 8** haben und dabei in den kleinsten 25% (25th Percentile) sind in Bezug auf die gemachten Umsätze?

In [57]:
### CODE HERE 9.1###

In [58]:
### SOLUTION HERE 9.1###
movies_df[movies_df["rating"] >= 8.5]

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
The Prestige,65,"Drama,Mystery,Sci-Fi",Two stage magicians engage in competitive one-...,Christopher Nolan,"Christian Bale, Hugh Jackman, Scarlett Johanss...",2006,130,8.5,913152,53.08,66.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0
Kimi no na wa,97,"Animation,Drama,Fantasy",Two strangers find themselves linked in a biza...,Makoto Shinkai,"Ryûnosuke Kamiki, Mone Kamishiraishi, Ryô Nari...",2016,106,8.6,34110,4.68,79.0
The Departed,100,"Crime,Drama,Thriller",An undercover cop and a mole in the police att...,Martin Scorsese,"Leonardo DiCaprio, Matt Damon, Jack Nicholson,...",2006,151,8.5,937414,132.37,85.0
Dangal,118,"Action,Biography,Drama",Former wrestler Mahavir Singh Phogat and his t...,Nitesh Tiwari,"Aamir Khan, Sakshi Tanwar, Fatima Sana Shaikh,...",2016,161,8.8,48969,11.15,
The Dark Knight Rises,125,"Action,Thriller",Eight years after the Joker's reign of anarchy...,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway,Gary ...",2012,164,8.5,1222645,448.13,78.0
Whiplash,134,"Drama,Music",A promising young drummer enrolls at a cut-thr...,Damien Chazelle,"Miles Teller, J.K. Simmons, Melissa Benoist, P...",2014,107,8.5,477276,13.09,88.0
The Intouchables,250,"Biography,Comedy,Drama",After he becomes a quadriplegic from a paragli...,Olivier Nakache,"François Cluzet, Omar Sy, Anne Le Ny, Audrey F...",2011,112,8.6,557965,13.18,57.0


In [59]:
### CODE HERE 9.2###

In [60]:
### SOLUTION HERE 9.2###
movies_df_rrm = movies_df[
    (movies_df["rating"] >= 8.5) & (movies_df["revenue_millions"] >= 200.00)
]
movies_df_rrm.head(5)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0
The Dark Knight Rises,125,"Action,Thriller",Eight years after the Joker's reign of anarchy...,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway,Gary ...",2012,164,8.5,1222645,448.13,78.0


In [61]:
### CODE HERE 9.3###

In [62]:
### SOLUTION HERE 9.3###
movies_df[
    (movies_df["director"] == "Christopher Nolan")
    | (movies_df["director"] == "Ridley Scott")
]
# movies_df[movies_df['director'].isin(['Christopher Nolan', 'Ridley Scott'])]

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
The Prestige,65,"Drama,Mystery,Sci-Fi",Two stage magicians engage in competitive one-...,Christopher Nolan,"Christian Bale, Hugh Jackman, Scarlett Johanss...",2006,130,8.5,913152,53.08,66.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0
The Martian,103,"Adventure,Drama,Sci-Fi",An astronaut becomes stranded on Mars after hi...,Ridley Scott,"Matt Damon, Jessica Chastain, Kristen Wiig, Ka...",2015,144,8.0,556097,228.43,80.0
The Dark Knight Rises,125,"Action,Thriller",Eight years after the Joker's reign of anarchy...,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway,Gary ...",2012,164,8.5,1222645,448.13,78.0
Robin Hood,388,"Action,Adventure,Drama","In 12th century England, Robin and his band of...",Ridley Scott,"Russell Crowe, Cate Blanchett, Matthew Macfady...",2010,140,6.7,221117,105.22,53.0
American Gangster,471,"Biography,Crime,Drama","In 1970s America, a detective works to bring d...",Ridley Scott,"Denzel Washington, Russell Crowe, Chiwetel Eji...",2007,157,7.8,337835,130.13,76.0
Exodus: Gods and Kings,517,"Action,Adventure,Drama",The defiant leader Moses rises up against the ...,Ridley Scott,"Christian Bale, Joel Edgerton, Ben Kingsley, S...",2014,150,6.0,137299,65.01,52.0


In [63]:
### CODE HERE 9.4###

In [64]:
### SOLUTION HERE 9.4###
movies_df[
    ((movies_df["year"] >= 2005) & (movies_df["year"] <= 2010))
    & (movies_df["rating"] >= 8.0)
    & (movies_df["revenue_millions"] < movies_df["revenue_millions"].quantile(0.25))
]

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3 Idiots,431,"Comedy,Drama",Two friends are searching for their long lost ...,Rajkumar Hirani,"Aamir Khan, Madhavan, Mona Singh, Sharman Joshi",2009,170,8.4,238789,6.52,67.0
The Lives of Others,477,"Drama,Thriller","In 1984 East Berlin, an agent of the secret po...",Florian Henckel von Donnersmarck,"Ulrich Mühe, Martina Gedeck,Sebastian Koch, Ul...",2006,137,8.5,278103,11.28,89.0
Incendies,714,"Drama,Mystery,War",Twins journey to the Middle East to discover t...,Denis Villeneuve,"Lubna Azabal, Mélissa Désormeaux-Poulin, Maxim...",2010,131,8.2,92863,6.86,80.0
Taare Zameen Par,992,"Drama,Family,Music",An eight-year-old boy is thought to be a lazy ...,Aamir Khan,"Darsheel Safary, Aamir Khan, Tanay Chheda, Sac...",2007,165,8.5,102697,1.2,42.0


**Ergebnis:** Die letzte Selektion sollte 4 Filme beinhalten.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 6. Anwendung von Funktionen auf das Datenset

Es ist möglich bei Iterationen über DataFrame und Serien Funktionen anzuwenden. Dabei sollten performante Funktionen gewählt werden. Über große Datenmengen Schleifen, If-Statements, ect. zu verwenden ist sehr langsam.

Hierfür gibt es alternative, effiziente Funktionen - zum Beispiel die Funktion `apply()`. Lasst und diese Funktion einmal in der Dokumentation ansehen und anschließend dafür ein Beispiel definieren.

**Dokumentation**: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

```python
# pandas.DataFrame.apply
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
```

- `func` erlaubt eine Funktion für den DataFrame zu übergeben
- `axis` gibt an, ob die Funktion auf Spalte oder auf Zeilen angewendet werden soll
- `raw` erlaubt es die Zeilen nicht als `Series` zu übergeben, sondern als `ndarray objects`
- ...


**Beispiel:** Wir würden gerne eine Funktion schreiben, um die Kategorie der Ratings weiter abstrahieren in gute und schlechte Filme.

In [65]:
def rating_function(x):
    if x >= 8.0:
        return "1"
    else:
        return "0"

Nun wollen wir die gesamte Bewertungsspalte durch diese Funktion schicken, was durch `apply()` geschieht:

In [66]:
movies_df["rating_category"] = movies_df["rating"].apply(rating_function)
movies_df.head(5)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0,0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0,0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0,0


Die Methode `.apply()` übergibt jeden Wert in der Spalte `Rating` durch die `rating_function` und gibt dann eine neue Serie zurück. Diese Serie wird dann einer neuen Spalte namens "rating_category" zugewiesen.

Ihr könnt auch [anonyme / lambda Funktionen](https://www.programiz.com/python-programming/anonymous-function) verwenden. Diese Lambda-Funktion erzielt das gleiche Ergebnis wie `rating_function`:

In [67]:
movies_df["rating_category"] = movies_df["rating"].apply(
    lambda x: "good" if x >= 8.0 else "bad"
)
movies_df.head(2)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,good
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,bad


**Wir können auch Funktionen anwenden, die weitere Argumente aufnimmt:**

In [68]:
def between_range(x, lower, higher):
    return lower <= x <= higher

**Alle Filme zwischen 2010 und 2020:**

In [69]:
movies_df["in_range"] = movies_df["year"].apply(between_range, args=(2015, 2020))
movies_df.head(10)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category,in_range
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,good,False
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,bad,False
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0,bad,True
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0,bad,True
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0,bad,True
The Great Wall,6,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036,45.13,42.0,bad,True
La La Land,7,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0,good,True
Mindhorn,8,Comedy,A has-been actor best known for playing the ti...,Sean Foley,"Essie Davis, Andrea Riseborough, Julian Barrat...",2016,89,6.4,2490,82.956376,71.0,bad,True
The Lost City of Z,9,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188,8.01,78.0,bad,True
Passengers,10,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177,100.01,41.0,bad,True


Ihr solltet immer versuchen Funktionen wie `.apply()` zu verwenden, weil Pandas hier Elemente von Numpy und Vector-Operationen nutzt.

> Vektorisierung: Eine Art der Computerprogrammierung, bei der Operationen auf ganze Arrays statt auf einzelne Elemente angewendet werden — [Array Programming](https://en.wikipedia.org/wiki/Array_programming)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 7. Über ein Datenset iterieren

Es gibt auch einige Möglichkeiten über Datensets zu iterieren, welche aber etwas langsamer sind als Vektoroperationen wie z. B. `.apply()`.

Die erste Methode, um über einen DataFrame zu iterieren, ist die Verwendung von Pandas [`.iterrows()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iterrows.html), die über den DataFrame mit Hilfe von **Index + Zeile** iteriert.

Nach dem Aufruf von **.iterrows()** auf dem DataFrame erhalten wir Zugriff auf den Index, der  Bezeichnung der Zeile und auf die Zeile selbst, die dann als `Series` zur Verfügung gestellt wird.

In [70]:
for index, row in movies_df[1:5].iterrows():
    print(f'Index: {index}, Genre: {row["genre"]}')

Index: Prometheus, Genre: Adventure,Mystery,Sci-Fi
Index: Split, Genre: Horror,Thriller
Index: Sing, Genre: Animation,Comedy,Family
Index: Suicide Squad, Genre: Action,Adventure,Fantasy


Eine weitere Möglichkeit ist `DataFrame.itertuples()`, welches ein Tuple mit Name und die Werte der jeweiligen Zeile wiedergibt. 

**Dokumentation:** https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.itertuples.html

In [71]:
for row in movies_df[1:5].itertuples():
    print(f"(Film, Genre): {row[0]} - {row.genre}")

(Film, Genre): Prometheus - Adventure,Mystery,Sci-Fi
(Film, Genre): Split - Horror,Thriller
(Film, Genre): Sing - Animation,Comedy,Family
(Film, Genre): Suicide Squad - Action,Adventure,Fantasy


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 8. Weitere spalten-orientierte Operationen

In gewissen Situationen kann es hilfreich sein, wenn das Datenset nach einer **bestimmten Spalte sortiert** wird. Das kann mit `.sort_values()` erreicht werden.

Der erste Parameter der Funktion ist die Spalte des Dataframes, nach der sortiert werden soll. Standardmäßig ist der Parameter `ascending` auf True gesetzt, daher muss dieser nur angeben werden, wenn die Sortierung in absteigender Reihenfolge gewünscht ist.

Die Sortierung kan auch mit mehr als einer Spalte vollzugen werden. Hier die **[Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)**. Es gibt noch einige weitere Operationen, die die Sortierung spezifizieren `na_position` oder `kind`.

In [72]:
movies_df.sort_values(by=["year", "revenue_millions"], ascending=[False, False])

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category,in_range
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Rogue One,13,"Action,Adventure,Sci-Fi",The Rebel Alliance makes a risky move to steal...,Gareth Edwards,"Felicity Jones, Diego Luna, Alan Tudyk, Donnie...",2016,133,7.9,323118,532.17,65.0,bad,True
Finding Dory,120,"Animation,Adventure,Comedy","The friendly but forgetful blue tang fish, Dor...",Andrew Stanton,"Ellen DeGeneres, Albert Brooks,Ed O'Neill, Kai...",2016,97,7.4,157026,486.29,77.0,bad,True
Captain America: Civil War,36,"Action,Adventure,Sci-Fi",Political interference in the Avengers' activi...,Anthony Russo,"Chris Evans, Robert Downey Jr.,Scarlett Johans...",2016,147,7.9,411656,408.08,75.0,bad,True
The Secret Life of Pets,16,"Animation,Adventure,Comedy",The quiet life of a terrier named Max is upend...,Chris Renaud,"Louis C.K., Eric Stonestreet, Kevin Hart, Lake...",2016,87,6.6,120259,368.31,61.0,bad,True
The Jungle Book,126,"Adventure,Drama,Family",After a threat from the tiger Shere Khan force...,Jon Favreau,"Neel Sethi, Bill Murray, Ben Kingsley, Idris Elba",2016,106,7.5,198243,364.00,77.0,bad,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
She's the Man,594,"Comedy,Romance,Sport",When her brother decides to ditch for a couple...,Andy Fickman,"Amanda Bynes, Laura Ramsey, Channing Tatum,Vin...",2006,105,6.4,122864,2.34,45.0,bad,False
The Fall,898,"Adventure,Comedy,Drama",In a hospital on the outskirts of 1920s Los An...,Tarsem Singh,"Lee Pace, Catinca Untaru, Justine Waddell, Kim...",2006,117,7.9,93036,2.28,64.0,bad,False
Perfume: The Story of a Murderer,919,"Crime,Drama,Fantasy","Jean-Baptiste Grenouille, born with a superior...",Tom Tykwer,"Ben Whishaw, Dustin Hoffman, Alan Rickman,Fran...",2006,147,7.5,199387,2.21,56.0,bad,False
The Host,633,"Comedy,Drama,Horror",A monster emerges from Seoul's Han River and f...,Bong Joon Ho,"Kang-ho Song, Hee-Bong Byun, Hae-il Park, Doon...",2006,120,7.0,73491,2.20,85.0,bad,False


Wenn Du möchtest, kannst Du im Dataset auch bestimmte Spalten **[droppen](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)**, wenn diese für die weitere Analyse nicht mehr benötigt werden. 

In [73]:
movies_df.drop("in_range", axis=1, inplace=True)

In [74]:
movies_df.columns

Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore', 'rating_category'],
      dtype='object')

Es kann auch interessant sein, den Durchschnitt der Ratings und die Summe der Umsätze von Filmen über die jeweiligen Jahre auszugeben. Hierfür müssen wir erst einmal auf das jeweilige Jahr aggregieren und anschließend die Funktion `agg` verwenden, um die **Summe** und den **Durchschnitt** zu berechnen. Hier die [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) 

In [75]:
movies_df[["year", "revenue_millions"]].groupby(["year"]).agg(["sum", "mean"])

Unnamed: 0_level_0,revenue_millions,revenue_millions
Unnamed: 0_level_1,sum,mean
year,Unnamed: 1_level_2,Unnamed: 2_level_2
2006,3790.372752,86.144835
2007,4638.055505,87.510481
2008,5136.176376,98.772623
2009,5624.085505,110.276186
2010,6238.519128,103.975319
2011,5514.916376,87.538355
2012,6910.29,107.973281
2013,7915.589128,86.984496
2014,8329.225505,84.992097
2015,10015.509266,78.862278


Das ist nur eine **Einführung in Pandas** - hier auch noch einmal weitere Materialien für das weitere Selbststudium. Die Ressourcen sind aber hier endlos, da dieses Package so weit verbreitet ist:

- [Community Tutorials auf Basis der offiziellen Pandas Dokumentation](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
- [Community Tutorials, Notebooks und Analysen von Kaggle](https://www.kaggle.com/code?searchQuery=Pandas)
- [3 Methods to Create Conditional Columns with Python Pandas and Numpy](https://towardsdatascience.com/all-probability-distributions-explained-in-six-minutes-fe57b1d49600)
- [Filtering Data in Pandas](https://levelup.gitconnected.com/filtering-data-in-pandas-c7b60d1e1301)

**Aufgabe 10 (Zusatzaufgabe)**: Separiere die Komma-separierte Genre-Spalte und kreiere eine Spalte pro Genre, für welche die jweilige Zeile bei angegebenen Genres den Wert 1 ausgibt. Für nicht enthaltene Genres gibt es den Wert 0 aus.  

In [76]:
### CODE HERE ###

In [77]:
### SOLUTION HERE ###
def split_to_columns(x, dataframe):
    for genre in x["genre"].split(","):
        if genre in list(dataframe.columns):
            dataframe.at[x.name, genre] = 1
        else:
            dataframe[genre] = 0


for index, row in movies_df.iterrows():
    split_to_columns(row, movies_df)

# Validierung der Lösung
movies_df.head(5)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,...,Drama,Music,Biography,Romance,History,Crime,Western,War,Musical,Sport
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,...,0,0,0,0,0,0,0,0,0,0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,...,0,0,0,0,0,0,0,0,0,0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,...,0,0,0,0,0,0,0,0,0,0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,...,0,0,0,0,0,0,0,0,0,0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,...,0,0,0,0,0,0,0,0,0,0


In [78]:
### SOLUTION 2 HERE ###
genres_df = movies_df["genre"].str.get_dummies(",").replace({0: "no", 1: "yes"})
movies_df = pd.concat([movies_df, genres_df], axis=1)

# Validierung der Lösung
movies_df.head(5)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,...,Horror,Music,Musical,Mystery,Romance,Sci-Fi,Sport,Thriller,War,Western
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,...,no,no,no,no,no,yes,no,no,no,no
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,...,no,no,no,yes,no,yes,no,no,no,no
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,...,yes,no,no,no,no,no,no,yes,no,no
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,...,no,no,no,no,no,no,no,no,no,no
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,...,no,no,no,no,no,no,no,no,no,no
