# Python Pandas Übung

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 1. Installieren und Importieren

In [None]:
import numpy as np
import pandas as pd

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 2. Kernkomponenten von Pandas: Series und DataFrames

Die beiden Hauptkomponenten von Pandas sind **Series** und **DataFrame**. 

Eine `Serie` ist im Wesentlichen eine Spalte und ein `DataFrame` ist eine mehrdimensionale Tabelle, die aus einer Sammlung von Serien besteht.

<img src="src/series-and-dataframe.png" width=600px />

**DataFrames** und **Series** sind sich insofern sehr ähnlich, als das viele Operationen, die mit dem einen Objekt durchführbar sind, auch mit dem anderen möglich ist (z. B. das Einfügen von Nullwerten und die Berechnung des Mittelwerts).

Sie werden sehen, wie diese Komponenten funktionieren, wenn wir unten mit den Daten arbeiten. 

### 2.1. Pandas Series

- Datenstruktur Pandas Series ist ein **one-dimensional labelled array**
- Ist primärer Baustein für einen DataFrame, aus dem seine Zeilen und Spalten bestehen

Die Elemente einer Serie wird wie folgt bestimmt:

```python
# pandas.Series
series = pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

- `data` akzeptiert verschiedene Datentypen wie ndarray, dictionaries und scalar values
- `index` Parameter akzeptiert array-like objects, welche erlauben die Index-Axis zu labeln (Wenn kein index-Parameter übergeben wird, dann verwendet Pandas die dictionary keys als Indexbezeichnungen
- `dtype` bestimmt den Datentyp für die Series. Wenn kein Datentyp angegeben wird, zieht Pandas den Datentypen, die die Serie haben sollte
- `name` Parameter erlaubt die Benamung der Serie, die erstellt wurde

Die offizielle Dokumentation zu `Series` findet Ihr hier: [Series Dokumentation Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

#### Anwendungsbeispiele

In [None]:
# Erstellung einer Series mit Hilfe eines Python Dictionaries
if __name__ == "__main__":
    # Erstellung eines Python Dictionaries
    data = {"a": 1.0, "b": 2.0, "c": 3.0, "d": 4.0}
    # Erstellung Series auf Basis Data Dictionaries mit Namen 'series_from_dict'
    series = pd.Series(data=data, name="series_from_dict")
    print(series)

In [None]:
if __name__ == "__main__":
    # Erstellung eines NumPy arrays
    data = np.random.randint(0, 10, 5)
    series = pd.Series(
        data=data,
        index=["a", "b", "c", "d", "e"],
        name="series_from_ndarray",
        dtype="int",
    )
    print(series)

**Aufgabe 1**: Verändere die Variable so, dass die Datenreihe den Datentype float besitzt?

In [None]:
### CODE HERE ###

### 2.2. Pandas DataFrame

- Datenstruktur Pandas DataFrame ist eine **two-dimensional data structure**
- Besteht aus Zeilen und Spalten
- Ähnlich einer relationalen Datenbanktabelle oder einem CSV, sehr ähnlich zu einer Exceltabelle

Die Elemente einer DataFrame wird wie folgt bestimmt:

```python
# pandas.DataFrame
df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

Die Parameter sind sehr ähnlich zu dem einer Serie. Zusätzlich kann über den Parameter `columns` die Spaltennanmen definiert werden.

Die offizielle Dokumentation zu `DataFrames` findet Ihr hier: [DataFrame Dokumentation Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)

#### Anwendungsbeispiele

In [None]:
if __name__ == "__main__":
    data = {
        "column_a": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
        "column_b": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
        "column_c": pd.Series(
            data=np.random.randint(10, 100, 5), index=["a", "b", "c", "d", "e"]
        ),
    }
    df = pd.DataFrame(data=data)
    print(df)

In [None]:
if __name__ == "__main__":
    data = {"column_a": [1, 2, 3], "column_b": [4, 5, 6], "column_c": [7, 8, 9]}
    df = pd.DataFrame(data=data, index=["row_a", "row_b", "row_c"])
    print(df)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 3. Umgang mit DataFrames

### 3.1. Laden und Speichern von DataFrames

Angenommen wir haben einen Obststand, der Äpfel und Orangen verkauft. Wir möchten eine Spalte für jede Frucht und eine Zeile für jeden Kundenkauf haben. Um dies als Dictionary für Pandas zu organisieren, könnten wir etwas tun wie:

In [None]:
data = {"apples": [3, 2, 0, 1], "oranges": [0, 3, 7, 2]}

**Aufgabe 2:** Überführung in ein pandas DataFrame. Nenne den DataFrame `purchases_df` und verwende `index_p` als Index. Jede Obstart hat hierbei eine eigene Spalte.

In [None]:
index_p = ["June", "Robert", "Lily", "David"]

In [None]:
## CODE HERE ###

Nun können wir eine Bestellung auf Basis des Kundennamens **auffinden** - `loc`ate:

In [None]:
purchases_df.loc["June"]

**Einlesen von Datenset auf Basis eines CSVs mit Hilfe von [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):**

In [None]:
# CSVs haben keine Indizes wie unsere DataFrames, also müssen wir beim Lesen die `index_col` definieren
df = pd.read_csv("./src/purchases.csv", index_col=0)
df

#### Einlesen der Daten von  JSON

In [None]:
# Wenn Sie eine JSON-Datei haben - die im Wesentlichen ein gespeichertes Python-Dict ist
# - kann Pandas diese ebenso einfach lesen:
df = pd.read_json("./src/purchases.json")
df

Euch wird aufgefallen sein, dass unser Index dieses Mal korrekt mitkam, da die Verwendung von **JSON die Verschachtelung von Indizes ermöglicht**. 

Pandas wird versuchen herauszufinden, wie man einen DataFrame erstellt, indem es die Struktur Ihres JSON analysiert, und manchmal wird es nicht direkt funktionieren. Oft muss der Parameter `orient` abhängig von der Struktur gesetzt werden.

**Dokumentation:** [.read_json](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html)

#### Rückführung des DataFrames zu CSV oder JSON

Nach einer Analyse und Transformation der Daten wird der Bedarf entstehen, die Daten wieder in eine CSV bzw. JSON-Datei zu überführen. Das kann mit einfachen Befehlen geschehen.

In [None]:
df.to_csv("./src/new_purchases.csv")
df.to_json("./src/new_purchases.json")

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 4. Wichtigste DataFrame Funktionen

DataFrames verfügen über Hunderte von Methoden und andere Operationen, die für die jeweilige Analyse nützich sein kann. Als erstes sollten wir die Operationen kennen, die einfache Transformationen der Daten und grundlegende statistische Analysen ermöglichen.

Lassen Sie uns zunächst den IMDB-Film-Datensatz laden:

In [None]:
# Ladet einmal das DataSet und definiert die Index-Zeile mit der Spalte "Titel"
movies_df = pd.read_csv("./src/IMDB-Movie-Data.csv", index_col="Title")

Wir können uns auch jederzeit den Source Code der Funktion angucken - lass uns einmal einen Blick darauf werfen: [Source Code](https://github.com/pandas-dev/pandas/blob/v1.2.5/pandas/io/parsers.py#L533-L610)

### 4.1 Erstsichtung der Daten

Das erste, was man beim Öffnen eines neuen Datensatzes macht, ist, ein paar Zeilen zu visualisieren. Wir erreichen dies mit `.head()`:

Dokumentation: [pandas.DataFrame.head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)

In [None]:
movies_df.head(10)

**Was sind Eure Beobachtungen hinsichtlich des Datensets?**

Mit `.head()` werden standardmäßig die **ersten** fünf Zeilen des DataFrames ausgegeben. Wir haben eine Zahl übergeben, `movies_df.head(10)`, sodass die obersten zehn Zeilen ausgeben werden. 

Um die **letzten** fünf Zeilen zu sehen, kann `.tail()` verwendet werden. Auch `tail()` akzeptiert eine Zahl, und in diesem Fall bilden wir die unteren zehn Zeilen ab:

In [None]:
movies_df.tail(10)

#### Erhalte Informationen über dein Datenset

`info()` sollte einer der ersten Befehle sein, die Sie nach dem Laden Ihrer Daten ausführen:

In [None]:
movies_df.info()

`.info()` bereitgestellte Informationen:
- Anzahl der Zeilen und Spalten
- Anzahl der **non-null Werte** (siehe fehlende Werte in `Revenue` und `Metascore`)
- Größe des DataFrames in Memory
- Datentyp pro Zeile (Identifizierung möglicher Umwandlung von String `object` zu `int64` um mathematische Operationen durchzuführen)

Eine weitere Information über das Datenset kann über `.shape` eingeholt werden, welches eine Übersicht über die Anzahl der **(Zeilen, Spalten)** gibt.

Eine weitere Möglichkeit die Anzahl der einendeutigen Merkmale ausgeben zu lassen, ist die Funktion `.nunique`. Die Dokumentation hierfür kann **[hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.nunique.html)** entnommen werden.

In [None]:
movies_df.nunique()

In [None]:
movies_df.shape

**Fragen:**
- Wann kann Shape hilfreich sein?
- Welches Datenformat ist der Response von `.shape`?

**Dokumentation:** https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html

### 4.2 Umgang mit Duplikaten

Dieser Datensatz hat keine doppelten Zeilen, aber es ist immer wichtig zu überprüfen, dass keine doppelten Zeilen vorhanden sind. Es kann auch gute Gründe geben, dass doppelte Zeilen vorhanden sind.

Um das zu demonstrieren, verdoppeln wir einfach unseren Movie DataFrame, indem wir ihn an sich selbst anhängen:

In [None]:
temp_df = movies_df.append(movies_df)
temp_df.shape

Die Verwendung von `append()` gibt eine Kopie zurück, ohne den ursprünglichen DataFrame zu beeinflussen. Wir fangen diese Kopie in `temp` ein, so dass wir nicht mit den echten Daten arbeiten.

Beachtet, dass der Aufruf von `.shape` beweist, dass sich unsere DataFrame-Zeilen verdoppelt haben.
Jetzt haben wir einen DataFrame, für welchen wir Duplikate löschen `.drop_duplicates()`können. Dafür gibt es folgende Optionen unter dem Parameter `keep`:
* `first`: (Voreinstellung) Duplikate bis auf das erste Vorkommen verwerfen
* `last`: Duplikate bis auf das letzte Vorkommen verwerfen
* `False`: Alle Duplikate verwerfen

Dokumentation zu [.drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

**Frage**: Warum kann der Parameter wichtig sein?

In [None]:
# Nutzung von Drop Duplicates
temp_df = temp_df.drop_duplicates()

# Überprüfung der Ergebnisse
temp_df.shape

**Optimierung:** Es ist etwas umständlich, DataFrames immer wieder der gleichen Variablen zuzuweisen, wie in diesem Beispiel. Aus diesem Grund hat das Team um Pandas den Parameter `inplace` bei vielen seiner Methoden eingeführt. Wenn `inplace=True` verwendet wird, wird der DataFrame an Ort und Stelle modifiziert:

In [None]:
temp_df = movies_df.append(movies_df)
temp_df.drop_duplicates(inplace=True, keep=False)
temp_df.shape

Da es sich bei allen Zeilen um Duplikate handelte, wurden mit `keep=False` alle Zeilen gelöscht, so dass null Zeilen übrig blieben.

### 4.3 Transformation von Zeilen

Oft haben Datensätze wortreiche Spaltennamen mit Symbolen, Wörtern in Groß- und Kleinschreibung, Leerzeichen und Tippfehlern. Um die Auswahl von Daten nach Spaltennamen zu erleichtern, können wir die Spalten in einem Datenset anpassen.

Eine erste Übersicht erhalten wir mit `.columns` - dies kann auch hilfreich sein, wenn Ihr einen `Error` erhaltet bei der Selektion einer Spalte.

In [None]:
movies_df.columns

Wir können die Methode `.rename()` und `.columns` verwenden, um bestimmte oder alle Spalten in einem `Dict` umzubenennen. 

**Aufgabe 3:** 
- Im ersten Schritt wollen wir die Klammern auflösen, also benennt `Runtime (Minutes)` in `Runtime` und `Revenue (Millions)` in `Revenue_millions` um. Dokumentation könnt Ihr [Dokumentation hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html) einsehen
- Außerdem wollen wir alle Spalten zu `lowercase` umbenennen. Hierzu könnt Ihr die Methode [`.columns`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html#) oder `.rename()` verwenden

**Tipp:** Für die 2. Übung, schaut auf List Comprehension für Python

In [None]:
### CODE HERE ###

Es ist eine gute Idee Kleinbuchstaben zu verwenden, Sonderzeichen zu entfernen und Leerzeichen durch Unterstriche zu ersetzen. Das ist gerade sinnvoll, wenn Ihr eine Zeit lang mit einem Datensatz arbeiten werdet.

### 4.4 Umgang mit fehlenden Werten (NULL-Values)

Wenn wir Daten untersuchen, werden wir höchstwahrscheinlich auf fehlende oder Null-Werte stoßen, die im Wesentlichen Platzhalter für nicht vorhandene Werte sind. Am häufigsten werden Sie Pythons `None` oder NumPys `np.nan` sehen, die beide in einigen Situationen unterschiedlich behandelt werden.

Wir lernen später mehr, was die Möglichkeiten sind mit fehlenden Werten umzugehen und was dies für Implikationen auf die Datenanalyse hat.

Lass uns zuerst einmal die **Gesamtzahl der NULL-Values** in jeder Spalte unseres Datensatzes feststellen. Der erste Schritt besteht darin zu prüfen, welche Zellen in unserem DataFrame null sind:

In [None]:
# 'isnull()' gibt ein DataFrame wieder, mit False True Werten, wenn Daten fehlen
movies_df.isnull()

**Dokumentation:** [`.isnull()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html)

Um die Anzahl der Nullen in jeder Spalte zu zählen, verwenden wir eine Aggregatfunktion zum Summieren:

In [None]:
movies_df.isnull().sum()

Wir können nun sehen, dass unsere Daten **128** fehlende Werte für `revenue_millions` und **64** fehlende Werte für `metascore` haben.

Datenanalysten stehen regelmäßig vor dem Dilemma, **Nullwerte zu entfernen oder zu imputieren**, und es ist eine Entscheidung, die eine genaue Kenntnis Eurer Daten und deren Kontext erfordert. Insgesamt wird das Entfernen von Nulldaten nur dann empfohlen, wenn Ihr eine **geringe Menge an fehlenden Daten** haben.

Das Entfernen von Zeilen mit **Nullwerten** ist ziemlich einfach mit der Funktion [`.dopna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html):

In [None]:
movies_df.dropna()

Wir Ihr germerkt habt, werden **alle Zeilen gelöscht, die mindestens ein NULL-Value aufweisen**. Die Methode gibt einen neuen DataFrame als Return-Statement zurück. 

**Aufgabe 4**: 
- Welchen Parameter müssten wir setzen, um den DataFrame direkt anzupassen?
- Welchen Parameter müssten wir anpassen, wenn wir nicht Zeilen sondern Spalten löschen wollen?

**`BEGRÜNDUNG HERE`**

**Grundsätzlich:** Das Entfernen von 162 Zeilen scheint eine Verschwendung zu sein, weil die Informationen in all den anderen Spalten grundsätzlich okay ist. Es geht eher darum, wie wir die Daten "imputieren" können.

### Imputieren von Werten

Imputation ist eine herkömmliche Technik von Feature Engineering, um Daten mit Nullwerten zu erhalten. 

Es kann Fälle geben, in denen das Löschen jeder Zeile mit einem Nullwert einen zu großen Teil Ihres Datensatzes entfernt, so dass wir stattdessen diesen Nullwert mit einem anderen Wert imputieren können, normalerweise mit...
... dem **Mittelwert** oder
... dem **Median** dieser Spalte. 

Schauen wir uns nun die fehlenden Werte in der Spalte `revenue_millions` an. Zuerst extrahieren wir diese Spalte in eine eigene Variable:

In [None]:
revenue = movies_df["revenue_millions"]
print(revenue)

Die Verwendung von eckigen Klammern ist die allgemeine Art, wie wir Spalten in einem DataFrame auswählen. Das geschieht sehr ähnlich zum Kontext und Umgang mit Python Dictionaries. Der Spaltenname ist hier der Key, ähnlich wie bei der Kreierung des DataFrames.

**Frage:** Was ist der Pandas Datentyp von der Variable `revenue`?

**Aufgabe 5:**
- Berechne den Mittelwert des `revenue` und befülle die Werte direkt in den DataFrame
- Nutze hierfür `fillna` als Funktion im Package Pandas

In [None]:
### CODE HERE ###

Eine ganze Spalte mit demselben Wert zu imputieren, ist ein einfaches Beispiel. Es wäre eine bessere Idee, eine granularere Imputation nach Genre oder Regisseur zu versuchen. 

Sie würden z. B. den Mittelwert der Einnahmen eines jeden Genres generieren und die Nullen in jedem Genre mit dem Mittelwert dieses Genres imputieren.

Sehen wir uns nun weitere Möglichkeiten an, den Datensatz zu untersuchen und zu verstehen.

**Aufgabe 6 (Zusatzaufgabe):**
- Generiert den Mittelwert Revenue_Millions pro Genre
- Identifiziert die NAN-Values in Revenue_Millions
- Ersetzt die Werte mit dem durschschnittlichen Genre

**Tipps:**
- Schneidet die Genres erst einmal nicht, sondern nutzt jede Kombination
- Wenn es für ein Genre kein Mittelwert gibt, nutzt den übergreifenden Mittelwert

In [None]:
### CODE HERE ###

### 4.5 Verstehen von Variablen

Mit `.describe()` aufhalten wir eine vollständige Zusammenfassung der Verteilung von **kontinuierlichen Variablen**. Darüber hinaus ist es hilfreich zu wissen welchen Spalten kontinuierlich sind, da die Form der Visualisierung später davon auch mit abhängig ist.

In [None]:
movies_df.describe()

Die Funktion `.describe()` kann auch auf eine kategorische Variable angewendet werden, um die Anzahl der Zeilen, die eindeutige Anzahl der Kategorien, die häufigste Kategorie und die Häufigkeit der obersten Kategorie zu ermitteln:

In [None]:
movies_df["genre"].describe()

`.value_counts()` veranschaulicht die Häufigkeit der Werte für eine kategorische Spalte:

In [None]:
movies_df["genre"].value_counts().head(10)

### 4.6 Veranschaulich von Beziehungen zwischen Variablen

Durch die Verwendung der Korrelationsmethode `.corr()` können wir die **Korrelation** zwischen den einzelnen kontinuierlichen Variablen erzeugen:

In [None]:
movies_df.corr()

Korrelationstabellen sind eine numerische Darstellung der bivariaten Beziehungen im Datensatz.

Positive Werte bedeuten eine positive Korrelation - der eine Wert steigt, die andere steigt - und negative Zahlen stehen für eine umgekehrte Korrelation - ein Wert steigt, die andere sinkt. 1,0 zeigt eine perfekte Korrelation an. 

Es gibt anscheinend eine realtiv hohe Korrelation zwischen `votes` and `revenue_millions`. **Frage:** Woran kann das liegen?

Die Untersuchung bivariater Beziehungen ist nützlich, wenn Sie ein Ergebnis oder eine abhängige Variable im Auge haben und die Merkmale sehen möchten, die am stärksten mit der Zunahme oder Abnahme des Ergebnisses korrelieren.

**Dokumentation:** [`.corr()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 5. DataFrame *slicing, selecting, extracting*

Bis jetzt haben wir uns auf einige grundlegende Übersichten und Zusammenfassungen unserer Daten konzentriert. Im Folgenden konzentrieren wir uns auf das Zerlegen, Auswählen und Extrahieren.

Es ist zu beachten, dass obwohl viele Methoden gleich sind, DataFrames und Serien unterschiedliche Funktionen haben. Geht also sicher, dass Ihr wisst welche Operation Ihr worauf anwendet.

#### Auswählen einer Spalte

In [None]:
genre_col = movies_df["genre"]
# Ausgabe des Datentyps
type(genre_col)

Dies gibt eine *Serie* zurück. Um eine Spalte als **DataFrame** zu extrahieren, müssen wir eine Liste von Spaltennamen übergeben. In unserem Fall ist das nur eine einzelne Spalte:

In [None]:
genre_col = movies_df[["genre"]]
type(genre_col)

Da es sich nur um eine Liste handelt, ist das Hinzufügen eines weiteren Spaltennamens einfach:

In [None]:
subset = movies_df[["genre", "rating"]]
subset.head()

Des weiteren gibt es auch die Möglichkeit **Zeilen** bei *Name* und bei *Index* zu selektieren. Hierfür bietet das Element DataFrame zwei unterschiedliche Funktionen:

- `.loc` - **loc**ates in Bezug auf den Name der Spalte
- `.iloc`- **loc**ates in Bezug auf den Numerischen **I**ndex der Zeile

Erinnert Euch, dass wir die Tabelle indexiert haben nach dem Titel. Wenn wir `.loc` verwenden, wird es einen Filmtitel benötigen.

In [None]:
prom = movies_df.loc["Prometheus"]
prom

Andererseits können wir über `.iloc` eine bestimmte Zeile auf Basis des numerischen Wertes auswählen.

In [None]:
prom = movies_df.iloc[1]

prom

`loc` und `iloc` können im weitesten Sinne ähnlich verwendet werden wie das `list slicing` in Python.

**Aufgabe 7:**
- Selektiere mit `loc` die Titel `Prometheus` bis `Sing`
- Selektiere mit `iloc` die Reihen `1 bis 4`
- Selektiere mit `iloc` die Reihen 1 und 2, aber als DataFrame und nicht als Serie

**Dokumentation:**
- [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)
- [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)
- [`isin`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html)

In [None]:
### CODE HERE 7.1###

In [None]:
### CODE HERE 7.2###

In [None]:
### CODE HERE 7.3###

**Aufgabe 8 (Zusatzaufgabe):**
- Selektiere alle Reihen mit `loc`, die das Genre `Horror` oder `Comedy` haben
- Filtere auf `Genre == Comedy` bzw. `Horror` und selektiere die Spalten `director`, `year`, `rating`, `rating_millions` mit Hilfe von `iloc` oder `loc`

In [None]:
### CODE HERE 8.1###

In [None]:
### CODE HERE 8.2###

#### Bedingte Selektionen

In der letzten Fragestellung der vorangegangenen Aufgabe haben wir ja bereits erste bedingte Selektionen vorgenommen. Das können wir noch etwas weiter führen. Was wäre zum Beispiel, wenn wir unseren `movies_df` so filtern , dass nur Filme von `Ridley Scott` angezeigt werden? 

In [None]:
condition = movies_df["director"] == "Ridley Scott"
condition.head()

Ähnlich zu `.isnull()`, gibt der Aufruf ene Serie mit `True` und `False` Werten zurück. 

Nun möchten wir nur die Zeilen selektieren, die tatsächlch Ridley Scott als Direktor des Filmes hatten. Dazu müssen wir die Kondition (==True) in dem DataFrame mit aufnehmen. Übersetzt heißt die Selektion nicht anderes als: 
> Select movies_df where movies_df director equals Ridley Scott

In [None]:
movies_df[movies_df["director"] == "Ridley Scott"]

**Aufgabe 9:** 
- Wie sehe eine Selektion aus, die nur Filme aufnimmt, dessen **Rating** größer bzw. gleich **8.5** sind?
- Welche Filme haben dabei einen Umsatz von mehr als **200 Millionen US-Dollar** gemacht?
- Da es anscheinend einige sehr erfolgreiche Direktoren gab, gebe einmal alle Filme aus, die entweder **Christopher Nolan oder Ridley Scott** gemacht haben?
- **Zusatzaufgabe:** Was sind die Filme, die **zwischen 2005 und 2010** veröffentlicht wurden, ein **Rating >= 8** haben und dabei in den kleinsten 25% (25th Percentile) sind in Bezug auf die gemachten Umsätze?

In [None]:
### CODE HERE 9.1###

In [None]:
### CODE HERE 9.2###

In [None]:
### CODE HERE 9.3###

In [None]:
### CODE HERE 9.4###

**Ergebnis:** Die letzte Selektion sollte 4 Filme beinhalten.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 6. Anwendung von Funktionen auf das Datenset

Es ist möglich bei Iterationen über DataFrame und Serien Funktionen anzuwenden. Dabei sollten performante Funktionen gewählt werden. Über große Datenmengen Schleifen, If-Statements, ect. zu verwenden ist sehr langsam.

Hierfür gibt es alternative, effiziente Funktionen - zum Beispiel die Funktion `apply()`. Lasst und diese Funktion einmal in der Dokumentation ansehen und anschließend dafür ein Beispiel definieren.

**Dokumentation**: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

```python
# pandas.DataFrame.apply
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
```

- `func` erlaubt eine Funktion für den DataFrame zu übergeben
- `axis` gibt an, ob die Funktion auf Spalte oder auf Zeilen angewendet werden soll
- `raw` erlaubt es die Zeilen nicht als `Series` zu übergeben, sondern als `ndarray objects`
- ...


**Beispiel:** Wir würden gerne eine Funktion schreiben, um die Kategorie der Ratings weiter abstrahieren in gute und schlechte Filme.

In [None]:
def rating_function(x):
    if x >= 8.0:
        return "1"
    else:
        return "0"

Nun wollen wir die gesamte Bewertungsspalte durch diese Funktion schicken, was durch `apply()` geschieht:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(rating_function)
movies_df.head(5)

Die Methode `.apply()` übergibt jeden Wert in der Spalte `Rating` durch die `rating_function` und gibt dann eine neue Serie zurück. Diese Serie wird dann einer neuen Spalte namens "rating_category" zugewiesen.

Ihr könnt auch [anonyme / lambda Funktionen](https://www.programiz.com/python-programming/anonymous-function) verwenden. Diese Lambda-Funktion erzielt das gleiche Ergebnis wie `rating_function`:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(
    lambda x: "good" if x >= 8.0 else "bad"
)
movies_df.head(2)

**Wir können auch Funktionen anwenden, die weitere Argumente aufnimmt:**

In [None]:
def between_range(x, lower, higher):
    return lower <= x <= higher

**Alle Filme zwischen 2010 und 2020:**

In [None]:
movies_df["in_range"] = movies_df["year"].apply(between_range, args=(2015, 2020))
movies_df.head(10)

Ihr solltet immer versuchen Funktionen wie `.apply()` zu verwenden, weil Pandas hier Elemente von Numpy und Vector-Operationen nutzt.

> Vektorisierung: Eine Art der Computerprogrammierung, bei der Operationen auf ganze Arrays statt auf einzelne Elemente angewendet werden — [Array Programming](https://en.wikipedia.org/wiki/Array_programming)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 7. Über ein Datenset iterieren

Es gibt auch einige Möglichkeiten über Datensets zu iterieren, welche aber etwas langsamer sind als Vektoroperationen wie z. B. `.apply()`.

Die erste Methode, um über einen DataFrame zu iterieren, ist die Verwendung von Pandas [`.iterrows()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iterrows.html), die über den DataFrame mit Hilfe von **Index + Zeile** iteriert.

Nach dem Aufruf von **.iterrows()** auf dem DataFrame erhalten wir Zugriff auf den Index, der  Bezeichnung der Zeile und auf die Zeile selbst, die dann als `Series` zur Verfügung gestellt wird.

In [None]:
for index, row in movies_df[1:5].iterrows():
    print(f'Index: {index}, Genre: {row["genre"]}')

Eine weitere Möglichkeit ist `DataFrame.itertuples()`, welches ein Tuple mit Name und die Werte der jeweiligen Zeile wiedergibt. 

**Dokumentation:** https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.itertuples.html

In [None]:
for row in movies_df[1:5].itertuples():
    print(f"(Film, Genre): {row[0]} - {row.genre}")

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 8. Weitere spalten-orientierte Operationen

In gewissen Situationen kann es hilfreich sein, wenn das Datenset nach einer **bestimmten Spalte sortiert** wird. Das kann mit `.sort_values()` erreicht werden.

Der erste Parameter der Funktion ist die Spalte des Dataframes, nach der sortiert werden soll. Standardmäßig ist der Parameter `ascending` auf True gesetzt, daher muss dieser nur angeben werden, wenn die Sortierung in absteigender Reihenfolge gewünscht ist.

Die Sortierung kan auch mit mehr als einer Spalte vollzugen werden. Hier die **[Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)**. Es gibt noch einige weitere Operationen, die die Sortierung spezifizieren `na_position` oder `kind`.

In [None]:
movies_df.sort_values(by=["year", "revenue_millions"], ascending=[False, False])

Wenn Du möchtest, kannst Du im Dataset auch bestimmte Spalten **[droppen](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)**, wenn diese für die weitere Analyse nicht mehr benötigt werden. 

In [None]:
movies_df.drop("in_range", axis=1, inplace=True)

In [None]:
movies_df.columns

Es kann auch interessant sein, den Durchschnitt der Ratings und die Summe der Umsätze von Filmen über die jeweiligen Jahre auszugeben. Hierfür müssen wir erst einmal auf das jeweilige Jahr aggregieren und anschließend die Funktion `agg` verwenden, um die **Summe** und den **Durchschnitt** zu berechnen. Hier die [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) 

In [None]:
movies_df[["year", "revenue_millions"]].groupby(["year"]).agg(["sum", "mean"])

Das ist nur eine **Einführung in Pandas** - hier auch noch einmal weitere Materialien für das weitere Selbststudium. Die Ressourcen sind aber hier endlos, da dieses Package so weit verbreitet ist:

- [Community Tutorials auf Basis der offiziellen Pandas Dokumentation](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
- [Community Tutorials, Notebooks und Analysen von Kaggle](https://www.kaggle.com/code?searchQuery=Pandas)
- [3 Methods to Create Conditional Columns with Python Pandas and Numpy](https://towardsdatascience.com/all-probability-distributions-explained-in-six-minutes-fe57b1d49600)
- [Filtering Data in Pandas](https://levelup.gitconnected.com/filtering-data-in-pandas-c7b60d1e1301)

**Aufgabe 10 (Zusatzaufgabe)**: Separiere die Komma-separierte Genre-Spalte und kreiere eine Spalte pro Genre, für welche die jweilige Zeile bei angegebenen Genres den Wert 1 ausgibt. Für nicht enthaltene Genres gibt es den Wert 0 aus.  

In [None]:
### CODE HERE ###