# Pandas Tutorial

Inspiriert von https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

Das Paket *pandas* ist das wichtigste Werkzeug, das Data Scientists und Analysten, die heute mit Python arbeiten, zur Verfügung steht. Die leistungsstarken Tools für maschinelles Lernen und aussagekräfitgen Visualisierung mögen die ganze Aufmerksamkeit auf sich ziehen, aber Pandas sind das Rückgrat der meisten Datenprojekte.

>\[*pandas*\] leitet sich vom Begriff "**pan**el **da**ta" ab, einem ökonometrischen Begriff für Datensätze, die Beobachtungen über mehrere Zeiträume für dieselbe Person umfassen. — [Wikipedia](https://en.wikipedia.org/wiki/Pandas_%28software%29)

## Anwendungsgebiete von Pandas?

Pandas hat so **viele Verwendungsmöglichkeiten**, dass es sinnvoll sein könnte, die Dinge aufzulisten, die es nicht kann, anstatt das, was es kann.

Durch Pandas bekommt man ein **besseres Verständnis** der Daten, mit der Möglichkeit der Bereinigung, Transformation und Analyse.

Angenommen, Sie möchten einen Datensatz untersuchen, der in einer CSV-Datei auf Ihrem Computer gespeichert ist. Pandas extrahiert die Daten aus dieser CSV in einen DataFrame – im Grunde eine Tabelle – und lässt Sie dann Dinge tun wie:

- Berechnen Sie **Statistiken** und beantworten Sie Fragen zu den Daten, wie
 - Was ist der Durchschnitt, Median, Max oder Min jeder Spalte?
 - Korreliert Spalte A mit Spalte B?
 - Wie sieht die Verteilung der Daten in Spalte C aus?
- **Bereinigen** Sie die Daten, indem Sie beispielsweise fehlende Werte entfernen und Zeilen oder Spalten nach bestimmten Kriterien filtern
- **Visualisieren** Sie die Daten mit Hilfe von Matplotlib. Zeichnen Sie Balken, Linien, Histogramme, Blasen und mehr.
- **Speichern** Sie die bereinigten, transformierten Daten zurück in eine CSV-Datei, eine andere Datei oder eine Datenbank

Bevor wir mit der Modellierung oder den komplexen Visualisierungen beginnen, müssen Sie die Beschaffenheit Ihres Datensatzes gut verstehen und **Pandas ist der beste Weg, dies zu tun**.

## Wie passt Pandas in das Data-Science-Toolkit?

Die Pandas-Bibliothek ist nicht nur eine zentrale Komponente des Data-Science-Toolkits, sondern wird auch in Verbindung mit anderen Bibliotheken dieser Sammlung verwendet.

Pandas baut auf dem **NumPy**-Paket auf, was bedeutet, dass ein Großteil der Struktur von NumPy in Pandas verwendet oder repliziert wird. Daten in Pandas werden häufig verwendet, um statistische Analysen in **SciPy**, Plotfunktionen aus **Matplotlib**, maschinelle Lernalgorithmen in **Scikit-learn** zu füttern oder als Basis für Textanalysen mit **nltk**.

## Pandas Erste Schritte

### Install and import
Pandas ist ein einfach zu installierendes Paket. Öffnen Sie Ihr Terminalprogramm (für Mac-Benutzer) oder die Kommandozeile (für PC-Benutzer) und installieren Sie es mit einem der folgenden Befehle:

`conda install pandas`

OR 

`pip install pandas`

In einem Jupyter-Notebook können Sie alternativ diese Zelle ausführen:

In [None]:
!pip install pandas

Das `!` am Anfang läuft Zellen wie in einem Terminal.

Um Pandas zu importieren, importieren wir es normalerweise mit einem kürzeren Namen, da es so oft verwendet wird:

In [None]:
import pandas as pd

Nun zu den Grundkomponenten von Pandas.

## Kernkomponenten von Pandas: Serien und DataFrames

Die beiden Hauptkomponenten von Pandas sind die "Series" und "DataFrame".

Eine **Series** ist im Wesentlichen eine **Spalte**, und ein **DataFrame** ist eine **mehrdimensionale Tabelle**, die aus einer Sammlung von Serien besteht.

<img src="/content/series-and-dataframe.png" width=600px />

DataFrames und Series sind sich insofern ziemlich ähnlich, als dass viele Operationen, die Sie mit einem ausführen können, Sie mit dem anderen ausführen können.

### Erstellen von DataFrames von Grund auf neu

Es gibt *viele* Möglichkeiten, einen DataFrame von Grund auf neu zu erstellen, aber eine großartige Option ist, einfach ein einfaches "dict" zu verwenden.

Nehmen wir an, wir haben einen Obststand, der Äpfel und Orangen verkauft. Wir möchten eine Spalte für jede Frucht und eine Zeile für jeden Kundenkauf haben. Um dies als Dictionary für Pandas zu speichern, könnten wir Folgendes tun:

In [None]:
data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2]
}

Und übergeben Sie es dann an den Pandas DataFrame-Konstruktor:

In [None]:
purchases = pd.DataFrame(data)

purchases

Unnamed: 0,apples,oranges
0,3,0
1,2,3
2,0,7
3,1,2


**Wie hat das funktioniert?**

Jedes *(Schlüssel, Wert)* Element in `data` entspricht einer *Spalte* im DataFrame.

Der **Index** dieses DataFrame wurde uns bei der Erstellung als Nummern 0-3 übergeben, wir könnten aber auch unseren eigenen erstellen, wenn wir den DataFrame initialisieren.

Lassen Sie uns Kundennamen als unseren Index haben:

In [None]:
purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])

purchases

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Jetzt konnten wir die Bestellung eines Kunden mithilfe seines Namens **lokalisieren**:

In [None]:
purchases.loc['June']

apples     3
oranges    0
Name: June, dtype: int64

## Daten einlesen

Es ist ganz einfach, Daten aus verschiedenen Dateiformaten in einen DataFrame zu laden. In den folgenden Beispielen verwenden wir weiterhin unsere Apfel- und Orangendaten, aber diesmal stammen sie aus verschiedenen Dateien.

### Daten aus CSVs lesen

Bei CSV-Dateien brauchen Sie nur eine einzige Zeile zum Laden der Daten:

In [None]:
df = pd.read_csv('/content/purchases.csv')

df

Unnamed: 0.1,Unnamed: 0,apples,oranges
0,June,3,0
1,Robert,2,3
2,Lily,0,7
3,David,1,2


CSVs haben keine Indizes wie unsere DataFrames, also müssen wir beim Lesen nur die `index_col` angeben:

In [None]:
df = pd.read_csv('purchases.csv', index_col=0)

df

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Hier setzen wir den Index auf Spalte Null.

Sie werden feststellen, dass die meisten CSVs nie eine Indexspalte haben und Sie sich daher in der Regel nicht um diesen Schritt kümmern müssen.

### Daten aus einer SQL-Datenbank lesen

Wenn Sie mit Daten aus einer SQL-Datenbank arbeiten, müssen Sie zunächst eine Verbindung mit einer geeigneten Python-Bibliothek herstellen und dann eine Abfrage an pandas übergeben. Hier verwenden wir SQLite, um dies zu demonstrieren.

Zuerst müssen wir `pysqlite3` installiert haben, also führen Sie diesen Befehl in Ihrem Terminal aus:

`pip install pysqlite3`

Or run this cell if you're in a notebook:

Oder führen Sie diese Zelle aus, wenn Sie sich in einem Notebook befinden:

In [None]:
!pip install pysqlite3

`sqlite3` is used to create a connection to a database which we can then use to generate a DataFrame through a `SELECT` query.

So first we'll make a connection to a SQLite database file:

`sqlite3` wird verwendet, um eine Verbindung zu einer Datenbank herzustellen, die wir dann verwenden können, um einen DataFrame durch eine `SELECT`-Abfrage zu generieren.

Zuerst stellen wir also eine Verbindung zu einer SQLite-Datenbankdatei her:

In [None]:
import sqlite3

con = sqlite3.connect("database.db")

**Note**: If you have data in PostgreSQL, MySQL, or some other SQL server, you'll need to obtain the right Python library to make a connection. For example, `psycopg2` ([link](http://initd.org/psycopg/download/)) is a commonly used library for making connections to PostgreSQL. Furthermore, you would make a connection to a database URI instead of a file like we did here with SQLite. For a great course on SQL check out [The Complete SQL Bootcamp](https://learndatasci.com/out/udemy-the-complete-sql-bootcamp/) on Udemy


In this SQLite database we have a table called *purchases*, and our index is in a column called "index". 

By passing a SELECT query and our `con`, we can read from the *purchases* table:

**Hinweis**: Wenn Sie Daten in PostgreSQL, MySQL oder einem anderen SQL-Server haben, benötigen Sie die richtige Python-Bibliothek, um eine Verbindung herzustellen. Beispielsweise ist `psycopg2` ([link](http://initd.org/psycopg/download/)) eine häufig verwendete Bibliothek zum Herstellen von Verbindungen zu PostgreSQL. Außerdem würden Sie eine Verbindung zu einer Datenbank-URI anstelle einer Datei herstellen, wie wir es hier mit SQLite getan haben. Einen großartigen Kurs zu SQL finden Sie in [The Complete SQL Bootcamp](https://learndatasci.com/out/udemy-the-complete-sql-bootcamp/) auf Udemy


In dieser SQLite-Datenbank haben wir eine Tabelle namens *purchases*, und unser Index befindet sich in einer Spalte namens "index".

Indem wir eine SELECT-Abfrage und unser `con` übergeben, können wir aus der Tabelle *purchases* lesen:

In [None]:
df = pd.read_sql_query("SELECT * FROM purchases", con)

df

Just like with CSVs, we could pass `index_col='index'`, but we can also set an index after-the-fact:

Genau wie bei CSVs könnten wir `index_col='index'` übergeben, aber wir können auch nachträglich einen Index setzen:

In [None]:
df = df.set_index('index')

df

In fact, we could use `set_index()` on *any* DataFrame using *any* column at *any* time. Indexing Series and DataFrames is a very common task, and the different ways of doing it is worth remembering.

Tatsächlich könnten wir `set_index()` für *beliebige* DataFrames mit *beliebigen* Spalten zu *beliebigen* Zeiten verwenden. Das Indizieren von Serien und DataFrames ist eine sehr häufige Aufgabe, und es lohnt sich, sich an die verschiedenen Vorgehensweisen zu erinnern.

### Rückkonvertierung in CSV, JSON oder SQL

Nach umfangreichen Arbeiten zur Bereinigung Ihrer Daten können Sie diese nun als Datei Ihrer Wahl speichern. Ähnlich wie wir Daten einlesen, bietet pandas intuitive Befehle zum Speichern:

In [None]:
df.to_csv('new_purchases.csv')

df.to_json('new_purchases.json')

df.to_sql('new_purchases', con)

Wenn wir JSON- und CSV-Dateien speichern, müssen wir nur unseren gewünschten Dateinamen mit der entsprechenden Dateierweiterung in diese Funktionen eingeben. Mit SQL erstellen wir keine neue Datei, sondern fügen stattdessen eine neue Tabelle in die Datenbank ein, indem wir unsere Variable `con` von zuvor verwenden.

Lassen Sie uns zum Importieren einiger realer Daten übergehen und einige der Operationen detailliert beschreiben, die Sie häufig verwenden werden.


## Wichtigste DataFrame-Operationen

DataFrames verfügen über Hunderte von Methoden und anderen Operationen, die für jede Analyse von entscheidender Bedeutung sind. Als Anfänger sollten Sie die Operationen kennen, die einfache Transformationen Ihrer Daten durchführen, und die Operationen, die grundlegende statistische Analysen ermöglichen.

Laden wir zunächst den IMDB-Filmdatensatz:

In [None]:
movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title")

Wir laden diesen Datensatz aus einer CSV-Datei und legen die Filmtitel als unseren Index fest.

### Daten einsehen

Das erste, was Sie beim Öffnen eines neuen Datasets tun müssen, ist, einige Zeilen auszudrucken, um sie als visuelle Referenz aufzubewahren. Dies erreichen wir mit `.head()`:

In [None]:
movies_df.head()

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


`.head()` outputs the **first** five rows of your DataFrame by default, but we could also pass a number as well: `movies_df.head(10)` would output the top ten rows, for example. 

To see the **last** five rows use `.tail()`. `tail()` also accepts a number, and in this case we printing the bottom two rows.:

`.head()` gibt standardmäßig die **ersten** fünf Zeilen Ihres DataFrame aus, aber wir könnten auch eine Zahl übergeben: `movies_df.head(10)` würde die obersten zehn Zeilen ausgeben, beispielsweise.

Um die **letzten** fünf Zeilen anzuzeigen, verwenden Sie `.tail()`. `tail()` akzeptiert auch eine Zahl, und in diesem Fall drucken wir die unteren beiden Zeilen.:

In [None]:
movies_df.tail(2)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


Typically when we load in a dataset, we like to view the first five or so rows to see what's under the hood. Here we can see the names of each column, the index, and examples of values in each row.

You'll notice that the index in our DataFrame is the *Title* column, which you can tell by how the word *Title* is slightly lower than the rest of the columns.

Normalerweise sehen wir uns beim Laden eines Datasets gerne die ersten fünf oder so Zeilen an, um zu sehen, was sich unter der Haube verbirgt. Hier sehen wir die Namen jeder Spalte, den Index und Beispiele für Werte in jeder Zeile.

Sie werden feststellen, dass der Index in unserem DataFrame die Spalte *Titel* ist, was Sie daran erkennen können, dass das Wort *Titel* etwas niedriger ist als der Rest der Spalten.

### Informationen zu Ihren Daten abrufen

`.info()` sollte einer der allerersten Befehle sein, die Sie ausführen, nachdem Sie Ihre Daten geladen haben:

In [None]:
movies_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
Rank                  1000 non-null int64
Genre                 1000 non-null object
Description           1000 non-null object
Director              1000 non-null object
Actors                1000 non-null object
Year                  1000 non-null int64
Runtime (Minutes)     1000 non-null int64
Rating                1000 non-null float64
Votes                 1000 non-null int64
Revenue (Millions)    872 non-null float64
Metascore             936 non-null float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB


`.info()` provides the essential details about your dataset, such as the number of rows and columns, the number of non-null values, what type of data is in each column, and how much memory your DataFrame is using. 

Notice in our movies dataset we have some obvious missing values in the `Revenue` and `Metascore` columns. We'll look at how to handle those in a bit.

Seeing the datatype quickly is actually quite useful. Imagine you just imported some JSON and the integers were recorded as strings. You go to do some arithmetic and find an "unsupported operand" Exception because you can't do math with strings. Calling `.info()` will quickly point out that your column you thought was all integers are actually string objects.

Another fast and useful attribute is `.shape`, which outputs just a tuple of (rows, columns):

`.info()` liefert die wesentlichen Details zu Ihrem Datensatz, wie die Anzahl der Zeilen und Spalten, die Anzahl der Nicht-Null-Werte, welcher Datentyp sich in jeder Spalte befindet und wie viel Speicher Ihr DataFrame verwendet.

Beachten Sie, dass in unserem Filmdatensatz einige offensichtlich fehlende Werte in den Spalten "Umsatz" und "Metascore" vorhanden sind. Wir werden uns gleich ansehen, wie man damit umgeht.

Es ist tatsächlich sehr nützlich, den Datentyp schnell zu sehen. Stellen Sie sich vor, Sie haben gerade JSON importiert und die Ganzzahlen wurden als Strings aufgezeichnet. Sie gehen etwas arithmetisch und finden eine Ausnahme "nicht unterstützter Operand", weil Sie mit Strings keine Mathematik ausführen können. Der Aufruf von `.info()` wird schnell darauf hinweisen, dass Ihre Spalte, von der Sie dachten, dass sie nur ganze Zahlen enthält, tatsächlich String-Objekte sind.

Ein weiteres schnelles und nützliches Attribut ist `.shape`, das nur ein Tupel von (Zeilen, Spalten) ausgibt:

In [None]:
movies_df.shape

(1000, 11)

Note that `.shape` has no parentheses and is a simple tuple of format (rows, columns). So we have **1000 rows** and **11 columns** in our movies DataFrame.

You'll be going to `.shape` a lot when cleaning and transforming data. For example, you might filter some rows based on some criteria and then want to know quickly how many rows were removed.

Beachten Sie, dass `.shape` keine Klammern hat und ein einfaches Formattupel (Zeilen, Spalten) ist. Wir haben also **1000 Zeilen** und **11 Spalten** in unserem Film-DataFrame.

Beim Bereinigen und Transformieren von Daten werden Sie viel ".shape" werden. Sie können beispielsweise einige Zeilen nach bestimmten Kriterien filtern und dann schnell wissen, wie viele Zeilen entfernt wurden.

### Spaltenbereinigung

In vielen Fällen enthalten Datensätze ausführliche Spaltennamen mit Symbolen, Groß- und Kleinbuchstaben, Leerzeichen und Tippfehlern. Um die Auswahl von Daten nach Spaltennamen zu erleichtern, können wir ein wenig Zeit damit verbringen, ihre Namen zu bereinigen.

So drucken Sie die Spaltennamen unseres Datasets:

In [None]:
movies_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

Not only does `.columns` come in handy if you want to rename columns by allowing for simple copy and paste, it's also useful if you need to understand why you are receiving a `Key Error` when selecting data by column.

We can use the `.rename()` method to rename certain or all columns via a `dict`. We don't want parentheses, so let's rename those:

`.columns` ist nicht nur praktisch, wenn Sie Spalten durch einfaches Kopieren und Einfügen umbenennen möchten, es ist auch nützlich, wenn Sie verstehen möchten, warum Sie einen `Schlüsselfehler` erhalten, wenn Sie Daten nach Spalten auswählen.

Wir können die Methode `.rename()` verwenden, um bestimmte oder alle Spalten über ein `dict` umzubenennen. Wir wollen keine Klammern, also benennen wir diese um:

In [None]:
movies_df.rename(columns={
        'Runtime (Minutes)': 'Runtime', 
        'Revenue (Millions)': 'Revenue_millions'
    }, inplace=True)


movies_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime',
       'Rating', 'Votes', 'Revenue_millions', 'Metascore'],
      dtype='object')

Excellent. But what if we want to lowercase all names? Instead of using `.rename()` we could also set a list of names to the columns like so:

Ausgezeichnet. Aber was ist, wenn wir alle Namen klein schreiben wollen? Anstatt `.rename()` zu verwenden, könnten wir auch eine Liste von Namen für die Spalten wie folgt setzen:

In [None]:
movies_df.columns = ['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime', 
                     'rating', 'votes', 'revenue_millions', 'metascore']


movies_df.columns

Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

But that's too much work. Instead of just renaming each column manually we can do a list comprehension:

Aber das ist zu viel Arbeit. Anstatt jede Spalte manuell umzubenennen, können wir ein Listenverständnis durchführen:

In [None]:
movies_df.columns = [col.lower() for col in movies_df]

movies_df.columns

Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

`list` (and `dict`) comprehensions come in handy a lot when working with pandas and data in general.

It's a good idea to lowercase, remove special characters, and replace spaces with underscores if you'll be working with a dataset for some time.

### So arbeiten Sie mit fehlenden Werten

Beim Durchsuchen von Daten werden Sie höchstwahrscheinlich auf fehlende oder Nullwerte stoßen, die im Wesentlichen Platzhalter für nicht vorhandene Werte sind. Am häufigsten werden Sie Pythons `None` oder NumPys `np.nan` sehen, die in manchen Situationen unterschiedlich gehandhabt werden.

Es gibt zwei Möglichkeiten, mit Nullen umzugehen:

1. Entfernen Sie Zeilen oder Spalten mit Nullen
2. Ersetzen Sie Nullen durch Nicht-Null-Werte, eine Technik, die als **Imputation** . bekannt ist

Lassen Sie uns die Gesamtzahl der Nullen in jeder Spalte unseres Datasets berechnen. Der erste Schritt besteht darin, zu überprüfen, welche Zellen in unserem DataFrame null sind:

In [None]:
movies_df.isnull()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,False,False,False,False,False,False,False,False,False,False,False
Prometheus,False,False,False,False,False,False,False,False,False,False,False
Split,False,False,False,False,False,False,False,False,False,False,False
Sing,False,False,False,False,False,False,False,False,False,False,False
Suicide Squad,False,False,False,False,False,False,False,False,False,False,False


Notice `isnull()` returns a DataFrame where each cell is either True or False depending on that cell's null status.

To count the number of nulls in each column we use an aggregate function for summing: 

Beachten Sie, dass `isnull()` einen DataFrame zurückgibt, bei dem jede Zelle entweder True oder False ist, abhängig vom Nullstatus dieser Zelle.

Um die Anzahl der Nullen in jeder Spalte zu zählen, verwenden wir eine Aggregatfunktion zum Summieren:

In [None]:
movies_df.isnull().sum()

rank                  0
genre                 0
description           0
director              0
actors                0
year                  0
runtime               0
rating                0
votes                 0
revenue_millions    128
metascore            64
dtype: int64

`.isnull()` just by iteself isn't very useful, and is usually used in conjunction with other methods, like `sum()`.

We can see now that our data has **128** missing values for `revenue_millions` and **64** missing values for `metascore`.

`.isnull()` allein ist nicht sehr nützlich und wird normalerweise in Verbindung mit anderen Methoden wie `sum()` verwendet.

Wir können jetzt sehen, dass unsere Daten **128** fehlende Werte für `revenue_millions` und **64** fehlende Werte für `metascore` aufweisen.

#### Removing null values

Data Scientists and Analysts regularly face the dilemma of dropping or imputing null values, and is a decision that requires intimate knowledge of your data and its context. Overall, removing null data is only suggested if you have a small amount of missing data.

Remove nulls is pretty simple:

#### Nullwerte entfernen

Data Scientists und Analysten stehen regelmäßig vor dem Dilemma, Nullwerte zu verwerfen oder zu imputieren. Dies ist eine Entscheidung, die genaue Kenntnisse Ihrer Daten und ihres Kontexts erfordert. Insgesamt wird das Entfernen von Nulldaten nur empfohlen, wenn nur eine geringe Menge an fehlenden Daten vorhanden ist.

Nullen entfernen ist ziemlich einfach:

In [None]:
movies_df.dropna()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
The Great Wall,6,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036,45.13,42.0
La La Land,7,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0
The Lost City of Z,9,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188,8.01,78.0
Passengers,10,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177,100.01,41.0
Fantastic Beasts and Where to Find Them,11,"Adventure,Family,Fantasy",The adventures of writer Newt Scamander in New...,David Yates,"Eddie Redmayne, Katherine Waterston, Alison Su...",2016,133,7.5,232072,234.02,66.0


This operation will delete any **row** with at least a single null value, but it will return a new DataFrame without altering the original one. You could specify `inplace=True` in this method as well.

So in the case of our dataset, this operation would remove 128 rows where `revenue_millions` is null and 64 rows where `metascore` is null. This obviously seems like a waste since there's perfectly good data in the other columns of those dropped rows. That's why we'll look at imputation next.

Other than just dropping rows, you can also drop columns with null values by setting `axis=1`:

Dieser Vorgang löscht jede **Zeile** mit mindestens einem einzigen Nullwert, gibt jedoch einen neuen DataFrame zurück, ohne den ursprünglichen zu ändern. Sie könnten in dieser Methode auch `inplace=True` angeben.

Im Fall unseres Datensatzes würde diese Operation also 128 Zeilen entfernen, bei denen `revenue_millions` null ist und 64 Zeilen, wo `metascore` null ist. Dies scheint offensichtlich eine Verschwendung zu sein, da in den anderen Spalten dieser gelöschten Zeilen vollkommen gute Daten vorhanden sind. Deshalb werden wir uns als nächstes mit der Imputation befassen.

Sie können nicht nur Zeilen löschen, sondern auch Spalten mit Nullwerten löschen, indem Sie `axis=1` setzen:

In [None]:
movies_df.dropna(axis=1)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727
The Great Wall,6,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036
La La Land,7,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682
Mindhorn,8,Comedy,A has-been actor best known for playing the ti...,Sean Foley,"Essie Davis, Andrea Riseborough, Julian Barrat...",2016,89,6.4,2490
The Lost City of Z,9,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188
Passengers,10,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177


In our dataset, this operation would drop the `revenue_millions` and `metascore` columns.

**Intuition side note**: What's with this `axis=1` parameter?

It's not immediately obvious where `axis` comes from and why you need it to be 1 for it to affect columns. To see why, just look at the `.shape` output:

In unserem Datensatz würde diese Operation die Spalten "revenue_millions" und "metascore" löschen.

**Intuitions-Randnotiz**: Was ist mit diesem `axis=1`-Parameter?

Es ist nicht sofort ersichtlich, woher `axis` kommt und warum es 1 sein muss, damit es sich auf Spalten auswirkt. Um zu sehen, warum, sehen Sie sich einfach die Ausgabe von `.shape` an:

In [None]:
movies_df.shape

(1000, 11)

As we learned above, this is a tuple that represents the shape of the DataFrame, i.e. 1000 rows and 11 columns. Note that the *rows* are at index zero of this tuple and *columns* are at **index one** of this tuple. This is why `axis=1` affects columns. This comes from NumPy, and is a great example of why learning NumPy is worth your time.

Wie wir oben gelernt haben, ist dies ein Tupel, das die Form des DataFrame darstellt, d. h. 1000 Zeilen und 11 Spalten. Beachten Sie, dass die *Zeilen* bei Index Null dieses Tupels und *Spalten* bei **Index Eins** dieses Tupels liegen. Aus diesem Grund wirkt sich `axis=1` auf Spalten aus. Dies kommt von NumPy und ist ein großartiges Beispiel dafür, warum es sich lohnt, NumPy zu lernen.

### Ihre Variablen verstehen

Using `describe()` on an entire DataFrame we can get a summary of the distribution of continuous variables:

Mit `describe()` für einen gesamten DataFrame können wir eine Zusammenfassung der Verteilung kontinuierlicher Variablen erhalten:

In [None]:
movies_df.describe()

Unnamed: 0,rank,year,runtime,rating,votes,revenue_millions,metascore
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,936.0
mean,500.5,2012.783,113.172,6.7232,169808.3,82.956376,58.985043
std,288.819436,3.205962,18.810908,0.945429,188762.6,96.412043,17.194757
min,1.0,2006.0,66.0,1.9,61.0,0.0,11.0
25%,250.75,2010.0,100.0,6.2,36309.0,17.4425,47.0
50%,500.5,2014.0,111.0,6.8,110799.0,60.375,59.5
75%,750.25,2016.0,123.0,7.4,239909.8,99.1775,72.0
max,1000.0,2016.0,191.0,9.0,1791916.0,936.63,100.0


Understanding which numbers are continuous also comes in handy when thinking about the type of plot to use to represent your data visually. 

`.describe()` can also be used on a categorical variable to get the count of rows, unique count of categories, top category, and freq of top category:

Es ist auch hilfreich zu verstehen, welche Zahlen kontinuierlich sind, wenn Sie über die Art des Diagramms nachdenken, das Sie verwenden sollen, um Ihre Daten visuell darzustellen.

`.describe()` kann auch für eine kategoriale Variable verwendet werden, um die Anzahl der Zeilen, die eindeutige Anzahl der Kategorien, die Top-Kategorie und die Häufigkeit der Top-Kategorie zu erhalten:

In [None]:
movies_df['genre'].describe()

count                        1000
unique                        207
top       Action,Adventure,Sci-Fi
freq                           50
Name: genre, dtype: object

This tells us that the genre column has 207 unique values, the top value is Action/Adventure/Sci-Fi, which shows up 50 times (freq).

`.value_counts()` can tell us the frequency of all values in a column:

Dies sagt uns, dass die Genre-Spalte 207 eindeutige Werte hat, der oberste Wert ist Action/Adventure/Sci-Fi, der 50-mal (Häufigkeit) angezeigt wird.

`.value_counts()` kann uns die Häufigkeit aller Werte in einer Spalte mitteilen:

In [None]:
movies_df['genre'].value_counts().head(10)

Action,Adventure,Sci-Fi       50
Drama                         48
Comedy,Drama,Romance          35
Comedy                        32
Drama,Romance                 31
Action,Adventure,Fantasy      27
Comedy,Drama                  27
Animation,Adventure,Comedy    27
Comedy,Romance                26
Crime,Drama,Thriller          24
Name: genre, dtype: int64

### DataFrame in Scheiben schneiden, auswählen, extrahieren

Bisher haben wir uns auf einige grundlegende Zusammenfassungen unserer Daten konzentriert. Wir haben die einfache Spaltenextraktion mit einzelnen Klammern kennengelernt und mit `fillna()` Nullwerte in eine Spalte imputiert. Im Folgenden sind die anderen Methoden zum Schneiden, Auswählen und Extrahieren aufgeführt, die Sie ständig verwenden müssen.

Es ist wichtig zu beachten, dass DataFrames und Series, obwohl viele Methoden gleich sind, unterschiedliche Attribute haben. Sie müssen also sicher sein, mit welchem ​​Typ Sie arbeiten, sonst erhalten Sie Attributfehler.

Schauen wir uns zuerst die Arbeit mit Spalten an.

#### By column

You already saw how to extract a column using square brackets like this:

#### Nach Spalte

Sie haben bereits gesehen, wie Sie eine Spalte mit eckigen Klammern wie folgt extrahieren:

In [None]:
genre_col = movies_df['genre']

type(genre_col)

pandas.core.series.Series

This will return a *Series*. To extract a column as a *DataFrame*, you need to pass a list of column names. In our case that's just a single column:

Dies gibt eine *Serie* zurück. Um eine Spalte als *DataFrame* zu extrahieren, müssen Sie eine Liste von Spaltennamen übergeben. In unserem Fall ist das nur eine einzelne Spalte:

In [None]:
genre_col = movies_df[['genre']]

type(genre_col)

pandas.core.frame.DataFrame

Since it's just a list, adding another column name is easy:

Da es sich nur um eine Liste handelt, ist das Hinzufügen eines weiteren Spaltennamens einfach:

In [None]:
subset = movies_df[['genre', 'rating']]

subset.head()

Unnamed: 0_level_0,genre,rating
Title,Unnamed: 1_level_1,Unnamed: 2_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",8.1
Prometheus,"Adventure,Mystery,Sci-Fi",7.0
Split,"Horror,Thriller",7.3
Sing,"Animation,Comedy,Family",7.2
Suicide Squad,"Action,Adventure,Fantasy",6.2


Now we'll look at getting data by rows.

Jetzt betrachten wir das Abrufen von Daten nach Zeilen.

#### By rows

#### Nach Reihen

For rows, we have two options: 

- `.loc` - **loc**ates by name
- `.iloc`- **loc**ates by numerical **i**ndex

Remember that we are still indexed by movie Title, so to use `.loc` we give it the Title of a movie:

Für Zeilen haben wir zwei Möglichkeiten:

- `.loc` - **loc**atet nach Namen
- `.iloc`- **loc**atet durch numerischen **i**index

Denken Sie daran, dass wir immer noch nach Filmtitel indiziert sind. Um `.loc` zu verwenden, geben wir ihm den Titel eines Films:

In [None]:
prom = movies_df.loc["Prometheus"]

prom

rank                                                                2
genre                                        Adventure,Mystery,Sci-Fi
description         Following clues to the origin of mankind, a te...
director                                                 Ridley Scott
actors              Noomi Rapace, Logan Marshall-Green, Michael Fa...
year                                                             2012
runtime                                                           124
rating                                                              7
votes                                                          485820
revenue_millions                                               126.46
metascore                                                          65
Name: Prometheus, dtype: object

On the other hand, with `iloc` we give it the numerical index of Prometheus:

Andererseits geben wir ihm mit `iloc` den numerischen Index von Prometheus:

In [None]:
prom = movies_df.iloc[1]

`loc` and `iloc` can be thought of as similar to Python `list` slicing. To show this even further, let's select multiple rows.

How would you do it with a list? In Python, just slice with brackets like `example_list[1:4]`. It's works the same way in pandas:

`loc` und `iloc` kann man sich ähnlich vorstellen wie Python `list`-Slicing. Um dies noch weiter zu verdeutlichen, wählen wir mehrere Zeilen aus.

Wie würdest du das mit einer Liste machen? In Python schneiden Sie einfach mit Klammern wie `example_list[1:4]`. Bei Pandas funktioniert es genauso:

In [None]:
movie_subset = movies_df.loc['Prometheus':'Sing']

movie_subset = movies_df.iloc[1:4]

movie_subset

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0


One important distinction between using `.loc` and `.iloc` to select multiple rows is that `.loc` includes the movie *Sing* in the result, but when using `.iloc` we're getting rows 1:4 but the movie at index 4 (*Suicide Squad*) is not included. 

Slicing with `.iloc` follows the same rules as slicing with lists, the object at the index at the end is not included.

#### Conditional selections
We’ve gone over how to select columns and rows, but what if we want to make a conditional selection? 

For example, what if we want to filter our movies DataFrame to show only films directed by Ridley Scott or films with a rating greater than or equal to 8.0?

To do that, we take a column from the DataFrame and apply a Boolean condition to it. Here's an example of a Boolean condition:

Ein wichtiger Unterschied zwischen der Verwendung von `.loc` und `.iloc` zur Auswahl mehrerer Zeilen besteht darin, dass `.loc` den Film *Sing* in das Ergebnis einschließt, aber wenn wir `.iloc` verwenden, erhalten wir Zeilen 1:4, aber der Film bei Index 4 (*Suicide Squad*) ist nicht enthalten.

Das Slicing mit `.iloc` folgt den gleichen Regeln wie das Slicing mit Listen, das Objekt am Index am Ende wird nicht eingeschlossen.

#### Bedingte Auswahl
Wir haben besprochen, wie Sie Spalten und Zeilen auswählen, aber was ist, wenn wir eine bedingte Auswahl treffen möchten?

Was ist zum Beispiel, wenn wir unseren Film DataFrame filtern möchten, um nur Filme von Ridley Scott oder Filme mit einer Bewertung größer oder gleich 8.0 anzuzeigen?

Dazu nehmen wir eine Spalte aus dem DataFrame und wenden eine Boolesche Bedingung darauf an. Hier ist ein Beispiel für eine boolesche Bedingung:

In [None]:
condition = (movies_df['director'] == "Ridley Scott")

condition.head()

Title
Guardians of the Galaxy    False
Prometheus                  True
Split                      False
Sing                       False
Suicide Squad              False
Name: director, dtype: bool

Similar to `isnull()`, this returns a Series of True and False values: True for films directed by Ridley Scott and False for ones not directed by him. 

We want to filter out all movies not directed by Ridley Scott, in other words, we don’t want the False films. To return the rows where that condition is True we have to pass this operation into the DataFrame:

Ähnlich wie `isnull()` gibt dies eine Reihe von True- und False-Werten zurück: True für Filme, bei denen Ridley Scott Regie führte, und False für Filme, die nicht von ihm gedreht wurden.

Wir wollen alle Filme herausfiltern, die nicht von Ridley Scott inszeniert wurden, mit anderen Worten, wir wollen keine falschen Filme. Um die Zeilen zurückzugeben, in denen diese Bedingung True ist, müssen wir diese Operation an den DataFrame übergeben:

In [None]:
movies_df[movies_df['director'] == "Ridley Scott"].head()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,bad
The Martian,103,"Adventure,Drama,Sci-Fi",An astronaut becomes stranded on Mars after hi...,Ridley Scott,"Matt Damon, Jessica Chastain, Kristen Wiig, Ka...",2015,144,8.0,556097,228.43,80.0,good
Robin Hood,388,"Action,Adventure,Drama","In 12th century England, Robin and his band of...",Ridley Scott,"Russell Crowe, Cate Blanchett, Matthew Macfady...",2010,140,6.7,221117,105.22,53.0,bad
American Gangster,471,"Biography,Crime,Drama","In 1970s America, a detective works to bring d...",Ridley Scott,"Denzel Washington, Russell Crowe, Chiwetel Eji...",2007,157,7.8,337835,130.13,76.0,bad
Exodus: Gods and Kings,517,"Action,Adventure,Drama",The defiant leader Moses rises up against the ...,Ridley Scott,"Christian Bale, Joel Edgerton, Ben Kingsley, S...",2014,150,6.0,137299,65.01,52.0,bad


You can get used to looking at these conditionals by reading it like: 

> Select movies_df where movies_df director equals Ridley Scott

Let's look at conditional selections using numerical values by filtering the DataFrame by ratings:

Sie können sich daran gewöhnen, diese Bedingungen zu betrachten, indem Sie sie wie folgt lesen:

> Wählen Sie Filme_df aus, bei denen Filme_df-Regisseur Ridley Scott entspricht

Sehen wir uns bedingte Auswahlen mit numerischen Werten an, indem wir den DataFrame nach Bewertungen filtern:

In [None]:
movies_df[movies_df['rating'] >= 8.6].head(3)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0


We can make some richer conditionals by using logical operators `|` for "or" and `&` for "and".

Let's filter the the DataFrame to show only movies by Christopher Nolan OR Ridley Scott:

Wir können mit den logischen Operatoren `|` für „oder“ und `&` für „und“ einige reichere Bedingungen erstellen.

Lassen Sie uns den DataFrame filtern, um nur Filme von Christopher Nolan ODER Ridley Scott anzuzeigen:

In [None]:
movies_df[(movies_df['director'] == 'Christopher Nolan') | (movies_df['director'] == 'Ridley Scott')].head()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
The Prestige,65,"Drama,Mystery,Sci-Fi",Two stage magicians engage in competitive one-...,Christopher Nolan,"Christian Bale, Hugh Jackman, Scarlett Johanss...",2006,130,8.5,913152,53.08,66.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0


We need to make sure to group evaluations with parentheses so Python knows how to evaluate the conditional.

Using the `isin()` method we could make this more concise though:

Wir müssen sicherstellen, dass die Auswertungen mit Klammern gruppiert werden, damit Python weiß, wie die Bedingung ausgewertet wird.

Mit der Methode `isin()` könnten wir dies jedoch prägnanter machen:

In [None]:
movies_df[movies_df['director'].isin(['Christopher Nolan', 'Ridley Scott'])].head()

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Interstellar,37,"Adventure,Drama,Sci-Fi",A team of explorers travel through a wormhole ...,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",2014,169,8.6,1047747,187.99,74.0
The Dark Knight,55,"Action,Crime,Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,"Christian Bale, Heath Ledger, Aaron Eckhart,Mi...",2008,152,9.0,1791916,533.32,82.0
The Prestige,65,"Drama,Mystery,Sci-Fi",Two stage magicians engage in competitive one-...,Christopher Nolan,"Christian Bale, Hugh Jackman, Scarlett Johanss...",2006,130,8.5,913152,53.08,66.0
Inception,81,"Action,Adventure,Sci-Fi","A thief, who steals corporate secrets through ...",Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellen...",2010,148,8.8,1583625,292.57,74.0


Let's say we want all movies that were released between 2005 and 2010, have a rating above 8.0, but made below the 25th percentile in revenue.

Here's how we could do all of that:

Nehmen wir an, wir möchten, dass alle Filme, die zwischen 2005 und 2010 veröffentlicht wurden, eine Bewertung über 8,0 haben, aber unter dem 25. Perzentil des Umsatzes gemacht werden.

So könnten wir das alles machen:

In [None]:
movies_df[
    ((movies_df['year'] >= 2005) & (movies_df['year'] <= 2010))
    & (movies_df['rating'] > 8.0)
    & (movies_df['revenue_millions'] < movies_df['revenue_millions'].quantile(0.25))
]

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3 Idiots,431,"Comedy,Drama",Two friends are searching for their long lost ...,Rajkumar Hirani,"Aamir Khan, Madhavan, Mona Singh, Sharman Joshi",2009,170,8.4,238789,6.52,67.0
The Lives of Others,477,"Drama,Thriller","In 1984 East Berlin, an agent of the secret po...",Florian Henckel von Donnersmarck,"Ulrich Mühe, Martina Gedeck,Sebastian Koch, Ul...",2006,137,8.5,278103,11.28,89.0
Incendies,714,"Drama,Mystery,War",Twins journey to the Middle East to discover t...,Denis Villeneuve,"Lubna Azabal, Mélissa Désormeaux-Poulin, Maxim...",2010,131,8.2,92863,6.86,80.0
Taare Zameen Par,992,"Drama,Family,Music",An eight-year-old boy is thought to be a lazy ...,Aamir Khan,"Darsheel Safary, Aamir Khan, Tanay Chheda, Sac...",2007,165,8.5,102697,1.2,42.0


If you recall up when we used `.describe()` the 25th percentile for revenue was about 17.4, and we can access this value directly by using the `quantile()` method with a float of 0.25.

So here we have only four movies that match that criteria.

Wenn Sie sich erinnern, dass bei der Verwendung von `.describe()` das 25. Perzentil für den Umsatz ungefähr 17,4 betrug, und wir können direkt auf diesen Wert zugreifen, indem wir die Methode `quantile()` mit einer Gleitkommazahl von 0,25 verwenden.

Hier haben wir also nur vier Filme, die diesen Kriterien entsprechen.

## Funktionen anwenden

Es ist möglich, wie bei einer Liste über einen DataFrame oder eine Serie zu iterieren, aber dies ist – insbesondere bei großen Datensätzen – sehr langsam.

Eine effiziente Alternative besteht darin, eine Funktion auf den Datensatz `apply()` anzuwenden. Zum Beispiel könnten wir eine Funktion verwenden, um Filme mit einer 8.0 oder höher in einen Zeichenfolgenwert von "gut" und den Rest in "schlecht" umzuwandeln und diese transformierten Werte verwenden, um eine neue Spalte zu erstellen.

Zuerst würden wir eine Funktion erstellen, die bei einer Bewertung bestimmt, ob sie gut oder schlecht ist:

In [None]:
def rating_function(x):
    if x >= 8.0:
        return "good"
    else:
        return "bad"

Jetzt wollen wir die gesamte Bewertungsspalte durch diese Funktion senden, was `apply()` tut:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(rating_function)

movies_df.head(2)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,good
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,bad


Die Methode `.apply()` leitet jeden Wert in der Spalte `rating` durch die `rating_Funktion` und gibt dann eine neue Serie zurück. Diese Serie wird dann einer neuen Spalte namens `rating_category` zugewiesen.

Sie können auch anonyme Funktionen verwenden. Diese Lambda-Funktion erzielt das gleiche Ergebnis wie `rating_function`:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(lambda x: 'good' if x >= 8.0 else 'bad')

movies_df.head(2)

Unnamed: 0_level_0,rank,genre,description,director,actors,year,runtime,rating,votes,revenue_millions,metascore,rating_category
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0,good
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0,bad


Insgesamt ist die Verwendung von `apply()` viel schneller als das manuelle Durchlaufen von Zeilen, da Pandas Vektorisierung verwendet.

> Vektorisierung: ein Stil der Computerprogrammierung, bei dem Operationen auf ganze Arrays statt auf einzelne Elemente angewendet werden —[Wikipedia](https://en.wikipedia.org/wiki/Vectorization)

Ein gutes Beispiel für die häufige Verwendung von `apply()` ist bei der Verarbeitung natürlicher Sprache (NLP). Sie müssen alle möglichen Textbereinigungsfunktionen auf Zeichenfolgen anwenden, um sich auf maschinelles Lernen vorzubereiten.

## Wrap up

Das Erkunden, Bereinigen, Transformieren und Visualisieren von Daten mit Pandas in Python ist eine wesentliche Fähigkeit in der Datenwissenschaft. Nur das Bereinigen von Daten macht 80% Ihrer Arbeit als Data Scientist aus. Nach ein paar Projekten und etwas Übung sollten Sie mit den meisten Grundlagen sehr vertraut sein.

Um sich weiter zu verbessern, sehen Sie sich die [umfangreichen Tutorials](https://pandas.pydata.org/pandas-docs/stable/tutorials.html) an, die von den offiziellen Pandas-Dokumenten angeboten werden, und folgen Sie zusammen mit einigen [Kaggle-Kerneln](https: //www.kaggle.com/kernels) und arbeite weiter an deinen eigenen Projekten!