# Hello Pandas

#### Pandas für Data Science ist ein wenig wie Mehl fürs Backen: Allein mit Mehl werden Sie keinen Teig produzieren, aber Sie werden wohl kaum jemals ohne Mehl backen.

## Zum Aufbau dieses Notebooks

In diesem Notebook wird die Python Bibliothek *Pandas* vorgestellt. Im ersten Teil des Notebooks gibt es Erklärungen und bereits ausgefüllte Codezellen. Diese sollen Sie ausführen, wenn Sie dort angekommen sind. Es gibt einige Stellen, an denen leere Zellen auftauchen. Dort sollen Sie selbst den passenden Code einfügen. An den Stellen, die mit *Spoiler* markiert sind, ist es empfehlenswert, erst nach der Bearbeitung der Zwischenaufgabe weiter zu lesen. Am Ende des Notebooks gibt es einen Abschnitt mit Übungsaufgaben. Dort können Sie das Erlernte selbst anwenden. Die Aufgaben enthalten Anforderungen gemischt aus allen Abschnitten und sind teilweise etwas schwieriger als die dort vorgestellten Beispiele. Das gesamte Notebook sollte mit minimalen Vorkenntnissen verständlich und zu bearbeiten sein. 

## Erste Schritte


Zunächst wollen wir die Pandas Bibliothek importieren. Die allgemein anerkannte Namenskonvention ist `pd`.

In [None]:
import pandas as pd

# diese Zeile sorgt lediglich für eine übersichtlichere Darstellung
pd.set_option('display.max_rows', 6)

Schauen wir uns zunächst den wichtigsten Objekttyp in Pandas an: *DataFrames*

Ein DataFrame sieht zum Beispiel so aus:

 |      | Apfel  | Banane |
 |:-----|-------:|-------:|
 |**0** | grün   | gelb   |
 |**1** | fest   | weich  |
 |**2** | sauer  | süß    |

Ein DataFrame ist eine Tabelle. Die Vielfältigkeit und Einfachheit der Möglichkeiten mit dieser Tabelle zu arbeiten, ist es, was Pandas so nützlich macht.

Ein DataFrame kann wie folgt erstellt werden:

In [None]:
df = pd.DataFrame({'Anna': [3, 10], 'Bob': [5, 7]})

# Diese Zeile dient der Ausgabe des Ergebnisses
df

Erstellen Sie das DataFrame zum obigen Beispiel.

Natürlich möchte man große Datensätze nicht per Hand eingeben, sondern direkt einlesen lassen. Liegen die Daten bspw. in einer CSV Datei vor, lassen sie sich mit der Methode `read_csv` einlesen:

In [None]:
# Wichtig ist der Dateipfad, das Argument index_col können Sie ignorieren
reviews = pd.read_csv('/Users/louisborchert/Downloads/winemag-data-130k-v2.csv', index_col=0)

Der Datensatz ist unter folgender Lizenz

https://creativecommons.org/licenses/by-nc-sa/4.0/
    
auf Kaggle von dem Nutzer "zackthoutt" veröffentlicht. Der Datensatz kann unter folgendem Link gefunden werden (zuletzt geprüft am 22.11.2022):
    
https://www.kaggle.com/datasets/zynicide/wine-reviews

## Einen Überblick über den Datensatz gewinnen

Wir wollen uns einen ersten Überblick über den Datensatz verschaffen. Zuerst fragen wir die Dimensionen des DataFrames ab.

In [None]:
reviews.shape

Die Spaltennamen und der Zeilenindex sind ebenfalls Attribute des DataFrames, die wir uns zurückgeben lassen können:

In [None]:
reviews.columns

In [None]:
reviews.index

Als nächstes schauen wir uns die obersten Zeilen an. Dazu gibt es die eingebaute Methode `head`.

In [None]:
reviews.head()

Wie wir sehen, wird der Herkunftsort des Weins sehr detailiert beschrieben (Land, Provinz, Regionen). Die Beschreibung jedes Weins ist ein Text, der wahrscheinlich nie für zwei Weine gleich sein wird. Es gibt mit der Punktzahl und dem Preis zwei Spalten mit numerischen Werten. Der Twittername eines Testers wird für eine Datenanalyse wohl kaum nützlich sein, da wir die Tester schon aufgrund ihres Namens unterscheiden können. Die Spalte region_2 enthält bisher auch keine neuen Informationen. Es gibt einige fehlende Werte (NaNs, dazu später mehr). All dies sind Erkenntnisse (zum Teil Mutmaßungen, die es noch zu überprüfen gilt), die man in dieser einfache Darstellung bereits gewinnen kann.

Wir sind nicht auf die ersten fünf Zeilen beschränkt. Wollen wir uns z.B. die Zeilen 601 bis 603 ansehen, können wir dafür die Methode iloc verwenden:

In [None]:
reviews.iloc[601:604]

Hier sehen wir, dass die Spalte `region_2` doch neue Informationen enthält, z.B. in Zeile 602. Man beachte, dass `iloc` das Ende des Bereichs ausschließt, so wie es beim Indizieren gängig ist.

Bauen Sie nun `head` mit Hilfe von `iloc` in der folgenden Zelle nach.

#### Zusatzaufgabe: ####

Es gibt auch eine Methode zum Auslesen der letzten fünf Zeilen. Finden Sie heraus wie dieses heißt. Vielleicht können Sie den Namen sogar erraten...

## Selektion

Eine Methode zur Selektion von Einträgen haben wir bereits kennen gelernt: `iloc`. In diesem Abschnitt wollen wir das Wissen zum Auswählen von Einträgen vertiefen. Sie werden lernen, wie Sie Spalten selektieren, labelbasiert selektieren, nach Bedingungen selektieren und diese miteinander kombinieren können.

Eine der simpelsten Aufgaben besteht im Zurückgeben einer einzelnen Spalte. Jede Spalte ist ein Attribut eines DataFrames, d.h. wir können sie folgt abrufen:

In [None]:
reviews.price

Die Rückgabe hat den Datentyp `pd.Series`, der zweite wichtige Typ der Pandas Bibliothek. Eine Series ist im Wesentlichen das Pandas Pendant einer Liste. Definieren Sie selbst eine Liste und erstellen mit Hilfe dieser eine Series.

Eine Series hat wie ein DataFrame einen Index, der standandmäßig auf 0 bis Länge minus 1 gesetzt wird, aber ebenfalls angepasst werden kann. Im Gegensatz zu DataFrames besitzt eine Series keinen Spaltennamen sondern einen allgemeinen Namen. Man kann sich eine Series als Spalte eines DataFrames vorstellen und ein DataFrame als die Aneinanderreihung von Series ansehen.

Zurück zum Selektieren. Die Preisspalte kann ebenfalls wie folgt zurückgegeben werden:

In [None]:
reviews.loc[:, 'price']

Diese Methode erinnert an die `iloc` Methode weiter oben. Worin unterscheiden sich diese beiden Methoden?
- `iloc` ist *indexbasiert*, d.h. die Einträge werden mittels ihrer Position im DataFrame ausgewählt
- `loc` ist *labelbasiert*, d.h. die Einträge werden mittels ihres Spaltennamens und Zeilenindex ausgewählt

Beide Methode arbeiten Zeile first, Spalte second. Das erste Argument bestimmt also den Zeilenbereich und das zweite Argument den Spaltenbereich. Wird nur ein Argument übergeben, werden alle Spalten ausgewählt.

#### Warnung:
Es gibt ein Detail, in dem sich `iloc` und `loc` unterscheiden. Führen Sie die folgende Zeile aus. Was fällt Ihnen auf?

In [None]:
reviews.loc[601:604]

<br>

<br>

<br>

<br>

## ---------- *Spoiler* ---------- 

<br>

<br>

<br>

<br>

<br>

<br>

<br>

<br>

Bei der Methode `loc` wird das Ende des Bereichs inkludiert. Wieso? Das hängt damit zusammen, dass `loc` labelbasiert arbeitet. Stellen Sie sich vor, Sie betrachten ein DataFrame `df`, das mit alphabetisch geordneten Vornamen indiziert ist. Wollen Sie alle Namen von Adam bis Jonas zurückgeben, ist es intuitiver `df.loc['Adam':'Jonas']` zu schreiben als `df.loc['Adam':'Jonat']`.

Bei beiden Methoden ist es möglich, in jedem Argument einen einzelnen Wert, eine Liste oder einen Bereich anzugeben. Hier sind einige Beispiele:

In [None]:
reviews.iloc[1:3, 2:9]

In [None]:
reviews.loc[[0, 1, 3, 100], 'taster_name']

In [None]:
reviews.loc[9000:9002, ['description', 'points', 'price']]

Nun zu einem weiteren starken Werkzeug in Pandas:
Stellen Sie sich vor, Sie wollen alle Weine betrachten, deren Preis höchstens 25 beträgt. Dies ist mit ein bisschen Überlegen sicherlich in ein paar Zeilen Code möglich. Aber es geht sogar in einer Zeile, kurz und übersichtlich:

In [None]:
reviews.loc[reviews.price <= 25]

Welche Logik steckt dahinter? Der Methode `loc` kann als Argument eine Liste mit Wahrheitswerten übergeben werden, die die gleiche Länge wie das DataFrame hat.

Es können mehrere Bedingungen mit "und" ( `&` ) sowie mit "oder" ( `|` ) verknüpft werden:

In [None]:
reviews.loc[(reviews.region_1 == 'Etna') & (reviews.price <= 25)]

## Zuweisung

Hat man die Selektion verstanden, ist die Zuweisung von Daten eine leichte Aufgabe. Man wählt einen Eintrag oder eine Menge von Einträge (z.B. eine Spalte) aus und weist ihnen neue Werte zu.

In [None]:
# um das ursprüngliche DataFrame nicht zu verändern, erstellen wir eine Kopie
temp = reviews.copy()
temp.loc[0, 'region_2'] = 'Beispiel Region'
temp

Man kann dabei auch eine neue Spalte erzeugen.

In [None]:
temp['shifted_index'] = range(10, len(temp)+10)
temp

## Zusammenfassung der Daten

Um schnell an eine Zusammenfassung der Daten gelangen, steht Ihnen die äußerst nützliche Methode `describe` zur Verfügung:

In [None]:
pd.set_option('display.max_rows', 8)

reviews.points.describe()

Für kategorische Daten sind einige der obigen Auswertungen nicht möglich. Pandas erkennt automatisch, um welche Datentypen es sich handelt. Rufen Sie die Methode für eine Spalte mit Strings auf und vergleichen Sie die Ergebnisse:

Es ist natürlich auch möglich einzelne statistische Auswertungen vorzunehmen, zum Beispiel:

In [None]:
reviews.points.mean()

Oder um die Zeile zu finden, die die maximale Punktzahl enthält:

In [None]:
reviews.points.idxmax()

Wir wollen das nutzen, um unsere These zu überprüfen, dass alle Beschreibungen unterschiedlich sind.

In [None]:
reviews.description.value_counts()

Unerwarteterweise gibt es Beschreibungen, dreimal im Datensatz auftauchen. Die Methode value_counts sortiert die Einträge automatisch, d.h. 3 ist auch die maximale Häufigkeit, die in der Spalte descritpion auftaucht. Alternativ können Sie dies mit der folgenden Zeile herausfinden:

In [None]:
reviews.description.value_counts().max()

Sie werden diese Mehrfachnennungen in den Übungsaufgaben weiter untersuchen.

## Arithmetische Operationen und Maps

Als nächstes beschäftigen wir uns mit Möglichkeiten, alle Daten einer Spalte simultan anzupassen. Schauen Sie sich die nächste Zeile und ihr Ergebnis an:

In [None]:
reviews.price + 100

Hier wird eine Series auf der linken Seite mit einem einzelnem Wert auf der rechten Seite addiert. Pandas interpretiert das so, dass wir wohl zu jedem Eintrag der Series die Zahl 100 addieren wollen. Natürlich können Operationen auch zwischen Series der gleichen Länge ausgeführt werden. Im Summe kann damit sehr eleganter Code geschrieben werden:

In [None]:
reviews.province + " in " + reviews.country

Um flexibler in der Funktionalität zu sein, können "maps" genutzt werden. Wollen wir von jedem Land nur die ersten drei Buchstaben haben, können wir folgende Syntax nutzen:

In [None]:
reviews.country.map(lambda p: str(p)[0:3])

## GroupBy

Die `groupby` Methode ist eine sehr mächtiges Werkzeug, um Einsichten in die Daten zu bekommen und diese zu strukturieren. Als Motivation: Was ist der Durchschnittspreis jeder Weinsorte? Nutzen Sie die nächste Zelle, um sich die Antwort auf diese Frage zurück geben zu lassen.

<br>

<br>

<br>

<br>

## ---------- *Spoiler* ---------- 

<br>

<br>

<br>

<br>

<br>

<br>

<br>

<br>

Durchaus machbar aber einige Zeilen Code werden schon benötigt, oder? Mit der `groupby` Methode lässt sich das Resultat wie folgt erreichen.

In [None]:
reviews.groupby('variety')['price'].mean()

Die `groupby` Methode macht uns das Leben also deutlich einfacher. Wie sieht das Datenobjekt eigentlich aus, das bei dieser Methode zurückgegeben wird? Finden Sie es heraus! Nutzen Sie die nächste Zelle dazu:

Nicht besonders hilfreich, oder? Das liegt daran, dass die Methode primär für einen mehrstufigen Prozess genutzt wird, wie das weiter oben der Fall ist. Sie können aber dennoch einige Attribute des erzeugten GroupBy Objekts abfragen. Beispielsweise die Anzahl der Gruppen:

In [None]:
reviews.groupby('variety').ngroups

Sie können auch eigene Funktionen definieren und auf das GroupBy Objekt anwenden:

In [None]:
def group_middle(x):
    return (x.max() + x.min()) / 2

middle = reviews.groupby('variety')['price'].apply(group_middle)
middle

Es ist auch möglich, nach mehreren Kriterien zu gruppieren:

In [None]:
min_points = reviews.groupby(['country', 'variety'])['points'].min()
min_points

## Mit fehlenden Daten umgehen

In der Data Science Praxis werden Daten immer unvollständig sein. Dafür kann es viele Gründe geben: Eine Person hat bewusst oder unbewusst bei einem Fragebogen das Alter ausgelassen, ein Sensor arbeitet nicht hundertprozentig zuverlässig und nimmt gelegentlich zum vorgesehen Zeitpunkt keine Messung vor, zu einem erst vor kurzem gegründetem Start-up reichen die Geschäftsdaten weniger weit in die Vergangenheit als bei älteren Unternehmen...
Fehlende Werte werden immer auftreten und es gibt keinen mustergültigen Weg mit Ihnen umzugehen.

Zunächst gilt es, die fehlenden Werte ausfindig zu machen. Hierzu nutzt man die Methode `isna`:

In [None]:
reviews.isna()

Die Methode gibt ein DataFrame mit Wahrheitswerten zurück. An jeder Stelle, an der in dem ursprünglichen DataFrame ein Wert fehlt, wird `True` eingetragen, andernfall `False`. Die umgekehrte Funktionalität erreicht man mit `notna`. Die Angaben über fehlenden Daten lassen sich mit der Methoden `sum` zusammenfassen. (Hierbei wird `True` als 1 gewertet und `False` als 0.)

In [None]:
pd.set_option('display.max_rows', 13)
reviews.isna().sum()

In [None]:
pd.set_option('display.max_rows', 8)

Nun stellt sich die Frage, wie mit diesen fehlenden Daten umgehen. Es gibt zwei Ansätze:
- Fehlende Daten ersetzen
- Fehlende Daten verwerfen

### Fehlende Daten ersetzen

Bei diesem Ansatz versucht man, so gut es geht, die Lücken mit sinnvollen Daten zu füllen, ohne den Datensatz zu sehr zu verzerren. Dazu gibt es verschiedene Möglichkeiten, die je nach Kontext eingesetzt werden.

Die erste Möglichkeit besteht darin, alle fehlenden Werte durch einen festen Wert (z.B. den Mittelwert der vorhanden Werte) zu ersetzen:

In [None]:
mean_price = reviews.price.mean()
reviews.price.fillna(mean_price)

Eine andere Möglichkeit, die oft bei Zeitreihen verwendet wird, besteht darin, einen fehlenden Wert durch den Wert des Vorgänger zu ersetzen.

In [None]:
reviews.price.fillna(method='ffill')

Das Argument `'ffill'` steht dabei für "forward fill". Alternativ kann man mit `'bfill'` für "backward fill" den Wert des Nachfolgers nutzen.

Des weiteren kann man die Daten mittels der Methode `interpolate` interpolieren. Standardmäßig wird linear interpoliert. Wir werden uns hier auf diesen Fall beschränken, es sei aber gesagt, dass noch etliche weitere Möglichkeiten gibt.

In [None]:
reviews.price.interpolate()

Man beachte, dass der erste Wert nicht interpoliert wird, da nur innere Werte interpoliert werden können.

### Fehlende Daten verwerfen

Bei diesem Ansatz werden die Zeilen oder Spalten, die fehlende Werte enthalten, entfernt. Der Datensatz wird dadurch von fehlenden Werten bereinigt. Umgesetzt wird dies mit der Methode `dropna`. Mit dem Parameter `axis` legen wir fest, ob Zeilen (`0 `oder `'index'`) oder Spalten (`1` oder `'columns'`) gelöscht werden.

In [None]:
reviews.dropna(axis=1)

Standardmäßig werden alle Zeilen bzw. Spalten gelöscht, die mindestens einen fehlenden Wert enthalten. Wir können hier gezielter vorgehen und einen Mindestwert an fehlenden Daten vorgeben, die in einer Zeile bzw. Spalte vorhanden sein müssen, damit diese entfernt wird. Alternativ können wir mit `how='all'` festlegen, dass nur Zeilen bzw. Spalten gelöscht werden, in denen alle Einträge fehlen. Der Parameter `thresh`legt fest, wie viele Einträge *vorhanden* sein müssen, damit die Zeile bzw. Spalte *nicht* gelöscht wird.

In [None]:
reviews.dropna(axis=1, thresh=100000)

Es können auch (unabhängig von fehlenden Werten) ausgewählte Zeilen bzw. Spalten mit der Methode `drop`gelöscht werden:

In [None]:
reviews.drop([0, 2, 4], axis=0)

Das Ersetzen hat den Vorteil, dass keine Informationen verloren gehen. Allerdings kann der Datensatz durch das Hinzufügen künstlicher Daten verfälscht werden. Ein Verzerrung der Daten findet beim Löschen nicht statt. Man verliert dadurch jedoch potentiell wertvolle Informationen.

**Generell gilt:** Je weniger Daten in der gleichen Zeile oder Spalte fehlen, desto eher greift man zur Methode der Ersetzung. Je mehr Daten in der gleichen Zeile oder Spalte fehlen, desto eher greift man zur Methode der Entfernung von Daten.

#### Na gut, wie Sie gesehen haben, kann man mit Pandas allein doch ein bisschen mehr anfangen, als nur mit Mehl beim Backen. In der Praxis wollen Sie aber fast immer zusätzlich weitere Bibliotheken nutzen. Dazu mehr in den anderen Notebooks.

## Anmerkung

Es gibt ein wichtiges Detail, auf das bisher noch nicht eingegangen wurde. Bei der Bearbeitung von Objekten gibt es grundsätzlich zwei Vorgehensweisen: Das Objekt selbst bearbeiten oder eine bearbeitete Kopie zurückgeben. Die meisten der hier verwendeten Methoden geben eine bearbeite Kopie zurück. Damit Sie auf dem Objekt selbst arbeiten können, besitzen viele Methoden den Parameter `inplace`, den Sie auf `True`setzen können. Natürlich können Sie auch folgende Syntax verwenden: `reviews = reviews.dropna(axis=1)`.

Wichtig ist vor allem, sich bewusst darüber zu sein, mit welche der beiden Möglichkeiten eine Methode arbeitet, um Fehler zu vermeiden.

## Übungsaufgaben

Es wird dazu geraten, die Übungsabschnitte in der vorgegebenen Reihenfolge zu bearbeiten und mit dem im Abschnitt *Fehlende Daten behandeln* erstellten DataFrame `df` weiter zu arbeiten. Andernfalls kann es zu unerwartetem Verhalten bei den Lösungen kommen.

### Fehlende Daten behandeln

Erstellen Sie eine Kopie des DataFrame `reviews` und nennen Sie es `df`. Es ist eine gute Praxis, die Originaldaten unberührt zu lassen und stattdessen auf einer Kopie zu arbeiten. Lassen sie sich anschließend eine Übersicht über die Anzahl der fehlenden Werte pro Spalte ausgeben.

In [None]:
pd.set_option('display.max_rows', 13)

# fügen Sie hier Ihren Code ein:


Beim Land und der Provinz handelt es sich um Informationen, zwischen denen ein logischer Zusammenhang besteht. Außerdem fehlen bei beiden genau gleich viele Einträge. Die Vermutung liegt daher nahe, es handelt sich um die gleichen Zeilen, in denen die jeweiligen Einträge fehlen. Überprüfen Sie diese Vermutung.

Entfernen Sie alle Zeilen, bei denen das Land, die Provinz oder die Weinsorte fehlt.

Entfernen Sie nun alle Spalten, die mindestens 30000 fehlende Einträge enthalten.

Schauen Sie sich erneut die Übersicht der fehlenden Werte an.

Ersetzen Sie fehlende Einträge in der Preisspalte durch den durchschnittlichen Preis.

Ersetzen Sie alle anderen fehlenden Werte durch den String `'keine Angabe'`.

Überprüfen Sie, ob es nun noch fehlenden Werte im DataFrame gibt.

### Die Mehrfachnennungen der Beschreibungen

Es ist doch etwas verwunderlich, dass verschiedene Weine die auf den Wortlaut gleiche Beschreibung bekommen sollen. Schauen Sie sich die Zeilen mit der folgenden Beschreibung an:

`'Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.'`

Was fällt Ihnen auf? Überprüfen Sie, ob die letzten beiden Zeilen wirklich identisch sind und in welchen Spalten sich die ersten beiden Zeilen unterscheiden.

Pandas bringt die Methode drop_duplicates mit, die es erlaubt mehrfach auftretende Zeilen zu löschen.

In [None]:
df = df.drop_duplicates()

Wir schauen uns die Bezeichnungen der beiden Weine genauer an:

In [None]:
multi_descr = df.loc[df.description == 'Seductively tart in lemon pith, cranberry and pomegranate, this refreshing, light-bodied quaff is infinitely enjoyable, both on its own or at the table. It continues to expand on the palate into an increasing array of fresh flavors, finishing in cherry and orange.']
for title in multi_descr.title:
    print(title)

Aufgrund der ähnlichen Bezeichnungen und der exakt gleichen Beschreibungen lässt sich vermuten, dass es sich etwa um zwei verschiedene Editionen des gleichen Weins handelt. Neben dem Preis ist auch die Punktbewertung unterschiedlich. Um dieses Phänomen besser zu verstehen, müsste man sich mit dem Thema Wein besser auskennen oder den Autor der Daten fragen.

Für uns hat es sich aber schon deshalb gelohnt, sich die Wiederholung der Beschreibungen anzuschauen, da wir dadurch bemerkt haben, dass es doppelte Zeilen gab. Dies kann man natürlich unabhängig vom einem konkreten Verdacht überprüfen.

### Das Preisleistungsverhältnis

Fügen Sie dem DataFrame eine Spalte hinzu, in der das Preisleistungsverhältnis (Punkte durch Preis) abgebildet wird.

In [None]:
pd.set_option('display.max_rows', 8)

# fügen Sie hier Ihren Code ein:


Erstellen Sie eine Übersicht über das Preisleistungsverhältnis, die Minimum, Maximum, Durchschnitt, Median und Standardabweichung enthält.

Welche Weine haben das beste Preisleistungsverhältnis?

Welche Weinsorte bietet durchschnittlich das beste Preisleistungsverhältnis und wie hoch ist dieses?

### Weitere Übungsaufgaben

Wie viele unterschiedliche Tester gibt es? Wer hat die meisten Weine bewertet und wer die wenigsten? ('keine Angabe' sollte nicht berücksichtigt werden)

Erstellen Sie eine Series, die ein Kürzel aus je drei Buchstaben für Land, Provinz und Region_1 enthält. Für den ersten Eintrag würde es so aussehen: Ita_Sic_Etn. Fügen Sie diese Series als Spalte zum DataFrame df hinzu und schauen sie sich ein paar Zeilen des neue DataFrames an.

Finden Sie alle Weine, deren Punktzahl außerhalb der einfachen Standardabweichung des Durchschnitts liegen. (Also alle Weine, deren Punktzahl nicht im Bereich von mean-std bis mean+std liegen.)