![CT Logo](img/ct_logo_small.png)
# Vorlesung "Computational Thinking"        
## Wrap-Up, Einführung in Pandas (1/2)
#### Prof. Dr.-Ing. Martin Hobelsberger, CT_4

### Lernziele dieser Einheit

* Kurzes Wrap-Up
* Einführung in die Bibliothek *Pandas* (1/2)
    * *Teile dieses Notebooks wurden aus "LearnDataSci: Python Pandas Tutorial" ins Deutsche übersetzt*
    * Zum weiterführenden Selbststudium bitte einen Blick auf folgende Links werfen: [Pandas Tutorials](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
    

#### Was Sie bisher schon Wissen/Können sollten
* Strukturiere Ein-/Ausgabe
* Variablen
* Datentypen (Arithmetische und Sequenzielle)
* Arithmetische Ausdrücke und Vergleiche
* Kontrollstrukturen (IF-Statement, For-/While-Schleife)
* Dateien lesen/schreiben
* Nützliche Funktionen (zip, enumerate, list comprehensions)
* Funktionen
* Dictionaries
* map()/filter()
* Lambda Expressions
* Generatoren/Iteratoren

## Wrap-Up
Kurze Wiederholung zu Themen der letzten Woche(n)

In [None]:
# Wrap-Up zu Iteratoren/Generatoren

def datei_reader(datei_pfad):
    '''
    Liest eine Datei und liefert die Zeilen zurück
    '''
    r = open(datei_pfad)
    return r.read().split("\n")

lst = datei_reader('data/hallowelt.txt')
print(lst)


In [None]:
# Generator Expression



In [None]:
# filter() 



### Übung: Fibonacci Generator
Schreiben Sie eine `Generator`-Funktion `def fibonacci(num)` für die Ausgabe einer Fibonacci Folge. Über den Eingabe-Parameter `num` soll die Anzahl der zu berechnenden Fibonacci Zahlen eingegeben werden können. Überprüfen Sie die Ausgabe über:

```python
def fibonacci(num):
    #Your Code


g_fib = fibonacci(10)
for x in range(10):
    print(next(g_fib)
```

In [None]:
# Übung Fibonacci Generator-Funktion



## Pandas

![Pandas Logo](https://pbs.twimg.com/media/EHvNe7mXkAU0Myc?format=png&name=small)

Die `Pandas`-Bibliothek ist eine der meist verwendeten Bibliotheken zur Datananalyse in Python. Die Bibliothek ist auf dem weiteren, essentiellen Modul `NumPy` aufgebaut und nutzt viele der Datenstrukturen aus diesem Modul. Pandas wird u.a. eingesetzt um: 
* sich schnell einen Überblick über große Datenmengen zu verschaffen
* Datensätze zu bereinigen, 
* Datensätze zu transformieren und
* zu analysieren

Dazu werden Daten über die `Pandas`-Bibliothek eingelesen und als eigener **Datentyp `DataFrame`** gespeichert. Ein `DataFrame` ist im Grunde eine Tabelle mit der Sie:

* Statistiken berechnen oder Fragen stellen, wie:
    * Was ist der Durchschnitt, Minimum, Maximum von einer Spalte von Daten?
    * Korrelieren zwei Spalten eines Datensatzes?
    * Wie ist die Verteilung der Werte einer Spalte?
* Daten bereinigen, wie zum Beispiel fehlende Werte (*NaN*) löschen oder Spalten/Zeilen filtern
* Daten mit Hilfe von **Matplotlib**,  **Seaborn** oder anderen Visualisierungsmodulen visualisieren
* Die bereinigten und bearbeiteten Daten wieder ablegen (z.B.: als CSV, in einer Datenbank oder als File)

--> Es ist **essenziell für Sie als Data-Scientist** mit `Pandas` arbeiten zu können. Hilfreich für den Einstieg (und auch später!) sind sogennante "Cheat Sheets" wie z.B. dieses: [Pandas Cheat Sheet von pydata.org](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) 


### Pandas Grundkonzepte
#### Erster Schritt - Installation

`Pandas` ist keine Standard Bibliothek von Python und muss daher vor dem benutzen installiert werden. Dies können Sie lokal auf Ihrem PC mittels einem Paketverwaltungsprogramm namens **pip** machen.


In [None]:
!pip install pandas

Das "!" sorgt in einem Notebook dafür, dass die Zeile nicht als Code sondern als wie in einem Terminal ausgeführt wird.

Eine weitere Möglichkeit ist es in Ihrem lokalen Terminal folgenden Befehl auszuführen:

```
python -m pip install pandas
```

Nach dem die Bibliothek erfolgreich installiert wurde, können wir sie benutzen / importieren.

In [None]:
# import der Bibliothek
import pandas as pd # Anmerkung: Es ist üblich pandas als "pd" zu importieren

### Datentyp von pandas

Die wichtigsten zwei Komponenten von pandas sind `Series` und `DataFrame`. Eine `Serie` ist im wesentlichen eine (Tabellen)Spalte wobei der `DataFrame` einer ganzen Tabelle (multi-dimensional), aufgebaut aus einer Sammlung von `Series`, entspricht. 

![CT Logo](img/CT_4/dataframe.png)

`DataFrame` und `Series` unterstützen oft die selben Operationen (Berechnung von Statistiken, fehlende Werte entfernen, etc.). 

### Erzeugen von DataFrames
Es gibt viele Wege um einen `DataFrame` zu erzeugen. Eine Möglichkeit ist die Verwendung von `dict`. 

In [None]:
# Einfaches Beispiel zur Erzeugung eines DataFrames aus einem dict



Jedes *(Schlüssel, Wert)* Element im Dictionary `data` entspricht nun einer Spalte im Dataframe `df`. Also Index wurde automatisch eine laufende Nummer angelegt. Dieser index ist standardmäßig immer eine Folge von Zahlen bei 0 beginnend. Er kann aber auch vom Entwickler definiert werden:

In [None]:
# Index aus Series


Auf die Daten in einem *DataFrame* kann immer per **Index** zugegriffen werden. Dies funktioniert aber nicht über einen direkten Zugriff per '[]' sondern mittels der Funktion `.loc()` welcher für '**loc**ate' steht.

#### Daten aus CSV einlesen
Oft werden die Daten aus CSV Dateien eingelesen. Hierfür verwenden wir `read_csv()`. 

In [None]:
# Grundsätzlich immer über die Funktion .read_csv()


#### Daten aus JSON einlesen
Neben dem sehr bekannten CSV-Datei Format gibt es auch noch viele andere Formate. Ein sehr oft genutztes und praktisches Format ist das sogenannte JSON-Format.

**JSON** steht für *JavaScript Object Notation*. Der Aufbau ist ähnlich eines Dictionaries in Python.

#### Beispiel


```json
{"Name":
  {"key": value
  ,"key": value
  ,"key": value
  }
}

```

**Wichtig!** ist hier die Einhaltung der Klammerung und das Komma darf nicht vergessen beim sequentiellen Aufzählen der Key/Values Paaren.


Unser Beispiel mit Studierenden, Vorlesung und Noten ist ein wenig aufwändiger als einfaches Dictionary abzubilden. Daher können wir von `pandas` mit der Funktion `.to_json` ein JSON-string generieren lassen und uns diesen genauer anschauen.

In [None]:
# Standard Aufruf


In [None]:
# Orientation Argument: split|table|records|values|....


In [None]:
# Speicher das Konvertierte als JSON-Datei


In [None]:
# Einlesen mit selben Flag, wie die Formattierung innerhalb der Datei ist.


Die Daten werden oft nach der "Bereinigung" wieder gespeichert. Nutzen Sie dazu die von `Pandas` bereitgestellten Methoden wie z.B.: `df.to_csv()`, `df.to_json()` oder auch die Schnittstelle zu einer Datenbank. 

## Gängige Operaionen auf `DataFrames`

### Daten anzeigen
Wie zu Beginn erwähnt, wird `pandas` oft eingesetzt um einen Überblick über die Daten zu bekommen auf welche dann Analysen ausgeführt werden. `DataFrames` stellen hierzu unzälige (!) Methoden für die Analysen und transformation zur Verfügung. Am besten fängt man hier natürlich an, seine Daten einfach mal ausgeben zu lassen und somit einen Überblick zu kriegen.

Für die folgenden Beispiele wurden Teile dieses Notebooks aus *LearnDataSci: Python Pandas Tutorial* ins Deutsche übersetzt.  Als **Beispiel** benutzen wir einen [IMDB Film-Datensatz von kaggle](https://www.kaggle.com/PromptCloudHQ/imdb-data?select=IMDB-Movie-Data.csv).

In [None]:
# Einlesen der Daten als CSV und setzen der Index-Spalte auf den *Title*
df = pd.read_csv("data/IMDB-Movie-Data.csv", index_col="Title")

In [None]:
# Anzeigen der ersten Spalten des Datensatzes
df.head()

`.head()` zeigt dabei immer im Default die ersten **fünf** Zeilen des Dataframes an. Um mehr oder weniger anzuzeigen kann man der Methode einen Wert (z.B.: `df.head(10)`) übergeben. 

In [None]:
# Anzeigen der letzten Spalten des Datensatzes
df.tail(3)

### Informationen über die Daten

Neben den angezeigten "realen" Werten aus dem Datensatz, gibt es natürlich auch noch sogenannte **Metadaten**., welche allgemeine Informationen über Größe, etc. beinhalten.

In [None]:
# einfacher Funktionsaufruf für genauere Informationen der Daten


Der Aufruf dieser Funktion `.info()`, sollte einer der ersten Aufrufe auf Ihrem Datensatz sein. Schließlich können hier wichtige viele Details herausgelesen werden, wie

* Typen der Daten
* Anzahl Zeilen/Spalten
* Anzahl der non-null Werte
* Größe der Daten (memory bezogen)


Zusätzlich besitzt jedes **DataFrame** auch noch das Attribut `shape`, welches direkt angesprochen werden kann. Dieses Attribut gibt Auskunft über Zeilen (1000) und Spalten (11) in unserem Datensatz.

Ein Entwickler benutzt `.shape` in der Regel sehr oft, wenn Daten bereinigt und aufgeräumt werden um schnell zu sehen, wie viele Zeilen oder Spalten gelöscht wurden.

### Daten bereinigen

Es gibt mehrere Dinge, auf die Sie beim arbeiten mit großen Datensätzen immer achten sollten.

* Doppelte Einträge sollten entfernt werden
* Keine Sonderzeichen in Spaltenbezeichnern (Keys)
* Spaltenbezeichner sollten das gleiche Format haben (lower/upper case)
* Fehlende Werte sollten entfernt werden
    * ganze Zeile wenn einzelne Werte fehlen, denn mit *NaN* kann nicht gerechnet werden und es führt zu Fehlern

Schauen wir uns all diese Punkte folgend an und räumen den Datensatz auf.

Es gibt keine Doppelten Einträge, daher kopieren wir den Datensatz in sich selbst, sodass der `shape` sich verdoppelt.

In [None]:
# duplizieren der Daten


Das Entfernen von Duplikaten können wir einfach mit `drop_duplicates()` erreichen.

In [None]:
# Doppelte Einträge entfernen mit der Funktion .drop_duplicates()


Die Funktionen `.append()` und `.drop_duplicates()` geben beide eine **Kopie** des originalen DataFrames zurück. Dies ist bei sehr vielen Funktionen von pandas zu beachten !!

Um den originalen Datensatz direkt zu verändern um keine Kopie zu erzeugen, kann das Argument `inplace=True` übergeben werden.

In [None]:
# Erneutes duplizieren der Einträge


Neben `inplace` gibt es auch noch das Argument `keep`, welches der Funktion `.drop_duplicates()` übergeben werden kann.
Hier gibt es 3 Optionen:

* `first`: Entfernen aller Duplikate **außer** dem ersten Vorkommen -> ***default***
* `last`: Entfernen aller Duplikate **außer** dem letzten
* `False`: Entfernen aller Duplikate

Da alle Zeilen Duplikate sind, werden folglich auch alle gelöscht und der shape ist somit *0*. Dieses Werkzeug kann man somit zum Beispiel benutzen, um alle vorhandenen Duplikate zu lokalisieren.

### Spalten aufräumen
Oft sind die Spaltennamen sehr durcheinander. Manche Namen bestehen aus in Klein-/Groß-Buchstaben, mit/ohne Leerzeichen, Sonderzeichen, etc. Damit die Selektierung per Spalte aber klar und einfach ist, sollten die Namen alle das gleiche Format haben.


In [None]:
# Anzeigen der Spaltennamen
df.columns

Das Attribut `.columns` liefert ein Array mit allen Spaltennamen zurück.

Diese Liste macht das Umbenennen sehr einfach, da diese durch eine angepasste Kopie seiner selbst ersetzt werden kann. Die Funktion hierfür heißt `.rename()`.

Außerdem macht es meist Sinn, alle Schlüssel in Kleinbuchstaben zu schreiben. Dies passiert aber nicht durch ein ersetzen aller einzelnen Schlüssel per Hand sondern unter Anwendung einer `list comprehension`.

In [None]:
# list comprehension für lower case


### Umgang mit fehlenden Werten

Während der Analyse eines Datensatzes werden Sie **fast immer** feststellen, dass Werte fehlen oder *null* sind. *Null* ist meist ein Platzhalter für nicht existente Werte.

In Python und speziefisch in `pandas DataFrames` wird *null* als `None` oder NumPy's `np.nan` abgebildet. Beide "Werte" können unterschiedlich gehandhabt werden. 

Folgende Möglichkeiten gibt es mit fehlenden Werten umzugehen:
* Löschen der Spalten oder Zeilen in denen null Werte existieren
* *null* Werte mit *non-null* Werten ersetzen -> Diese Technik nennt man *imputation* (Anrechnung/Zuschreibung)

Um die Anzahl aller *null* Werte über ein DataFrame zu berechnen, können Sie wie folgt vorgehen.

In [None]:
df.isnull()

`.isnull()` liefert ein DataFrame, in welchem jede Zelle entweder `True` oder `False` entspricht. Dies ist abhängig davon ob die Zelle *null* ist.

Um nun zu zählen, benutzen wir die Summenfunktion.

In [None]:
df.isnull().sum()

**Anmerkung**: Die Funktion `ìsnull()` ist eigenständig nicht sehr sinnvoll und wird meist in Kombination mit anderen Funktionen wie `.sum()` benutzt.

Wie wir sehen, hat unser Datensatz **128** fehlende Werte für `revenue_millions` und **64** für `metascore`.

#### Entfernen von null Werten

Sie werden als Data Scientist noch oft mit dem Problem konforntiert werden, dass Sie fehlende Werte in einem Datensatz haben und vor der Entscheidung stehen werden, ob Sie *null* Werte ersetzen oder entfernen möchten. Diese Entscheidung verlangt einiges an Erfahrung im Umgang mit Daten und ein gutes Verständnis für die vorliegenden Daten.

Wir in unserem Fall werden *null* Werte entfernen.

In [None]:
# Entfernen von null Werten


Die Funktion `.dropna()` löscht jede **Zeile**, in welcher mindestens ein *null* Wert vorhanden ist. Auch hier liefert die Funktion wieder eine bearbeitete Kopie des Original zurück. Es kann aber auch wieder das Argument `inplace=True` übergeben werden.

In unserem Fall wurden somit 128 Zeilen von *revenue_millions* und 64 Zeilen von *metascore* gelöscht. Dies erscheint aber ein wenig schade um die Daten, schließlich war immer nur ein einzelner Wert in der **Spalte** fehlend woraufhin die ganze **Zeile** entfernt wurde. Daher schauen wir uns gleich **imputation** ein wenig genauer an.

Außerdem gäbe es auch die Möglichkeit, die Spalten anstatt der Zeilen zu entfernen. Dies passiert mittels des Arguments `axis=1`.

In [None]:
# Entfernen der Spalten, in denen Werte == null sind
df.dropna(axis=1)

Das Argument `axis=n` mit n = 1 betrifft die Spalten, n = 0 die Zeilen. Warum dies so ist, ist relativ simple zu verstehen. 

Die Rückgabe von `.shape` gibt ein Tuple zurück, welches in unserem Fall an Stelle mit dem index n=0 den Wert 1000 (Zeilen) und n=1 den Wert 11 (Spalten) besitzt. Über das Argument `axis=` wird somit nichts anderes festgesetzt, als der Index auf dem die Änderungen wirksam gemacht werden sollen.

### Imputation

Die Imputation wird verwendet, um Daten mit *null* Werten zu behalten.

Manchmal kann ein fehlender Wert in einer einzigen Spalte dazu führen, dass ein verhältnismäßig großer Teil eines Datensatzes verloren geht, wenn alle *null* Werte einfach gelöscht werden. Um solch einen Fall zu vermeiden, kann der fehlende Wert mit dem **mean** (Durchschnitt) oder dem **median** (Mittelwert) der jeweiligen Spalte ersetzt werden.

Als Beispiel ersetzen wir folgend die fehlenden Werte von *revenue_millions* mit dem Durchschnitt der Spalte.

In [None]:
# Alle Werte der revenue_millions holen


In [None]:
# Anzeigen der Werte


In [None]:
# Berechnen des Means der ganzen Spalte mit Hilfe der Funktion .mean()


In [None]:
# Ersetzen aller null-Werte mit dem Durchschnitt Wert
# Hierfür benutzen wir die Funktion .fillna()


In [None]:
# Prüfen ob das Ersetzen funktioniert hat


Der Ansatz von Imputation ist somit, das ersetzen von null-Werten mit zum Beispiel dem Durchschnittswert der Spalte. Natürlich kann dies aber noch detailierte durchgeführt werden. Man könnte auch das komplette Datenset nach dem Genre der Filme sortieren, für jedes Genre den jeweiligen Durchschnitt berechnen und dann in den jeweiligen Untergliederungen die *null* Werte ersetzen.

### Verständnis der Variablen

Mittels `.describe()` können Sie eine Zusammenfassung der Verteilung aller kontinuierlichen Variablen eines DataFrames ausgeben lassen:

In [None]:
df.describe()

Mit Hilfe dieser Tabelle können Sie nun auf einen Blick sehen, in welchem Bereich die jeweiligen Variablen liegen und auch von welchem *type* sie sind. Wir unterscheiden:
* Kontinuierliche Variablen (continuous variables)
* Kategorische Variablen (categorical variables)

Diese Informationen sind wichtig, wenn man die Daten Visualisieren möchte.

`.describe()` kann auch auf kartegorische Variablen zugegriffen werden. Dazu muss die Methode auf die jeweiligen Spalten direkt angewendet werden.

In [None]:
# Zugriff auf 'genre'


Hier kann gut abgelesen werden:

* Es gibt 207 einzigartige genres
* Action,Adventure,Sci-Fi ist das am häufigsten vorkommende Genre
* Das top Genre kommt ganze 50-mal vor

Um zu schauen wie oft jeweils jedes *Genre* vorkommt, gibt es die Funktion `.value_counts()`.

### Abhängigkeiten zwischen kontinuierlichen Variablen

Kontinuierliche Variablen (engl. continuous variables) sind Werte, welche auf bestimmte Art und Weise messbar sind und zwischen einem definiertem minimum und maximum liegen. In der Statistik beschreiben solche Variablen Daten und mehrere Variablen können einen Zusammenhang aufweisen, müssen aber nicht.


In pandas gibt es dafür die Funktion `.corr()`, welche eine Korrelationsmatrix ausgibt.

In [None]:
df.corr()

Wie Sie sehen, zeigt die Tabelle eine numerische Darstellung der Abhängigkeiten untereinander.

* Positive Werte weisen auf eine positive Abhängigkeit -> Wenn ein Wert steigt, steigt auch der andere
* Negative Werte weisen eine gegenteilige Abhängigkeit auf -> Wenn ein Wert steigt, fällt der andere.

--> **1.0** stellt eine perfekte Abhängigkeit dar.

Wie sie sehen, ist die Abhängigkeit untereinander verständlicherweise 1.0. Die Abhängigkeit zwischen `votes` und `revenue_millions` ist jedoch nicht so klar ersichtlich aber mit einem Werte von 0.6 auffallend.

Um in größeren Tabellen schneller gewisse Abhängigkeiten zu erkennen, benutzt man meist sogenannte *scatterplots*. Aber dazu später (ein andern mal) mehr.

### DataFrame selektieren, extrahieren

Alles was wir bisher gelernt haben, war ein kleiner Einstieg in die Arbeit eines Data-Scientists. Folgend betrachten wir noch weitere Methoden, welche Sie als Data-Scientist wohl regelmäßig verwenden werden.

#### Spalten

In [None]:
# Selektieren einer Spalte als Series


In [None]:
# Selektieren einer Spalte als DataFrame


In [None]:
# Selektieren mehrere Saplten


#### Zeilen

Bei arbeiten mit Zeilen haben wir zwei Optionen:
* `.loc` - **loc**ates anhand des Namens
* `.iloc` - **loc**ates anhand eines numerischen Indices

Vergessen Sie nicht, dass unsere Index Spalte die Film Title sind. Das heißt `loc()` bekommt in diesem Fall einen Film Title übergeben.

In [None]:
# Den Film Prometheus per Index selektieren


`loc` und `.iloc` funktionieren fast genau so, wie der normale Listen Zugriff, den Sie bisher kennengelernt haben. Daher schauen wir uns nun das Selektieren von mehreren Zeilen an.

Ein wichtiger Hinweis:
* `.loc` impliziert den Film *Sing*
* `.iloc` impliziert den letzten Wert **nicht**, welcher *Suicide Squad* an Stelle 4 ist

Somit folgt `.iloc` den selben Regeln wie beim Listen Zugriff. Der letzte Index ist ausgenommen.

### Bedingte Selektion

Was ist, wenn wir anhand von Bedingungen Selektieren möchten? Zum Beispiel, wie können wir alle Filme finden, welche von Ridley Scott sind und eine Bewertung größer/gleich 8.0 haben?

In [None]:
# Selektieren mit Bedingung


Wie schon bei der Funktion `isnull()`, ist die Rückgabe der Selektierung eine *Series* von True und False Werten.

In [None]:
# Selektierung der Werte, wo die Bedingung==True


Zu Beginn sind diese Art von Zugriffen evtl ein wenig verwirrend.. Sie können sich es aber wie folgt denken:

> **SELECT** `df` **WHERE** `df[director]` **EQUALS** 'Ridley Scott'

Folgend nun ein Zugriff mit einer numerischen Bedingung:

In [None]:
# Filter nach Bewertung


Wir können auch eine kombinierte Abfrage mit den Operatoren `|` für "or" und `&` für "and" bauen.

Bei solchen Abfragen müssen wir sicherstellen, dass wir mittels Klammern die Bedingung richtig gruppieren. Nur so weiß Python, wie die Bedingung auszuwerten ist.

Wenn dies zu komplex bei manchen Bedingungen wird, können auch hier Hilfsmethoden wie `.isin()` verwendet werden, wodurch der Aufbau wesentlich übersichtlicher wird.

**Übung**
Wir möchten alle Filme welche zwischen 2005 und 2010 erschienen sind mit einer Bewertung größer als 8.0 aber einen niedrigeren Umsatz als 25 Prozent aller aufweisen.

### Anwenden von Funktionen

Über ein `pandas DataFrame` oder `Series` kann wie über eine Liste iteriert werden. Dies ist meist, gerade bei großen Datensätzen, langsam. 

Um dies effizienter zu gestalten, kann eine Funktion mit `apply()` auf den Datensatz "angewendet" werden. Als Beispiel können wir jeden Film mit einer höheren Bewertung als 8.0 als "good" bezeichnen und alle anderen als "bad" und diese umgewandelten Werte als neue Spalte speichern.

Dafür erstellen wir als erstes eine Funktion, die die Umwandlung durchführt:

In [None]:
def rating_func(x):
    if x >= 8.0:
        return "good"
    else:
        return "bad"

In [None]:
# Anwenden der Funktion auf das komplette DataFrame


Die `.apply()` Methode nimmt jeden Wert aus der Spalte `rating`, ruft mit diesem die Funktion `rating_func` auf und erstellt eine neue Series. Diese Series wird der neuen Spalte `rating_category` hinzugefügt.

Neben normalen Funktionen können auch anonyme Funktionen (Lambda Expressions) benutzt werden. Im folgenden das selbe nochmal mit einem Lambda Ausdruck:

**Bemerkung**:

Die Benutzung von `apply()` ist immer viel schneller als manuell über die Zeilen zu iterieren, da Pandas *Vektorisierung* verwendet.

> Vectorization: a style of computer programming where operations are applied to whole arrays instead of individual elements —[Wikipedia](https://en.wikipedia.org/wiki/Vectorization)

Dies kann man gut im Bereich von Natural Language Processing (NLP) sehen. Hier muss im ersten Schritt immer viel Texte schnell bearbeitet und angepasst werden um fürs machine learning vorbereitet zu sein.

### Einblick ins Plotting

Ein weiterer Vorteil von pandas ist, dass die Bibliothek sehr gut mit Matplotlib arbeiten kann und dies viel Mühe und Arbeit spart.

Folgend eine Visualisierung von einem Teil unserer Werte mit der Bibliothek Matplotlib (`pip install matplotlib`):

In [None]:
import matplotlib.pyplot as plt
plt.rcParams.update({'font.size': 20, 'figure.figsize': (10, 8)}) # setzen der Schriftgröße und plot Größe

Wir möchten nun die vorher angesprochene Abhängigkeit von `rating` und `revenues` in einem *scatterplot* abbilden. 

**Hinweis:** 
* Für Kategorische Variablen eignen sich Balkendiagramme und Boxplots
* Für Kontinuierliche Variablen eignen sich Histogramme, Scatterplots, Liniendiagramme oder auch Boxplots

Dafür müssen wir nichts machen, als die Funktion `.plot()` auf unserem DataFrame aufzurufen und ein paar Argumente übergeben.

**Anmerkung**: Ist Ihnen das Semikolon aufgefallen? Dies ist kein Syntax Fehler! Wir möchten nur die Ausgabe von dieser Code Zeile **nicht** angezeigt bekommen.

In [None]:
# Plot mit Ausgabe


In [None]:
# Ein einfaches Histogram basierend auf der Spalte rating


Und genauso weiter können wir nun alle möglichen Arten von plots die im DataScience Bereich benötigt werden, darstellen. Welche Arten es alle gibt, kann wie immer in der Dokumentation der Funktion `.plot()` oder in der Doku der Matplotlib nachgelesen werden.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html


### Zusammenfassung

Das Verstehen, Bereinigen, Transformieren und Visualisieren von Daten mit pandas in python ist eine wichtige Aufgabe als Data Scientist. Allein das Bereinigen der Daten kann meist bis zu 80% Ihrer Arbeit ausmachen.

Es gibt sehr viele sehr umfangreiche Tutorials im Netz, falls Sie privat Lust und Laune haben, sich noch viel näher mit dem Thema zu beschäftigen. Kaggle ist zum Beispiel immer eine gute Anlaufstelle um sich selbst an einem Datensatz auszuprobieren und an diesem zu wachsen.