# Data Wrangling mit Python I

## Einführung

Die Programmiersprache Python hat in den letzten Jahren unglaublich an Beliebtheit gewonnen (Stack Overflow anfragen mit angeben?). Dies liegt zum einen an der Einsteigerfreundlichkeit und zum anderen an den vielen Anwendungsmöglichkeiten. Vorallem im wissenschaftlichen Bereich ist es für die Daten Analyse und das Maschinelle Lernen zu einem einsteigerfreundlichen und mächtigen Werkzeug geworden.  
Im Rahmen dieses Kurses soll die Arbeit mit Jupyter-Notebook Pandas (zu beidem gleich mehr) kurz vorgestellt werden. Ziel ist dabei ein mächtiges und nachvollziebares Mittel zur Datenaufbereitung kennen zu lernen.



## Werkzeuge

### Jupyter-Notebook

Unser Arbeitsmittel ist ein Jupyter-Notebook (im weiteren nur noch Notebook genannt). Diese durch Zellen struktuierte Arbeitsoberfläche lässt uns ausführbaren Code mit stylierbaren Textzeilen verbinden. Dadurch können wir unsere Arbeitsschritte nachvollziehbar halten und gleichzeitig dokumentieren.

Grundsätzlich lassen sich die Zellen eines Notebooks in drei Typen unterteilen:

1. Text-Zellen zur formatierten Ausgabe von Text
2. Code-Zellen zur Ausführung von Python-Code
3. Output-Zellen zur Ausgabe der Ergebnisse von Code-Zellen

Anders als bei der [WYSIWYG](https://de.wikipedia.org/wiki/WYSIWYG "Einfach mal klicken ;-)") Textbearbeitung - welche Beispielsweise bei Microsoft Word oder Libre Office Writer Verwendung findet - wird bei uns die Formatierung des Textes in den Text selbst geschrieben. Dabei wird das beliebte [Markdown-Format](https://markdown.de/) verwendet. Genauere Informationen gibt es in der [Jupyter-Notebook Dokumentation](https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Working%20With%20Markdown%20Cells.html) und auf diesem [Cheatsheet](https://www.heise.de/mac-and-i/downloads/65/1/1/6/7/1/0/3/Markdown-CheatSheet-Deutsch.pdf).

Code-Zellen werden als Zellen mit grauem Hintergrund dargestellt und können mittels des kleinen Dreiecks (oder der Tastenkombination <kbd>Ctrl + Enter</kbd>) ausgeführt werden. Probiere es mal mit der nächsten Zelle aus!

In [None]:
# Dies ist eine Zelle, in der Code ausgeführt werden kann.

def say_hello_to(name):
    return f"Hello, my Friend {name}!!!"  # https://realpython.com/python-f-strings/

my_name = "Alex"
print(say_hello_to(my_name))

# Die Output-Zelle für diese Code-Zelle 
# erscheint nach der Ausführung gleich unter ihr

Super oder? Das Ausführen einer Code-Zelle funktioniert also wie die Ausführung eines Python-Skripts. Die Code-Zellen im Notebook besitzen jedoch einige Eigenheiten, die wir von einem Python-Skript nicht kennen.

In [None]:
test_name = "Test Name"
print("test_name")
display("test_name")
test_name

Beispielsweise wird die letzte Zeile einer Code-Zelle ausgegeben, was an der Ausgabe `'Test Name'` zu sehen ist. Diese Ausgabe lässt sich auch mit der Methode `display()` erreichen und unterscheidet sich teilweise wesentlich von der Ausgabe durch die Methode `print()`, was im Verlauf des Notebooks klarer wird.

Schauen wir uns eine weitere Eigenheit am nächsten Beispiel an. Überlege dir jedoch vor Ausführung der Code-Zelle, was bei einem normalen Python-Skript passieren würde.

In [None]:
print(say_hello_to(my_name))

Die Funktion `say_hello_to()` kann mit dem Parameter `my_name` aufgerufen werden, obwohl weder die Funktion `say_hello_to()` noch die Variable `my_name` in der Code-Zelle definiert wurde. Es zeigt sich, dass die Ergebnisse jeder ausgeführten Code-Zelle auch nach ihrer Beending der Notebook-Umgebung zur Verfügung stehen. Damit ist die Reihenfolge der Ausführung bei einem Notebook entscheidend und muss beachtet werden!  
Besonders bei der Importierung von Packeten sowie der Wiederverwendung von Funktionen und Variablen-Namen sollte dieses "Gedächtnis" des Notebooks beachtet werden. Soll das "Gedächtnis" gelöscht werden, muss der Kernel des Notebooks zurückgesetzt werden. Dies kann in der oberen Tool-Leiste durchgeführt werden.

### Python-Pakete

Um beim Programmieren nicht alles selbst machen zu müssen, greifen wir auf Erfahrung anderer ProgrammiererInnen mittels Pakete zurück.
Grundlage für die Datenaufbereitung sind die folgenden drei Pakete:

1. ***Pandas*** für vereinfachte Datenmanipulation und -analyse
2. ***NumPy*** für numerische Berechnungen und der Arbeit mit Matrizen
3. ***Matplotlib*** für die Visualiserung (Diagramme, Histogramme, ...) von Daten

Diese werden zu Begin unseres Notebooks mittels des folgenden Codes importiert.

In [None]:
# Pakete importieren
# ------------------

# die Abkürzungen am besten beibehalten
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

So weit so gut! Nachdem wir uns nun etwas mit unserer Arbeitsoberfläche vertraut gemacht haben und die wichtigsten Pakete geladen haben, wollen wir uns mit zwei wichtigen Konzepten bei der Datenaufbereitung mit Python beschäftigen. ***Series*** und ***DataFrame*** welche Bestandteil des Paketes *Pandas* sind.

## *Series* und *DataFrame*

### *Series* 

*Series* (zu Deutsch Serie/Reihe) stellen einfach ausgedrückt (Zeit-)Reihen dar, in denen Daten gespeichert sind. *Series* ermöglichen einen einfachen Zugang auf die grundlegenden Eigenschaften und Verarbeitungsformen der in ihnen enthaltenen Daten. Wie *Series* aus Python-Listen und Numpy-Arrays erstellt werden können, sehen wir in der nächsten Code-Zelle.

Tipp: am besten jede *Series* mit `s_` beginnen um sie klar von anderen Python-Objekten unterscheiden zu können.

In [None]:
# Erstellungsmöglichkeiten von Series
# -----------------------------------

## Python-Listen können sehr einfach mit `pd.Series()` in eine Series umgewandelt werden.

my_float_list = [1, 2, 3, 3, 2, 1, 1, 2, 3, 0]
s_my_float_list = pd.Series(my_float_list)
print(s_my_float_list)

# Hinweis: np.random.random() erstellt eine gleichverteilte Zufallszahl aus dem Intervall 0 bis 1.
random_float_list = [np.random.random() * 180 for i in range(10)]  
s_random_float_list = pd.Series(random_float_list)
print(s_random_float_list)

## Es können auch NumPy-Objekte - Wie das `numpy.array` - genutzt werden.
# Hinweis: np.random.random(10) erstellt zehn gleichverteilte Zufallszahl aus dem Intervall 0 bis 1.
random_float_array = np.array(np.random.random(10)*180)
s_random_float_array = pd.Series(random_float_array)
display(s_random_float_array)  # bei Serien gibt es keinen Unterschied zwischen `print()` und `display()`.

## Um auf einen bestimmten Wert zugreifen zu können, müssen - ähnlich zu einer Python-Liste - die eckigen Klammern '[]' verwendet werden.
print(s_random_float_list[3])
print(s_random_float_array[4])

So weit so gut! Jetz bist du dran. Erstelle in der nächsten Code-Zelle die geforderten Objekte und überprüfe deinen Code mit der Lösung aus der übernächsten Code-Zelle. In der Code-Zelle mit den Lösungen wird `%load` (ein spezieller Befehl für Jupyter-Notebooks) genutzt, um die Lösung aus einer Datei zu laden. Führe also einfach die Code-Zelle aus, um die Lösung aufzurufen.

In [None]:
# N1A1: Serien erstellen
# ----------------------

# Erstelle die folgenden Series und gib sie aus.

## Series mit 10 zufällig generierten Zahlen aus dem Bereich von 0 bis 1
s_float = pd.Series(np.random.random())

## Series mit 10 Elementen, aus der Menge M = {1,2,3,4,5,6}
s_int = pd.Series(


## Series mit 10 Vornamen (alles klein geschrieben)
s_string = 

## Series `s_mix` mit 10 Einträgen, in der Zeichenketten, ganze Zahlen und Gleitkommazahlen vorkommen 
s_

## Ausgabe aller Series



In [None]:
# Führe diese Code-Zelle aus, um die Lösung zu laden!
%load "./resources/N1A1_lsg.py"

### Eigenschaften und Methoden von *Series*

Betrachten wir uns die Ausgabe unserer *Series* fällt uns der `dtype` am unteren Ende jeder *Series* auf. Dieser gibt den (Daten-)Typ der in der vorliegenden *Serie* an, solange dieser Eindeutig ist.
`dtype` stellt jedoch nur eine von vielen Eigenschaften dar, die eine Series besitzt. Durch `.`(Punkt) können wir auf diese Eigenschaften zugreifen und sie abrufen oder verändern.  
Ein kleines Beispliel ist in der nächsten Code-Zelle zu sehen.


In [None]:
# Eigenschaften einer Series
# --------------------------

print(s_float.dtype)
print(s_int.dtype)
print(s_string.dtype)
display(s_mix.dtype)  # etwas unterschiedliche Darstellung beim `dtype`, wobei das 'O' für 'object' steht

print(s_mix.index)

Einer Übersicht aller möglichen Eigenschaften - sowie zusätzlicher Erklärungen - ist in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#attributes) zu finden. Nutze diese [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#attributes) um richtigen Eigenschaften herauszusuchen und somit die nächsten Aufgaben zu lösen.

In [None]:
# N1A2: Eigenschaften von Serien
# ------------------------------

# Erledige die folgenden Aufgaben und gib das Ergebnis aus.

## Gib die Anzahl an Elementen in `s_float` zurück.
print(s_float.)

## überprüfe, ob `s_mix` und `s_string` den selben Datentyp besitzen
print(s_mix == s_string)

## gibt die Werte von `s_string` als Liste zurück
print(

## setze den index von von `s_int` auf `s_string`
s_
print(s_int)

## setze den 4. Wert von `s_string` auf 'noname'
s_string[]
print(

## stetze den 10. Wert von `s_max` auf `np.NaN`
# Hinweis: `np.NaN` steht für "Not a Number" und wird häufig für fehlende oder fehlerhafte Werte verwendet

print(

In [None]:
# Führe diese Code-Zelle aus, um die Lösung zu laden!
%load "./resources/N1A2_lsg.py"

Neben den eben besprochenen Eigenschaften besitzen *Series* auch Methoden, welche ebenfalls mittels `.`(Punkt) aufrufbar sind. Genau wie Funktionen besitzen diese Methoden immer ein Klammerpaar über das Parameter übergeben werden. Die Rückgabewerte können dabei neue *Series* oder wichtige Werte einer *Series* sein. In der nächsten Code-Zelle wird der Aufruf von Methoden einer *Series* kurz demonstriert. 


In [None]:
# Methoden von Series
# -------------------

# Die Methode `append()` "klebt" zwei Series hintereinder und erzeugt somit eine dritte Series.
s_int_float = s_int.append(s_float)
print(s_int_float)

# Die Methode `max()` gibt den größten Wert einer Series mit numersichen Werten zurück
max_s_int_float = s_int_float.max()
print(f"Der Maximalwert von s_float ist {max_s_int_float}")

Eine *Series* besitzt unzählige Methoden, welche in verschiedenen Situationen Anwendung finden. In dem folgenden [Teil der Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats) werden Methoden für die Deskriptive(Beschreibende) Statistik vorgestellt. Dazu gehören Maximas, Minimas, absolute Beträge und vieles mehr. Suche die richtigen Methoden aus diesem [Teil der Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats) um die folgenden Aufgaben zu lösen.

In [None]:
# N1A3: Methoden von Series
# -------------------------

## gibt die Anzahl aller Werte in `s_mix` aus, die nicht `np.NaN` sind.
print(s_mix.count

## Gib die Summe aller Werte von `s_int` aus
print(s_float

## Gib den Mittelwert(mean) und die Standardabweichung(standard deviation) von `s_int` aus.
print(s_int

## gib alle vorhandenen (eindeutigen) Elemente von `s_int` aus.
print(

## Gib die 3 größten Werte von `s_float` aus.
print(

In [None]:
# Führe diese Code-Zelle aus, um die Lösung zu laden!
%load "./resources/N1A3_lsg.py"

Besonders interessant ist die Methode `apply()` ([Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html#pandas.Series.apply)), welche eine Funktion auf jeden Wert einer Serie ausführt und diesen somit anpassen kann. Ein kleines Beispiel dafür ist in der nächsten Code-Zelle zu sehen.

In [None]:
# `apply()`-Methode
# -----------------

# Der erste Buchstabe jeder unserer Vornamen in `s_string` wird Groß geschrieben, solange der Vorname nicht "noname" ist.
def capitalize_if_not_noname(value):
    if not value == "noname":
        return value.capitalize()
    else:
        return value

s_cap_string = s_string.apply(capitalize_if_not_noname)
print(s_cap_string)

Durch die `apply`-Methode kann eine *Series* auf die nächsten Arbeitstschritte und Berechnungen vorbereitet werden. Zudem wird durch die Parameterübergabe an `args=` die von  der `apply`-Methode genutzte Funktion weiter beeinflusst (Siehe nächste Code-Zelle). Deshalb ist die `apply()`-Methode so ein flexibles und mächtigens Werzeug deren 
[Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#function-application-groupby-window) einen Blick wert ist.

In [None]:
# Funktion, die 3 Parameter besitzt und von uns im weiteren Verlauf an die `apply`-Methode übergeben wird.
def boolean_grading (grade, pos_grades, neg_grades):
    if grade in pos_grades:
        return True
    elif grade in neg_grades:
        return False
    else:
        raise ValueError


print("Überprüfung auf Bestanden/Durchgefallen:")
passing_grades = [1,2,3,4]
failing_grades = [5,6]
# Die beiden Listen `passing_grades` und `failing_grades` werden mittels `args=` an die Funktion
# `boolean_grading` übergeben und nehmen dort die Position von `pos_grades` und `neg_grades` ein
passed_s_int = s_int.apply(boolean_grading, args=(passing_grades,failing_grades))
print(passed_s_int)

s_passed_count = passed_s_int.value_counts()
s_passed_count.index = ["passed","failed"]
print(s_passed_count)


print("\nÜberprüfung auf 1 und 2:")
good_and_great_grades = [1,2]
other_grades = [3,4,5,6]
# Die beiden Listen `good_and_great_grades` und `other_grades` werden mittels `args=` an die Funktion
# `boolean_grading` übergeben und nehmen dort die Position von `pos_grades` und `neg_grades` ein
good_and_great_s_int = s_int.apply(
    boolean_grading,
    args=(good_and_great_grades,other_grades)
)
print(good_and_great_s_int)

s_good_great_count = good_and_great_s_int.value_counts()
s_good_great_count.index = ["1 or 2", "other"]
print(s_good_great_count)
!!!replace mit aufnehmen

Neben den bereits betrachteten Methoden gibt es viele andere die Anwendung finden. Eine nach Aufgabenbereich strukturierte Übersicht ist in der [Dokumentation zu Series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html) zu finden.

*Series* bieten viele Möglichkeiten der Arbeit mit Daten und Analyse von Daten. Typischerweise kommen Daten jedoch nicht nur in (Zeit-)Reihen vor sondern gemeinsam, weshalb das *DataFrame* eine wichtiege Erweiterung der *Series* darstellt.

### DataFrame

In [None]:
# Pakete importieren
# ------------------

# Die wichtigesten Pakete werden erneut importiert, um das Kapitel für sich betrachten zu können.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



Wie bereits erwähnt stellt eine *Series* eine (Zeit-)Reihe dar und besteht (neben vielen anderen Komponenten wie Datentyp, Name, ...) aus einem Index und der Daten/Werte. Sollen mehrere *Series* miteinander verbunden werden ist das *DataFrame* genau richtig. 

Im Gegensatz zu einer *Series* welche - abgesehen vom Index - nur eine Spalte mit Werten besitzt, kann ein *DataFrame* beliebig viele Spalten in Tabellenform speichern.
![DataFrame_image](https://www.geeksforgeeks.org/wp-content/uploads/creating_dataframe1.png)

In der nächsten Code-Zelle werden verschiedene Möglichkeiten vorgestellt ein *DataFrame* zu erstellen.

Tipp: Wir empfehlen - ähnlich wie `s_` bei den *Series* - jedes *DataFrame* mit `df_` zu beginnen.

In [1]:
# Erstellung eines DataFrame
# --------------------------

## Erstellung eines DataFrame aus einem Dictionairy
fruit_dict = {
    "name": ["Apple", "Pears", "iuate", "itaer"],
    "numbers": [10, 14, 16, 100],
    "cost": [2.0, 3.45, 5.12, 1.12]  # in Euro
}
df_fruit = pd.DataFrame(fruit_dict)
print(df_fruit)
display(df_fruit)  
# `display()` gibt einen wesentlich besseren Blick auf ein DataFrame
# und sollte daher immer für diese verwendet werden.

## Erstellung eines DataFrame durch "zusammenfügen" mehrer Series
s_int = pd.Series([1, 5, 6, 3, 2, 1, 4, 5, 2, 1])
s_string = pd.Series(["alex", "paul", "paula", "erika", "jan","karl", "vlad", "franzi", "bine", "flo"])
s_float = pd.Series(np.random.normal(173, 10, 10))  # 10 normalverteilte Werte mit Mittelwert 173 und Std von 10
df_grades = pd.DataFrame()  # anlegen eines leeren DataFrame's
# Die Series werden dem DataFrame `df_grades` als neue Spalten hinzugefügt. <-- Das ist sehr nützlich!!!
df_grades["name"] = s_string
df_grades["grade"] = s_int
df_grades["size"] = s_float
display(df_grades)

## Erstellung eines DataFrame aus einer CSV-Datei
df_football = pd.read_csv("W1_csv-file.csv")
display(df_football)

NameError: name 'pd' is not defined

Nun betrachten wir uns in der nächsten Code-Zelle verschiedene Zugriffsmöglichkeiten auf die Spalten und Zeilen eines *DataFrame*.

In [None]:
# Zugriff auf ein DataFrame mittels `[]` und `iloc[]`
# ---------------------------------------------------

## Zugriff auf eine Spalte (Rückgabewert ist eine Series) 
s_fruit_name = df_fruit["name"] # Name der Spalte wird als String in "[]" übergeben
display(s_fruit_name)  

## Zugriff auf mehrere Spalten (Rückgabewert ist ein DataFrame)
display(df_fruit[["name", "cost"]])  # Namen der Spalten werden als Python-Liste übergeben

## Zugriff auf einen/mehrer Indizies  mittels `iloc[]`
display(df_grades.iloc[1])  # Rückgabewert ist eine Series
display(df_grades.iloc[[2,3,4]]) # Rückgabewert ist ein DataFrame
display(df_grades.iloc[2:8]) # Bereichsangabe wie bei einer Python-Liste

#### Eigenschaften und Methoden eines *DataFrame*
Genau wie eine *Series* besitzt auch ein *DataFrame* Eigenschaften und Methoden zur Datenverarbeitung, -bearbeitung und -analyse. Auf diese Methoden und Eigenschaften werden auch mittels `.` (Punkt) zugreifen. In der nächsten Code-Zelle sind einige Beispiele von Eigenschaften und Methoden zu sehen, welche sich DataFrame und Serie teilen. Mehr Informationen zu den Eigenschaften und Methoden eines DataFrame's sind (wie immer) in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html) zu finden.

In [None]:
# Eigenschaften und Methoden eines DataFrame
# ------------------------------------------

print("Einige Eigenschaften und Methoden die DataFrame's und Series gemeinsman haben:")
print(
    df_grades.index,
    df_grades.size,
    df_grades.shape,
    df_grades.count(),
    df_grades.isna(),
    sep="\n\n"
)

Es gibt jedoch auch Eigenschaften und Methoden die lediglich Teil eines *DataFrame* sind. Beispielsweise zeigt die Eigenschaft `columns` die Spaltennamen an, was für eine *Series* keinen Sinn ergibt. Ein weiter Beispiel ist die sehr nützliche `query()`-Methode ([Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html#pandas.DataFrame.query)) welche das Filtern eines *DataFrame*'s ermöglicht.

In [None]:
print("\n\nEigenschaften und Methoden die nur ein DataFrame besitzt:\n")
print(df_grades.columns)
display(df_grades.query("grade <= 2"))  # zeigt alle Einträge an, deren Note besser oder gleich 2 ist

In der nächsten Code-Zelle sind einige Aufgaben zu sehen, deren Lösung die Benutzung wichtiger Methoden eines DataFrame benötigen.
Nutze die Suchfunktion in der [Dokumentation zu DataFrame's](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#attributes-and-underlying-data) und das Internet um die Aufgaben zu lösen.

In [None]:
# N1A4: Umgang mit DataFrame
# --------------------------

# Löse die folgenden Aufgaben und gib das Ergebnis aus.

## gib für `df_grades` alle Einträge aus, die größer sind als 170
display(df_grades.query(

## Zeige an, wie die Noten in `df_grades` verteilt sind
df_grouped_grades = df_grades.g.count()
display(df_grouped_grades)

## Ändere die Spaltenüberschriften für `df_fruit` in die deutschen Übersetzungen
df_fruit.c
display(df_fruit)

## zeige in `df_fruit` lediglich die erste und letzt Spalte an
display(df_fuit[

## bestimme den Mittelwert(mean) und die Standardabweichung(standard deviation) der Spalte `size` von `df_grades`
print(

## Sortiere das DataFrame `df_grades` absteigend nach der Größe (sort_values)
display(df_grades.sort

## ändere den ersten Buchstaben aller Namen in der Spalte `name` in `df_grades` in Großbuchstaben
def cap():
    pass
s_caped_names = df_grades["names"].a
df_grades[
dispaly(df_grades)

In [None]:
# Führe diese Code-Zelle aus, um die Lösung zu laden!
%load "./resources/N1AA_lsg.py"

### Visualisierung von *Series* und *DataFrame*'s

Zur Visualisierung wird normalerweise das Paket *Matplotlib* verwendet, welches weiter oben bereits von uns mittels `import matplotlib.pyplot` importiert wurde und uns im weiteren Verlauf mit `plt` zur Verfügung steht. Der größte Teil der Visualisierung wird jedoch über die *Series* und dem *DataFrame* durchgeführt. Auf die verschiedenen Visualiserungsmöglichkeiten wird hierbei mittels Methoden zugegriffen, die von dem jeweiligen Objekt (*Series* oder *DataFrame*) aufgerufen werden. Hier ein kleines Beispiel.

In [None]:
# Visualisierung
# --------------

import matplotlib.pyplot as plt

# https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

df_grades.plot.line()  # Erstellt ein Liniendiagramm 
df_grades.plot.hist()  # erstellt ein Histogramm

Wie in der oberen Code-Zelle zu sehen ist wird mit `plot` anzeigt, dass etwas visualisiert ("geplottet") werden soll. Der auf den Befehl `plot` folgende Methodenname entscheidet dann welche der vielen verschiedenen Visualisierungsmöglichkeiten verwendet wird. Veränderungswünsche und Einstellungen werden mittels der Parameterübergabe an die gewählte Methode durchgeführt. In der nächsten Code-Zelle ist ein kleines Beispiel für weitere Methoden der Visualisierung und der Parameterübergabe zu sehen.

In [None]:
# Histogramm für die Spalte `grade` vom DataFrame `df_grades` mit Zusatzeinstellungen
df_grades["grade"].plot.hist(bins=6, grid=False)
# stellt die beiden Spalten `name` und `size` in einem Scatter-Diagramm mit Roten Punkten dar
df_grades.plot.scatter(x="name", y="size", c="red")
# stellt die Verteilung der Noten als Kreisdiagramm dar, wobei die Spalte `name` enthällt die Anzahlen der Noten enthällt
df_grades.groupby("grade").count().plot.pie(y="name", use_index = True) 

## Zusammenfassungen:

Beim Druchgehen des Notebooks wurden die folgenden Themen besprochen

- Ein Jupyter-Notebook stellt eine nützliches Arbeitsoberfläche für die Datenaufbereitung dar
- Zur Arbeit mit Daten werden die Pakete Pandas, NumPy und Matplotlib verwendet
- Eine *Series* ist ein Pandas-Objekt, welches als (Zeit-)Reihe mit Eigenschaften und Methoden verstanden werden kann
- Ein DataFrame ist ein Pandas-Objekt, welches als eine Tabelle mit Eigenschaften und Methoden verstanden werden kann
- Die Arbeit mit Pandas-Objekten geschieht über die eben erwähnten Eigenschaften und Methoden, welche mit `'.'` (Punkt) erreichbar sind
- Zur Visualisierung werden die verschiedenen `plot`-Methoden verwendet, deren Konfiguration über Parameterübergabe geschieht

## Schlusswort

Durch dieses Notebook wurden nur grundlegende Werkzeuge bereitgestellt um die Programmiersprache Python im Rahmen von Data Science zu verwenden.  
Es liegt nun an dir diese Werkzeuge zu erproben, zu nutzen und den Werkzeugkasten auszubauen. Durch Verwendung der Dokumentation und des Internets ist es möglich fast alle Aufgaben zu lösen und Probleme zu bewältigen. Python stellt alle dafür notwendigen Funktion zur Verfügung. 