# Python Datenvisualisierung 1
## Matplotlib
***
In diesem Notebook wird behandelt:
- Erstellen von Liniendiagrammen
- Diagramme mit mehreren Linien
***

## Einführung in die Datenvisualisierung mit Matplotlib

### Einführung

 Willkommen zu diesem Kurs über die Grundlagen der *Datenvisualisierung* mit Python mithilfe der bekannten Bibliothek: **Matplotlib**. <br>

 Matplotlib ist eine leistungsstarke Python-Bibliothek zum Plotten und Visualisieren von Daten. Sie wird verwendet, um alle Arten von Graphen zu erstellen. <br>

 Mit dem Matplotlib-Untermodul **`pyplot`** ist das Erstellen von Graphen sehr ähnlich wie in Matlab. <br>

 Matplotlib ist eine sehr umfangreiche Bibliothek, daher können nicht alle Funktionen vorgestellt werden. Dieser Kurs konzentriert sich auf die wichtigsten Funktionen, mit dem Hauptziel, dass du am Ende des Kurses selbstständig mit der Bibliothek arbeiten kannst. <br>

 Zu Beginn musst du das `matplotlib.pyplot`-Modul mit dem Alias 'plt' importieren. <br>

 Sobald der Graph erstellt ist, ermöglicht der Befehl `plt.show` die Visualisierung. In einem Jupyter Notebook wird durch das Hinzufügen von `%matplotlib inline` am Anfang der Seite automatisch jede Figur angezeigt, sobald eine Zelle mit einem pyplot-Befehl ausgeführt wird. In den folgenden Übungen werden wir auch die Bibliotheken **numpy** und **pandas** verwenden. <br>

 Daher wird jedes Notebook die folgende Ausführungszelle als Vorspann haben: <br>

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## 1. Liniendiagramme erstellen

 Ein Liniendiagramm ist eine Menge von Punkten mit Koordinaten (x, y), zwischen denen eine Linie gezeichnet wird: Je mehr Punkte verwendet werden, desto glatter sieht der Plot aus. <br>

 Die **`plot`**-Funktion ermöglicht es dir, Linien zu zeichnen, die Punkte verbinden, deren X- und Y-Koordinaten in Listen oder Arrays bereitgestellt werden. Um einen Graphen mit Werten '`x`' auf der X-Achse und den Werten '`y`' auf der Y-Achse zu zeichnen, schreiben wir: `plt.plot(x,y)`. <br>

<div class="alert alert-info">
<i class="fa fa-info-circle"></i>
 Hinweis: X-Achse bezieht sich auf die horizontale Achse und Y-Achse auf die vertikale Achse.
</div>

#### 1.1 Aufgaben:
> (a) Zeichne ein Liniendiagramm mit den X-Koordinaten [0,2,4,6] und Y-Koordinaten [1,4,4,8]. <br>


In [None]:
# Deine Lösung:




#### Lösung:

In [None]:
plt.plot([0,2,4,6],[1,4,4,8])

#### 
<div class="alert alert-info">
<i class="fa fa-info-circle"></i>
Hinweis: Das Hinzufügen eines '<b>;</b>' zur letzten Zeile jeder Zelle verhindert unerwünschte Ausgaben.
</div>

 Wenn nur eine Liste oder ein Array an die plot-Funktion übergeben wird, geht Matplotlib davon aus, dass es sich um eine Sequenz von Y-Werten handelt und generiert die X-Achsenwerte automatisch. Die X-Achsenwerte werden als Positionen der Y-Werte beginnend bei 0 gesetzt. <br>

> (b) Zeichne eine Linie aus der Liste: [1,3,2,4]. <br>

In [1]:
# Deine Lösung:





#### Lösung:

In [None]:
x = [0, 0, 1, 1, 0, 0.5, 1]
y = [1, 0, 0, 1, 1, 2, 1]
plt.plot(x, y)
plt.axis([-1, 2, -1, 2]);

#### 
<div class="alert alert-info">
<i class="fa fa-info-circle"></i>
 Hinweis: Es wurden nur die Y-Werte übergeben, die X-Werte wurden automatisch auf [0,1,2,3] gesetzt.
</div>

 Um Graphen einen Titel hinzuzufügen, verwenden wir die **`title`**-Methode. <br>
 Um den Achsen Beschriftungen hinzuzufügen, verwenden wir die **`xlabel`** und **`ylabel`**-Methoden. <br>

> (c) Zeichne ein Liniendiagramm durch die folgenden Punkte: `(50,1) , (140,2) , (200,4)`. <br>
>
> (d) Gib der Figur den Titel 'Mein erstes Liniendiagramm'. <br>
>
> (e) Beschrifte die X- und Y-Achse mit 'X-Achse' und 'Y-Achse'. <br>

In [2]:
# Deine Lösung:





#### Lösung:

In [None]:
plt.title('Mein erstes Liniendiagramm')
plt.plot([50,140,200], [1,2,4])
plt.xlabel('X-Achse')
plt.ylabel('Y-Achse');

#### 
 Es ist möglich, die **`axis`**-Methode zu verwenden, um die Achsenlänge zu kontrollieren. Sie wird wie folgt verwendet: `axis([xmin, xmax, ymin, ymax])`. Um die X-Achse oder Y-Achse unabhängig voneinander zu kontrollieren, kann man `xlim([xmin, xmax])` oder `ylim([ymin, ymax])` verwenden. <br>

> (f) Zeichne ein Liniendiagramm durch die folgenden Punkte: `(50,1) , (140,2) , (200,4)`. <br>
>
> (g) Die Grafik soll X-Werte zwischen 80 und 180 und Y-Werte von 1 bis 5 haben. <br>

In [3]:
# Deine Lösung:





#### Lösung:

In [None]:
plt.plot([50,140,200], [1,2,4])
plt.axis([80, 180, 1, 5]);

# oder:
#plt.xlim([80,180]); plt.ylim([1,5])

#### 
 Die `plot`-Funktion verbindet nur Punkte in der Reihenfolge, in der wir sie angeben. Es ist möglich, mehrere Punkte mit gleichen X-Koordinaten anzugeben, um eine Form zu erstellen. <br>

> (h) Erstelle die Listen **`x`** und **`y`** wie folgt: `x = [0, 0, 1, 1, 0, 0.5, 1]` , `y = [1, 0, 0, 1, 1, 2, 1]`. <br>
>
> (i) Verbinde die Punkte mit der plot-Funktion und setze beide Achsen mit den Grenzen: -1 und 2. <br>

In [4]:
# Deine Lösung:





#### Lösung:

In [None]:
x = [0, 0, 1, 1, 0, 0.5, 1]
y = [1, 0, 0, 1, 1, 2, 1]
plt.plot(x, y)
plt.axis([-1, 2, -1, 2]);

#### 
 Die `plot`-Funktion funktioniert auch mit ***Pandas Series***. Beim Arbeiten mit einem *Dataframe* kann man also einfach einige Spalten extrahieren, um Graphen zu erstellen. Zum Beispiel: `plt.plot(mein_df.spalte1, mein_df.spalte2)`. <br>

 Die Datei './data/sales_data.csv' enthält die monatlichen Verkaufsinformationen einiger Produkte über einen Zeitraum von 3 Jahren. <br>

> (j) Lies `'./data/sales_data.csv'` in einen Dataframe ein. <br>


In [5]:
# Deine Lösung:




#### Lösung:

In [None]:
df = pd.read_csv('./data/sales_data.csv')

#### 
> (k) Erstelle ein Liniendiagramm aus der Anzahl der Verkäufe des ersten Produkts (`'Product1'`) in Abhängigkeit vom (`'Month'`). <br>

In [None]:
# Deine Lösung:




#### Lösung:

In [None]:
plt.plot(df.Month, df.Product1);

#### 
 Der erhaltene Graph zeigt eine schlecht lesbare X-Achse aufgrund der großen Anzahl von Markierungen im Vergleich zur Bildgröße. <br>

 Die **pandas**-Bibliothek enthält Plot-Methoden, die im Hintergrund *Matplotlib* verwenden, um Diagramme direkt aus den Spalten eines Dataframes schnell und optimiert zu erstellen. Sie ermöglichen es auch, direkt zusätzliche Parameter wie einen Titel, eine Begrenzung der Achsen oder Legenden hinzuzufügen. Zum Beispiel: `df.plot(x=spalte1, y=spalte2, title="Mein Titel", ylim=[100,700])` reicht aus, um einen vollständigen Graphen zu erstellen. <br>

> (l) Verwende die `plot`-Methode von **df**, um die monatlichen Verkaufszahlen mit einem passenden Titel anzuzeigen. <br>

In [None]:
# Deine Lösung:




#### Lösung:

In [None]:
df.plot(x='Month', y='Product1', title="Verkäufe pro Monat");

## 2. Mehrfache Liniendiagramme, Linienstile und Legenden 

<hr style="border-width:2px;border-color:#75DFC1">

 In diesem Notebook werden wir sehen, wie man mehrere Kurven im selben Diagramm zeichnet und die von Matplotlib bereitgestellten Formatierungsoptionen erkundet. <br>

 Mehrfache Kurven sind besonders nützlich, wenn man verschiedene Datenreihen oder Verteilungen in einem einzigen Diagramm vergleichen möchte, um Unterschiede oder Ähnlichkeiten zwischen diesen Reihen hervorzuheben. <br>

<img src="../imgs/mult_curves_111.png" style="height:350px">

#### Bitte führe diese Zelle vor Beginn der Übung aus

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

 Um ein Liniendiagramm mit mehreren Linien zu zeichnen, kann man die **`plot`**-Funktion mehrmals aufrufen, wie hier: <br>
><code>plt.plot(<span style="color:red">x,y</span>)
plt.plot(<span style="color:blue">u,v</span>)
plt.plot(<span style="color:green">w,z</span>)</code>

 oder einfach die folgende Syntax verwenden: <br>
><code>plt.plot(<span style="color:red">x,y</span>,<span style="color:blue">u,v</span>,<span style="color:green">w,z</span>)</code>

#### 2.1 Aufgaben:
> (a) Erstelle in einer Liste namens **`t`** eine Sequenz von 0 bis 5 mit einer Schrittweite von 0,2 unter Verwendung der **`np.arange`**-Funktion. <br>
>
> (b) Zeichne im selben Diagramm die Funktionen $t$ , $t^2$ und $t^3$ und setze die Grenzen der y-Achse zwischen 0 und 50. <br>

<div class="alert alert-info">
<i class="fa fa-info-circle"></i> &emsp; 
Der Befehl: <b>np.arange(a, b, p)</b> gibt eine 1D-Tabelle mit Zahlen zwischen <b>a</b> und <b>b</b> (b ausgeschlossen) mit einer Schrittweite von p zurück.
</div>




In [None]:
# Deine Lösung:





#### Lösung:

In [None]:
t = np.arange(0,5,0.2)

plt.plot(t,t,t,t**2,t,t**3)
# Wir zeichnen (t,t), (t,t**2) und (t,t**3) in derselben Funktion

plt.ylim([0,50]);
# Wir setzen die y-Achsengrenzen auf [0,50]

#### 
Matplotlib bietet auch die Möglichkeit, den Stil der Elemente in den Diagrammen zu ändern, was sehr nützlich sein kann, um sie weiter zu unterscheiden und sogar zusätzliche Bedeutung hinzuzufügen (wie zum Beispiel eine bestimmte Farbe). <br>

 Für jedes Paar (x,y) gibt es ein drittes optionales Argument, um den Stil und die Farbe der Linie festzulegen. <br>

 Verfügbare Linienstile sind: <br>

  | <p class="text-center">Linienstile</p> | <p class="text-center">Beschreibung</p> |
  |:---:|:---:|
  | <p class="text-center">'-'</p> | <p class="text-center">durchgehende Linie</p> |
  | <p class="text-center">'--'</p> | <p class="text-center">gestrichelte Linie</p> |
  | <p class="text-center">':'</p> | <p class="text-center">gepunktete Linie</p> |
  | <p class="text-center">'-.'</p> | <p class="text-center">Mischung aus Strichen und Punkten</p> |

 Verfügbare Farben sind: <br>

  | <p class="text-center">Farben</p> | <p class="text-center">Beschreibung</p> |
  |:---:|:---:|
  | <p class="text-center">'b'</p> | <p class="text-center">blau</p> |
  | <p class="text-center">'g'</p> | <p class="text-center">grün</p> |
  | <p class="text-center">'r'</p> | <p class="text-center">rot</p> |
  | <p class="text-center">'c'</p> | <p class="text-center">cyan</p> |
  | <p class="text-center">'m'</p> | <p class="text-center">magenta</p> |
  | <p class="text-center">'y'</p> | <p class="text-center">gelb</p> |
  | <p class="text-center">'k'</p> | <p class="text-center">schwarz</p> |
  | <p class="text-center">'w'</p> | <p class="text-center">weiß</p> |

 Die Farbe und der Stil können miteinander verbunden werden. Zum Beispiel ist das Standardformat 'b-', was eine blaue durchgehende Linie ist. <br>

> (c) Zeichne die drei Linien aus der vorherigen Aufgabe erneut mit den folgenden Stilen: gepunktete rote Linie, durchgehende grüne Linie und gestrichelte blaue Linie. <br>

In [None]:
# Deine Lösung:





#### Lösung:

In [None]:

t = np.arange(0,5,0.2)

plt.plot(t,t,':r',t,t**2,'-g',t,t**3,'--b')
plt.ylim([0,50])

plt.show()


#### 
Es ist auch möglich, Markierungen mit Symbolen hinzuzufügen. Man kann sie zu Linien hinzufügen oder sie sogar anstelle der Linien verwenden. Diese Symbole können mit den obigen Farben verkettet werden. <br>

 Verfügbare Markierungen sind: <br>

  | <p class="text-center">Markierung</p> | <p class="text-center">Beschreibung</p> |
  |:---:|:---:|
  | <p class="text-center">'.'</p> | <p class="text-center">Punktmarkierung</p> |
  | <p class="text-center">','</p> | <p class="text-center">Pixelmarkierung</p> |
  | <p class="text-center">'o'</p> | <p class="text-center">Kreismarkierung</p> |
  | <p class="text-center">'v'</p> | <p class="text-center">Dreieck_unten Markierung</p> |
  | <p class="text-center">'^'</p> | <p class="text-center">Dreieck_oben Markierung</p> |
  | <p class="text-center">'<'</p> | <p class="text-center">Dreieck_links Markierung</p> |
  | <p class="text-center">'>'</p> | <p class="text-center">Dreieck_rechts Markierung</p> |
  | <p class="text-center">'s'</p> | <p class="text-center">Quadratmarkierung</p> |
  | <p class="text-center">'p'</p> | <p class="text-center">Fünfeckmarkierung</p> |
  | <p class="text-center">'*'</p> | <p class="text-center">Sternmarkierung</p> |
  | <p class="text-center">'h'</p> | <p class="text-center">Sechseck1 Markierung</p> |
  | <p class="text-center">'H'</p> | <p class="text-center">Sechseck2 Markierung</p> |
  | <p class="text-center">'+'</p> | <p class="text-center">Plusmarkierung</p> |
  | <p class="text-center">'x'</p> | <p class="text-center">x-Markierung</p> |
  | <p class="text-center">'D'</p> | <p class="text-center">Rautenmarkierung</p> |
  | <p class="text-center">'d'</p> | <p class="text-center">dünne_Rauten Markierung</p> |

 Man kann den Stil eines Liniendiagramms in **einer Zeichenkette** in dieser Reihenfolge angeben: die Farbe, der Linienstil und die Markierungen. <br>
 Zum Beispiel: <br>
 * `"r-*"` für eine rote durchgehende Linie mit Sternmarkierungen <br>
 * `"y:d"` für eine gelbe gepunktete Linie mit Rautenmarkierungen, usw. <br>

 Beim Zeichnen einer Linie ist es auch möglich, ihre Breite anzupassen, dank des *`linewidth`*-Parameters der `plot`-Funktion. <br>
 So zeigt der Befehl: `plt.plot(x, y, "r--", linewidth=5, marker='o')` eine rote gestrichelte Linie mit Breite 5 und Kreismarkierungen an. <br>

> (d) Zeichne die letzten 3 Linien erneut, jeweils mit den folgenden Stilen: gelbe Sechseck1-Markierungen, grüne Linie mit Breite 5 und blaue Linie mit Rautenmarkierungen. <br>

```python
# Deine Lösung:



```

#### Lösung:

t = np.arange(0,5,0.2)

plt.plot(t,t,'hy')
plt.plot(t,t**2,'g-', linewidth=5)
plt.plot(t,t**3,'b', marker='D')
plt.ylim([0,50])

plt.show()

#### 
Es ist möglich, ein weiteres sehr wichtiges Element für die Lesbarkeit von Diagrammen hinzuzufügen - Legenden - mit der [legend](https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.legend)-Methode, indem man den Kurven Namen im `'label'`-Argument innerhalb des plot-Befehls zuweist. <br>

 Die Position der Legende kann mit dem Argument `loc` gewählt werden, das `'best'`, `'lower right'`, `'upper center'`, `'center left'` usw. sein kann. <br>

 Es ist auch möglich, dem Diagramm ein Raster mit `plt.grid(True)` hinzuzufügen. <br>

> (e) Zeichne in einem Diagramm mit Raster die folgenden Liniendiagramme: <br>
>
>    * 1) Die Punkte (50,2), (100,3), (150,7), (200,10) verbunden mit einer blauen Linie der Breite 0,8 und Markierungen '*' mit Label 'Pfad 1'. <br>
>    * 2) Die Punkte (50,2), (100,7), (150,9), (200,10) verbunden mit einer blauen Linie der Breite 0,8 und Markierungen '+' mit Label 'Pfad 2'. <br>
>
> (f) Gib der x-Achse und y-Achse die Beschriftungen "Geschwindigkeit" und "Zeit". <br>
>
> (g) Zeige die Legende des Diagramms an. <br>

```python
# Deine Lösung:



```

#### Lösung:

In [None]:
plt.grid(True)
plt.plot([50,100,150,200], [2,3,7,10], "b-*", linewidth=0.8, label="Pfad 1")
plt.plot([50,100,150,200], [2,7,9,10], "g-+", linewidth=0.8, label="Pfad 2")
plt.xlabel('Geschwindigkeit')
plt.ylabel('Zeit')
plt.legend();

#### 
Mit den eingebauten Methoden der Pandas DataFrames können Sie auch dem Diagramm Stil hinzufügen, indem Sie dieselben Parameternamen verwenden. <br>

 Es ist auch möglich, mehrere Linien im selben Diagramm anzuzeigen, indem man dem `y`-Parameter eine Liste übergibt. <br>

 Der `style`-Parameter kann auch eine Liste erhalten, um jeder Linie ihren eigenen Stil zuzuweisen. <br>

 Beispiel: `mein_df.plot(x=spalte1, y=[spalte2,spalte3], style=["r--", "c-+"])` <br>

> (h) Lies die Datei `"./data/sales_data.csv"`. <br>
>
> (i) Zeige in einem Diagramm die Liniendiagramme für die Spalten "Product1" und "Product2" in Abhängigkeit von "Month". Füge einen unterschiedlichen Stil für jede Linie sowie den Titel "Verkäufe pro Monat" hinzu. <br>

```python

In [None]:
# Deine Lösung:





#### Lösung:

In [None]:
df = pd.read_csv("./data/sales_data.csv")

df.plot(x='Month', y=['Product1','Product2'], style=["m--", "c:."], title="Verkäufe pro Monat");

## Zusammenfassung:

- Um Liniendiagramme mit *Matplotlib* zu erstellen, verwenden wir die ```plt.plot()```-Funktion, die sowohl mit einer ```Liste```, einem ```numpy array``` als auch einer ```Pandas Series``` funktioniert. <br>
- Ein einzelner Plot-Befehl kann mehrere Linien zeichnen, indem mehrere x,y-Paare übergeben werden: ```plt.plot(x1,y1, x2,y2, x3,y3)```. <br>
- Matplotlib bietet vielfältige Formatierungsoptionen für deine Plots: <br>

    - Linienstile ```'-', '--', ':', '-.``` für verschiedene Linienarten
    - Farben ```'r', 'g', 'b', etc.``` für unterschiedliche Linien
    - Marker ```'o', '*', '+', etc.``` für Datenpunkte
    - Linienbreite mit ```linewidth``` für die Betonung bestimmter Linien <br>


- Für bessere Lesbarkeit deiner Diagramme kannst du verschiedene Elemente hinzufügen: <br>

    - Legenden mit ```plt.legend()``` und dem ```label```-Parameter
    - Achsenbeschriftungen mit ```xlabel``` und ```ylabel```
    - Titel mit ```title````
    - Raster mit ```plt.grid(True)````
    - Achsengrenzen mit ```xlim```` und ```ylim```` <br>


- *Pandas* Dataframes bieten eine vereinfachte Syntax für das Plotten mit Matplotlib im Hintergrund: <br>

    - Direktes Plotten mehrerer Spalten mit ```df.plot(x='spalte1', y=['spalte2', 'spalte3'])```
    - Einfache Stilanpassung mit dem ```style```-Parameter
    - Automatische Legendenerstellung basierend auf Spaltennamen <br>