# <font color='darkblue'>Modul 1: Übungsmaterial zu Matplotlib</font> &nbsp; <font size='6'>&#x26C5;</font>

<hr style="border:1px solid gray"> </hr>

In diesem Notebook werden einige grundlegende Befehle zum Anlegen und Formatieren von Visualisierungen in Python eingeführt. Außerdem werden im Anschluss anhand eines Wetterdatensatzes unterschiedliche Diagrammtypen thematisiert.

## <font color='darkblue'>Inhalt</font>


1. [Matplotlib einbinden](#kap1)  
   

2. [Plots formatieren](#kap2)    
    2.1 [2-D Plots (Punkte)](#kap21)  
    2.2 [Graphen von Funktionen](#kap22)  
    2.3 [Achsenbeschriftung](#kap23)   
    2.4 [Achsenskalierung](#kap24)  
    2.5 [Legende](#kap25)  
    2.6 [Gitternetz](#kap26)


3. [Arten von Plots anhand von Wetterdaten](#kap3)  
    3.1 [Daten einlesen](#kap31)    
    3.2 [Scatterplots](#kap32)  
    3.3 [Histogramme](#kap33)  


4. [Fazit](#kap4)

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>1. Matplotlib einbinden</font> <a name="kap1"></a>

Matplotlib ist die bekannteste Python Bibliothek zur graphischen Darstellung von Daten und Funktionen. Sie ermöglicht statische, animierte und interaktive Visualisierungen. 

Es gibt verschiedene Möglichkeiten, Matplotlib zu nutzen. In diesem Notebook werden Sie unter anderem das Modul Pyplot kennenlernen. Viele Funktionen in Matplotlib benötigen außerdem die Numpy Bibliothek.

<div class="alert alert-block alert-success"> <a name="aa1"></a>
&#128187; <b>Arbeitsauftrag:</b> 

Binden Sie aus der `matplotlib` Bibliothek das Modul `pyplot` mit dem Kürzel `plt` ein, sowie die `numpy` Bibliothek mit dem Kürzel `np` und die `pandas` Bibliothek mit dem Kürzel `pd`. 
    
Bei Schwierigkeiten schlagen Sie im Notebook des end-to-end Projektes nach oder nutzen eine Suchmaschine. 
</div>

In [None]:
# Binden Sie die Bibliotheken ein

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>2. Plots formatieren</font> <a name="kap2"></a>

### <font color='darkblue'>2.1 2D-Plots (Punkte)</font> <a name="kap21"></a>

Die Punkte (1;1), (2;0) und (3;4) sollen in einem Koordinatensystem dargestellt werden. 

In [None]:
plt.plot([1,2,3],[1,0,4]); # alle x-Koordinaten in einem Vektor, alle y-Koordinaten im anderen 

<div class="alert alert-block alert-info">
&#128204; <b>Anmerkung:</b>  

Das Semikolon hinter einen plt.plot führt zu einer schlankeren Ausgabe (probieren Sie die Alternative aus!)

Man sieht: Punkte werden standardmäßig in Form von blauen Linien geplottet. Ein <span style="font-family:Consolas; color:crimson">"o"</span> als optionales Argument gibt stattdessen nur die Punkte selbst als Kreise aus.

In [None]:
plt.plot([1,2,3],[1,0,4],"o");

Es gibt eine Vielzahl unterschiedlicher Formatierungsmöglichkeiten der Datenpunkte, so genannte Marker:

In [None]:
plt.plot([1,2,3],[1,0,4],"<");

In [None]:
plt.plot([1,2,3],[1,0,4],"D");

Eine vollständige Übersicht der Marker findet sich <a href="https://matplotlib.org/stable/api/markers_api.html">an dieser Stelle</a> der Dokumentation von matplotlib.

Außerdem gibt es die Möglichkeit, andere Einstellungen wie Farbe, Linienstärke und Linienart zu verändern:

In [None]:
plt.plot([1,2,3],[1,0,4],marker="d",markersize=20,color="g",linewidth=1);

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Testen Sie anhand des folgenden Beispiels die Formatierungsmöglichkeiten und Kennwortargumente aus. Finden Sie heraus, welche Farben schon vordefiniert sind und durch Abkürzungen wie "g" benutzt werden können. 
</div>

In [None]:
a,b = [1,2,3],[1,0,4]

In [None]:
plt.plot(a,b,marker="d",markersize=20,color="g",linewidth=1); # Nehmen Sie hier Änderungen vor!

Hier finden Sie eine <a href="https://matplotlib.org/stable/gallery/color/named_colors.html">Übersicht der definierten Farben.</a>

### <font color='darkblue'>2.2 Graphen von Funktionen</font> <a name="kap22"></a>

Bisher wurden nur Punkte geplottet. Der Plot von Funktionsgraphen erfolgt nach dem gleichen Prinzip: Es werden viele eng beieinander liegende Punkte einer Funktion berechnet und dann geplottet. Diese Punkte werden durch gerade Linien verbunden wie bei dem obigen Beispiel. Da die Punkte aber sehr nah beieinander liegen, sieht es aus wie eine glatte Kurve.

Angenommen, es soll die Funktion $f(x) = x^2 $ zwischen 0 und 2 geplottet werden.

Zuerst wird eine Serie von Punkten zwischen 0 und 2 erzeugt:

<div class="alert alert-block alert-info">
&#128204; <b>Anmerkung:</b> 
    
`np.arange(0,2,0.01)` erzeugt mit Hilfe der NumPy Bibliothek einen „Vektor“ mit Einträgen zwischen 0 und 2 und dem Abstand 0.01.

In [None]:
x = np.arange(0,2,0.01)
print(x)

Dann werden die Funktionswerte in $x^2$ berechnet. Der Befehl hierfür ist `x**2`. Anschließend werden alle Zahlenpaare geplottet:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,x**2);

Zu wenige x-Werte erzeugen keine glatte Kurve. Eine Schrittweite von 0.5 ist zum Beispiel zu groß:

In [None]:
x = np.arange(0,2,0.5)
plt.plot(x,x**2);

### <font color='darkblue'>2.3 Achsenbeschriftung</font> <a name="kap23"></a>

`xlabel()`und `ylabel()` versieht die Achsen des zuletzt erstellten Plots mit einer Beschriftung, die unter bzw. neben der Achse angezeigt wird:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,2*x)
plt.xlabel("x")
plt.ylabel("f(x)");

Mit `xticks()`und `yticks()` lassen sich die an den Achsen stehenden Zahlen anpassen:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,2*x)
plt.xticks([])
plt.yticks([0,2,4]);

### <font color='darkblue'>2.4  Achsenskalierung</font> <a name="kap24"></a>

`xscale()`und `yscale()` ermöglichen verschiedene Skalierungen der Achsen, beispielsweise logarithmisch statt linear:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,2*x)
plt.xscale("log")
plt.yscale("linear");

### <font color='darkblue'>2.5 Legende</font> <a name="kap25"></a>

`legend()` blendet eine Legende ein. Dies ist besonders bei mehreren Plots in einem Koordinatensystem nützlich:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,x,label="f1")
plt.plot(x,2*x,label="f2")
plt.legend();

### <font color='darkblue'>2.6 Gitternetz</font> <a name="kap26"></a>

Mit `grid()` kann ein auf dem Koordinatensystem liegendes Gitternetz konfiguriert werden:

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,2*x)
plt.grid();

Betrachten Sie den folgenden Plot: 

In [None]:
x = np.arange(0,2,0.01)
plt.plot(x,2*x, label='f1');

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Verändern Sie den vorstehenden Plot so, dass ...<br>
<ul>
    <li>die Achsen mit "x" und "f(x)=2*x" beschriftet werden,</li>
    <li>an den Achsen nur ganze Zahlen stehen,</li>
    <li>es eine Legende mit dem Namen der Funktion gibt,</li>
    <li>und dem Plot ein Gitternetz hinterliegt.</li>
    </ul>

In [None]:
# Verändern Sie den Plot

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>3. Arten von Plots anhand von Wetterdaten</font> <a name="kap3"></a>

### <font color='darkblue'>3.1 Daten einlesen</font> <a name="kap31"></a>

Neben `plot()` bietet Matplotlib viele weitere Funktionen für verschiedene Diagrammarten, welche für eine Visualisierung verschiedener Arten von Daten sehr hilfreich sein können. Um die zwei wichtigsten in den folgenden Unterkapiteln zu thematisieren, wird nun zunächst ein Datensatz eingelesen, der visualisiert werden soll: 

In [None]:
df = pd.read_excel(r'M1_Uebung_Wetter.xlsx')
df

Bei dem Datensatz handelt es sich um Werte, welche in ihrer ursprünglichen Form von Meteostat <a href="https://meteostat.net/de/place/45I0JU?t=2020-11-01/2021-10-31">auf dieser Seite</a> zur Verfügung gestellt werden. Die Daten werden unter anderem auch in dem verlinkten Data Literacy Basiskurs verwendet. 

Der Datensatz enthält unterschiedliche Informationen über das Wetter gemessen über 365 Tage. Die Merkmale werden nachfolgend dargestellt: 

<table align='left'>
    <thead>
        <tr>
          <th style="text-align:left">Spaltenname</th>
          <th style="text-align:left">Bedeutung</th>
          <th style="text-align:left">Einheit</th>
        </tr>
    </thead>
    <tr>
    <td style="text-align:left">date</td>
    <td style="text-align:left">Datum</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left">tavg</td>
    <td style="text-align:left">Durchschnittstemperatur</td>
    <td style="text-align:left">°C</td>
    </tr>
    <tr>
    <td style="text-align:left">tmin</td>
    <td style="text-align:left">Tagestiefsttemperatur</td>
    <td style="text-align:left">°C</td>
    </tr>
    <tr>
    <td style="text-align:left">tmax</td>
    <td style="text-align:left">Tageshöchsttemperatur</td>
    <td style="text-align:left">°C</td>
    </tr>
    <tr>
    <td style="text-align:left">prcp</td>
    <td style="text-align:left">Gesamtniederschlag</td>
    <td style="text-align:left">mm</td>
    </tr>
    <tr>
    <td style="text-align:left">snow</td>
    <td style="text-align:left">Schneefall</td>
    <td style="text-align:left">mm</td>
    </tr>
    <tr>
    <td style="text-align:left">rd</td>
    <td style="text-align:left">Regentag</td>
    <td style="text-align:left">ja (0) /nein (1)</td>
    </tr>
    <tr>
    <td style="text-align:left">wdir</td>
    <td style="text-align:left">Windrichtung</td>
    <td style="text-align:left">°</td>
    </tr>
    <tr>
    <td style="text-align:left">wspd</td>
    <td style="text-align:left">durchschnittliche Windgeschwindigkeit</td>
    <td style="text-align:left">km/h</td>
    </tr>
    <tr>
    <td style="text-align:left">wpgt</td>
    <td style="text-align:left">Windgeschwindigkeit (Tages-Maximum)</td>
    <td style="text-align:left">km/h</td>
    </tr>
    <tr>
    <td style="text-align:left">pres</td>
    <td style="text-align:left">Luftdruck</td>
    <td style="text-align:left">hPa</td>
    </tr>
    <tr>
    <td style="text-align:left">tsun</td>
    <td style="text-align:left">Sonnenscheindauer</td>
    <td style="text-align:left">min</td>
    </tr>
</table>

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Wenden Sie die Methode `info()` und die Methode `describe()`auf die Variable `df` an, um erste Informationen über den Datensatz zu gewinnen. 

In [None]:
# Wenden Sie den Methode info auf den Dataframe an

In [None]:
# Wenden Sie den Methode describe auf den Dataframe an

Sind die Befehle richtig ausgeführt worden, dann ist zu sehen: Die Daten wurden über 365 Tage erhoben. Alle Datenfelder sind gefüllt. Die erste Spalte enthält ein Datum, die übrigen Spalten beinhalten Zahlenwerte. Der Wertebereich der Merkmale variiert stark. 

### <font color='darkblue'>3.2 Scatterplots</font> <a name="kap32"></a>

`scatter()` wird zur Erstellung von Scatterplots, also Streudiagrammen verwendet. Bei Streudiagrammen werden zwei Merkmale gegeneinander geplottet, sodass die Ausprägungen jedes Merkmals einen Punkt ergeben. 
Im folgenden Plot sind die Durchschnittstemperatur eines Tages und seine Sonnenscheindauer (in Minuten) gegeneinander aufgetragen.

In [None]:
plt.scatter(df['tavg'], df['tsun']);

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Auch bei dieser Art des Plots, kann das Anlegen einer Beschriftung hilfreich sein. Nutzen Sie den folgenden Baustein, um das Diagramm und die Achsen zu beschriften.

In [None]:
plt.scatter(df['tavg'], df['tsun'])
#plt.title() 
#plt.xlabel() 
#plt.ylabel() 
plt.show()

Schon dieser einfachen Grafik kann entnommen werden, dass eine leichte Tendenz besteht, dass Tage mit mehr Sonnenstunden eine höhere Temperatur haben.

In dieser Art von Plot kann eine dritte Information untergebracht werden, indem die Punkte eine bestimmte Farbe zugewiesen bekommen. Im folgenden Plot ist hierfür das Merkmal Regentag genutzt worden. Das Einbinden der Legende zeigt die beiden Farben an. 

In [None]:
scatter = plt.scatter(df['tavg'], df['tsun'], c = df['rd'])
plt.title('Temperatur und Sonnenstunden, gefärbt nach Regentagen') 
plt.xlabel('Temperatur') 
plt.ylabel('Sonnenstunden') 
plt.legend(*scatter.legend_elements())
plt.show()

Die Aussage hier ist nicht überraschend: Die Regentage haben im Schnitt weniger Sonnenstunden als die Nicht-Regentage. 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Plotten Sie zwei andere Merkmale auf die x-Achse und y-Achse, um sie gegeneinader und bezüglich Regentag eingefärbt zu plotten. Überrascht das Ergebnis?

In [None]:
#scatter = plt.scatter(x, y, c = df['rd'])
#plt.title('x und y, gefärbt nach Regentagen') 
#plt.xlabel('x') 
#plt.ylabel('y') 
#plt.legend(*scatter.legend_elements())
#plt.show()

### <font color='darkblue'>3.3 Histogramme</font> <a name="kap33"></a>

Eine weitere wichtige Darstellungsart sind die Histogramme. Histogramme können bezüglich aller Merkmale eines Datensatzes mit der Methode `hist()` schnell geplottet werden. Mit `figsize` wird eine ausreichende Größe vorgegeben. 

Die Ausgabe der Histogramme aller Zahlen-codierten Merkmale auf diese Art ist ein üblicher Schritt zum ersten Erforschen eines Datensatzes. 

In [None]:
df.hist(figsize=(20,10));

Aus der Darstellung können erste Informationen über den Datensatz gewonnen werde, beispielsweise, dass ca. 60% der Tage Regentage waren. Oder auch, dass es wenige Tage mit sehr viel Niederschlag gab. 

Mit den Befehlen zur Erstellung von Histogrammen mit der mathplotlib gibt es noch mehr Möglichkeiten der Formatierung: 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Der Code für das Erstellen von Histogrammen funktioniert ähnlich wie der zur Erstellung von Scatterplots. Ergänzen Sie die richtige Variable, sodass ein Histogramm erstellt wird, welches einen Überblick über das Merkmal Sonnenstunden gibt. 

In [None]:
# Erstellen Sie ein Histogramm zum Merkmal Sonnenstunden
#plt.hist()
plt.title('Sonnenstunden') 
plt.show()

Sollen mehrere Plots in einem Bild dargestellt werden, ist es für die Übersichtlichkeit manchmal nützlich, zumindest Teile davon transparenter zu machen. Das ist möglich mit dem Parameter `alpha`, der die Transparenz zwischen 0 (durchsichtig) und 1 (deckend) angibt. Die Ergänzung einer Legende liefert eine bessere Übersichtlickeit, hierfür wird jedem Plot ein `label` zugewiesen. 

In [None]:
plt.hist(df['tsun'], alpha=0.8, label='Sonnenstunden');
plt.hist(df['tavg'], alpha=0.5, label='Durchschnittstemperatur');
plt.legend();

<div class="alert alert-block alert-info">
&#128204; <b>Anmerkung:</b> 

Wenn man zwei Plot-Befehle untereinander schreibt, führt dies zur Ausgabe in *einem* Diagramm. 

Scheinbar ist diese Darstellungsart nur sinnvoll, wenn die Ausprägungen beider Merkmale ähnliche Größenordnung haben. Ein Blick in die ersten Histogramme verrät, dass alle drei Temperatur-Merkmale dieselbe Größenordnung aufweisen. Sie sollen nun in eine Grafik geplottet werden. 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 
    
Erstellen Sie eine beschriftete Grafik, welche die Histogramme der Merkmale `tavg`, `tmin` und `tmax` enthält, und machen Sie mithilfe des Parameters `alpha` alle drei Histogramme transparenter. 
</div>

In [None]:
# Erstellen Sie ein Histogramm zu den Merkmalen Durchschnittstemperatur, Tagestiefsttemperatur und Tageshöchsttemperatur

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>4. Fazit</font> <a name="kap4"></a>

Dieses Notebook hat
- die Grundlagen von matplotlib erklärt.
- mehrere Beschriftungsmöglichkeiten aufgezeigt. 
- den Plot mehrerer Objekte in einer Grafik erklärt. 
- die Erstellung von Scatterplots und Histogrammen gezeigt.