# Lecture 2: Graphik

In [1]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import sklearn as sl
%matplotlib inline
import scipy as sc
import math as ma
from scipy import linalg, optimize, constants, interpolate, special, stats
from math import exp, pow, sqrt, log

import seaborn as sns #spezielle Graphikdarstellungen
import statsmodels.api as sm
import statsmodels.stats.api as sms

## 1) Graphik mit Python - Basics

### 1.1) Basics

Das Paket matplotlib ist das am häufigsten benutzte Python Paket um 2D Graphiken zu generieren.  
Aus der Notebookumgebung heraus muß zuerst das Paket selbst eingebunden werden.  
Günstig ist es, wenn die erzeugten Graphiken gleich direkt ins Notebook eingebunden sind.  
Das stellt der "inline"-Befehl sicher.

In [None]:
%matplotlib inline

Pyplot ist die zugeordnete Plot-Library. Die Befehle orientieren sich sehr nah an den Befehlen, die in MatLab benutzt werden.  
Zuerst muß man das Paket ins Notebook einbinden: 

In [None]:
import matplotlib.pyplot as plt # standard

...hat man das so eingebunden ohne interaktive Graphiken in der Notebook-Umgebung zu aktivieren braucht man zusätzlich noch den show Befehl   

In [None]:
plt.plot(x, y) # line plot
plt.show() # <-- zeigt den plot (nicht nötig, wenn interaktive Plots aktiviert sind)

ansonsten (also mit dem inline-Befehl sh. ln2) reicht

In [None]:
plt.plot(x, y)

Das verknüpfte Bild kann nicht angezeigt werden.  
-> Fehlermeldung kommt in beiden Fällen natürlich daher, daß wir x und y nirgends definiert haben :-)
 

## 2) 1D Graphiken

### 2.1) Graphische Darstellung von Punktmengen

In [None]:
x = np.linspace(0, 3, 20) #20 Punkte mit gleichem Abstand zwischen [0,3) - x-Werte
y = np.linspace(0, 9, 20) #20 Punkte mit gleichem Abstand zwischen [0,9) - y-Werte 
plt.plot(x, y) # durchgezogene Linie

...jetzt noch die einzelnen Punkte (x,y) die gegeben sind auf die Linie einzeichnen...

In [None]:
plt.plot(x, y) # Linie
plt.plot(x, y, 'o') # Punkte

Jetzt ein etwas ausführlicheres Beispiel.  
Dazu tabellieren wir zunächst 256 X-Werte von -Pi bis Pi (eingeschlossen) sowie die zugehörigen Werte sin(x) und cos(x) (Y-Werte). Wir legen dazu ein NumPy array an.                   

In [None]:
X = np.linspace(-np.pi, np.pi, 256, endpoint=True)
#np.pi -> Wert für Pi aus NumPy, endpoint=True -> Endpunkt eingeschlossen

C, S = np.cos(X), np.sin(X) #erster Eintrag cos(x) zweiter sin(x)

die Graphik zeigt die default settings für einen entsprechenden plot der tabellierten Funktionen sin(x) und cos(x)

In [None]:
plt.plot(X, C) #plotte cos(x) zu den X-Werten
plt.plot(X, S) #plotte sin(x) 

# -> zwei oder mehrere in einer Zelle ausgeführten Plots werden überlagert wenn möglich                        

ein ";" hinter dem plot-Befehl verhindert die Kommentarausgabe

In [None]:
plt.plot(X, C); #plotte cos(x) zu den X-Werten
plt.plot(X, S); #plotte sin(x) -> zwei oder mehrere in einer Zelle ausgeführten Plots werden überlagert wenn möglich

Die Graphik kann natürlich den Bedürfnissen angepaßt werden.  
Das Beispiel zeigt einige der Optionen.  

Grundsätzlich gilt:

- Zunächst kann eine (leere) Figure angelegt werden.  
- Im ersten Schritt werden allgemeine features wie Größe oder Auflösung festgelegt.
- Alle Bestandteile des Bildes werden in einer code-Zelle nacheinander definiert.  
- Das finale Bild entsteht dann durch Überlagerung aller Optionen/Komponenten.


In [None]:
# Plot der Größe 8x6 inches, 80 dots per inch 
plt.figure(figsize=(8, 6), dpi=80)

X = np.linspace(-np.pi, np.pi, 256, endpoint=True)
C, S = np.cos(X), np.sin(X)

# Plotte Cosinus mit einer durchgezogenen blauen Linie der Stärke 1 (pixels)
plt.plot(X, C, color="blue", linewidth=1.0, linestyle="-")

# Plotte Sinus mit einer grünen durchgezogenen Linie der Stärke 1 (pixels)
plt.plot(X, S, color="green", linewidth=1.0, linestyle="-")

# Setze Wertebereich für x (limits)
plt.xlim(-4.0, 4.0)

# Setze Marker auf der x-Achse (x ticks)
plt.xticks(np.linspace(-4, 4, 9, endpoint=True))

# Setze Wertebereich für y (limits)
plt.ylim(-1.0, 1.0)

# Setze Marker auf der y-Achse (y ticks)
plt.yticks(np.linspace(-1, 1, 5, endpoint=True))

# Graphik speichern (72 dots per inch)
plt.savefig("exercice_2.png", dpi=72)
# Wichtig: der Pfad zum Zielordner muß angegeben werden
# default: Graphik wird da abgespeichert, wo auch das notebook liegt

Sinnvoll ist es auch aussagekräftige Achsenbeschriftungen zu haben - hier sind das natürlich Einheiten von Pi

In [None]:
plt.figure(figsize=(10, 6), dpi=80); #Größe der Graphik
plt.plot(X, C, color="blue", linewidth=2.5, linestyle="-"); #Farbe und Dicke der Linie
plt.plot(X, S, color="red", linewidth=2.5, linestyle="-");
plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi]); #Label der x-Achse in Einheiten von Pi
plt.yticks([-1, 0, +1]); #explizit gegeben Ticks für die y-Achse

...schon besser aber es wäre noch besser wenn "Pi" tatsächlich sichtbar wäre

In [None]:
plt.figure(figsize=(10, 6), dpi=80);
plt.plot(X, C, color="blue", linewidth=2.5, linestyle="-");
plt.plot(X, S, color="red", linewidth=2.5, linestyle="-");
plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi], #Definition der Punkte
         [r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']); #zugehörige Label in Latex Notation
plt.yticks([-1, 0, +1],[r'$-1$', r'$0$', r'$+1$']);

Achsenbeschriftungen und Plot-Labels sind in jedem Fall wichtig. Wenn man z.B. echte Daten darstellt sind sie unerläßlich!

In [None]:
plt.figure(figsize=(10, 6), dpi=80);
plt.plot(X, C, color="blue", linewidth=2.5, linestyle="-");
plt.plot(X, S, color="red", linewidth=2.5, linestyle="-");
plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi], #Definition der Punkte
[r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']); #zugehörige Label in Latex Notation 
    
plt.yticks([-1, 0, +1], [r'$-1$', r'$0$', r'$+1$']);
plt.xlabel('x-Values'); #Beschriftung x-Achse
plt.ylabel('y-Values'); #Beschriftung y-Achse 
plt.title('Sinus und Cosinus'); #Titel der Graphik

...jetzt noch eine Legende

In [None]:
plt.figure(figsize=(10, 6), dpi=80);

plt.plot(X, C, color="blue", linewidth=2.5, linestyle="-", label="Cosinus"); #<- das Label muß HIER angegeben werden
plt.plot(X, S, color="red", linewidth=2.5, linestyle="-", label="Sinus"); #<- das Label muß HIER angegeben werden

plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi], #Definition der Punkte
[r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']); #zugehörige Label in Latex Notation

plt.yticks([-1, 0, +1], [r'$-1$', r'$0$', r'$+1$']);
plt.xlabel('x-Values');
plt.ylabel('y-Values'); 
plt.title('Sinus and Cosinus');
plt.legend(loc='upper left'); #Befehl zum Anzeigen der Legende mit Angabe der Position

plt.savefig("plots\Lecture2\exercice_2.png", dpi=72)
# Wichtig: der Pfad zum Zielordner muß angegeben werden
# default: Graphik wird da abgespeichert, wo auch das notebook liegt

Praktisch auch: man kann mehrere Punktmengen gleichzeitig in enem Plot-Befehl einfügen

In [None]:
# sample von Daten von 0 bis 5 in 0.2er Schritten 
t = np.arange(0., 5., 0.2)

# rote Striche, blaue Quadrate und grüne Dreiecke 

plt.plot(t, t, 'r--', t, t**2, 'bs', t, t**3, 'g^');

### 2.2) Graphische Darstellung von Funktionen

Definiere eine Funktion wie bereits gesehen und lege die x-Werte fest, an denen die Funktion ausgewertet werden soll:

In [None]:
def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t) #Definiere die Funktion e^(-t) + cos(2*Pi*t) <- gedämpfte Schwingung

t1 = np.arange(0.0, 5.0, 0.02) #x-Werte

der eigentliche Plot funktioniert denkbar einfach :-)

In [None]:
plt.plot(t1,f(t1), 'b');

zeige nun die gedämpfte Schwingung zusammen mit ungedämpften Cosinus...

In [None]:
plt.plot(t1,f(t1), 'b', label="gedämpfter Cosinus");
plt.plot(t1,np.cos(2*np.pi*t1),'g', label="ungedämpfter Cosinus");
plt.plot(t1,0*t1,'r', label="Nullinie");
plt.title('default: overlay');
plt.legend(loc='upper right');

Will man separate Graphiken erzeugen und keinen Overlay kann man den Befehl subplot verwenden.  
subplot(3,2,1) heißt: 3 Zeilen, 2 Spalten und die letzte Spalte gibt an, wo das Bild in diesem Grid auftauchen soll. 

Hier ein Beispiel mit Funktionen ausgewertet an den x-Werten t1:

In [None]:
plt.subplot(211);
plt.plot(t1, f(t1), 'b', label="gedämpfter Cosinus");
plt.legend(loc='upper right');
plt.title('verschiedene Subplots');

plt.subplot(212);
plt.plot(t1, np.cos(2*np.pi*t1), 'g--', label="ungedämpfter Cosinus"); 
plt.legend(loc='upper right');




In [None]:
def f(t,a):
    return a*t
plt.subplot(321); 
plt.plot(t1, f(t1,1), 'b');
plt.title('subplot(3,2,1)');

In [None]:
#definiere Funktion
def f(t,a):
    return np.cos(a*t**3)

#Größe und Auflösung der zusammengesetzten Gesamtgraphik
plt.figure(figsize=(10, 8), dpi=90)

#einzelne subplots - Nummerierung von links nach rechts und von oben nach unten

plt.subplot(321);                          
plt.plot(t1, f(t1,1), 'r');
plt.title('subplot(3,2,1)');

plt.subplot(322);
plt.plot(t1, f(t1,2), 'b'); 
plt.title('subplot(3,2,2)');

plt.subplot(323);
plt.plot(t1, f(t1,3), 'g');
plt.title('subplot(3,2,3)');

plt.subplot(324); 
plt.plot(t1, f(t1,4), 'r--'); 
plt.title('subplot(3,2,4)');

plt.subplot(325); 
plt.plot(t1, f(t1,5), 'b--'); 
plt.title('subplot(3,2,5)');

plt.subplot(326); 
plt.plot(t1, f(t1,6), 'g--'); 
plt.title('subplot(3,2,6)');

#sorgt dafür, daß das Spacing zwischen den Bildern gut ist, so daß sich die Beschriftungen nicht überschneiden
plt.tight_layout();
#plt.show()

### Aufgabe 1: 

- Definieren Sie die Funktionen  
$f_1(x)= 4+x$, $f_2(x)= 4+x+0.5x^2$ und $f_3(x) = 4+x+0.5x^2+0.2x^3$.
- Stellen Sie die drei Funktionen in einem sinnvollen Wertebereich in einer Graphik gemeinsam dar.  
- Fügen Sie Achsenbeschriftungen, PlotLabel und sinnvolle Ticks ein.  
- Berechnen Sie die Funktion  
$f_4(x) = 1/3\cdot(f_1(x)+f_2(x)+f_3(x))$  
und stellen Sie alle 4 Funktionen als Subplots in einer gemeinsamen Abbildung dar.
                

## 3) 2D Graphik und besondere Darstellungen

### 3.1) Scatter Plots mit $\textit{scatter()}$

Zuerst erzeugen wir zwei Punktmengen.
Jeweils ein Random Sample aus einer Normalverteilung $N(0,1)$

In [None]:
n = 1024
X = np.random.normal(0,1,n)
Y = np.random.normal(0,1,n)

Ein scatter Plot stellt die geordneten Tupel $(x_i,y_i)$ aus den beiden Mengen $X$ und $Y$ als Punkte im $\mathbb{R}^2$ dar.

In [None]:
plt.scatter(X,Y); #Scatter Plot 2D

### Aufgabe 2:

- Nehmen Sie die Funktionen $f_1$ - $f_4$ aus Aufgabe 1) und erzeugen Sie sich die Punktmengen $(X,f_i(X))$ für eine sinnvolle Wahl von $X$. 
- Stellen Sie die 4 Punktmengen mit unterschiedlichen Farben in einem Scatterplot zusammen dar. 
- beschriften Sie die Graphik sinnvoll.
                          

### 3.2) Contour-Plots mit $\textit{plt.contour()}$

Contour-Plots sind ein gutes Werkzeug um Funktionen $f(x,y)=z$ als 2-D Graphik darzustellen.  
Zu jedem Tupel $(x,y)$ wird der Funktionswert $f(x,y)=z$ als Höhenkontur in der Graphik angezeigt.  
Es entsteht also eine Art $\textit{Landkarte}$ der Funktionswerte.

In [None]:
def f(x, y):
    return (1 - x/2+x**5+y**3)*np.exp(-x**2-y**2) # definiere eine Funktion f(x,y)=z

n = 256 #Anzahl der 
x = np.linspace(-3,3,n) # x-Werte 
y = np.linspace(-3,3,n) # y-Werte


X, Y = np.meshgrid(x, y)

plt.contourf(X, Y, f(X, Y), 8, alpha=.75, cmap='jet')
C = plt.contour(X, Y, f(X, Y), 8, colors='black')

plt.clabel(C, inline=1, fontsize=10) 
plt.title('Default Einstellung mit Labels');

### Aufgabe 3) 
- Definieren Sie die Funktionen $f_1(x,y) = sin(x) + cos(y)$ und $f_2(x,y) = sin(x) \cdot cos(y)$.
- Erzeugen Sie zwei Contour-Plots für $f_1(x)$ und $f_2(x)$ für x und y aus $I=[-Pi,Pi]$. 
- Schauen Sie in der Doku (z.B. http://matplotlib.org/examples/index.html) nach wie man die Graphiken noch anders gestalten könnte (Farbe der Flächen, Farbe und Dicke der Konturen, Labels, Größe, Schriftform etc.) und experimentieren Sie mit dem Design.
                

### 3.3) Plots von Arrays mit $\textit{plt.imshow()}$

In [None]:
def f(x, y):
     return (1 - x / 2 + x ** 5 + y ** 3) * np.exp(-x ** 2 - y ** 2) #definiere Funktion f(x,y)
                 
n = 40
x = np.linspace(-3, 3, n) #x-Werte 
y = np.linspace(-3, 3, n) #y-werte

X, Y = np.meshgrid(x, y)

In [None]:
f(X,Y)

In [None]:
C = plt.imshow(f(X, Y));
plt.colorbar(C, shrink=0.9, extend='both'); #Fügt eine Colorbar ein, damit man weiß welche Werte wie eigefärbt sind

### Aufgabe 3) 
- Nehmen Sie die Darstellung von oben (plt.imshow()) und experimentieren Sie mit den Einstellungen für die Colorbar. 
- Schauen Sie in die Hilfe (http://matplotlib.org/examples/index.html), welche Optionen man für den imshow-Befehl noch verwenden kann und testen Sie diese Optionen.
             

## 4) 3D Plots

Um 3D Graphiken zu erzeugen benötigt man eine spezielle Toolbox.

In [None]:
#Lade 3D Toolbox
from mpl_toolkits.mplot3d import Axes3D

In [None]:
fig = plt.figure() # leere Graphik erzeugen

ax = Axes3D(fig) # Achsensystem als 3D festlegen

X = np.arange(-4, 4, 0.25) # x-Werte
Y = np.arange(-4, 4, 0.25) # y-Werte
X, Y = np.meshgrid(X, Y) # (x,y)-Tupel in einem Grid erzeugen
Z = np.sin(X*Y) # sin(x*y) für jedes Tupel auswerten

ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='jet');

In [None]:
fig = plt.figure() 

ax = Axes3D(fig)
X = np.arange(-4, 4, 0.25)
Y = np.arange(-4, 4, 0.25) 
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + np.cos(Y)**2)

ax.plot_surface(X, Y, R, rstride=1, cstride=1, cmap='jet');

### Aufgabe 4) 

- Definieren Sie die Funktion $f_1(x,y) = sin(x) + cos(y)$ und stellen Sie sie in einer echten 3D Graphik dar. 
- Was gibt es hier für Optionen?
 

## 5) Graphik-Tools für statistische Plots

Use package seaborn:  
https://seaborn.pydata.org

-> "import seaborn as sns"


...für die Beispiele importieren wir zunächst mit Hilfe von Pandas einen Testdatensatz.  
Mehr zum Umgang mit Daten später :-)

In [None]:
cornprice = pd.read_csv('../Daten/Test/corn2013-2017.txt') #Datenimport mit pd.read_csv
cornprice.head() # head() gibt die ersten 5 Zeilen aus

### 5.1) Univariate Verteilungen

In [None]:
#Histogramm der Daten mit geschätzter Verteilungsfunktion (PDF)
cprice = cornprice['price'] # betrachte nur die Spalte mit den Preisen

sns.distplot(cprice); #Histogramm

In [None]:
sns.distplot(cprice, bins=20, kde=False); #Optionen: Anzahl der Bins, nur Histogramm etc.

### Aufgabe 5)

- Experimentieren Sie mit der Anzahl der Bins im Histogramm für den Getriedepreis.
- Welche Anzahl von Bins macht noch Sinn?



### 5.2) Bi- und multivariate Verteilungen

In [None]:
CryptoMarkets = pd.read_csv('../Daten/Test/crypto-markets.csv') # Daten importieren
CryptoMarkets.head() # erste Einträge anzeigen lassen

In [None]:
CryptoHigh=CryptoMarkets["high"].values[0:1000] # erste 1000 Werte high - nur BTC (Bitcoin)
CryptoLow=CryptoMarkets["low"].values[0:1000]  #erste 1000 Werte low - nur BTC (Bitcoin)

In [None]:
plt.plot(CryptoHigh, label='BTC high');
plt.plot(CryptoLow, label='BTC low');
plt.title('BitCoin')
plt.legend(loc='upper right');

Plotte die gemeinsame empirische Verteilungsfunktion mit der geschätzten PDF.  

Die geschätzten Marginal- oder Randverteilungen werden am Rand der Graphik mit ausgegeben

In [None]:
sns.jointplot(x="high", y="low", data=CryptoMarkets.iloc[:1000],kind='kde'); 

Sucht man nach zusammenhängen von Variablen in einem Datensatz, dann ist ein paarweiser Scatter-Plot genau das Richtige!

In [None]:
sns.pairplot(CryptoMarkets.iloc[:1000]);
#plt.savefig("PairPlot.pdf", dpi=72) # saves figure to current folder!

$\textbf{Bemerkung:}$  
der Pairplot such in den Daten automatisch nach float und integer Größen für die diese Darstellun g dann auch Sinn macht.  
Die Achsenbeschriftungen werden automatisch (Benutzung der Header im File) erzeugt!

In [None]:
CryptoMarkets.dtypes

## 5.3) Spezielle Plots

Nicht numerische Daten sind gerade bei Klassifikationsaufgaben relevant...

In [None]:
TipsData = pd.read_csv("../Daten/Test/tips.csv")
TipsData.dtypes
TipsData.head()

Ein Boxplot visualisiert die Eigenschaften der unterschiedlichen Kategorien im Datensatz!

In [None]:
sns.boxplot(x="day", y="total_bill", hue="sex", data=TipsData, palette="PRGn")
sns.despine(offset=10, trim=True);

...sieht so aus, als wären die Männer i.A. etwas spendabler :-)  
    
Mehr Infos unter

https://seaborn.pydata.org/api.html
    
Styling (colour, Layout, labeling, etc.) unter

https://seaborn.pydata.org/tutorial/aesthetics.html

Pie-Charts

In [None]:
labels = 'Backwaren', 'Milchprodukte', 'Drogerie', 'Schreibwaren'
sizes = [10, 35, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice (i.e. 'Milchprodukte')

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

Viele schöne Beispiele und eine gute Doku zu allen Graphikroutinen und zusätzlichen Tools findet man in der Doku von matplotlib:
http://matplotlib.org/examples/index.html
http://matplotlib.org/contents.html
http://matplotlib.org/gallery.html

und

https://seaborn.pydata.org
 

### Aufgabe 6)

Analysieren Sie die Getreidepreise aus dem Datensatz "corn2013-2017.txt".

- Stellen Sie die Zeitverläufe der unterschiedlichen Jahre in einer geeigneten Graphik dar.
- Vergleichen Sie die statistischen Eigenschaften der unterschiedlichen Jahre indem Sie jeweils die Histogramme der Daten graphisch darstellen.
- Kann man mit Hilfe von scatter-Plots auch etwas über die Zusammenhänge lernen?




### Aufgabe 7)

- Nehmen Sie den Datensatz "tips.csv" und stellen Sie die Zusammenhänge mit einem Pairplot dar.
- Was fällt auf?
- Lesen Sie die Dokumentation zum Boxplot und experimentieren Sie mit den verschiedenen Darstellungsmöglichkeiten.