# AKGI - Crash into `matplotlib`


## Daten visualisieren 

Eine für uns Menschen gut fassbare Art der Interprätation und Möglichkeit zur Exploration von komplexen Datenmengen besteht in der Visualisierung eben dieser Informationen. Beim Machine Learning geht es um Daten, deren Manipulation und Transformation. Die Visualisierung ist daher eine elementare Fähigkeit in diesem Kontext. Durch die Visualisierung von Daten können generell zwei Aspekte umgesetzt werden: 

1. _Erkunden_ einer Datenmenge
2. _Kommunizieren_ von Informationen, die in den Daten enthalten sind

Wir beschränken uns im Folgenden auf basale Diagrammtypen, die Sie kennen sollten. Hierzu verwenden wir das Modul [`matplotlib`](http://matplotlib.org/).

In [None]:
# %matplotlib inline you need that command to plot inside the notebook
%matplotlib inline

# imports
import matplotlib.pyplot as plt
import numpy as np

Um einen erstel leeren Plot zu erstellen benötigen Sie nicht viel. Ein Container der Klasse [`matplotlib.figure`](http://matplotlib.org/api/figure_api.html?highlight=figure#matplotlib.figure.Figure), welcher ein Koordinatensystem [`matplotlib.axes`](http://matplotlib.org/api/axes_api.html) enthält.

In [None]:
# create an empty plot
fig = plt.figure()
fig.add_axes(plt.axes())

Die generelle Erscheinung des Plots lässt sich über Template beeinflussen und den [individuellen Bedürfnissen anpassen](http://matplotlib.org/users/style_sheets.html). Probieren Sie ein paar Varianten aus und entscheiden Sie sich für ein Template

In [None]:
# prints available out-of-the-box styles 
print(plt.style.available)

# choose a diffrent style and plot an example
plt.style.use('seaborn-whitegrid')
fig = plt.figure()
ax = plt.axes()

## Liniendiagramme

In [None]:
# single line plot
# set values for x and y coordinates 
x = np.linspace(0, 2 * np.pi, 400)
y = np.sin(x)

# create axes and plot the coordinates
ax = plt.axes()
ax.plot(x, y)

Falls es Ihnen auf gefallen ist, haben wir oben das Modul `matplotlib.pyplot` importiert und nicht `matplotlib`. Das Modul `matplotlib.pyplot` immitiert die Funktion von MATLAB. Beim erstellen eines Plots werden durch dieses Modul einige Schritte impliziet erledigt und man muss nicht immer einen Container und ein Koordinatensystem anlegen. In `matplotlib.pyplot` wird der Zustand des aktuellen Containers gespeichert und Änderungen direkt in das Koordinatensystem übernommen. Wir können uns also ein paar Code-Zeilen in diesem Notebook sparen, da die Initialisierung einfacher ist. Für tiefere Informationen zu `matplotlib.pyplot` kann man die [Referenzseite](http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot) oder das [Tutorial von Matplotlib](http://matplotlib.org/users/pyplot_tutorial.html) besuchen.

Mit der Funktion `plot()`, welche in `matplotlib.pyplot` beliebig viele Argumente annehmen kann, können wir direkt nun einen Darstellung erzeugen.

In [None]:
# multiple line plot 
x = np.linspace(0, 2 * np.pi, 400)

# create axes and plot two functions
plt.plot(x, np.sin(x), x, np.cos(x))

Die Diagramme, welche man mit Matplotlib erzeugt kann man vielfälltig individualisiern. Als erstes sei hier die Beschriftung des Diagramms vorgestellt. `TeX` kann verwendet werden um [mathematische Notationen](http://matplotlib.org/users/mathtext.html) umzusetzten. In den weiteren Beispielen wird gezeigt, wie die Farbe manipuliert, die Linienart verändert und Marker hinzugefügt werden.

In [None]:
# adding title, labels, legend
x = np.linspace(0, 2 * np.pi, 400)

# plot the functions
plt.plot(x, x, label=r"$x$")
plt.plot(x, x**2, label=r"$x^2$")
plt.plot(x, x**3, label=r"$x^3$")

# set annotations 
plt.xlabel(r'$x$', fontsize=12)
plt.ylabel(r'$y$', fontsize=12)
plt.title('two function plot');  
plt.legend(loc=2)                    # legend at the upper left corner

In [None]:
# change line color 
plt.plot(x, np.sin(x - 1), color='blue')        # specify color by name
plt.plot(x, np.sin(x - 2), color='g')           # short color code (options: rgbcmyk)
plt.plot(x, np.sin(x - 3), color='0.75')        # Greyscale between 0 and 1
plt.plot(x, np.sin(x - 4), color='#FFDD44')     # Hex color code (RRGGBB from 00 to FF)
plt.plot(x, np.sin(x - 5), color=(1.0,0.2,0.3)) # RGB tuple, values between 0 and 1

In [None]:
# change line style - http://matplotlib.org/api/lines_api.html#matplotlib.lines.Line2D.set_linestyle

# set linewidth
plt.plot(x, x+1, linewidth=0.25)
plt.plot(x, x+2, linewidth=0.50)
plt.plot(x, x+3, lw=1.00)
plt.plot(x, x+4, lw=2.00)

# possible linestype options ‘-‘, ‘–’, ‘-.’, ‘:’, ‘steps’ 
plt.plot(x, x+5, lw=2, linestyle='-')
plt.plot(x, x+6, lw=2, ls='--')
plt.plot(x, x+7, lw=2, ls='-.')
plt.plot(x, x+8, lw=2, ls=':')

In [None]:
# you can combine color and linestyle in one attribute
plt.plot(x, x, 'g-.', lw=2)
plt.plot(x, x+1, 'y:', lw=2)

In [None]:
# markers (http://matplotlib.org/api/lines_api.html#matplotlib.lines.Line2D.set_marker)

# possible marker symbols: '+', 'o', '*', 's', ',', '.'
plt.plot(x, x+1, marker='+', markevery=75)
plt.plot(x, x+2, marker='o', markevery=75)
plt.plot(x, x+3, marker='s', markevery=75)
plt.plot(x, x+4, marker='.', markevery=75)
plt.plot(x, x+5, marker='*', markevery=75)

# marker size and color
plt.plot(x, x+7, color="purple", marker='o', markersize=6, markevery=75)
plt.plot(x, x+8, color="purple", marker='s', markersize=8, markerfacecolor="blue", markeredgecolor="yellow", markevery=75)

### !Aufgabe:
Erstellen Sie einen Plot der folgendem Bild entspricht. `total error` entspricht der Summe aus `variance` und `bias`.

<img src="img/Aufgabe1.png">

In [None]:
variance     = [1,2,4,8,16,32,64,128,256]
bias_squared = variance[::-1]

# Summe von den beiden Oberen mit numpy-Funktion
total_error = np.add(variance, bias_squared)

# 0 bis 8
x = range(9)

# plotten
plt.plot(x, variance, label=r"variance", color="green")
plt.plot(x, bias_squared, label=r"bias$^2$", color="red", ls='-.')
plt.plot(x, total_error, label=r"total error", color="blue", ls=':')

# Text schreiben
plt.xlabel(r'model complexity', fontsize=12)
plt.title('Bias Variance Tradeoff');  
plt.legend(loc=9)                    # legend at the upper center
    

## Multiple Plots in einem Container

Sofern Sie mehr als einen Plot zeichnen wollen, wird es notwendig sich wieder selbst um den Container und die Koordinatensysteme zu kümmern. Es gibt hier die Option ein Plot im Plot zu zeichnen oder mehrere Plots gleichberechtigt neben einander darzustellen. Als erstes betrachten wir die Möglichkeit einen Plot im Plot darzustellen. Hierzu definieren wir die genau Position des Koordinatensystems im Container bei der Initialisierung.

In [None]:
# some function
x = np.linspace(0, 1,25 * np.pi, 400)
y = x ** 2

# create an container
fig = plt.figure()

# add two grids with specific position [left, bottom, width, height] to the container
main_axes = fig.add_axes([0.1, 0.1, 0.8, 0.8]) # main axes
inserted_axes = fig.add_axes([0.2, 0.5, 0.4, 0.3]) # insert axes

# plot main figure
main_axes.plot(x, y, 'b')
main_axes.set_title('main plot')

# plot insert figure
inserted_axes.plot(y, x, 'y')
inserted_axes.set_title('inserted plot');

Multiple Plots gleichberechtigt in einem Container zu positionieren, kann über die Initialisierung des Containers selbst realisiert werden. Hierzu verwenden wird die Funktion [`subplots`](http://matplotlib.org/api/pyplot_api.html?highlight=subplot#matplotlib.pyplot.subplot), die eine Unterteilung des Containers ermöglicht. Die Positionierung kann auf verschiedene Arten erfolgen, es wird im Folgenden nur eine Variante gezeigt. Für tiefere Kenntnis können Sie die ausführliche `matplotlib`-[Demo](http://matplotlib.org/examples/pylab_examples/subplots_demo.html) zu `subplots` anschauen.

In [None]:
# some function
x = np.linspace(0, 2 * np.pi, 400)
y = x 

# create a figure with specific rows and colums
fig, axes = plt.subplots(nrows=2, ncols=2)

# plot grids and define position via [row,colum]
axes[0,0].plot(x, y + 2)
axes[0,1].plot(x, y % 2)
axes[1,0].plot(x, y ** 2)
axes[1,1].plot(x, y / 2)


In [None]:
# twin axes 
fig, ax = plt.subplots()

# plot x^2 in red
ax.plot(x, x**2, 'r-.')
ax.set_ylabel(r"area $m^2$", color='r')
for label in ax.get_yticklabels():
    label.set_color('r')
    
# plot x^3 in the same grid with an additional axes
ax_twin = ax.twinx()
ax_twin.plot(x, x**3, 'b--')
ax_twin.set_ylabel(r"volume $m^3$", color="b")
for label in ax_twin.get_yticklabels():
    label.set_color('b')

## Manipulation des Koordinatensystems

Bisher hat `matplotlib` für Sie die Sklaierung der Achsen übernommen. Sie können diese jedoch auch selbst setzen oder ausschließlich eine gewünschten Ausschnitt des Plots darstellen. Einen Möglichkeit zur Manipulation der Achsen führt über [`matplotlib.axes`](http://matplotlib.org/api/axes_api.html).

In [None]:
fig, ax = plt.subplots(1, 3, figsize=(12, 4))

# default matplotlib plot
ax[0].plot(x, x**2, x, x**3)
ax[0].set_title("default range")

# set axes by option: ‘on’, ‘off’, ‘equal’, ‘tight’, ‘scaled’, ‘auto’, ‘image’, ‘square’
ax[1].plot(x, x**2, x, x**3)
ax[1].axis('tight')
ax[1].set_title("option: tight ")

# customize axes with individual values [min x, max x, min y, max y]
ax[2].plot(x, x**2, x, x**3)
ax[2].axis([3,5,0,60])
ax[2].set_title("custom range");

Eine weitere Option zur Manipluation der Achsen sind die Funktion `xlim` und `ylim` auf dem pyplot-Objekt oder als `set_xlim` bzw. `set_ylim` auf dem Koordinatensystem-Objekt. Durch die Angabe von Minimum und Maximum kann man für die Achsen separat ein gewünschtes Intervall setzen.

In [None]:
# shifting axes 
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# manipulate grid object
ax[0].plot(x, x**2, x, x**3)
ax[0].set_xlim(-2,8)
ax[0].set_title('custom range')

# manipulate pyplot object
plt.plot(x, x**2, x, x**3)
plt.xlim(10, 0)
plt.title('reverese x axis')

Die Darstellung der Achsen-Intervalle war bisher immer linear, also mit einen konstanten Entwicklung relativ zum Abstand. Es exisiteren jedoch weitere Varianten, beispielsweise eine logarithmische Skalierung. Diese lässt sich über `set_yscale` bzw. `set_xscale` definieren.  

In [None]:
# scaling axes
fig, ax = plt.subplots(1, 2, figsize=(12,4))
      
# normal scale 
ax[0].plot(x, x**2, x, np.exp(x))
ax[0].set_title('normal scale')

# scale options: ‘linear’, ‘log’, ‘logit’, ‘symlog’
ax[1].plot(x, x**2, x, np.exp(x))
ax[1].set_yscale('log')
ax[1].set_title('Logarithmic scale (y)');

Keine Manipulation der Achsen, aber dennoch sehr praktisch, ist es Beschriftungen im Koordinatensystem hinzuzufügen. Dieses erreicht man über [`text`](http://matplotlib.org/api/axes_api.html?highlight=set_xscale#matplotlib.axes.Axes.text) auf dem Koordinatensystem-Objekt. Der Text muss händisch an der gewünschten Position platziert werden und kann über entsprechende Parameter gestaltet werden.

In [None]:
fig, ax = plt.subplots()

# plot functions
ax.plot(x, x**2, 'b--', x, x**3, 'r-.')

# add annotations 
ax.text(5, 50, r"$y=x^2$", fontsize=20, color="b")
ax.text(5.5, 150, r"$y=x^3$", fontsize=20, color="r");

## Scatterplots

Ein Scatterplot eignet sich um Beziehung paarweisen Daten darzustellen. Als ein anschauliches Beispiel sei im Folgenden die Anzahl der Freunde in einem Sozialen-Netzwerk sowie die verbrachten Minuten im Netzwerk pro Person dargestellt. Mit [`scatter`](http://matplotlib.org/api/axes_api.html?highlight=scatter#matplotlib.axes.Axes.scatter) erstellen Sie einen Scatterplot. 

In [None]:
# model data
network_friends = [ 70, 65, 72, 63, 71, 64, 60, 64, 67]
stayed_minutes = [175, 170, 205, 120, 220, 130, 105, 145, 190]
person = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']

# scatterplot
plt.scatter(network_friends, stayed_minutes)

# label each point
for person, friend_count, minute_count in zip(person, network_friends, stayed_minutes):
    plt.annotate(person, xy=(friend_count, minute_count), 
                 xytext=(5, -5), # offset from each point
                 textcoords='offset points') # set offset
    plt.title("Daily Minutes vs. Number of Friends")
    plt.xlabel("# friends in the network")
    plt.ylabel("minutes spent on the network")

### !Aufgabe
Im Folgenden Plot werden die Noten von zwei Klausuren in Beziehung gesetzt. Die Skalen der Achsen, wie sie von `matplotlib` gesetzt werden, erschweren die Interpretation. Korrigieren Sie die Achsenaufteilung, sodass diese gleich verteilt sind und plotten Sie beide Versionen in einem figure-Objekt mit Beschriftung, siehe folgende Abbildung.

<img src="img/Aufgabe2.png">

In [None]:
# simple test grade plot
test_1_grades = [99, 90, 85, 97, 80]
test_2_grades = [100, 85, 60, 90, 70]
persons = ['Noam', 'Kurt', 'Alexander', 'Marie', 'Alexandra']

# create a figure with specific rows and colums
fig, axes = plt.subplots(1, 2, figsize=(12,4))

axes[0].scatter(test_1_grades, test_2_grades)

axes[1].scatter(test_1_grades, test_2_grades)
axes[1].axis([45, 130, 50, 110])
# axes[1].axis('scaled')  # sieht nicht schön aus

# zip() macht ne Tupelliste, auspacken in 3 Variablen, mit annotate() benutzen
for person, grade_one, grade_two in zip(persons, test_1_grades, test_2_grades):
    plt.annotate(person, xy=(grade_one, grade_two), 
                 xytext=(5, -5), textcoords='offset points') 

plt.title("Plot with comparable Axes")
plt.xlabel("test 1 grade")
plt.ylabel("test 2 grade")

In der modifizierten Abbildung ist deutlich sichtbar, dass eine hohe Varianz im zweiten Test auftritt. Sie sollten bei Abbildungen immer darauf achten, wie die Achsen skaliert sind, da eine ungeeignete Skalierung oft zu einer verfälschten Darstellung führen kann.

## Histogramm
Bei Histogrammen handelt es sich um Balkendiagramme. Balkendiagramme eignen sich prinzipiell zur Darstellungen von diskreten Mengen. Mit einem Histogramm versuchen wir die Verteilung von den Werten in einer Menge gut darzustellen. Als Einstiegsbeispiel nehmen wir wieder eine Notenverteilung, diesmal von einem einzigen Test. Ein Balkendiagramm bzw. Histogramm ploten Sie mit [`bar`](http://matplotlib.org/api/pyplot_api.html?highlight=bar#matplotlib.pyplot.bar).

In [None]:
from collections import Counter

grades = [83,95,91,87,70,6,85,82,100,67,73,77,0]
decile = lambda grade: grade // 10 * 10
# cluster grades into deciles and count them
histogram = Counter(decile(grade) for grade in grades)

list = [decile(grade) for grade in grades]
print (list)

# plot histogram
plt.bar([x -4 for x in histogram.keys()], # shift each bar to the left by 4 
        histogram.values(),                # give each bar its correct height
        8)                                 # give each bar a width of 8
plt.axis([-5, 105, 0, 5])                  # x-axis from -5 to 105, y-axis from 0 to 5
plt.xticks([10 * i for i in range(11)])    # x-axis labels at 0, 10, ..., 100
plt.xlabel("Points rounded")
plt.ylabel("# of Students")
plt.title("Distribution of Test Grades")

Der erste Parameter beim Aufruf von `bar` bestimmt den Startpunkt des jeweilgen Balkens. Während der zweite die Höhe des Balkens angibt. Der dritte Parameter bestimmt hingegen die Breite des Balkens. Im Beispiel wurden die Balken, welche die Breite von acht besitzen, um vier Einheiten nach links geschoben, wodurch diese zentriert werden. Außerdem erhalten wir einen kleinen Abstand zwischen den Balken, da jede Klasse eigentlich eine Breite von zehn besitzt. Bis auf [`xticks`](http://matplotlib.org/api/pyplot_api.html?highlight=xticks#matplotlib.pyplot.xticks) sind die anderen Funktionen bereits bekannt. `Xticks` plaziert die Beschriftungen an den spezifizierten Punkten, hier bei jedem Dezil.

Eine weitere Eigenschaft von `matplotlib` ist eine rudimentäre Unterstüztung von Bildern. Mit dem Modul können Bilder im png-Format in einem Numpy-Array konvertiert werden ([`imread`](http://matplotlib.org/api/image_api.html?highlight=imread#matplotlib.image.imread)) und ebenso dargestellt ([`imshow`](http://matplotlib.org/api/pyplot_api.html?highlight=imshow#matplotlib.pyplot.imshow)). Histogramme sind im Kontext von Bildern sehr interessant. 

### !Aufgabe
Nutzen Sie ihre `numpy`- und Ihre heute erworbene `matplotlib`-Kenntnis um folgende Aufagbe umzusetzen:

- Erstellen Sie eine Plot, der das Ausgangsbild sowie jeweils eins für jeden Kanal enthält.
- Berechnen Sie aus jedem Kanal ein Histogram und stellen Sie diese in einem Plot dar. Bitte entfernen Sie die Extremwerte 0 (Schwarz) und 1 (Weiß) vor der Darstellung.

Das Ergebnis sollte in etwa folgende Form haben.

<img src="img/Aufgabe3.png">


In [None]:
import matplotlib.image as mpimg

BAR_WIDTH = 0.0001

# Bild einlesen
chomsky = mpimg.imread("img/chomsky.png")

# per Slicing die Farbchannel holen
chomsky_r = chomsky[:,:,0] 
chomsky_g = chomsky[:,:,1] 
chomsky_b = chomsky[:,:,2] 

# jeweils alle Werte zaehlen, 0 und 1 ignorieren
histo_r = Counter(v for v in chomsky_r.flatten() if v not in {0.0, 1.0})
histo_g = Counter(v for v in chomsky_g.flatten() if v not in {0.0, 1.0})
histo_b = Counter(v for v in chomsky_b.flatten() if v not in {0.0, 1.0})

In [None]:
import matplotlib.image as mpimg

fig = plt.figure(figsize=(15, 5))

a = fig.add_subplot(1, 4, 1)
plt.imshow(chomsky)
a.set_title('RGB')

a = fig.add_subplot(1, 4, 2)
plt.imshow(chomsky_r)
a.set_title('R Channel')

a = fig.add_subplot(1, 4, 3)
plt.imshow(chomsky_g)
a.set_title('G Channel')

a = fig.add_subplot(1, 4, 4)
plt.imshow(chomsky_b)
a.set_title('B Channel')


In [None]:
fig = plt.figure(figsize=(12, 4))

b = fig.add_subplot(1, 3, 1)
plt.bar(histo_r.keys(), histo_r.values(), BAR_WIDTH)
plt.axis([0, 1.2, 0, 2500])
b.set_title('R')

b = fig.add_subplot(1, 3, 2)
plt.bar(histo_g.keys(), histo_g.values(), BAR_WIDTH)
plt.axis([0, 1.2, 0, 4000])
b.set_title('G')

b = fig.add_subplot(1, 3, 3)
plt.bar(histo_b.keys(), histo_b.values(), BAR_WIDTH)
plt.axis([0, 1.2, 0, 3000])
b.set_title('B')