# Nutzung von Matplotlib

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Plot zweier Funktionen (logistische und lineare Funktion)

Erstellen der Stützstellen, Berechnen der Funktionswerte.

In [None]:
x = np.linspace(-10, 10, 100)
y = 1.0/(1.0+np.exp(-x))
ylin = 0.5*x
x.shape, y.shape

Erstellen des Funktionsplots.

- beide Funktionen
- Intervalle beschränken
- waagerechte und senkrechte Linie für Ursprung
- Titel und Achsenbeschriftung
- Legende

In [None]:
plt.plot(x, y, color='red', label='y = logit(x)')
plt.plot(x, ylin, color='green', label='y=½x')
plt.xlim(-5, 5)
plt.ylim(-1.5, 1.5)
plt.hlines(0, -4, 4, ls=':', lw=0.8, color='black', label='y=0')
plt.vlines(0, -1, 1, ls=':', lw=0.8, color='black', label='x=0')
plt.title('Logistische Funktion')
plt.xlabel('x-Achse')
plt.ylabel('y-Achse')
plt.legend()
plt.show()

Einlesen der Daten, Umwandeln in *NumPy*-Array. Spaltennamen sichern.

In [None]:
dfDia = pd.read_csv('brilliantdia-train.csv')
dataDia = dfDia.values
cols = dfDia.columns
dataDia.shape, dataDia.dtype, cols

Hilfsvariablen für Spaltenindices.

In [None]:
idxPrice = 0
idxCarat = 1
idxCol = 2

Scatterplot Gewicht/Farbe, Price als Punktfarbe codiert. Farblegende.

In [None]:
ticks = np.arange(0, 6.6, 0.5)
plt.scatter(dataDia[:,idxCarat], dataDia[:, idxCol],
            c=dataDia[:, idxPrice], cmap='hot', label='Training')
plt.xlim(0, 7)
plt.legend()
plt.xlabel('Karat')
plt.ylabel('Farbcode')
plt.xticks(ticks=ticks, labels=ticks)
plt.colorbar()
plt.show()

Mehrere Diagramme als Subplots.

- Einstellen Gesamtgröße.
- Linear und logarithmische Scalen.

In [None]:
plt.figure(figsize=(15, 15))
plt.subplot(2, 2, 1)
plt.scatter(dataDia[:,idxCarat], dataDia[:, idxPrice])
plt.title('linear')
plt.subplot(2, 2, 2)
plt.scatter(dataDia[:,idxCarat], dataDia[:, idxPrice])
plt.xlim(1e-1, 10)
plt.xscale('log')
plt.title('x log, y linear')
plt.subplot(2, 2, 3)
plt.scatter(dataDia[:,idxCarat], dataDia[:, idxPrice])
plt.yscale('log')
plt.title('x linear, y log')
plt.subplot(2, 2, 4)
plt.scatter(dataDia[:,idxCarat], dataDia[:, idxPrice])
plt.xscale('log')
plt.yscale('log')
plt.title('x log, y log')
plt.show()


Darstellen des Zusammenhangs Gewicht/Preis als Funktion. Matrix muss nach x-Werten sortiert werden.

In [None]:
idxSort = np.argsort(dataDia[:,idxCarat])
dataSort = dataDia[idxSort, :]
plt.plot(dataSort[:, idxCarat], dataSort[:, idxPrice])
plt.yscale('log')
plt.xscale('log')

Darstellen einer kategorialen Größe. Zählen der Kategorien und der Häufigkeiten.

In [None]:
val, count = np.unique(dataDia[:, idxCol], return_counts=True)
val, count

Barplot der Kategorien.

In [None]:
plt.bar(val, count)
plt.xlabel('Farbcodes')
plt.ylabel('Anzahl je Farbe')
plt.show()

Datenverteilung (stetige Größe) als Histogramm durch Zählen der Werte im jeweiligen Intervall (Bin).

In [None]:
plt.hist(dataDia[:, idxCarat], bins=10, density=True)
plt.show()

Boxplot aller Spalten im Vergleich. Vorher manuelles Skalieren.

Hier können die Boxen sinnvoll mit den Originalspaltennamen beschriftet werden.

In [None]:
dataScaled = (dataDia-np.min(dataDia, axis=0))/(np.max(dataDia, axis=0)-np.min(dataDia, axis=0))
plt.boxplot(dataScaled)
plt.xticks(range(1, len(cols)+1), cols)
plt.show()