<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/2b_DS_Bootcamp_Plotly_Dash.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DS Bootcamp Teil 1d - Visualisierung mit Plotly & Dash #

## DS Bootcamp Verzeichnis ##

[**Teil 1 - Data Science - Prozesse & Grundlagen**](https://github.com/sakuronohana/my_datascience/blob/master/1_DS_Bootcamp_Prozesse_%26_Grundlagen.ipynb)

[**Teil 1a - Data Science - Python Basic & Advanced**](https://github.com/sakuronohana/my_datascience/blob/master/2_DS_Bootcamp_Python_Basic_%26_Advanced.ipynb)

[**Teil 1b - Data Science - R Basic & Advanced**](https://github.com/sakuronohana/my_datascience/blob/master/3_DS_Bootcamp_R_Basic_%26_Advanced.ipynb)

[**Teil 1c - Data Science - Tensorflow Basic & Advanced**](https://github.com/sakuronohana/my_datascience/blob/master/2a_DS_Bootcamp_Tensorflow_Basic_%26_Advanced.ipynb)

[**Teil 1d - Data Science - Plotly & Dash**](https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/2b_DS_Bootcamp_Plotly_Dash.ipynb#scrollTo=QoQEryhL9Hxw)

[**Teil 2 - Data Science - ML - Datenbeschaffung & Datenaufbereitung**](https://github.com/sakuronohana/my_datascience/blob/master/4_DS_Bootcamp_ML_Datenbeschaffung_Datenaufbereitung.ipynb)

[**Teil 3 - Data Science - ML - Modellwahl**](https://github.com/sakuronohana/my_datascience/blob/master/5_DS_Bootcamp_ML_Modellwahl.ipynb)

[**Teil 4 - Data Science - ML - Modell Training, Testing & Optimierung**](https://github.com/sakuronohana/my_datascience/blob/master/6_DS_Bootcamp_ML_Modell_Train_Test_Optimize.ipynb)

[**Teil 5 - Data Science - ML - Modell Produktivsetzung, Überwachung & Pflege**](https://github.com/sakuronohana/my_datascience/blob/master/7_DS_Bootcamp_ML_Modell_Deploy_Monitor_Maintain.ipynb)

## About Plotly & Dash ##

Nachfolgend eine kleine Einführung in die Visualisierung mit Plotly und Dash.

Dash ist ein produktives Python-Framework zum Erstellen von Webanwendungen. Dash wurde auf Flask, Plotly.js und React.js geschrieben und ist ideal zum Erstellen von Datenvisualisierungs-Apps mit hochgradig benutzerdefinierten Benutzeroberflächen in reinem Python. 
Dash-Apps werden im Webbrowser gerendert. Sie können Ihre Apps auf Servern bereitstellen und sie dann über URLs freigeben. Da Dash-Apps im Webbrowser angezeigt werden, ist Dash von Natur aus plattformübergreifend und mobil einsetzbar.

Quelle: [Plotly Dash](https://dash.plot.ly/introduction)

<img src='https://images.prismic.io/plotly-marketing-website/d076c072-a8d5-4316-9d87-be7d7109cf43_social+media+logo-01.png?auto=compress,format' width='400'>

## Einführung in Plotly ##

Bevor wir uns mit Dash beschäftigen ist es ratsam eine kurze Einführung in Plotly selbst zu machen. Auf der folgenden Webseite finden wir sehr viele Beispiele welche Art von Plots wir mit Plotly erstellen können. 

https://plot.ly/python

### Aufbau ###

Bevor wir uns nun mit den einzelnen Plots beschäftigen ist es wichtig mal zuerst den generellen Aufbau zu verstehen. Plotly besteht aus folgenden Objekten:

* Data - Hier werden immer die Daten und ihre Attribute definiert bspw. Plotart (Scatter, Bar usw.) x, y, Mode, Marker usw.)
* Layout - In diesem Element wird das grundsätzliche Erscheinungsbild des Plots bspw. Titel, Axenbeschrieftungen, Hovermode usw.


### Scatter Plots ###

Der Scatter Plot ist ein unverzichtbarer Graph wenn es darum geht Korrelationen zwischen zwei Variablen zu finden.

Referenz zu Scatter Plot ([Link](https://plotly.com/python/reference/#scatter))

In [0]:
import pandas as pd
import plotly.offline as pyo
import plotly.graph_objs as go

# Datenimport 

datloc = 'https://raw.githubusercontent.com/sakuronohana/cas_StatDaVi/master/Semesterarbeit/Daten/wb_total_population.csv'
wpop = pd.read_csv(datloc)

wpop.set_index('Country Name',inplace=True)

x = wpop['1994']
y = wpop['2015']

# Nun ploten wir die Daten. Wichtig dabei ist, es handelt sich um eine Liste
data = [go.Scatter(
    x=x, 
    y=y, 
    mode='markers', # Form der Datenpunkte 
    marker=dict( # Konfiguration der Datenpunkte
        size=12, # Datenpunkte auf Grösse 12
        color='red', #Datenpunkte in Rot
        symbol= 'pentagon', # Form der Datenpunkte
        line = dict(width=2), # Linienbreite der Datenpunkte
    ))]

# Nun defineren wir das Layout unserere Plots. Layout ist keine Liste
layout = go.Layout(
        title='Mein Plotly Scatter Plot',
        # Hier die erste Methode einer Axenbeschriftung
        xaxis= {'title':'Werte der Axe x'},
        # Zweite Methode einer Axenbeschrifung
        yaxis=dict(title='Werte der Axe y'),
        hovermode='closest')

# Nun fassen wir alles in einer Variablen zusammen
fig = go.Figure(data=data, layout=layout)

# Führen wir nun diesen Plot aus wird ein Browser geöffnet
fig.show() 

# Als alternative können den Plot Offline bzw. als HTML speichern und ausführen.
# pyo.plot(fig, filename = 'scatter.html')

### Line Plots ###

Wenn es darum geht stetige Daten in eine Zeitreihe aufzuzeigen, dann führt nichts an einem gute Line Plot vorbei.

In [0]:
import plotly.offline as pyo
import plotly.graph_objs as go
import numpy as np

np.random.seed(56)
x_values = np.linspace(0, 1, 100) # 100 evenly spaced values
y_values = np.random.randn(100)   # 100 random values

# create traces
trace0 = go.Scatter(
    x = x_values,
    y = y_values+5,
    mode = 'markers',
    name = 'markers'
)
trace1 = go.Scatter(
    x = x_values,
    y = y_values,
    mode = 'lines+markers',
    name = 'lines+markers'
)
trace2 = go.Scatter(
    x = x_values,
    y = y_values-5,
    mode = 'lines',
    name = 'lines'
)
data = [trace0, trace1, trace2]  # assign traces to data
layout = go.Layout(
    title = 'Line chart showing three different modes'
)
fig = go.Figure(data=data,layout=layout)
fig.show()

Und hier noch ein Line Plot mit richtigen Daten

In [0]:
import pandas as pd
import plotly.offline as pyo
import plotly.graph_objs as go

# Datenimport 

datloc = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/population.csv'
pop = pd.read_csv(datloc)

# Um die Selektion einfacher zu gestalten setzten wir den Index neu
pop.set_index('Name', inplace=True)

data = [go.Scatter(x=pop.columns, 
                   y=pop.loc[name], 
                   mode='lines', 
                   name=name,) for name in pop.index]

fig = go.Figure(data=data)

fig.show()


### Bar Plots ###

Möchte man kategorische Daten (x) mit ihren Werten (y) oder mehrere Merkmale auf einer definierten Zeitachse darstellen, dann ist der Bar Plot (Balkendiagramm) ideal dafür. 


In [0]:
olym

In [0]:
import pandas as pd
import plotly.offline as pyo
import plotly.graph_objs as go

datloc = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/2018WinterOlympics.csv'
olym = pd.read_csv(datloc)

trace1 = go.Bar(
          x=olym['NOC'], 
          y=olym['Gold'],
          name='Gold',
          marker={'color':'#FFD700'})

trace2 = go.Bar(
          x=olym['NOC'], 
          y=olym['Silver'],
          name='Silver',
          marker={'color':'#9EA0A1'})

trace3 = go.Bar(
          x=olym['NOC'], 
          y=olym['Bronze'],
          name='Bronze',
          marker={'color':'#CD7F32'})

data = [trace1,trace2,trace3]
layout = go.Layout(title='Medals',
                   barmode='stack') # Mit dieser Zeile erstellen wir eine gestapeltes Bankendiagramm.

fig = go.Figure(data=data, layout=layout)
fig.show()


### Bubble Plot ###

Ein Bubble Plot (Blasendiagramm) ähnlich wie eine Scatter Plot. Der wesentliche Unterschied dabei ist, dass wir mit der Grösse der Bubbles auch die Werteverhältnisse anzeigen können. Die Bubble Plots waren bei Hans Rosling (bekannter schwedischer Arzt und Statistiker) eine sehr beliebtes Instrument um verschiedenen Datensätze miteinander zu vergleichen.


In [0]:
import pandas as pd
import plotly.graph_objs as go
import plotly.offline as pyo

datloc = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/mpg.csv'
cars = pd.read_csv(datloc)

data = [go.Scatter(
        x=cars['horsepower'], 
        y=round(cars['mpg']*1.6), # Umrechnung Meilen auf Kilometer 
        text=cars['name'],
        mode='markers',
        marker=dict(size=round(cars['weight']/200), 
        color=cars['model_year'],
        showscale=True)
        )]

layout = go.Layout(title='Bubble Plot - Vergleich Kraftstoffverbrauch vs. Pferdestärken',
                  xaxis=dict(title='Anzahl Pferdestärken'),
                  yaxis=dict(title='Kilometer pro US Gallone'),
                  hovermode='y')

fig = go.Figure(data=data, layout=layout)
fig.show()



### Box Plots ###

Box Plots werden dazu verwendet um Quartile abzubilden bzw. robuste Lage- und Streuungsmasse zusammenzufassen. Quartile zeigen das prozentuale Verhältnis von Daten in vier Abschnitte, wobei das 50% Quartile der Median darstellt. Box Plots lassen somit Aussagen wie bspw. die Anzahl der Prüfergebnisse mit der Note 6 liegen unter 25% folglich machen alle Noten die schlechter sind als die Note 6 75% der Prüfresultat aus.

<img src='https://github.com/sakuronohana/my_datascience/blob/master/doc_images/boxplot.jpg?raw=1' width='600'>

Quelle: [DWH Wiki - Boxplot](http://de.dwhwiki.info/charting/boxplot) 

In [0]:
import pandas as pd
import plotly.graph_objs as go

datloc = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/mpg.csv'
cars = pd.DataFrame(pd.read_csv(datloc))

cars['horsepower'] = round(pd.to_numeric(cars['horsepower'],errors='coerce'))
y1 = cars[cars['name'].str.contains('ford')]
y2 = cars[cars['name'].str.contains('toyota')]
y3 = cars[cars['name'].str.contains('chev')]

data = [go.Box(y=y1['horsepower'],
               name='Ford',
               boxpoints='outliers', # Zeigt alle Datenpunkte oder nur Ausreisser
               jitter=0.3, # Gibt die Dichte der Streuung der Datenpunkte an
               pointpos=0 #Schiebt die Positon der Datenpunkte -2 ist ganz links
               ),
        go.Box(y=y2['horsepower'],
               name='Toyota',
               boxpoints='outliers', # Zeigt alle Datenpunkte oder nur Ausreisser
               jitter=0.3, # Gibt die Dichte der Streuung der Datenpunkte an
               pointpos=0 #Schiebt die Positon der Datenpunkte -2 ist ganz links
               ),
          go.Box(y=y3['horsepower'],
               name='Chevrolet',
               boxpoints='outliers', # Zeigt alle Datenpunkte oder nur Ausreisser
               jitter=0.3, # Gibt die Dichte der Streuung der Datenpunkte an
               pointpos=0 #Schiebt die Positon der Datenpunkte -2 ist ganz links
               )]

layout = go.Layout(
          title='Boxplot - Auto Pferdestärken (PS)', 
          yaxis=dict(title='Pferdestärken'))

fig = go.Figure(data=data, layout=layout)

fig.show()


### Histogramm ###

Das Histogramm ist eine Darstellungsform von absoluten oder relativen Häufigkeitsverteilungen kardinal skalierter, also quantitativer Merkmale. Trotz der Ähnlichkeit handelt es sich hierbei nicht um ein Säulendiagramm, denn für die Erstellung eines Histogramms müssen die Daten in Klassen unterteilt werden. So könnte man beispielsweise das Alter von Personen in 10-Jahres-Abstände klassifizieren (z.B. 0-9 Jahre, 10-19 Jahre, 20-29 Jahre etc.). Allerdings müssen die Klassen nicht zwingend gleich groß (konstante Klassen) sein, sondern können auch eine unterschiedliche Breite besitzen (variable Klassen). Die verschiedenen Klassen werden abschließend nebeneinander in Rechtecken dargestellt. Der Flächeninhalt dieser Rechtecke stellt die Klassenhäufigkeit dar, die Höhe gibt Auskunft über die Häufigkeitsdichte und die Breite entspricht der jeweiligen Klasse.

In [0]:
import pandas as pd
import plotly.graph_objs as go

datloc = 'http://datasets.flowingdata.com/crimeRatesByState2005.csv'
datload = pd.DataFrame(pd.read_csv(datloc))
crime = datload.drop([0,9])

data = [go.Histogram(
                    x=crime['murder'], 
                    xbins=dict(start=0,end=60))]

layout = go.Layout(
                  title='Histogram',
                  xaxis = dict(title='Anzahl Morde'),
                  yaxis = dict(title='Anzahl US-Bundesstaaten'))

fig = go.Figure(data=data,layout=layout)

fig.show()

### Distribution Plots (Distplot) ###

Mit einem Verteilungsdiagramm (engl. Distribution Plot) besteht typischerweise aus drei Plots, welche übereinandergelegt werden. 

Die erste Ebene besteht aus einem Histogramm in welcher die einzelnen Datenpunkt in einem Kasten (bins) gleichwertiger Datenpunkte abgelegt wird.

Auf der zweiten Ebene werden die Markierungen entlang der x-Axe für jeden Datenpunkt platziert. Womit die Verteilung für jeden Wert innerhalb eines Kasten ersichtlich wird.

Auf der dritten Ebene kommt eine Kernel Density Estimate (KDE) (dt. Kerndichteschätzung) Line hinzu, mit welche versucht wird die Form der Verteilung wiederzugeben. 



In [0]:
import pandas as pd

# Um einen etwas komplexeren Plot darzustellen, importieren wir eine andere Library als normal. 
import plotly.figure_factory as ff 

datloc = 'http://datasets.flowingdata.com/crimeRatesByState2005.csv'
datload = pd.DataFrame(pd.read_csv(datloc))
crime = datload.drop([0,9])


x1 = crime['aggravated_assault']
x2 = crime['motor_vehicle_theft']


hist_data = [x1,x2]
group_labels = ['Schwere Angriffe','Autodiebstahl']

fig = ff.create_distplot(hist_data,group_labels,bin_size=[15,15])
fig.show()


### HeatMaps ###

Eine Heatmap ist ein Diagramm zur Visualisierung von Daten. Heatmaps dienen dazu, große Datenmengen schnell überblicken zu können indem Zahlenwerte je nach Größe farblich markiert werden. Grundsätzlich kann man 3 Merkmale damit visualisieren. Je ein kategorisches Merkmal auf der X- und Y-Axe und ein weiteres Merkmal mittels Einfärbung.

In [3]:
# Einfache Heatmap

import pandas as pd
import plotly.graph_objs as go

datlocsb = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/2010SantaBarbaraCA.csv'
tempsb = pd.DataFrame(pd.read_csv(datlocsb))


data = [go.Heatmap(
                  x=tempsb['DAY'], 
                  y=tempsb['LST_TIME'],
                  z=tempsb['T_HR_AVG'].values.tolist(), # Auf der Z-Achse können wir nur Pyton Lists anwenden.
                  colorscale='Jet'
                  )]

layout = go.Layout(title='SB CA Temperatures')

fig = go.Figure(data=data, layout=layout)
fig.show()

In [20]:
# Heatmap mit Subplots

import pandas as pd
import plotly.graph_objs as go
# Um mit Subplots zu arbeiten benötigen wir noch die Libray Subplots von Plotly
from plotly import subplots 

datlocyu = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/2010YumaAZ.csv'
datlocsb = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/2010SantaBarbaraCA.csv'
datlocsi = 'https://raw.githubusercontent.com/Pierian-Data/Plotly-Dashboards-with-Dash/master/Data/2010SitkaAK.csv'
tempsi = pd.DataFrame(pd.read_csv(datlocsi))
tempsb = pd.DataFrame(pd.read_csv(datlocsb))
tempyu = pd.DataFrame(pd.read_csv(datlocyu))

# Bei einem Subplots erstellen wir erneut Traces
trace1 = go.Heatmap (x=tempsi['DAY'], y=tempsi['LST_TIME'],z=tempsi['T_HR_AVG'], colorscale='JET',zmin=5,zmax=40)
trace2 = go.Heatmap (x=tempsb['DAY'], y=tempsb['LST_TIME'],z=tempsb['T_HR_AVG'], colorscale='JET',zmin=5,zmax=40)
trace3 = go.Heatmap (x=tempyu['DAY'], y=tempyu['LST_TIME'],z=tempyu['T_HR_AVG'], colorscale='JET',zmin=5,zmax=40)

fig = subplots.make_subplots(rows=1, # Definiert auf wievielen Zeilen die Plots verteilt werden sollen
                          cols=3, # Definiert auf wievielen Spalten die Plots verteilt werden sollen
                          subplot_titles=['Sitka AK', 'SantaBarbara', 'Yuma AZ'],
                          shared_yaxes=False) # Definiert, ob nur eine Y-Achse beschriftet wird oder alle.

fig.append_trace(trace1,1,1) #1 Zeile, 1 Spalte
fig.append_trace(trace2,1,2) #1 Zeile, 2 Spalte
fig.append_trace(trace3,1,3) #1 Zeile, 3 Spalte

fig['layout'].update(title='Temperaturen für 3 US Städte') # Hier sprechen wir das Gesamtlayout an

fig.show()


## Einführung in Dash ##

Einfach gesagt ist Dash eine Open Source Python Bibliothek um interaktive web-basierte App, welche meist im Bereich der Date Science eingesetzt wird. Der wesentliche Vorteil von Dash ist, dass lediglich Python und etwas Plotly Knowhow gefragt ist aber kein JS oder HTML Wissen.

### Installation von Dash ###

Die Installation kann ganz einfach mittels Pip gemacht werden

In [0]:
!pip install dash