# Dash Einführung
Dash ist ein Framework zur Erstellung von Webapps für die Datenvisualisierung, entwickelt von Plotly. Dash zielt darauf ab, dass der User so weit wie möglich in Python arbeiten kann und eignet sich gut dafür, mit Pandas zusammen verwendet zu werden.

In diesem Notebook werden die Grundlagen von Dash anhand von Beispielen vorgestellt. Die offizielle Dokumentation befindet sich hier: 

https://dash.plotly.com/

Normalerweise wird Dash als normaler Pythonskript ausgeführt, der Zugriff auf die erzeugte Visualisierung erfolgt über den Browser. Innerhalb dieses Notebooks/der Colab-Umgebung greifen wir daher auf JupyterDash zurück, das ebenfalls von Plotly entwickelt wurde:

(https://medium.com/plotly/introducing-jupyterdash-811f1f57c02e)

*Anmerkung: Damit Dash in der Colab-Umgebung richtig funktioniert, sollten JavaScript und Cookies im Browser erlaubt sein.*

In [None]:
!pip install jupyter-dash
!pip install dash-bootstrap-components

import dash
import dash_bootstrap_components as dbc
import dash_core_components as dcc
import dash_html_components as html
import dash_table
import plotly.express as px
from dash.dependencies import Input, Output
from jupyter_dash import JupyterDash
import numpy as np
import pandas as pd

iris = pd.read_csv("https://raw.githubusercontent.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/master/iris.csv")

Collecting jupyter-dash
[?25l  Downloading https://files.pythonhosted.org/packages/b9/b9/5f9499a0154124a262c85e3a99033b9b3a20dc3d2707b587f52b32b60d76/jupyter_dash-0.3.1-py3-none-any.whl (49kB)
[K     |██████▊                         | 10kB 16.3MB/s eta 0:00:01[K     |█████████████▍                  | 20kB 1.8MB/s eta 0:00:01[K     |████████████████████            | 30kB 2.4MB/s eta 0:00:01[K     |██████████████████████████▊     | 40kB 2.6MB/s eta 0:00:01[K     |████████████████████████████████| 51kB 1.6MB/s 
Collecting dash
[?25l  Downloading https://files.pythonhosted.org/packages/d1/c2/0eb000c0a2f9e594c7f94c3234838e8f840b209dc8c5b2bc1ed0a9bc0f3c/dash-1.16.1.tar.gz (72kB)
[K     |████████████████████████████████| 81kB 4.2MB/s 
Collecting ansi2html
  Downloading https://files.pythonhosted.org/packages/b7/f5/0d658908d70cb902609fbb39b9ce891b99e060fa06e98071d369056e346f/ansi2html-1.5.2.tar.gz
Collecting flask-compress
  Downloading https://files.pythonhosted.org/packages/a0/9

## Plots und Layout

Mit Dash können sehr aufwändige Oberflächen mit komplexen Graphen, Auswahl- und Filterelementen (z.B. Dropdown-Menüs, Checkboxen, Slider, etc.) und Layouts erstellt werden.

Für den Anfang erstmal eine minimale Dash-App:

In [None]:
app = JupyterDash(__name__)

# Das Layout wird ähnlich wie in HTML festgelegt
app.layout = html.Div(children=[
    html.H1(children='Hallo'),
    html.Div(children="Hier könnte Ihre Dash App stehen.")
])

# Die JupyterDash-App wird im Notebook selber angezeigt
app.run_server(mode='inline')

<IPython.core.display.Javascript object>

Für das Layout verwenden wir in diesem Notebook **Dash Bootstrap** (https://dash-bootstrap-components.opensource.faculty.ai/). Dies ändert nichts an den Konzepten von Dash, macht den Layout-Code bei etwas komplexeren Beispielen aber deutlich übersichtlicher.

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])


# Das Layout wird ähnlich wie in HTML festgelegt
app.layout = app.layout = dbc.Container([
     html.H1("Hallo"),
     html.Div("Hier ist Dash :D")
])

# Die JupyterDash-App wird im Notebook selber angezeigt
app.run_server(mode='inline')

<IPython.core.display.Javascript object>

Wir setzen jetzt einen der Iris-Plots aus dem Pandas-Notebook in Dash um: 

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])
# Scatterplot erzeugen
fig = px.scatter(iris, x="sepal_length", y="sepal_width", color="species")
# Die Minimal- und Maximalwerte der Achsen
fig.update_xaxes(range=[4, 8])
fig.update_yaxes(range=[1.5, 5])

app.layout = dbc.Container(
    [
        html.H1("Iris Data"),
        dcc.Graph(id='iris-graph', figure=fig)
    ]
)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

Tooltips für die einzelnen Datenpunkte werden durch Dash automatisch generiert, ebenso wie Legenden (siehe erstes Iris-Beispiel weiter unten) und eine Plot-Toolbar mit Auswahl- und Zoomwerkzeugen (die Ansicht kann mit dem "Autoscale"-Button zurückgesetzt werden).

Auch 3D-Plots können ohne großen Aufwand erstellt werden:

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])
# Die Dimension "petal_length" wird nun hinzugefügt
fig = px.scatter_3d(iris, x="sepal_length", y="sepal_width", z="petal_width", color="species")

# Die Achsen müssen bei 3D-Plots etwas anders gesetzt werden, dies ist aber optional
fig.update_layout(
    scene = dict(
        xaxis = dict(range=[4,8]),
        yaxis = dict(range=[1.5, 5]),
        zaxis = dict(range=[0,3])
        )
)

app.layout = dbc.Container(
    [
        html.H1("Iris Data"),
        dcc.Graph(id='iris-graph', figure=fig)
    ]
)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

### TODO Übung

Jetzt zu den Aufgaben für Dich:

1.   Erstelle aus den Restaurant-Daten einen neuen DataFrame mit den Spalten vendor_id, vendor_rating (aus der Tabelle vendors) und vendor_total(Gesamtgewinn des jeweiligen Restaurants, berechnet aus den einzelnen Bestellungen)




In [None]:
# Daten laden
vendors = pd.read_csv('https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/vendors.csv.xz')
customers = pd.read_csv('https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/customers.csv.xz')
locations = pd.read_csv('https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/locations.csv.xz')
orders = pd.read_csv('https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/orders.csv.xz',
                     parse_dates=['order_accepted_time', 'delivered_time', 'delivery_date'])

In [None]:
# Platz für Deine Übungen :)

### TODO Lösung

In [None]:
# 
vendor_revenue = vendors.loc["vendor_id	", ""]

Unnamed: 0,vendor_id,latitude,longitude,vendor_category_en,serving_distance,opening_time,vendor_rating,vendor_tag_name
0,4,-0.588596,0.754434,Restaurants,6.0,11:00AM-11:30PM,4.4,"Arabic,Breakfast,Burgers,Desserts,Free Deliver..."
1,13,-0.471654,0.744470,Restaurants,5.0,08:30AM-10:30PM,4.7,"Breakfast,Cakes,Crepes,Italian,Pasta,Pizzas,Sa..."
2,20,-0.407527,0.643681,Restaurants,8.0,08:00AM-10:45PM,4.5,"Breakfast,Desserts,Free Delivery,Indian"
3,23,-0.585385,0.753811,Restaurants,5.0,10:59AM-10:30PM,4.5,"Burgers,Desserts,Fries,Salads"
4,28,0.480602,0.552850,Restaurants,15.0,11:00AM-11:45PM,4.4,Burgers
...,...,...,...,...,...,...,...,...
95,849,-1.588060,-0.066441,Restaurants,10.0,,4.1,"American,Breakfast,Burgers,Cafe,Desserts,Free ..."
96,855,2.145206,0.745025,Restaurants,8.0,,4.2,"American,Burgers,Desserts,Free Delivery,Fries,..."
97,856,0.251469,0.483632,Restaurants,7.0,,4.3,"American,Breakfast,Burgers,Cafe,Desserts,Free ..."
98,858,0.019817,0.587087,Restaurants,3.0,,4.2,"American,Breakfast,Burgers,Cafe,Desserts,Free ..."


In [None]:
locations

Unnamed: 0,customer_id,location_number,location_type,latitude,longitude
0,02SFNJH,0,,1.682392,-78.789737
1,02SFNJH,1,,1.679137,0.766823
2,02SFNJH,2,,-0.498648,0.661241
3,RU43CXC,0,Home,0.100853,0.438165
4,BDFBPRD,0,,2.523125,0.733464
...,...,...,...,...,...
59498,9PP42SA,2,,-0.788515,-78.497721
59499,9PP42SA,3,Home,-1.445114,0.072558
59500,9PP42SA,4,,-0.001785,0.431695
59501,HWELAU8,0,,-0.066291,-78.583075


In [None]:
orders

Unnamed: 0,customer_id,grand_total,vendor_rating,driver_rating,delivery_distance,order_accepted_time,delivered_time,delivery_date,vendor_id,location_number
0,92PEE24,7.6,,0.0,0.00,NaT,NaT,2019-07-31,105,0
1,QS68UD8,8.7,,0.0,0.00,NaT,NaT,2019-07-31,294,0
2,MB7VY5F,14.4,,0.0,0.00,NaT,NaT,2019-07-31,83,0
3,KDJ951Y,7.1,,0.0,0.00,NaT,NaT,2019-07-31,90,0
4,BAL0RVT,27.2,,0.0,0.00,NaT,NaT,2019-07-31,83,0
...,...,...,...,...,...,...,...,...,...,...
135298,L6LFY6H,13.3,,0.0,1.75,2020-02-29 23:48:47,2020-03-01 00:29:42,2020-03-01,67,0
135299,2GMMVGI,9.5,5.0,4.0,12.81,2020-02-29 23:49:50,2020-03-01 01:03:14,2020-03-01,79,0
135300,LYTAAV0,18.2,,0.0,11.15,2020-02-29 23:49:16,2020-03-01 00:36:37,2020-03-01,28,2
135301,NEV9A5D,7.7,,0.0,2.29,2020-02-29 23:54:38,2020-03-01 00:36:52,2020-03-01,841,0


In [None]:
len(set(orders['vendor_id']))
len(set(vendors['vendor_id']))

100

## Callbacks
Ein höherer Grad an Interaktion wird in Dash über Callbacks erreicht. Auch hierzu wieder ein Minimalbeispiel:

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

# Für Callbacks sind die component_ids im Layout wichtig
app.layout = html.Div([
    html.H5("Mit dem Inputfeld kann der Text im Output verändert werden"),
    html.Div(["Input: ",
              dcc.Input(id='my-input', value='Hai :D', type='text')]),
    html.Br(),
    html.Div(id='my-output'),

])

app.layout = dbc.Container(
    [
        html.H6("Mit dem Inputfeld kann der Text im Output verändert werden"),
        dbc.Input(id="my-input", type="text", value="", placeholder="Input"),
        html.Br(),
        html.Div(id="my-output"),
    ]
)

# Der Callback wird immer aufgerufen, sobald sich eine Property des Inputs ändert,
# in diesem Fall mit component_id='my-input' im Layout 
# Der Output wird analog über component_id='my-output' angesprochen
@app.callback(
    Output(component_id='my-output', component_property='children'),
    [Input(component_id='my-input', component_property='value')]
)
def update_output_div(input_value):
    return 'Output: {}'.format(input_value)


app.run_server(mode='inline')

<IPython.core.display.Javascript object>

Das Input-Feld in diesem Beispiel ist Teil der Dash Core Components (https://dash.plotly.com/dash-core-components), ebenso wie `dcc.Graph `, welcher uns in den vorherigen Beispielen bereits begegnet ist.

Mithilfe von Callbacks bauen wir in die Iris-App eine einfache Filtermöglichkeit ein: Ein Dropdown-Menü (ebenfalls aus `dcc`), mit welchem Iris-Spezies ausgewählt werden können.

*Anmerkung: In diesem Beispiel sind die Farben nicht an die Spezies gebunden, d.h. wenn nur eine Spezies ausgewählt wird, wird diese immer in Blau angezeigt. Um den Code halbwegs übersichtlich zu halten, belassen wir das in diesem Notebook so.*

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

# Liste der Spezies für das Dropdown-Menü erstellen, mit Zusatzoption 'All species'
species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

# Die Erstellung des Plots an sich kapseln wir zwecks Verwendung im Callback in eine
# eigene Methode
def generate_my_plot(df):
  fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species")
  # Die Minimal- und Maximalwerte der Achsen
  fig.update_xaxes(range=[4, 8])
  fig.update_yaxes(range=[1.5, 5])
  return fig

fig = generate_my_plot(iris)

app.layout = dbc.Container([
     html.H1("Iris Data"),
     dcc.Dropdown(id="species-select", 
                  options=[{"label": i, "value": i} for i in species_list], 
                  value=species_list[0]),
     dcc.Graph(id='iris-graph', figure=fig)
])



# Der Callback wird aufgerufen sobald, sich eine Input-Property ändert
@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value')]
)
def update_graph(input_value):
  if input_value == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==input_value]
  return generate_my_plot(iris_updated)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

### Übung TODO

### Lösung TODO

## Anpassung des Layouts
Das Dropdown-Menü sieht momentan noch etwas breit aus. Bevor wir unserer App also weitere Elemente hinzufügen, sollten wir das Layout noch ein wenig anpassen:

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

def generate_my_plot(df):
  fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species")
  # Die Minimal- und Maximalwerte der Achsen
  fig.update_xaxes(range=[4, 8])
  fig.update_yaxes(range=[1.5, 5])
  return fig

fig = generate_my_plot(iris)
 
# Das Layout wird so umgestellt, dass das Dropdownmenü neben dem Graphen steht
# Anmerkung: Das Card Element ist hier für den Rahmen um die Formgroup verantwortlich,
# bietet aber auch sehr viele Anpassungsmöglichkeiten für das Layout
controls = dbc.Card([
                     dbc.FormGroup([
                                    dbc.Label('Species:'),
                                    dcc.Dropdown(id="species-select", 
                                    options=[{"label": i, "value": i} for i in species_list], 
                                    value=species_list[0],)
                     ])
], body=True)

app.layout = dbc.Container([
     html.H1("Iris Data"),
     dbc.Row([
              dbc.Col(controls, md=4),
              dbc.Col(dcc.Graph(id='iris-graph', figure=fig), md=8)
     ],align="top",)
])

@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value')]
)
def update_graph(input_value):
  if input_value == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==input_value]
  return generate_my_plot(iris_updated)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

## Slider
Nur nach der Spezies zu filtern ist natürlich zu einfach, deshalb wollen wir zusätzlich nach Blütengrößen filtern können:

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

def generate_my_plot(df):
  fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species")
  # Die Minimal- und Maximalwerte der Achsen
  fig.update_xaxes(range=[4, 8])
  fig.update_yaxes(range=[1.5, 5])
  return fig

fig = generate_my_plot(iris)

controls = dbc.Card([
                     dbc.FormGroup([
                                    dbc.Label('Species:'),
                                    dcc.Dropdown(id="species-select", 
                                    options=[{"label": i, "value": i} for i in species_list], 
                                    value=species_list[0],)
                     ]),
                     dbc.FormGroup([
                                    dbc.Label('Petal length:'),
                                    dcc.RangeSlider(id="petal-length-select", 
                                                    count=1,min=1,max=7,step=0.5,
                                                    value=[1,7], 
                                                    marks={i: '{}'.format(i) for i in range(1,8)}),
                     ]),
                     dbc.FormGroup([
                                    dbc.Label('Petal width:'),
                                    dcc.RangeSlider(id="petal-width-select", 
                                                    count=1,min=0,max=3,step=0.5,
                                                    value=[0, 3], 
                                                    marks={i: '{}'.format(i) for i in range(0, 4)})
                     ])
], body=True)

app.layout = dbc.Container([
     html.H1("Iris Data"),
     dbc.Row([
              dbc.Col(controls, md=4),
              dbc.Col(dcc.Graph(id='iris-graph', figure=fig), md=8)
     ],align="top",)
])



# Die zusätzlichen Inputs werden einfach hinzugefügt
@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value'),
     Input(component_id='petal-length-select', component_property='value'),
     Input(component_id='petal-width-select', component_property='value')]
)
def update_graph(species_select, petal_length_select, petal_width_select):
  # Spezies filtern
  if species_select == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==species_select]
  # Sliderwerte filtern
  iris_updated = iris_updated.loc[iris_updated['petal_length'].between(petal_length_select[0],petal_length_select[1])]
  iris_updated = iris_updated.loc[iris_updated['petal_width'].between(petal_width_select[0],petal_width_select[1])]
  return generate_my_plot(iris_updated)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

## DataTable
Für tiefergehende Datenanalyse kann in einer Dash-Anwendung natürlich auch mehr als nur ein einzelner Graph angezeigt werden. Im letzten Schritt werden wir nun eine Datatable hinzufügen, mit der eine Spezies ausgewählt und zusätzliche Informationen zu ihr angezeigt werden können.

In [None]:
app = JupyterDash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

def generate_my_plot(df):
  fig = px.scatter(df, x="sepal_length", y="sepal_width", color="species")
  fig.update_xaxes(range=[4, 8])
  fig.update_yaxes(range=[1.5, 5])
  return fig

def generate_my_other_plot(df):
  fig = px.box(df, y="sepal_length")
  return fig

fig = generate_my_plot(iris)
lower_fig = generate_my_other_plot(iris)

controlsUpper = dbc.Card([
                     dbc.FormGroup([
                                    dbc.Label('Species:'),
                                    dcc.Dropdown(id="species-select", 
                                    options=[{"label": i, "value": i} for i in species_list], 
                                    value=species_list[0],)
                     ]),
                     dbc.FormGroup([
                                    dbc.Label('Petal length:'),
                                    dcc.RangeSlider(id="petal-length-select", 
                                                    count=1,min=1,max=7,step=0.5,
                                                    value=[1,7], 
                                                    marks={i: '{}'.format(i) for i in range(1,8)}),
                     ]),
                     dbc.FormGroup([
                                    dbc.Label('Petal width:'),
                                    dcc.RangeSlider(id="petal-width-select", 
                                                    count=1,min=0,max=3,step=0.5,
                                                    value=[0, 3], 
                                                    marks={i: '{}'.format(i) for i in range(0, 4)})
                     ])
], body=True)

# DataTable hinzufügen
controlsLower = dbc.Card([
                          dbc.FormGroup([
                                        dbc.Label('Sepal Length Distribution:'),
                                        dash_table.DataTable(
                                        id='species-table',
                                        columns=[{"name": "Species", "id": "species"}], # id muss dem Spaltennamen aus den Daten entsprechen!
                                        data=[{'species': 'All'},
                                              {'species': 'species-setosa'},
                                              {'species': 'species-versicolor'},
                                              {'species': 'species-virginica'}
                                              ],
                                        row_selectable="single")
                          ])
], body=True)

app.layout = dbc.Container([
     html.H1("Iris Data"),
     dbc.Row([
              dbc.Col(controlsUpper, md=4),
              dbc.Col(dcc.Graph(id='iris-graph', figure=fig), md=8)
     ],align="top",),
     dbc.Row([
              dbc.Col(controlsLower, md=4),
              dbc.Col(dcc.Graph(id='lower-graph', figure=lower_fig), md=8)
     ],align="top",)
])


@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value'),
     Input(component_id='petal-length-select', component_property='value'),
     Input(component_id='petal-width-select', component_property='value')]
)
def update_iris_graph(species_select, petal_length_select, petal_width_select):
  # Spezies filtern
  if species_select == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==species_select]
  # Sliderwerte filtern
  iris_updated = iris_updated.loc[iris_updated['petal_length'].between(petal_length_select[0],petal_length_select[1])]
  iris_updated = iris_updated.loc[iris_updated['petal_width'].between(petal_width_select[0],petal_width_select[1])]
  return generate_my_plot(iris_updated)



@app.callback(
    Output(component_id='lower-graph', component_property='figure'),
    [Input(component_id='species-table', component_property='selected_rows')]
)
def update_lower_graph(input_value):
  if input_value[0] == 0:
    iris_updated = iris
  elif input_value[0] == 1:
    iris_updated = iris.loc[iris['species']=='species-setosa']
  elif input_value[0] == 2:
    iris_updated = iris.loc[iris['species']=='species-versicolor']
  elif input_value[0] == 3:
    iris_updated = iris.loc[iris['species']=='species-virginica']
  return generate_my_other_plot(iris_updated)

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

### Übung TODO

### Lösung TODO

## Weiterführende Ressourcen

*  Dash Gallery (Umfangreiche Beispielsammlung für Dash-Apps, inkl. Source-Code): https://dash-gallery.plotly.host/Portal/

## Codebeispiele

3D-Plot ohne Bootstrap:

In [None]:
app = JupyterDash(__name__)

# Liste der Spezies für das Dropdown-Menü erstellen, mit Zusatzoption 'All species'
species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

# Die Erstellung des Plots an sich kapseln wir zwecks Verwendung im Callback in eine
# eigene Methode
def generate_my_plot(df):
  fig = px.scatter_3d(df, x="sepal_length", y="sepal_width", z="petal_width", color="species")
  fig.update_layout(
      scene = dict(
          xaxis = dict(range=[4,8]),
          yaxis = dict(range=[1.5, 5]),
          zaxis = dict(range=[0,3])
          )
  )
  return fig
 
app.layout = html.Div(children=[
    html.H1(children='Iris-Daten'),

    html.Div(children='''
        Ein wunderschöner 3D-Plot:
    '''),

    dcc.Dropdown(
                id="species-select",
                options=[{"label": i, "value": i} for i in species_list],
                value=species_list[0],
            ),

    dcc.Graph(
        id='iris-graph',
        figure=fig
    )
])

# Der Callback wird aufgerufen sobald, sich eine Input-Property ändert
@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value')]
)
def update_graph(input_value):
  if input_value == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==input_value]
  return generate_my_plot(iris_updated)

app.run_server(mode='inline')

3D-Plot mit Slider ohne Bootstrap:

In [None]:
app = JupyterDash(__name__)



species_list = ['All species']
species_list.extend(iris['species'].unique())
species_list

def generate_my_plot(df):
  fig = px.scatter_3d(df, x="sepal_length", y="sepal_width", z="petal_width", color="species")

  fig.update_layout(
      margin=dict(l=0, r=0, b=0, t=15),
      width = 600,
      scene = dict(
          xaxis = dict(range=[4,8]),
          yaxis = dict(range=[1.5, 5]),
          zaxis = dict(range=[0,3])
          )
  )
  return fig

fig = generate_my_plot(iris)
 
app.layout = html.Div([
        html.H1('Iris-Data'),
        html.Div([
            html.Label('Species:'),
            dcc.Dropdown(id="species-select", options=[{"label": i, "value": i} for i in species_list], value=species_list[0]),
            # Ins Layout fügen wir die Slider ein
            html.Label('Sepal length:'),
            dcc.RangeSlider(id="sepal-length-select", count=1,min=4,max=8,step=0.5,value=[4, 8], marks={i: '{}'.format(i) for i in range(4, 9)}),
            html.Label('Sepal width:'),
            dcc.RangeSlider(id="sepal-width-select", count=1,min=0,max=5,step=0.5,value=[0, 5], marks={i: '{}'.format(i) for i in range(0, 10)}),
            html.Label('Petal width:'),
            dcc.RangeSlider(id="petal-width-select", count=1,min=0,max=3,step=0.25,value=[0, 3], marks={i: '{}'.format(i) for i in range(0, 10)}) 
            
        ], 
        style={'width': '15%', 'display': 'inline-block', 'vertical-align':'top'}),

        html.Div(dcc.Graph(
            id='iris-graph',
            figure=fig),
            style={'width': '80%', 'display': 'inline-block'})
])

# Die zusätzlichen Inputs werden einfach hinzugefügt
@app.callback(
    Output(component_id='iris-graph', component_property='figure'),
    [Input(component_id='species-select', component_property='value'),
     Input(component_id='sepal-length-select', component_property='value'),
     Input(component_id='sepal-width-select', component_property='value'),
     Input(component_id='petal-width-select', component_property='value')]
)
def update_graph(species_select, sepal_length_select, sepal_width_select, petal_width_select):
  # Spezies filtern
  if species_select == 'All species':
    iris_updated = iris
  else:
    iris_updated = iris.loc[iris['species']==species_select]
  # Sliderwerte filtern
  iris_updated = iris_updated.loc[iris_updated['sepal_length'].between(sepal_length_select[0],sepal_length_select[1])]
  iris_updated = iris_updated.loc[iris_updated['sepal_width'].between(sepal_width_select[0],sepal_width_select[1])]
  iris_updated = iris_updated.loc[iris_updated['petal_width'].between(petal_width_select[0],petal_width_select[1])]
  return generate_my_plot(iris_updated)

app.run_server(mode='inline')

# TODO Ab hier löschen, sobald fertig

## Beispieldatensatz - Restaurant Recommendation

In diesem Notebook verwenden wir für die weiteren Beispiel den Kaggle-Datensatz für die "Restaurant Recommendation Challenge". Er enthält Daten wie Kundenbestellungen, Restaurantbewertungen, Lieferzeiten, Ortsangaben, etc.

(https://www.kaggle.com/mrmorj/restaurant-recommendation-challenge/)

In [None]:
# Die komprimierten Daten werden aus einem Repo gelesen
orders = pd.read_csv("https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/orders.csv.xz", index_col=0)
customers = pd.read_csv("https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/customers.csv.xz", index_col=0)
locations = pd.read_csv("https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/locations.csv.xz", index_col=0)
vendors = pd.read_csv("https://github.com/thomas-bierhance-exxcellent/data-wrangling-praktikum/raw/master/vendors.csv.xz", index_col=0)


Columns (8,9,11,12,13) have mixed types.Specify dtype option on import or set low_memory=False.



In [None]:
orders

In [None]:
orders['delivery_date'].unique()

In [None]:
customers

In [None]:
locations

In [None]:
vendors

In [None]:
# TODO
revenueDf = orders.loc[:,['vendor_id', 'grand_total']].dropna()
revenueDf.groupby('vendor_id').sum()

In [None]:
vendors.loc[:,['vendor_id','vendor_rating']].dropna()


Wir werden im Folgenden Schritt für Schritt eine Dash-App bauen, die folgende Funktionalitäten enthält:

*  Korrelation zwischen zwei Attributen, z.b. Restaurantbewertung und durchschnittliche Lieferzeit. Im weiteren Verlauf sollen die Attribute frei auswählbar sein.
*  Anzeige einer Kundenliste. Die Kundeneinträge sollen selektierbar sein, woraufhin eine List mit den Bestellungen des jeweiligen Kunden angezeigt wird.
*  Eine Liste mit den Restaurants, nach Umsatz sortiert. Wird ein Restaurant selektiert, wird dessen Umsatz als Graph in einem separaten Feld angezeigt.
* Diverse Filterungsmöglichkeiten für die Listen.

Zunächst erstellen wir einen einfachen Graphen auf Basis des ersten App-Beispiels oben. Als Einstieg untersuchen wir die Korrelation zwischen **vendor_rating** und und **delivery_time** aus der **orders**-Tabelle.

In [None]:
# Relevante Spalten auswählen, Zeilen mit NaN-Werten entfernen
corrDf = orders.loc[:,['vendor_rating', 'delivery_time']].dropna()
# Die Spalte delivery_time enthält zusätzlich zu den Zeiten auch Datumseinträge. Diese interessieren uns momentan nicht,
# daher entfernen wir sie
corrDf['delivery_time'] = corrDf['delivery_time'].apply(lambda x: x.split(' ')[1])
corrDf = corrDf.sort_values(by=['delivery_time'])
corrDf = corrDf[(corrDf['vendor_rating'] > 0.0) & (corrDf['delivery_time'] != '00:00:00')]

In [None]:
# Relevante Spalten auswählen, Zeilen mit NaN-Werten entfernen
corrDf = orders.loc[:,['driver_rating', 'delivery_time']].dropna()
# Die Spalte delivery_time enthält zusätzlich zu den Zeiten auch Datumseinträge. Diese interessieren uns momentan nicht,
# daher entfernen wir sie
corrDf['delivery_time'] = corrDf['delivery_time'].apply(lambda x: x.split(' ')[1])
corrDf = corrDf.sort_values(by=['delivery_time'])
corrDf = corrDf[(corrDf['driver_rating'] > 0.0) & (corrDf['delivery_time'] != '00:00:00')]

In [None]:
# Relevante Spalten auswählen, Zeilen mit NaN-Werten entfernen
corrDf = orders.loc[:,['delivery_distance', 'delivery_time']].dropna()
# Die Spalte delivery_time enthält zusätzlich zu den Zeiten auch Datumseinträge. Diese interessieren uns momentan nicht,
# daher entfernen wir sie
corrDf['delivery_time'] = corrDf['delivery_time'].apply(lambda x: x.split(' ')[1])
corrDf = corrDf.sort_values(by=['delivery_time'])
corrDf = corrDf[(corrDf['delivery_distance'] > 0.0) & (corrDf['delivery_time'] != '00:00:00')]
corrDf

Unnamed: 0,delivery_distance,delivery_time
55337,6.08,00:01:00
61495,14.51,00:02:00
58666,4.78,00:02:00
76044,9.43,00:04:00
67832,7.99,00:05:00
...,...,...
109182,2.85,23:59:00
121412,5.25,23:59:00
133940,9.19,23:59:00
129934,11.03,23:59:00


In [None]:
app = JupyterDash(__name__)
df = corrDf
# Scatterplot erzeugen
fig = px.scatter(df, x="delivery_time", y="delivery_distance")

app.layout = html.Div(children=[
    html.H1(children='Restaurant Recommendation App'),

    html.Div(children='''
        Ein einfacher Plot:
    '''),

    dcc.Graph(
        id='example-graph',
        figure=fig
    )
])

app.run_server(mode='inline')

<IPython.core.display.Javascript object>

In [None]:
# Relevante Spalten auswählen, Zeilen mit NaN-Werten entfernen
corrDf = orders.loc[:,['vendor_rating', 'driver_rating', 'delivery_time']].dropna()
# Die Spalte delivery_time enthält zusätzlich zu den Zeiten auch Datumseinträge. Diese interessieren uns momentan nicht,
# daher entfernen wir sie
corrDf['delivery_time'] = corrDf['delivery_time'].apply(lambda x: x.split(' ')[1])
corrDf = corrDf.sort_values(by=['delivery_time'])
corrDf = corrDf[(corrDf['vendor_rating'] > 0.0) & (corrDf['driver_rating'] > 0.0) & (corrDf['delivery_time'] != '00:00:00')]
corrDf

Unnamed: 0,vendor_rating,driver_rating,delivery_time
67832,5.0,5.0,00:05:00
108308,5.0,5.0,00:05:00
74655,5.0,5.0,00:07:00
66576,3.0,5.0,00:10:00
91800,5.0,5.0,00:12:00
...,...,...,...
72670,4.0,4.0,23:52:00
109181,5.0,5.0,23:56:00
70790,5.0,5.0,23:57:00
105326,5.0,5.0,23:58:00


In [None]:
app = JupyterDash(__name__)
df = corrDf
# 3D Plot
fig = px.scatter_3d(df, x="vendor_rating", y="driver_rating", z="delivery_time")

app.layout = html.Div(children=[
    html.H1(children='Restaurant Recommendation App'),

    html.Div(children='''
        3D Plot:
    '''),

    dcc.Graph(
        id='example-graph',
        figure=fig
    )
])

app.run_server(mode='inline')

<IPython.core.display.Javascript object>