# Dashboard

---

*Antonio Emanuele Cinà, Assistant Professor @ University of Genoa*

**Analisi e Rappresentazione dei Dati** --
17 Maggio 2024

## Lezione 11: Dashboard 3 - Esercitazione


Materiale: https://tinyurl.com/ARD24-L11

# Il dataset

**Dashboard con il Dataset Titanic**

Il dataset contiene le seguenti colonne:

- **survival**: Sopravvivenza (0 = No, 1 = Sì)
- **pclass**: Classe del biglietto (1 = 1a classe, 2 = 2a classe, 3 = 3a classe)
- **sex**: Sesso del passeggero
- **age**: Età del passeggero in anni
- **sibsp**: Numero di fratelli/sorelle o coniugi a bordo
- **parch**: Numero di genitori/figli a bordo
- **ticket**: Numero del biglietto
- **fare**: Tariffa pagata per il biglietto
- **cabin**: Numero della cabina
- **embarked**: Porto di imbarco (C = Cherbourg, Q = Queenstown, S = Southampton)

In [1]:
import pandas as pd

In [2]:
titanic_df = pd.read_csv("https://raw.githubusercontent.com/Cinofix/analisi-e-rappresentazione-dati/main/data/titanic.csv", sep=",")
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [3]:
# Ricordiamo di controllare quanti valori sono nulli nei dataset che usiamo
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [4]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [5]:
# Siccome ci sono un sacco di valori nulli in "Cabin" scegliamo se sostituire i valori o rimuovere direttamente la colonna
# In questo esercizio sostituiamo i valori mancanti con "Unknown"
titanic_df_cleaned = titanic_df.fillna(value={"Cabin":"Unknown"})

# Rimuoviamo i restanti valori nulli
titanic_df_cleaned = titanic_df_cleaned.dropna()

# Rimuoviamo ulteriori valori fuori scala
titanic_df_cleaned = titanic_df_cleaned[titanic_df_cleaned['Fare'] <= 300]

# dataset pulito e pronto all'uso :)
titanic_df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 709 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  709 non-null    int64  
 1   Survived     709 non-null    int64  
 2   Pclass       709 non-null    int64  
 3   Name         709 non-null    object 
 4   Sex          709 non-null    object 
 5   Age          709 non-null    float64
 6   SibSp        709 non-null    int64  
 7   Parch        709 non-null    int64  
 8   Ticket       709 non-null    object 
 9   Fare         709 non-null    float64
 10  Cabin        709 non-null    object 
 11  Embarked     709 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 72.0+ KB


In [6]:
# Ultimi ritocchi, cambiamo le categorie intere in stringhe
titanic_df_cleaned["Pclass"].replace({1:"1st class", 2:"2nd class", 3:"3rd class"}, inplace = True)

titanic_df_cleaned["Survived"].replace({0:"No", 1:"Yes"}, inplace = True)


# Creazione della dashboard

In [7]:
!pip install -q dash dash-bootstrap-components

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.5/7.5 MB[0m [31m23.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m222.5/222.5 kB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
[?25h

## Layout della dashboard

Creaimo una dashboard per il dataset Titanic utilizzando il seguente layout:

- La prima **riga** contiene il titolo della dashboard, "Titanic Analysis".
Il titolo occuperà il contenuto di tutta la riga.

- La seconda **riga** viene divisa da due colonne:
  
1. Nella prima colonna troviamo un istogramma supportato da diversi input per selezionare le variabili x e y da visualizzare, e la variabile discriminativa da utilizzare come colore.

    In particolare, vogliamo dare all'utente la possibilità di scegliere il colore tra "Pclass" e "Sex", cambiando di conseguenza la variabile dell'asse delle x. Se infatti l'utente sceglierà come colore "PClass", allora l'istogramma visualizzerà in asse delle x la variabile "Sex", e viceversa.

    Ulteriore funzionalità per l'utente viene data tramite l'utilizzo di un [dbc.Switch](https://dash-bootstrap-components.opensource.faculty.ai/docs/components/input/) component per scegliere se la `histfunc` dell'istogramma è "avg" o "count".


2. Nella seconda colonna troviamo un sunburst per analizzare le descrizioni dei passeggeri soppravvisuti. Quali caratteristiche hanno favorito la loro sopravvivenza? Usare una [dbc.Checkbox](https://dash-bootstrap-components.opensource.faculty.ai/docs/components/input/) per aggiungere le variabili "Pclass" e "Sex" al grafico.


- La terza **riga** viene anch'essa divisa in due colonne:

1. La prima colonna si compone di un [dbc.RadioItems](https://dash-bootstrap-components.opensource.faculty.ai/docs/components/input/) per dare all'utente la possibilità di scegliere la variabile x di analisi per il distplot. L'utente potrà infatti scegliere tra l'opzione "Fare" e "Age". La colonna si compone inoltre di un [dbc.RadioItems](https://dash-bootstrap-components.opensource.faculty.ai/docs/components/input/) che abilita l'utente nella scelta di colorazione tra "Survived", "Sex", "Pclass".

2. La seconda colonna mostra un distplot, con marginale a piacere, che prende in input i valori della prima colonna per mostrare il contenuto di analisi richiesto dall'utente.


In [13]:
import dash_bootstrap_components as dbc
from dash import Dash, Input, Output, html, dcc
import plotly.express as px

app = Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

app.layout = dbc.Container([
              dbc.Row(dbc.Col(html.H1("Titanic Analysis"), width="auto"), justify="center"), # Prima RIGA
              html.Br(),

              dbc.Row([ # Seconda RIGA
                dbc.Col([ # GRAFICO A SINISTRA
                  dbc.Row(dbc.Col(html.H2("Analisi prezzo/eta media a seconda di classe, sesso"))),
                  dbc.Row([
                      dbc.Col([
                          dbc.Label("Y selector"),
                          dbc.Select(options=["Fare", "Age"],value="Fare", id="histogram-embark-y"), # Seleziona prezzo biglietto o eta,
                      ]),
                      dbc.Col([
                          dbc.Label("Color selector"),
                          dbc.Select(options=["Pclass", "Sex"], value="Pclass", id="histogram-embark-color") # Seleziona se classe o sesso,
                      ]),
                      dbc.Col(
                          dbc.Switch(label="Histogram average", value=True, id="histogram-embark-histfunc") # Switch tra avg o count
                      ,align="end")
                  ], justify="center"),
                  dbc.Row(
                      dbc.Col(
                          dcc.Graph(id="histogram-embark-graph") # istogramma
                      )
                  )
                ]),

                dbc.Col([ # PRIMA RIGA, GRAFICO A DESTRA
                    dbc.Row([
                        html.H2("Sunburst char sopravvissuti"),
                        dbc.Label("Sunburst data picker"),
                        dbc.Checklist( # checkbox di "Pclass", "Sex"
                            options=["Pclass", "Sex"],
                            value=[], inline=True, id="sunburst-data"
                        )
                    ]),
                    dbc.Row(
                        dcc.Graph(id="sunburst-survived-graph") # sunburst di "Survived", e aggiungi dinamico per "Pclass", "Sex",
                    )
                ]),
              ]),

              dbc.Row([ # Terza RIGA
                  html.H2("Distplot di Fare e Age"),
                  dbc.Col(
                      # distplot "Fare" "Age", color "survived", "Sex", "Pclass"
                      dbc.Stack([
                          dbc.Label("Histogram data"),
                          dbc.RadioItems({"Fare":"Fare", "Age":"Age"}, inline=True, value="Fare", id="distplot-x"),
                          dbc.Label("Histogram Color"),
                          dbc.RadioItems({"Survived":"Survived", "Sex":"Sex", "Pclass":"Pclass"}, value="Survived", inline=True, id="distplot-color")
                      ]),
                  width="auto", align="center"),
                  dbc.Col(
                      dcc.Graph(id="distplot-graph")
                  )
              ])
            ], fluid=True)

In [14]:
@app.callback(Output("histogram-embark-graph", "figure"),
              [Input("histogram-embark-y", "value"),
               Input("histogram-embark-color", "value"),
               Input("histogram-embark-histfunc", "value")])
def embark_histogram(y_data, color_value, histfunc_value):

  color="Pclass" if color_value == "Pclass" else "Sex"
  x_data= "Sex" if color_value == "Pclass" else "Pclass"
  avg = "avg" if histfunc_value else "count"

  fig = px.histogram(titanic_df_cleaned,
                     x=x_data, y=y_data, histfunc = avg, color=color,
                     category_orders=dict(Pclass=["1st class", "2nd class", "3rd class"]))

  return fig

In [15]:
@app.callback(Output("sunburst-survived-graph", "figure"),
              Input("sunburst-data", "value"))
def survived_sunburst(sunburst_data):

  sunburst_path=["Survived"] + sunburst_data

  fig = px.sunburst(titanic_df_cleaned, path=sunburst_path)

  fig.update_traces(textinfo="label+percent parent")

  return fig

In [16]:
@app.callback(Output("distplot-graph", "figure"),
              [Input("distplot-x", "value"),
               Input("distplot-color", "value")])
def distplot_distribution(x_data, color_value):

  fig = px.histogram(titanic_df_cleaned, x=x_data, color=color_value, marginal="box")

  return fig

In [17]:
app.run_server(debug=True)

<IPython.core.display.Javascript object>