# Plotly II


---

*Antonio Emanuele Cinà, Assistant Professor @ University of Genoa*

**Analisi e Rappresentazione dei Dati** --
22 Aprile 2024

## Lezione 7: Plotly 2


Materiale: https://tinyurl.com/ARD2024-L7

In [1]:
import plotly.express as px

# Piechart

Il [Piechart](https://plotly.com/python/pie-charts/) è una rappresentazione circolare in cui il cerchio è diviso in fette, o "spicchi", le cui aree sono proporzionali ai valori che rappresentano. È comunemente utilizzato per mostrare la distribuzione percentuale di categorie o componenti all'interno di un insieme di dati, come la suddivisione del budget tra diverse voci di spesa o la quota di mercato delle diverse aziende in un settore.

3 esempi di utilizzo del Piechart sono:

- **Suddivisione del budget tra diverse voci di spesa**:

Immagina di dover rappresentare la suddivisione del budget mensile di una famiglia tra diverse voci di spesa come affitto, cibo, trasporti e intrattenimento. Il Piechart può essere utilizzato per mostrare la percentuale di budget dedicata a ciascuna voce di spesa, consentendo una rapida comprensione della distribuzione del budget complessivo.

- **Quota di mercato delle diverse aziende in un settore**:

  Nel contesto di un settore industriale, come quello dell'informatica, il Piechart può essere impiegato per visualizzare la quota di mercato delle diverse aziende, come A, B, C e D. Questo permette di avere una panoramica immediata della distribuzione del mercato tra i concorrenti principali.

- **Distribuzione percentuale dei voti in un'elezione**:

  Durante un'elezione politica, il Piechart può essere utilizzato per mostrare la distribuzione percentuale dei voti tra i vari candidati, come A, B, C e D. Questo tipo di visualizzazione fornisce una chiara rappresentazione della preferenza e della percentuale di sostegno per ciascun candidato.

Prediamo come riferimento il dataset `tips` dove ogni riga del dataset è uno scontrino di un ristorante.

Possiamo creare un piechart utilizzando `px.pie()`.

In [2]:
df = px.data.tips()
df.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [3]:
fig = px.pie(df, names='day', values='tip', title="Tips per giorno", width=800, height=500)
fig.show()

Come al solito abbiamo:

- il dataframe

- `values=`, specifica il valore che utilizziamo per creare le fette, se non specificato conta le occorrenze

- `names=` la variabile per cui vogliamo craere le fette della torta

- `title`, il titolo

- `width` e `height` gesticono le dimensioni del grafico

In [4]:
fig = px.pie(df, names='day', title="Numero tips per giorno", width=800, height=500)
fig.show()

Inoltre possiamo impostare il parametro `hole=` per trasformare il grafico in un donut chart.

Il metodo `.update_traces()`, che vedremo più nel dettaglio nelle prossime lezioni, ci permette di personalizzare un po' il grafico, in questo caso stiamo impostando la label e la percentuale all'interno delle fette.

In [5]:
fig = px.pie(df, names='day', values='tip', title="Donuts delle tips per giorno", width=800, height=500,
             hole=0.3)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

# Sunburst chart

L'ultimo grafico interessante della famiglia dei 'piechart' viene chiamato [sunburst chart](https://plotly.com/python/sunburst-charts/) si utilizzano per visualizzare dati gerarchici che si estendono radialmente dalla radice alle foglie. Per creare questo tipo di grafico utilizziamo il metodo `px.sunburst()`.

Ad esempio, estendiamo il grafico a torta precedente nella seguente maniera:
- Prima visualizziamo i giorni
- poi se hanno mangiato a pranzo o cena
- infine il numero di maschi e femmine

Questa gerarchia la gestiamo con il parametro `path=` specificando prima le fette più interne fino a quelle più esterne.

In [6]:
fig = px.sunburst(df, path=['day', 'time', 'sex'], values='total_bill', width=800, height=600)
fig.show()

## Esercizio

Creare un sunburst chart utilizzando il dataset "penguins_size.csv" e la seguente gerarchia: isola, specie e sesso.

Cosa cambia se cambi l'ordine?

NB: se non specificato, il parametro `values=` conterà le occorrenze all'interno del dataset.

NBB: Dropna potrebbe servire :)

In [7]:
# PENGUIN SUNBURST
import pandas as pd
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/penguins_size.csv"
df = pd.read_csv(df_path)

df.dropna(inplace = True)

fig = px.sunburst(df, path=['island', 'species', 'sex'], width=800, height=500)

fig.show()

In [8]:
fig = px.sunburst(df, path=['island', 'sex', 'species'], width=800, height=500)

fig.show()

## Esercizio

Crea un piechart utilizzando "dipendendti.csv" dove viene rappresentata la distribuzione dei dipendenti per ogni regione.

Cosa succede con i valori nulli?

Crea un altro piechart dove tutti i valori nulli nella colonna "Regione" vengono rimossi.

In [9]:
# Regioni Piechart

df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

fig = px.pie(df, names='Regione', title="Pie chart regioni", width=800, height=800)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

In [10]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

df.dropna(subset=["Regione"], inplace = True)

fig = px.pie(df, names='Regione', title="Pie chart regioni", width=800, height=800)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

# Barchart

Il Barchart è un tipo di grafico che utilizza barre rettangolari orizzontali o verticali per rappresentare i dati. È efficace nel confrontare quantità tra diverse categorie o gruppi di dati, come le vendite per categoria di prodotto o il numero di studenti per fascia d'età in una classe.

Alcuni esempi sono:

- **Vendite per categoria di prodotto**:

  In un dataset relativo alle vendite di un negozio al dettaglio, un Barchart può essere utilizzato per visualizzare le vendite per categoria di prodotto. Ogni barra rappresenta una categoria di prodotto (ad esempio, abbigliamento, elettronica, alimentari) e l'altezza della barra corrisponde al valore delle vendite in quella categoria. Questo permette di confrontare facilmente le vendite tra diverse categorie di prodotti.

- **Numero di studenti per fascia d'età in una classe**:

  In un dataset relativo agli studenti di una scuola, un Barchart può essere utilizzato per visualizzare il numero di studenti per fascia d'età all'interno di una classe. Ogni barra rappresenta una fascia d'età (ad esempio, 6-10 anni, 11-15 anni, 16-18 anni) e l'altezza della barra corrisponde al numero di studenti in quella fascia d'età. Questo permette di visualizzare facilmente la distribuzione di età degli studenti in una classe.

- **Performance dei dipendenti per dipartimento**:
  
  In un dataset relativo alle performance dei dipendenti di un'azienda, un Barchart può essere utilizzato per visualizzare le performance per dipartimento. Ogni barra rappresenta un dipartimento (ad esempio, vendite, marketing, risorse umane) e l'altezza della barra corrisponde al valore delle performance in quel dipartimento. Questo permette di confrontare facilmente le performance tra diversi dipartimenti dell'azienda.

Possiamo creare un [barchart](https://plotly.com/python/bar-charts/) utilizzando `px.bar()`.

**NB:** Utilizzando px.bar ogni riga del dataframe rappresenta un rettangolo.

In [11]:
data_canada = px.data.gapminder().query("country == 'Canada'")
fig = px.bar(data_canada, x='year', y='pop', width=1000, height=500)
fig.show()

Anche nei barchart possiamo specificare una terza variabile utilizzando `color=` per aggiungere informazioni al grafico.

In [12]:
fig = px.bar(data_canada, x='year', y='pop',color='lifeExp', width=800, height=500)
fig.show()

# Histogram

L'Istogramma è una visualizzazione che rappresenta la distribuzione di una singola variabile numerica suddividendola in intervalli (bin) e mostrando la frequenza o la densità di osservazioni in ciascun intervallo. È utilizzato per esaminare la forma e la distribuzione dei dati e identificare eventuali modelli o anomalie.

Potrebbe risultare utile quando vogliamo rappresentare:

- **Distribuzione delle altezze in una popolazione**:

  In un dataset contenente le altezze di una popolazione, un istogramma può essere utilizzato per visualizzare la distribuzione delle altezze. Le barre dell'istogramma rappresentano gli intervalli di altezza (bin), mentre l'altezza delle barre rappresenta la frequenza delle osservazioni in ciascun intervallo. Questo permette di identificare facilmente la distribuzione delle altezze all'interno della popolazione e di individuare eventuali tendenze o modelli.

- **Distribuzione dei voti in un esame**:

  In un dataset relativo ai voti ottenuti dagli studenti in un esame, un istogramma può essere utilizzato per visualizzare la distribuzione dei voti. Le barre dell'istogramma rappresentano gli intervalli di voto (bin), mentre l'altezza delle barre rappresenta la frequenza delle osservazioni in ciascun intervallo. Questo permette di valutare la distribuzione dei voti degli studenti e di identificare eventuali anomalie o tendenze nella performance degli studenti.

- **Distribuzione dei redditi in una città**:

  In un dataset contenente i redditi degli abitanti di una città, un istogramma può essere utilizzato per visualizzare la distribuzione dei redditi. Le barre dell'istogramma rappresentano gli intervalli di reddito (bin), mentre l'altezza delle barre rappresenta la frequenza delle osservazioni in ciascun intervallo. Questo permette di esaminare la distribuzione dei redditi nella città e di identificare eventuali disparità socioeconomiche o tendenze nella distribuzione dei redditi.

In plotly possiamo creare un [histogram](https://plotly.com/python/histograms/) tramite il metodo `px.histogram()`.

Per questo esempio utilizziamo il dataset *tips*.

Di default plotly aggrega i dati sommandoli e gestisce da solo il numero di bin, altrimenti possiamo cambiare il numero di bin utilizzando il parametro `nbin=`.

`text_auto=True` metterà di default nella barra il numero di occorrenze di quel bin.

In [13]:
df = px.data.tips()

fig = px.bar(df, x='tip', y='total_bill', width=1000, height=500)
fig.show()

In [14]:
df = px.data.tips()
df.head(3)

fig = px.histogram(df, x="tip", text_auto = True, width=800, height=500)
fig.show()

In [15]:
fig = px.histogram(df, x="tip", nbins=10, text_auto=True, width=800, height=500)
fig.show()

In [16]:
fig = px.histogram(df, x="tip", nbins=100, text_auto=True, width=800, height=500)
fig.show()

## Esercizio

Creare un istogramma che visualizzi il numero di dipendenti per regione utilizzando il file "dipendenti.csv".

Utilizzando il parametro `color=`, visualizzare l'informazione di quanti di loro sono verificati e quanti no.

In [17]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

fig = px.histogram(df, x ="Regione", color = "Verificato", text_auto = True,
                   title="Istogramma regioni", width=1500, height=800)
fig.show()

## Esercizio


Sostituire valori nulli nella colonna "Regione" con "Regione mancante" ed i valori mancanti di "Verificato" con "Non verificato", dopodichè creare di nuovo l'istogramma.

TIP: provate ad aggiornare la figura con `fig.update_xaxes(categoryorder='total ascending')`

In [18]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

df.fillna(value ={"Regione": "Regione mancante", "Verificato":"Non Verificato"}, inplace = True)

fig = px.histogram(df, x ="Regione", color = "Verificato", text_auto = True,
                   title="Istogramma regioni", width=1500, height=800)

fig.update_xaxes(categoryorder='total ascending')
fig.show()

## Esercizio

Creare un istogramma della lunghezza del becco per specie utilizzando il dataset "penguins_size.csv".

In [20]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/penguins_size.csv"
df = pd.read_csv(df_path)

df.dropna(inplace = True)


fig = px.histogram(df, x="culmen_length_mm", title='Istogramma della lunghezza del becco per specie')

# Mostrare il grafico
fig.show()

# Distplot

Possiamo vedere un [distplot](https://plotly.com/python/distplot/) come un istogramma con informazioni aggiuntive riguardo la distribuzione di probabilità dei dati.


Ad esempio, supponiamo di voler vedere la distribuzione delle mance date da maschi e dalle femmine al ristorante ed, inoltre, un box plot sempre relativo alle mance.

Con plotly possiamo crearlo andando a specificare il parametro `marginal=` e scegliere tra:

- `box` per visualizzare un boxplot
- `violin` per visualizzare un violin plot
- `rug` per visualizzare i singoli dati

In [21]:
df = px.data.tips()

fig = px.histogram(df, x="total_bill", y="tip", color="sex",
                   marginal="box",
                   hover_data=df.columns, width=800, height=500)
fig.show()

In [22]:
fig = px.histogram(df, x="total_bill", y="tip", color="sex",
                   marginal="violin",
                   hover_data=df.columns, width=800, height=500)
fig.show()

In [23]:
fig = px.histogram(df, x="total_bill", y="tip", color="sex",
                   marginal="rug",
                   hover_data=df.columns, width=800, height=500)
fig.show()

Se specifichiamo il valore di `y`, plotly di default utilizza la funzione di aggregazione "somma" per rappresentare il dato.

Possiamo specificare anche altre funzioni di aggregazione, ad esempio se vogliamo visualizzare la distribuzione in rapporto al valore medio possiamo impostare `histfunc='avg'`.

In [24]:
fig = px.histogram(df, x="total_bill", y="tip", color="sex",
                   marginal="rug", histfunc='avg',
                   hover_data=df.columns, width=800, height=500)
fig.show()

## Esercizio

Crea un distplot dove viene visualizzata la distribuzione dell'età tra i dipendenti ed aggiungere l'informazione dello stato `verificato`.



In [25]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

fig = px.histogram(df, x="Età", color="Verificato",
                   marginal="violin", nbins = 25,
                   hover_data=df.columns, width=800, height=500)
fig.show()

## Esercizio

Creare un distplot della lunghezza delle pinne dei pinguini, utilizzare il violin plot come informazione marginale.

In [30]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/penguins_size.csv"
df = pd.read_csv(df_path)

df.dropna(inplace = True)


# Creazione del Distplot con Plotly Express
fig = px.histogram(df, x="flipper_length_mm", color="sex", marginal="violin", title='Distplot della lunghezza delle pinne')

# Mostrare il grafico
fig.show()

## Esercizio

Creare un Distplot del salario in rapporto all'età media utilizzando "dipendenti.csv".

Aggiungere, inoltre, l'informazione dello stato di verifica.


In [27]:
df_path = "https://github.com/Cinofix/analisi-e-rappresentazione-dati/raw/main/data/dipendenti.csv"
df = pd.read_csv(df_path)

fig = px.histogram(df, x="Salario", y="Età", color="Verificato", marginal="box", text_auto = True, histfunc="avg",
                   title='Distplot del salario per stato di verifica')

# Mostrare il grafico
fig.show()