Esempio discreto qualitativo: colore occhi in una classe:

```markdown
Colore occhi | Freq Assoluta | Freq Relativa| Frequenza Percentuale
-------------|-----------------------------------------------------
Nero         |       1       |      0.05    |       5%        
Azzurro      |       4       |      0.2     |      20%
Verde        |       5       |      0.25    |      25%
Marrone      |      10       |      0.5     |      50%
-------------|---------------|--------------|----------------------
                    20              1             100%
```



Esempio discreto quantitativo:

```markdown
Punteggio    | Freq Assoluta | Freq Relativa| Frequenza Percentuale
-------------|-----------------------------------------------------
1            |       1       |      0.05    |       5%        
2            |       2       |      0.1     |      10%
3            |       4       |      0.2     |      20%
4            |       6       |      0.3     |      30%
5            |       7       |      0.35    |      35%
-------------|---------------|--------------|----------------------
                    20              1             100%
```

Esempio continuo:

```markdown
Altezze      | M             | F          | Freq Assoluta | Freq Relativa| Frequenza Percentuale
-------------|---------------|------------|---------------|--------------|----------------------
[1.50-1.60)  |       0       |      1     |       1       |      0.05    |       5%        
[1.60-1.70)  |       1       |      3     |       4       |      0.2     |      20%
[1.70-1.80)  |       3       |      4     |       7       |      0.35    |      35%
[1.80-1.90)  |       4       |      2     |       6       |      0.3     |      30%
[1.90-2.00)  |       2       |      0     |       2       |      0.1     |      10%
-------------|---------------|------------|---------------|--------------|----------------------
                    10              10    |      20              1             100%

In [None]:
%pip install seaborn

In [None]:
# importiamo le librerie necessarie
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st
import pandas as pd
import seaborn as sns

### Diagrammi a barre

Il diagramma a barre è sostanzialmente la rappresentazione visiva di una tabella (nel nostro caso di una tabella di frequenze), che agevola il confronto tra diverse variabili:

* Ogni barra corrisponde ad una _variabile qualitativa_ (detta anche _categorica_ / _discreta_);

* L'altezza di ogni barra corrisponde ad una _variabile quantitativa_ (detta anche _numerica_ / _continua_).


In [None]:
# Mettiamo i valori delle tabelle in dei numpy array
colori_occhi = np.array(['nero', 'blu', 'verde', 'marrone'])
freq_assoluta = np.array([1, 4, 5, 10])

# Aggiorniamo i colori delle barre in modo che corrisponda al colore degli occhi
colori_barre = ['black', 'blue', 'green', 'brown']

# Creazione del diagramma a barre con colori corrispondenti
plt.figure(figsize=(10, 6))
bars = plt.bar(colori_occhi, freq_assoluta, color=colori_barre)

# Aggiunta di una legenda per identificare i colori
plt.legend(bars, colori_occhi)

# Aggiunta del titolo e delle etichette agli assi
plt.title('Frequenza Assoluta del Colore degli Occhi')
plt.xlabel('Colore Occhi')
plt.ylabel('Frequenza Assoluta')

# Aggiunta di una griglia per leggere meglio i valori di frequenza
# plt.grid(axis='y', alpha=0.3)

# Visualizzazione del diagramma
plt.show()

Adesso facciamo la stessa cosa ma per i dati sulle stelle delle recensioni:

**Domanda**: perchè, anche se il numero di stelle è un valore numerico, ha comunque senso fare il diagramma a barre di questi dati?

In [None]:
# Dati della tabella per le stelle
stelle = [1, 2, 3, 4, 5]
freq_assoluta_stelle = [1, 2, 4, 6, 7]

# Creazione del diagramma a barre per le stelle
plt.figure(figsize=(10, 6))
plt.bar(stelle, freq_assoluta_stelle, color='tab:orange', width=0.5)

# Aggiunta del titolo e delle etichette agli assi
plt.title('Frequenza Assoluta delle Stelle')
plt.xlabel('Numero di Stelle')
plt.ylabel('Frequenza Assoluta')

# Visualizzazione del diagramma
plt.show()

Nella prossima cella troviamo il codice per fare il diagramma a barre degli stessi dati, perchè con le barre in orizzontale invece che in verticale:

- oltre ad aver utilizzato la funzione `plt.barh` invece che `plt.bar`, cosa altro abbiamo cambiato per far sì che il grafico resti coerente?

In [None]:
# Creazione del diagramma a barre orizzontali con un colore giallo più scuro
plt.figure(figsize=(10, 6))
bars = plt.barh(stelle, freq_assoluta_stelle, color='gold')

# Aggiunta del titolo e delle etichette agli assi
plt.title('Frequenza Assoluta delle Stelle')
plt.ylabel('Numero di Stelle')
plt.xlabel('Frequenza Assoluta')

# Visualizzazione del diagramma
plt.show()


Adesso supponiamo che io abbia solo le osservazioni _grezze_ delle recensioni, ovvero una lista di "numero di stelle" associate a ciscuan di esse, e mi debba calcolare a partire da questa le frequenze etc così da poter esplorare meglio i dati raccolti:

In [None]:
# Dati grezzi: leggo solo il numero di stelle associate a ciascuna recensione
stelle_distribuzione = np.array([1, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5])

# Calcoliamo la media dei dati
media_stelle = np.mean(stelle_distribuzione)
print(f"Media stelle: {media_stelle}")

# Calcoliamo la mediana dei dati
mediana_stelle = np.median(stelle_distribuzione)
print(f"Mediana stelle: {mediana_stelle}")

# Calcolo della frequenza di ciascun valore di stelle, della media e della mediana
valori_stelle, conteggi_stelle = np.unique(stelle_distribuzione, return_counts=True)

In [None]:
# Creazione del diagramma a barre
plt.figure(figsize=(10, 6))
plt.bar(valori_stelle, conteggi_stelle, color='skyblue', edgecolor='black')

# Aggiunta delle linee del valore medio e mediano
plt.axvline(x=media_stelle, color='red', linestyle='-', label=f'Valore Medio: {media_stelle:.2f}')
plt.axvline(x=mediana_stelle, color='purple', linestyle='--', label=f'Mediana: {mediana_stelle:.2f}')

# Aggiunta del titolo e delle etichette agli assi
plt.title('Distribuzione delle Valutazioni a Stelle con Media e Mediana')
plt.xlabel('Numero di Stelle')
plt.ylabel('Frequenza')
plt.xticks(valori_stelle)  # Assicura che vengano mostrati tutti i valori delle stelle sull'asse x
plt.legend()

# Mostra il grafico
plt.show()


E se invece della frequenza assoluta volessi calcolare (e visualizzare) la frequenza relativa?

Ricordiamoci che, per ogni possibile valore delle mie osservazioni, vale la relazione:

$$
\mathrm{freq}_{\mathrm{rel}} = \frac{\mathrm{freq}_{\mathrm{ass}}}{\mathrm{n\_obs}}
$$


In [None]:
# Calcoliamo le frequenze relative a partire da quelle assolute
freq_relativa_stelle = conteggi_stelle / len(stelle_distribuzione)

# Facciamo il diagramma a barre delle frequenze relative
plt.figure(figsize=(10, 6))
plt.bar(valori_stelle, freq_relativa_stelle, color='skyblue', edgecolor='black')
plt.title('Frequenza Relativa delle Valutazioni a Stelle')
plt.xlabel('Numero di Stelle')
plt.ylabel('Frequenza Relativa')
plt.xticks(valori_stelle)
plt.show()

### Esercizio:

Fare il diagramma a barre per i dati sulle altezze

**Bonus**: fare sia la versione orizzontale che quella verticale

In [None]:
# Riportiamo i dati presi dalla tabella
altezze_labels = ['1.50–1.60', '1.60–1.70', '1.70–1.80', '1.80–1.90', '1.90–2.00']
freq_assoluta_altezze = np.array([1, 4, 7, 6, 2])

# Creazione del diagramma a barre
plt.figure(figsize=(10, 6))
# Completare il comando qua sotto
plt.bar()

# Aggiunta del titolo e delle etichette agli assi
plt.title('Frequenza Assoluta per Altezza Totale')
plt.xlabel('Altezza')
plt.ylabel('Frequenza Assoluta')

# Visualizzazione del diagramma
plt.show()

# Diagrammi circolari / a torta

Vogliamo ancora rappresentare le frequenze relative del numero di stelle associato a ciascuna recensione, questa volta però invece che mettere il focus sul confronto tra diverse categorie (i.e. numero di stelle), vogliamo vedere quanto _pesa_ ciascuna categoria sul totale:

In [None]:
# Dati per il diagramma circolare delle stelle
labels_stelle = ['1 Stella', '2 Stelle', '3 Stelle', '4 Stelle', '5 Stelle']
colors_stelle_gold = ['#b5b17a','#b5a642','#d4af37', '#ffc700', 'gold']

# Creazione del diagramma circolare
plt.figure(figsize=(8, 8))
plt.pie(conteggi_stelle, labels=labels_stelle, colors=colors_stelle_gold, autopct='%1.1f%%', startangle=140)

# Aggiunta del titolo
plt.title('Distribuzione delle Valutazioni a Stelle')

# Mostra il diagramma circolare
plt.show()


### Esercizio:

Fare il diagramma a torta dei dati sul colore degli occhi

In [None]:
# Riportiamo qua i dati per comodità
colori_occhi = np.array(['nero', 'blu', 'verde', 'marrone'])
freq_assoluta = np.array([1, 4, 5, 10])
colori_spicchi = ['black', 'blue', 'green', 'brown']

plt.figure(figsize=(8, 8))
# TODO: completare la linea sotto
plt.pie()

# Aggiunta del titolo
plt.title('Distribuzione dei Colori degli Occhi')

# Mostra il diagramma circolare
plt.show()

## Istogrammi

Prima di introdurre un nuovo tipo di grafici, torniamo al diagramma a barre, e vediamo i dati sulle altezze, che visualizziamo distinguendo anche tra maschi e femmine:

In [None]:
# Dati estratti dalle tabelle fornite
altezze = ['1.50–1.60', '1.60–1.70', '1.70–1.80', '1.80–1.90', '1.90–2.00']
freq_assoluta_m = np.array([0, 1, 3, 4, 2])  # Frequenza assoluta maschile
freq_assoluta_f = np.array([1, 3, 4, 2, 0])  # Frequenza assoluta femminile

# Larghezza delle barre
bar_width = 0.35

# Creazione del diagramma a barre sovrapposte
fig, ax = plt.subplots(figsize=(12, 7))

# Posizioni delle barre
r1 = np.arange(len(freq_assoluta_m))
r2 = [x + bar_width for x in r1]

# Impostiamo le posizioni delle barre per maschi e femmine
posizioni_m = np.arange(5)  # Posizioni per maschi
posizioni_f = posizioni_m + bar_width  # Posizioni per femmine con uno spostamento

# Creiamo le barre per maschi e femmine
barre_m = ax.bar(posizioni_m, freq_assoluta_m, bar_width, label='Maschi', color='tab:blue')
barre_f = ax.bar(posizioni_f, freq_assoluta_f, bar_width, label='Femmine', color='#DC143C')

# Aggiungiamo titolo e etichette agli assi
ax.set_title('Frequenza Assoluta per Altezza e Genere')
ax.set_xlabel('Altezza')
ax.set_ylabel('Frequenza Assoluta')

# Definiamo le etichette per l'asse delle x
ax.set_xticks(posizioni_m + bar_width / 2)
ax.set_xticklabels(altezze)

# Aggiungiamo la legenda
ax.legend()

# Mostra il grafico
plt.show()

Cosa succede se decido di cambiare gli intervalli in cui trasformo le altezze in categorie?

In [None]:
# Nuova divisione delle altezze in categorie
altezze_largo = ['1.50–1.70', '1.70–1.90', '1.90–2.00']
freq_assoluta_m_largo = np.array([1, 7, 2])  # Frequenza assoluta maschile
freq_assoluta_f_largo = np.array([4, 6, 0])  # Frequenza assoluta femminile

altezze_stretto = ['1.50-1.55', '1.55-1.60', '1.60-1.65', '1.65-1.70', '1.70-1.75', '1.75-1.80', '1.80-1.85', '1.85-1.90', '1.90-1.95', '1.95-2.00']
freq_assoluta_m_stretto = np.array([0, 0, 0, 1, 2, 1, 1, 3, 2, 0])
freq_assoluta_f_stretto = np.array([1, 0, 1, 2, 2, 2, 1, 1, 0, 0])

print(f"Numero femmine:\n (divisione originale) {sum(freq_assoluta_f)}\n (divisione larga) {sum(freq_assoluta_f_largo)}\n (divisione stretta) {sum(freq_assoluta_f_stretto)}\n")
print(f"Numero maschi:\n (divisione originale) {sum(freq_assoluta_m)}\n (divisione larga) {sum(freq_assoluta_m_largo)}\n (divisione stretta) {sum(freq_assoluta_m_stretto)}\n")


bar_width = 0.35

fig, axs = plt.subplots(1, 3, figsize=(30, 15))
r1 = [np.arange(len(freq_assoluta_m)), np.arange(len(freq_assoluta_m_largo)), np.arange(len(freq_assoluta_m_stretto))]
r2 = [[x + bar_width for x in r1[0]], [x + bar_width for x in r1[1]], [x + bar_width for x in r1[2]]]
posizioni_m = r1
posizioni_f = [pos_m + bar_width for pos_m in posizioni_m]

axs[0].bar(posizioni_m[0], freq_assoluta_m, bar_width, label='Maschi', color='tab:blue')
axs[0].bar(posizioni_f[0], freq_assoluta_f, bar_width, label='Femmine', color='#DC143C')
axs[0].set_title('Frequenza Assoluta per Altezza e Genere (Divsione Originale)')
axs[0].set_xlabel('Altezza')
axs[0].set_ylabel('Frequenza Assoluta')
axs[0].set_xticks(posizioni_m[0] + bar_width / 2)
axs[0].set_xticklabels(altezze)
axs[0].legend()

axs[1].bar(posizioni_m[1], freq_assoluta_m_largo, bar_width, label='Maschi', color='tab:blue')
axs[1].bar(posizioni_f[1], freq_assoluta_f_largo, bar_width, label='Femmine', color='#DC143C')
axs[1].set_title('Frequenza Assoluta per Altezza e Genere (Divsione Larga)')
axs[1].set_xlabel('Altezza')
axs[1].set_ylabel('Frequenza Assoluta')
axs[1].set_xticks(posizioni_m[1] + bar_width / 2)
axs[1].set_xticklabels(altezze_largo)

axs[2].bar(posizioni_m[2], freq_assoluta_m_stretto, bar_width, label='Maschi', color='tab:blue')
axs[2].bar(posizioni_f[2], freq_assoluta_f_stretto, bar_width, label='Femmine', color='#DC143C')
axs[2].set_title('Frequenza Assoluta per Altezza e Genere (Divsione Stretta)')
axs[2].set_xlabel('Altezza')
axs[2].set_ylabel('Frequenza Assoluta')
axs[2].set_xticks(posizioni_m[2] + bar_width / 2)
axs[2].set_xticklabels(altezze_stretto)


plt.show()

Cosa notiamo al variare degli intervalli in cui dividiamo le altezze?

Cosa possiamo fare se vogliamo indagare la distribuzione delle altezze?

In questo caso conviene raccogliere i dati grezzi, nel nostro esempio l'altezza esatta di ciascuna persona (non il range in cui cade).

In [None]:
# Dati delle altezze dei ragazzi
altezze_all = [1.55, 1.60, 1.62, 1.62, 1.64, 1.70, 1.71, 1.72, 1.73, 1.75, 1.75, 1.77, 1.80, 1.83, 1.84, 1.84, 1.86, 1.87, 1.90, 1.95]

Per **visualizzare la distribuzione delle altezze** utilizziamo l'**istogramma** (il diagramma a barre serve invece a confrontare categorie):

In [None]:
# Creazione dell'istogramma con 5 classi
plt.figure(figsize=(10, 6))
plt.hist(altezze_all, bins=10, range=[1.50, 2.0], color='skyblue', edgecolor='black')

# Aggiunta del titolo e delle etichette agli assi
plt.title('Distribuzione delle Altezze')
plt.xlabel('Altezza')
plt.ylabel('Frequenza')

# Mostra il grafico
plt.show()

Nell'istogramma l'area delle barre è proporzionale alla frequenza.

Proviamo a cambiare il numero di _bins_:

In [None]:
# numero di barre che avrà il grafico
n_bins = [3, 5, 10]

fig, axs = plt.subplots(1, 3, figsize=(20, 7), sharey=True)

for i, n in enumerate(n_bins):
    axs[i].hist(altezze_all, bins=n, range=[1.50, 2.0], color='skyblue', edgecolor='black')
    axs[i].set_title(f'Distribuzione delle Altezze con {n} classi')
    axs[i].set_xlabel('Altezza')
axs[0].set_ylabel('Frequenza')

# Mostra il grafico
plt.show()

Vediamo la distribuzione normale:

In [None]:
# genero k numeri campionati dalla normale
k = 100000
media = 0
varianza = 1
n = np.random.normal(media, varianza, k)

# bins sono il numero di rettangoli in cui dividere i dati, provate a variarlo
plt.hist(n, bins=80, linewidth=0.5, edgecolor="white")
plt.title("Istogramma di punti campionati dalla distribuzione normale")
plt.show()

Vediamo la distribuzione esponenziale:

In [None]:
# genero k numeri campionati dalla esponenziale
k = 1000
scale = 1.
e = np.random.exponential(scale=scale, size=k)

plt.hist(e, bins=80, linewidth=0.5, edgecolor="white")
plt.title("Istogramma di punti campionati dalla distribuzione esponenziale")
plt.show()

## Scatter plot (grafico a dispersione)
 Mostra una collezione di punti su un piano cartesiano. Ogni punto rappresenta una coppia di valori (x, y) e serve a visualizzare la relazione tra due variabili numeriche.



In [None]:
# Generazione di valori casuali per la temperatura esterna e il consumo di gas
np.random.seed(0)  # Per riproducibilità
external_temperature = np.random.uniform(low=0, high=10, size=100)
gas_consumption = np.random.uniform(low=2, high=7, size=100) - external_temperature * 0.5

# Creazione del plot simile all'immagine fornita
plt.figure(figsize=(10, 6))
plt.scatter(external_temperature, gas_consumption, color='blue')
plt.title('Consumo di Gas di una Casa vs. Temperatura Esterna Media')
plt.xlabel('temperatura esterna media')
plt.ylabel('consumo di gas di una casa')
plt.grid(True)  # Aggiunge una griglia per migliorare la leggibilità
plt.show()

Avrebbe senso invertire gli assi nello scatterplot sopra (ovvero temperatura nelle y e consumo di gas nelle x)?

<img src="https://seaborn.pydata.org/_images/logo-wide-lightbg.svg" alt="350" width="400" align="left"/>


Seaborn è una libreria di Python per la visualizzazione di dati basato su matplotlib, particolarmente indicata quando i dati sono in forma di pandas DataFrame.

In [None]:
import seaborn as sns
import pandas as pd
import warnings # ignore warnings
warnings.filterwarnings("ignore")

In [None]:
temperature = {
    "Gennaio":   [4.1, 5.3, 2.8, 6.0, 3.5, 7.2, 1.9, 4.8, 6.5, 3.0],
    "Febbraio":  [5.0, 6.4, 7.1, 4.3, 8.0, 6.8, 5.9, 7.5, 3.9, 6.2],
    "Marzo":     [9.8, 11.2, 10.5, 12.0, 8.9, 13.1, 11.7, 9.3, 10.9, 12.4],
    "Aprile":    [13.5, 15.2, 14.8, 16.0, 12.9, 17.1, 15.6, 14.2, 16.4, 13.8],
    "Maggio":    [17.9, 18.5, 19.2, 20.1, 16.8, 21.0, 18.7, 19.9, 17.3, 20.4],
    "Giugno":    [22.4, 23.1, 24.0, 25.2, 21.8, 26.0, 24.7, 23.5, 25.6, 22.9],
    "Luglio":    [26.5, 27.8, 28.1, 29.0, 25.9, 30.2, 27.3, 28.7, 29.4, 26.8],
    "Agosto":    [27.0, 28.4, 29.1, 30.0, 26.6, 31.2, 28.9, 29.6, 27.8, 30.4],
    "Settembre": [22.1, 23.5, 24.0, 25.2, 21.8, 26.0, 23.7, 24.9, 22.8, 25.4],
    "Ottobre":   [16.9, 17.5, 18.2, 19.0, 15.8, 20.1, 17.7, 18.9, 16.3, 19.4],
    "Novembre":  [10.8, 11.5, 12.1, 13.0, 9.9, 14.2, 11.7, 12.8, 10.3, 13.5],
    "Dicembre":  [5.6, 6.8, 7.2, 4.9, 8.1, 6.0, 7.5, 5.2, 6.9, 4.4]
}

# Costruiamo il dataframe delle temperature
df_temperature = pd.DataFrame(columns=["mese", "temperatura"])

for month, temps in temperature.items():
    for temp in temps:
        df_temperature = pd.concat([df_temperature, pd.DataFrame({"mese": [month], "temperatura": [temp]})])

In [None]:
df_temperature.head(n=10)

## Boxplot

Box-Plot è costituito da:
> 1.  Una linea in corrispondenza della mediana
> 2. Un rettangolo da Q1 a Q3 che indica la variabilità della metà centrale dei dati
> 3. Due segmenti (baffi) che si estendono dai quartili ai valori estremi

In [None]:
# Campioniamo dalla distribuzione normale
k = 100
media = 0
varianza = 1
n = np.random.normal(media, varianza, k)

df_normal = pd.DataFrame(n, columns = ['samples'])
mean=df_normal['samples'].mean()
median=df_normal['samples'].median()

sns.boxplot(data=df_normal, x="samples")
plt.axvline(mean, color='r', linestyle='--')
plt.axvline(median, color='g', linestyle='-')
plt.legend()
plt.show()

In [None]:
f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw= {"height_ratios": (0.2, 1)})

sns.boxplot(data=df_normal, x="samples", ax=ax_box)
ax_box.axvline(mean, color='r', linestyle='--')
ax_box.axvline(median, color='g', linestyle='-')

sns.histplot(data=df_normal, x="samples", ax=ax_hist, bins=10)
ax_hist.axvline(mean, color='r', linestyle='--', label="Mean")
ax_hist.axvline(median, color='g', linestyle='-', label="Median")

ax_hist.legend()

ax_box.set(xlabel='')
plt.show()

Facciamo la stessa cosa con la distribuzione esponenziale:

In [None]:
# genero k numeri campionati dalla esponenziale
k = 1000
scale = 1.
e = np.random.exponential(scale=scale, size=k)

df_exp = pd.DataFrame(e, columns = ['samples'])
mean=df_exp['samples'].mean()
median=df_exp['samples'].median()

f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw= {"height_ratios": (0.2, 1)})

sns.boxplot(data=df_exp, x="samples", ax=ax_box)
ax_box.axvline(mean, color='r', linestyle='--')
ax_box.axvline(median, color='g', linestyle='-')

sns.histplot(data=df_exp, x="samples", ax=ax_hist, bins=10)
ax_hist.axvline(mean, color='r', linestyle='--', label="Mean")
ax_hist.axvline(median, color='g', linestyle='-', label="Median")

ax_hist.legend()

ax_box.set(xlabel='')
plt.show()

Usiamo adesso i boxplot per confrontare le temperature mensili:

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
sns.boxplot(df_temperature, x="mese", y="temperatura")
plt.title("Andamento della temperatura mensile")
plt.show()

Confrontiamo adesso con una _errorbar_:

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
sns.pointplot(data=df_temperature, x="mese", y="temperatura", errorbar="sd", linestyles="")
plt.title("Andamento della temperatura mensile")
plt.show()

### Esercizio:

Creare il boxplot a partire dai dati delle altezze raccolti prima.

In [None]:
# Creazione del DataFrame con pandas
df_altezze = pd.DataFrame(altezze_all, columns=['Altezze'])

sns.boxplot()
plt.legend()
plt.show()