*Se stai utilizzando Google Colab, esegui le celle sottostanti per inizializzare la macchina.*

In [None]:
!git clone https://github.com/MatteoH2O1999/iis-alessandrini-lectures.git
!pip install -r ./iis-alessandrini-lectures/requirements.txt
%cd ./iis-alessandrini-lectures/notebooks

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()
sns.set_context('talk')

# La Media

La media è un primo indice numerico utile per la statistica descrittiva.
Dato un campione composto da valori $x1, x2, ..., x_n$, la media si calcola:
$$\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}$$

In [None]:
df = pd.read_csv('../datasets/driving_license.csv', sep=';')

In [None]:
df.head()

Una prima analisi potrebbe essere capire quanto ci si mette, in media, a prendere la patente.

In [None]:
time_list = df['Tempo per prendere la patente in giorni'].to_list()
print(time_list)

In [None]:
mean_time = np.mean(time_list)
mean_time

In [None]:
plt.figure(figsize=(16, 9))
sns.histplot(data=df, x='Tempo per prendere la patente in giorni')
plt.show()

Il tutto è ragionevole. Proviamo ora ad aggiungere una rilevazione al campione:

In [None]:
new_df = df.copy()

In [None]:
new_df.loc[len(new_df.index)] = {'Studente': 'Guido La Vespa',
                                 'Sesso': 'M',
                                 'Età': 67,
                                 'Tempo per prendere la patente in giorni': 14098}

In [None]:
new_df

Se calcoliamo nuovamente la media otteniamo:

In [None]:
new_time_list = new_df['Tempo per prendere la patente in giorni'].to_list()
print(new_time_list)

In [None]:
new_mean_time = np.mean(new_time_list)
new_mean_time

In [None]:
new_mean_time - mean_time

In [None]:
plt.figure(figsize=(16, 9))
sns.histplot(data=new_df, x='Tempo per prendere la patente in giorni')
plt.show()

Proviamo a confrontare gli istogrammi utilizzando gli stessi intervalli

In [None]:
bins = np.arange(0, 430, 30)
bins

In [None]:
_, axes = plt.subplots(1, 2, figsize=(16, 9), sharey=True)

sns.histplot(ax=axes[0], data=new_df, x='Tempo per prendere la patente in giorni', bins=bins)
axes[0].set_xlim(0, 400)
axes[0].set_title('Istogramma con Guido')

sns.histplot(ax=axes[1], data=df, x='Tempo per prendere la patente in giorni', bins=bins)
axes[1].set_xlim(0, 400)
axes[1].set_title('Istogramma senza Guido')

plt.show()

## Problema: Outliers

Un *outlier* è una misurazione fuori scala rispetto alle altre. Questa misurazione anomala può essere dovuta a un errore nel processo di misurazione, a una corruzione dei dati o può essere semplicemente un valore reale ma fuori scala.

Per ovviare al problema si potrebbe ricorrere ad una soglia (*threshold*) oltre la quale le misurazioni vengono ignorate.

In [None]:
new_df = new_df.loc[new_df['Tempo per prendere la patente in giorni'] < 2000]

In [None]:
updated_time_list = new_df['Tempo per prendere la patente in giorni'].to_list()
print(updated_time_list)

In [None]:
updated_mean_time = np.mean(updated_time_list)
updated_mean_time

In [None]:
updated_mean_time - mean_time

In [None]:
plt.figure(figsize=(16, 9))
sns.histplot(data=new_df, x='Tempo per prendere la patente in giorni')
plt.show()

Svantaggio: richiede conoscenza dei dati, cosa non sempre disponibile. Si vorrebbe utilizzare un nuovo indice robusto agli outliers: la mediana.