*Se stai utilizzando Google Colab, esegui le celle sottostanti per inizializzare la macchina.*

In [None]:
!git clone https://github.com/MatteoH2O1999/iis-alessandrini-lectures.git
!pip install -r ./iis-alessandrini-lectures/requirements.txt
%cd ./iis-alessandrini-lectures/notebooks

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()
sns.set_context('talk')

# La Mediana

Riprendiamo il dataset utilizzato precedentemente.

In [None]:
df = pd.read_csv('../datasets/driving_license.csv', sep=';')

In [None]:
df

Aggiungiamo ora nuovamente la rilevazione di Guido.

In [None]:
new_df = df.copy()
new_df.loc[len(new_df.index)] = {'Studente': 'Guido La Vespa',
                                 'Sesso': 'M',
                                 'Età': 67,
                                 'Tempo per prendere la patente in giorni': 14098}

In [None]:
new_df

Ricordiamo che la media viene fortemente influenzata dagli outliers.

In [None]:
mean_time_list = df['Tempo per prendere la patente in giorni'].to_list()
np.mean(mean_time_list)

In [None]:
new_mean_time_list = new_df['Tempo per prendere la patente in giorni'].to_list()
np.mean(new_mean_time_list)

In [None]:
np.mean(new_mean_time_list) - np.mean(mean_time_list)

Come si può evitare di farsi influenzare da pochi valori fuori scala?

In [None]:
mean_time_list.sort()
print(mean_time_list)

In [None]:
new_mean_time_list.sort()
print(new_mean_time_list)

In [None]:
for i in range(len(mean_time_list)):
    if mean_time_list[i] > np.mean(mean_time_list):
        mean_index = i
        break
        
mean_index

In [None]:
for i in range(len(new_mean_time_list)):
    if new_mean_time_list[i] > np.mean(new_mean_time_list):
        new_mean_index = i
        break
        
new_mean_index

In [None]:
new_mean_index - mean_index

La media si è spostata di 72 posizioni. Proviamo con una misurazione meno fuori scala:

In [None]:
other_df = df.copy()
other_df.loc[len(other_df.index)] = {'Studente': 'Guido Meglio La Vespa',
                                     'Sesso': 'M',
                                     'Età': 67,
                                     'Tempo per prendere la patente in giorni': 2000}

In [None]:
other_df

In [None]:
other_mean_time_list = other_df['Tempo per prendere la patente in giorni'].to_list()
print(other_mean_time_list)

In [None]:
np.mean(other_mean_time_list) - np.mean(mean_time_list)

In [None]:
other_mean_time_list.sort()
print(other_mean_time_list)

In [None]:
for i in range(len(other_mean_time_list)):
    if other_mean_time_list[i] > np.mean(other_mean_time_list):
        other_mean_index = i
        break
        
other_mean_index

In [None]:
other_mean_index - mean_index

In questo caso la media si è spostata di solo 9 posizioni. Nonostante sia stata aggiunta sempre una sola misurazione, lo spostamento nel primo caso è stato molto maggiore.

Questo perché la media può essere vista a tutti gli effetti come il baricentro delle misurazioni, ed in quanto baricentro, per mantenere l'equilibrio deve compiere spostamenti tanto più grandi quanto è il peso aggiunto a una delle due parti.

Il nostro obiettivo è trovare una metrica che non si sposti se si aggiungono poche misure fuori scala.

Proprio a questo serve la mediana. Per calcolarla si ordinano le rilevazioni in ordine crescente e si sceglie come mediana il valore che si trova in mezzo.

In [None]:
odd_list = [3, 6, 2, 3, 1]

In [None]:
odd_list.sort()
print(odd_list)

In [None]:
np.median(odd_list)

E nel caso pari? Prende la media dei due valori centrali

In [None]:
even_list = odd_list + [0]

In [None]:
even_list.sort()
print(even_list)

In [None]:
np.median(even_list)

Vediamo ora questa nuova metrica con il dataset precedente:

In [None]:
np.median(mean_time_list)

In [None]:
np.median(new_mean_time_list)

In [None]:
np.median(other_mean_time_list)

In [None]:
np.median(new_mean_time_list) - np.median(mean_time_list)

E di quanto si è spostata la mediana?

In [None]:
for i in range(len(mean_time_list)):
    if mean_time_list[i] > np.median(mean_time_list):
        median_index = i
        break
        
median_index

In [None]:
for i in range(len(new_mean_time_list)):
    if new_mean_time_list[i] > np.median(new_mean_time_list):
        new_median_index = i
        break
        
new_median_index

In [None]:
for i in range(len(other_mean_time_list)):
    if other_mean_time_list[i] > np.median(other_mean_time_list):
        other_median_index = i
        break
        
other_median_index

Come si nota, la mediana è estremamente stabile.

Come si comporta confrontata con la media?

In [None]:
print(np.mean(mean_time_list), np.median(mean_time_list))

In [None]:
print(np.mean(new_mean_time_list), np.median(new_mean_time_list))

In [None]:
print(np.mean(other_mean_time_list), np.median(other_mean_time_list))

La differenza tra mediana e media può essere anche un indicatore della presenza di valori fuori scala: tanto è maggiore la differenza, tanto è proabile che nel dataset ci siano presenti valori fuori scala:

In [None]:
np.abs(np.mean(mean_time_list) - np.median(mean_time_list))

In [None]:
np.abs(np.mean(new_mean_time_list) - np.median(new_mean_time_list))

In [None]:
np.abs(np.mean(other_mean_time_list) - np.median(other_mean_time_list))