## Misure di dispersione


Le misure di dispersione quantificano la variabilità dei dati attorno a un valore centrale.

**Intervallo di variazione (o range), indicato con R:**

$$R = \text{valore massimo} - \text{valore minimo}$$

L'intervallo di variazione è molto sensibile ai valori estremi (outlier), quindi non è una misura robusta.

**Varianza:**

La varianza misura la distanza media di ciascuna osservazione dalla media aritmetica.

* **Varianza della popolazione ($\sigma^2$):** Si calcola usando la media della popolazione (μ).
* **Varianza campionaria ($s^2$):** Si calcola usando la media del campione $\bar{x}$

Inizialmente si potrebbe essere tentati di mediare gli scarti, ma purtroppo si ha

* $ \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu) = 0$ (popolazione)
* $\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x}) = 0$ (campione)


Intuitivamente, gli $x_i$ minori della media (corrispondenti a scarti minori di zero) compensano le osservazioni $x_i$ che sono al di sopra della media (corrispondenti a scarti positivi); le osservazioni esattamente uguali alla media non contribuiscono. 

Per superare questo problema dei segni, alcune delle soluzioni più ovvie sono:

* Considerare la media del valore assoluto delle deviazioni:
    * $\frac{1}{N} \sum_{i=1}^{N} |x_i - \mu|$ (popolazione)
    * $\frac{1}{n} \sum_{i=1}^{n} |x_i - \bar{x}|$ (campione)
* Considerare la media del quadrato delle deviazioni:
    * $\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$ (popolazione)
    * $\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$ (campione)

La scelta del quadrato è preferibile per le sue proprietà matematiche e per la sua utilità in molte tecniche statistiche, basti pensare al metodo dei minimi quadrati inventato da Gauss agli inizi dell$'800.$
La varianza della popolazione è indicata $\sigma^2$ e la varianza campionaria è indicata con $s^2.$


**Piccolo inconventiente**
La varianza è espressa nell'unità di misura dei dati elevata al quadrato. Per ottenere una misura nella stessa unità di misura dei dati, si calcola la radice quadrata della varianza (deviazione standard).

Per indicare la deviazione standard si usa $\sigma$ nel caso della popolazione e si usa $s$ nel caso del campione.

**Formula abbreviata per la varianza della popolazione ($\sigma^2$):**

$\sigma^2 = \frac{\sum x_i^2}{N} - \mu^2$



**Varianza campionaria ($s^2$):**

La varianza campionaria calcolata con la formula $\frac{\sum (x_i - \bar{x})^2}{n}$ sottostima la varianza della popolazione.

Per ottenere una stima corretta, si utilizza il fattore di correzione $\frac{n}{n - 1}$:

$s^2 = \frac{n}{n - 1} \cdot \frac{\sum (x_i - \bar{x})^2}{n} = \frac{\sum (x_i - \bar{x})^2}{n - 1}$

Considerato quanti conti proibitivi ci siano in statistica, moltiplicare per una costante maggiore di $1$ per ottenere una **non distorta** (i.e una stima che in media tende al risultato giusto) non sembra poi così male.

Per ricordarsi che il denominatore della campionaria è $n-1$ trovo utile osservare che per $n=1$ la varianza campionaria non è definita infatti
$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2= \frac{1}{1-1}\sum_{i=1}^{1} (x_i - \bar{x})^2,
$$
che non ha senso perché si sta dividendo per $0.$

Il fatto che $s^2$ per $n = 1$ non è definita è coerente con l'idea che un singolo dato non può mostrare variabilità. Detto altrimenti, da campione singolo non si può ottenere una stima della variabilità come la varianza campionaria $s^2!$



### Trucchi per calcolare la varianza più velocemente:

Usare la formula abbreviata.

$$\sigma^2 = \frac{\sum x_i^2}{N} - \mu^2$$

L'unico inconventiente è che quando si trattano numeri intorno al milione cominciano a esserci errori significativi attorno alla seconda cifra decimale! 
Provare per credere, si può giocare con il programma sotto inserendo i seguenti input e osservare che c'è una discrepanza tra la formula abbreviata e quella non abbreviata:


9000000, 4000000, 10000000, 5000000, 15000000, 20000000, 9000000, 4000000, 10000000, 5000000, 15000000, 20000000



## Deviazioni standard e distribuzioni a campana

Se i dati presentano una forma campanulare media e deviazione standard possono essere utilizzate per stimare la percentuale di dati che sono comprese in un determinato intervallo

**Esempi**
- Approsimativamente il $68%$ sarà compreso nell'intervallo $\mu - \sigma$ e $\mu + \sigma.$
- Approssimativamente il $95%$ sarà compreso nell'intervallo $\mu - 2 \sigma$ e $\mu + 2 \sigma.$
- Approssimativamente il $99.7%$ delle osservazioni sarà compreso nell'intervallo $\mu - 3 \sigma $ e $\mu + 3 \sigma.$



**Disuguaglianza di Chebyshev:**

Si chiama disuguaglianza per questo motivo 
$$
P(\{ \left\vert X - \mu  \right\vert > k\sigma  \}) \leq  \dfrac{1}{k^2  } \cdot \int \vert X - \mu \vert^2  dP = \dfrac{\sigma^2}{k^2}   
$$

Ma si può enunciare alla buona dicendo che almeno $(1 - \frac{1}{k^2})100%$ delle osservazioni cade tra la media e $k$ deviazioni standard. 

# Misure di tendenza centrale e di dispersione per dati raggrupatti in classi
Supponiamo di poter dividere una polazione in $L$ classi e che per qualche motivo, magari per approssimazione, si possa attribuire ai membri di una classe si possa attribuire un valore $x_i.$ Allora la media della popolazione e la media campionaria si calcolano con la seguente formula 

$$
\begin{gather*}
\mu = \fdrac{\sum_{i=1}^{L} f_i \cdot x_i }{\sum_{i=1}^{L} f_i} 
\bar{x} = \fdrac{\sum_{i=1}^{L} f_i \cdot x_i }{\sum_{i=1}^{L} f_i} 
\end{gather*}
$$


### **Formula per la Mediana per una distribuzione in classi**
$$
M = L + \left( \frac{\frac{N}{2} - CF}{f_m} \right) \cdot h
$$

dove:
- $ L $  = limite inferiore della classe dove ricade la mediana
- $ N $ = Frequenzae totale
- $ CF $ = Frequenza cumulata prima della classe mediana 
- $ f_m $ = Frequenza della classe mediana
- $ h $ = Ampiezza della classe mediana

---

### **Example Calculation**
Data la tabella:

| Class Interval  | $ n_i $ | $ N_i $ |
|---------------|--------|--------|
| 0-499        | 5      | 5      |
| 500-999      | 17     | 22     |
| 1000-1499    | 36     | 58     |
| 1500-1999    | 121    | 179    |
| **2000-2499** | **119** | **298** (Median Class) |
| 2500-2999    | 81     | 379    |
| 3000-3499    | 47     | 426    |
| 3500-3999    | 45     | 471    |
| 4000-4499    | 22     | 493    |
| 4500-4999    | 7      | 500    |

- $ L = 2000 $(lower boundary of the median class)
- $ N = 500 $
- $ F = 179 $ (cumulative frequency before the median class)
- $ f_m = 119 $ (frequency of the median class)
- $ h = 2499 - 2000 = 499 $ (class width)

Now, apply the formula:

$$
M = 2000 + \left( \frac{250 - 179}{119} \right) \times 499
$$

$$
M = 2000 + \left( \frac{71}{119} \right) \times 499
$$

$$
M = 2000 + 297.7
$$

$$
M \approx 2297
$$

### **Final Answer:**  
The median is **approximately 2297**.

## Calcolare la media pesata :

Ci sono situazioni in cui certe osservazioni sono più importanti di altre e gli si assegna più importanza o peso rispetto alle altre.

In questa situazione si calcola la media pesata delle osservazioni $x_i$ ciascuna con un suo peso $w_i,$ indicata con $x_w$ e definita come 

$$
x_w = \frac{1}{\sum_{i=1}^{N} w_{i}} \cdot \sum_{i = 1}^{N} w_{i} \cdot x_i
$$


### Calcolo della varianza con formula abbreviata o come la media degli scarti quadratici.

In [3]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as widgets
from IPython.display import display, clear_output

def variance_naive(x):
    n = len(x)
    return np.sum(np.array(x) ** 2) / n - (np.mean(x) ** 2)

def variance_direct(x):
    n = len(x)
    return np.sum((np.array(x) - np.mean(x)) ** 2) / n

# Output widget to hold the results
output = widgets.Output()

def compare_variance(obs):
    with output:
        clear_output(wait=True)  # Clears previous output to prevent stacking
        x = np.array(obs)
        naive_var = variance_naive(x)
        direct_var = variance_direct(x)
        abs_diff = abs(naive_var - direct_var)
        
        print("Varianza abbreviata:", naive_var)
        print("Formula diretta:", direct_var)
        print("Absolute difference:", abs_diff)
        
        # Plot
        labels = ['Naive', 'Direct']
        values = [naive_var, direct_var]
        plt.bar(labels, values, color=['red', 'blue'])
        plt.ylabel("Variance")
        plt.title("Comparison of Variance Computation")
        plt.show()

# Create input widget and button
obs_input = widgets.Text(
    value='1,2,3,4,5',
    description='Observations:',
    layout=widgets.Layout(width='50%')
)

update_button = widgets.Button(
    description="Update Variance",
    button_style="primary"
)

# Define update function
def update_variance(_):
    try:
        obs = list(map(float, obs_input.value.split(',')))
        compare_variance(obs)
    except ValueError:
        with output:
            clear_output(wait=True)
            print("Invalid input. Please enter numbers separated by commas.")

# Link button click to update function
update_button.on_click(update_variance)

# Display widgets and output
display(obs_input, update_button, output)

# Initial plot
update_variance(None)



Text(value='1,2,3,4,5', description='Observations:', layout=Layout(width='50%'))

Button(button_style='primary', description='Update Variance', style=ButtonStyle())

Output()