# Ripasso sugli argomenti principali del corso di Statistica e Analisi dei Dati con Python

## Statistica descrittiva: dati qualitativi e quantitativi

# Frequenze: assoluta, relativa e funzione cumulativa empirica

Supponendo di avere il seguente dataset:

S = [4, 15, 3, 3, 4, 12, 31, 24, 2, 68]

Calcoliamo le seguenti frequenze:

- **Frequenza assoluta** : numero di volte che un valore appare nel campione.

F(3) = 2 (il valore 3 appare 2 volte nel campione)\
F(31) = 1 (il valore 31 appare una sola volta nel campione)

- **Frequenza relativa** : frequenza assoluta / il numero di valori nel campione (dimensione)

F_relativa (3) = $2/10$\
F_relativa (31) = $1/10$

- **Funzione cumulativa empirica**: somma delle frequenze assolute dei valori del campione che sono <= ad un certo valore

F_hat (3) : $3/10$

Spiegazione: 

- considero solamente i valori del campione che sono <= a 3: nel nostro caso sono `2` e `3`
- Calcolo le frequenze assolute di questi valori: 
    - F(3) = 2
    - F(2) = 1
- Calcolo la somma di queste frequenze: $ 2 + 1 = 3 $
- Divido la somma ottenuta per la dimensione del campione: $3/10$

S = [4, 15, 3, 3, 4, 12, 31, 24, 2, 68]

# Indici di Centralità

Permettono di comprendere la dimensione del campione: descrivono attorno a quale valore si forma la rosa dei valori

### Media Campionaria

Media aritmetica delle osservazioni del campione

$\bar{x} = \frac{1}{n} + \sum_{i = 1}^{n}x_i$

Considerando il campione `S`, otteniamo che la media campionaria è uguale a: $\bar{x} = \frac{4+15+3+3+4+12+31+24+2+68}{10} = \frac{166}{10} = 16.6$

- È possibile calcolarla solamente per i dati **quantitativi**
- È un operatore lineare: SI scalatura, traslazione.

### Mediana Campionaria

Il valore centrale di un campione **ordinato in maniera non decrescente**.

Dato quindi un dataset ordinato la mediana è:

- L'elemento di posizione $\frac{n+1}{2}$ se la dimensione del campione è dispari
- La media aritmetica tra gli elementi in posizione $\frac{n}{2}$ e $\frac{n}{2} + 1$ altrimenti

Quindi:

-  Mediana campionaria su `S`: 

    - **Ordino** `S` in ordine crescente: S = [2, 3, 3, 4, 4, 12, 15, 24, 31, 68]
    - Dato che la dimensione di `S` è pari, la mediana è la media aritmetica tra `4` e `12` = $\frac{16}{2} = 8$

- Mediana campionaria su `S[1:]`
    - Il nuovo camopione da considerare è `S_primo` = [3, 3, 4, 4, 12, 15, 24, 31, 68]
    - Dato che la dimensione del campione è dispari, la mediana è la mediana è il valore `12`

### Moda Campionaria

È il valore più frequente all'interno di un campione.

Considerando sempre il campione `S`, possiamo notare che i valori più frequenti sono `3` e `4`: entrambi i valori saranno quindi detti **modali**.

S = [4, 15, 3, 3, 4, 12, 31, 24, 2, 68]

# Indici di dispersione

Mi permettono di capire quanto i valori si discostano da un valore centrale

### Varianza campionaria

Misura quanto i valori si discostano dalla *media campionaria*

Si misura come: $s^2 = \frac{1}{n-1} * \sum_{i = 1}^{n}(x_i - \bar{x})^2$

Quindi, considerando sempre il nostro campione `S`:

- Calcolo la media del campione (che sappiamo già essere uguale a 16.6)
- Calcolo la somma dei quadrati degli scarti dalla media:

| Valore \(x_i\) | \(x_i - \bar{x}\) | \((x_i - \bar{x})^2\) |
|----------------|-------------------|------------------------|
| 4              | -12.6             | 158.76                 |
| 15             | -1.6              | 2.56                   |
| 3              | -13.6             | 184.96                 |
| 3              | -13.6             | 184.96                 |
| 4              | -12.6             | 158.76                 |
| 12             | -4.6              | 21.16                  |
| 31             | 14.4              | 207.36                 |
| 24             | 7.4               | 54.76                  |
| 2              | -14.6             | 213.16                 |
| 68             | 51.4              | 2641.96                |
| **Totale**     |                   | **3838.64**            |

- Divido la somma per $n-1$ (poichè è una varianza campionaria, non della popolazione): $s^2= \frac{3838.64}{9} = `426.52`$





In [1]:
import numpy as np

S = [4, 15, 3, 3, 4, 12, 31, 24, 2, 68]
var_campionaria = np.var(S, ddof=1)

print(f"Varianza campionaria: {var_campionaria}")


Varianza campionaria: 425.37777777777785


### Deviazione standard campionaria

È una misura che ci dice quanto i dati si disperdono intorno alla media in un campione (cioè una parte di una popolazione più grande).

Si ottiene applicando la radice quadrata alla formula della variazione campionaria:

$s = \sqrt{\frac{1}{n-1} * \sum_{i = 1}^{n}(x_i - \bar{x})^2}$

Importante: qual'è la differenza tra varianza campionaria e deviazione standard campionaria: 

La varianza campionaria Misura la dispersione dei dati rispetto alla media, ma **al quadrato**.

- Usa la deviazione standard se vuoi capire facilmente quanto si allontanano i valori mediamente dalla media (es: "i voti oscillano di circa 1.2 punti").

- Usa la varianza quando fai calcoli statistici più avanzati (es: ANOVA, regressione, ecc.).


### Coefficiente di variazione

Quando dividiamo *varianza campionaria standard* e *media campionaria* otteniamo un valore **adimensionale**, poichè hanno la stessa unità di misura.

Un valore adimensionale è utile per confrontare due fenomeni aventi diverse unità di misura:

$s^* = \frac{s}{|\bar{x}|}$

Analizziamo un esempio per capire meglio: 

Supponiamo di voler confrontare due macchine che producono bulloni in due stabilimenti diversi.

- Stabilimento A:

Lunghezza media dei bulloni: 50 mm

Deviazione standard: **2 mm**

- Stabilimento B:

Lunghezza media dei bulloni: 10 mm

Deviazione standard: **1.5 mm**

calcoliamo oora i coefficienti di variazione per i due stabilimenti:

- $s^*_A = \frac{2}{50}*100 = 4$%
- $s^*_B = \frac{1.5}{10}*100 = 15$%

Anche se Stabilimento `B` ha una deviazione standard più piccola (1.5 vs 2), ha una variabilità relativa molto più alta.

**Quindi i bulloni dello stabilimento B sono meno consistenti in proporzione alla loro lunghezza media.**

