# Statistica Descrittiva Base in Python

In questo notebook imparerai le principali misure di statistica descrittiva per variabili numeriche in Python. Ogni sezione contiene:
- una spiegazione dettagliata + formula matematica
- Esercizio 1: scrivi la funzione
- Esercizio 2: applica la funzione

## 1. La media

La **media aritmetica** è la somma di tutti i valori divisa per il loro numero. Serve per conoscere il "valore tipico" della serie.

Formula:
$\overline{x} = \frac{\sum_{i=1}^n x_i}{n}$

La media è sensibile ai valori estremi (outlier).

### Esercizio 1.1
Scrivi una funzione `calcola_media(lista)` che riceve una lista di numeri e ritorna la media aritmetica.

In [72]:
import numpy as np

def calcola_media(lista):
    somma = 0
    for i in lista:
        somma = somma + i
    return somma / len(lista)
    

### Esercizio 1.2
Usa la funzione appena definita per calcolare la media dei voti:
`voti = [18, 27, 25, 30, 22, 24, 28]`

In [73]:
voti = [18, 27, 25, 30, 22, 24, 28]
print(calcola_media(voti))

24.857142857142858


---
## 2. La mediana

La **mediana** è il valore al centro della distribuzione ordinata:
- se la lista ha un numero dispari di elementi, è quello centrale
- se pari, si fa la media dei due valori centrali

Formula:
 $\,\text{mediana} = \begin{cases}
x_{(n+1)/2} & \text{se n dispari} \\
\frac{x_{n/2} + x_{n/2+1}}{2} & \text{se n pari}
\end{cases}$

### Esercizio 2.1
Scrivi una funzione `calcola_mediana(lista)` che restituisce la mediana della lista.

In [70]:
def calcola_mediana(lista):
    lista_ordinata = sorted(lista)
    n = len(lista)
    if n % 2 == 0:
        return (lista_ordinata[n//2 - 1] + lista_ordinata[n//2]) / 2
    else:
        return lista_ordinata[n//2]
        


### Esercizio 2.2
Trova la mediana della lista `[7, 5, 13, 8, 12, 6, 9]`.

In [18]:
numeri = [7, 5, 13, 8, 12, 6, 9]
print(calcola_mediana(numeri))

9


---
## 3. Moda

La **moda** è il valore che compare più frequentemente nei dati.

Formula:
$\text{moda} = \underset{x}{\operatorname{argmax}}\ f(x)$ (la x per cui la frequenza f(x) è massima)

### Esercizio 3.1
Scrivi una funzione `calcola_moda(lista)` che restituisce il valore modale della lista. Usa solo dizionari con sintassi classica!

In [51]:
def calcola_moda(lista):
    arr = []
    for elemento in lista:
        arr.append(lista.count(elemento))
    print(arr)
    indice_moda = np.argmax(arr)
    return lista[indice_moda]

### Esercizio 3.2
Applica la funzione `calcola_moda` alla lista `[4, 7, 3, 7, 2, 4, 7, 4]`.

In [52]:
num = [4, 7, 3, 7, 2, 4, 7, 4]
print(calcola_moda(num))

[3, 3, 1, 3, 1, 3, 3, 3]
4


---
## 4. Varianza

La **varianza** misura la dispersione rispetto alla media. Più la varianza è alta, più i dati sono "sparpagliati".

Formula:
$s^2 = \frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1}$

### Esercizio 4.1
Scrivi una funzione `calcola_varianza(lista)` che calcola la varianza campionaria.

In [74]:
def calcola_varianza(lista):
    media = calcola_media(lista)
    somma = 0
    for i in lista:
        somma = somma + (i - media) ** 2
    return somma / (len(lista) - 1)

### Esercizio 4.2
Applica la funzione alle temperature `[14, 16, 13, 15, 14, 16, 17]`.

In [75]:
boh = [14, 16, 13, 15, 14, 16, 17]
print(f"La varianza è: {calcola_varianza(boh)}")

La varianza è: 2.0


---
## 5. Deviazione standard

La **deviazione standard** è la radice quadrata della varianza. Serve per capire quanto i valori si discostano dalla media, usando la stessa "scala" dei dati di partenza.

Formula:
$s = \sqrt{\text{varianza}}$

### Esercizio 5.1
Scrivi una funzione `calcola_std(lista)` che restituisce la deviazione standard (usa la varianza campionaria).

In [57]:
def calcola_std(lista):
    varianza = calcola_varianza(lista)
    return np.sqrt(varianza)

### Esercizio 5.2
Usa la funzione sui dati `[3, 9, 7, 5, 13, 8]`.

In [58]:
funzione = [3, 9, 7, 5, 13, 8]
print(f"La deviazione standard è: {calcola_std(funzione)}")

La deviazione standard è: 3.449637662132068


---
## 6. Quartili e IQR

I **quartili** dividono la distribuzione ordinata in quattro parti uguali:
- Q1: il 25% dei dati
- Q3: il 75% dei dati

L'**IQR (Interquartile Range)** misura la dispersione dei dati centrali:

\( IQR = Q_3 - Q_1 \)

### Esercizio 6.1
Scrivi una funzione `calcola_quartili(lista)` che restituisce Q1 e Q3 usando la mediana.

In [79]:
def calcola_quartili(lista):
    ordinata = sorted(lista)
    n = len(lista)
    q1 = calcola_mediana(ordinata[:n//2])
    if n % 2 == 0:
        q3 = calcola_mediana(ordinata[n//2:])
    else:
        q3 = calcola_mediana(ordinata[n//2+1:])
        
    iqr = q3 - q1
                                          
    return q1, iqr, q3

### Esercizio 6.2
Usa la funzione per calcolare Q1, Q3 e IQR con `[5, 7, 8, 9, 11, 12, 15, 16, 17, 18]`.

In [80]:
staroba = [5, 7, 8, 9, 11, 12, 15, 16, 17, 18]
print("Q1, Q3: ", calcola_quartili(staroba))

Q1, Q3:  (8, 8, 16)


---
## 7. Outlier

Un **outlier** è un valore estremamente distante dagli altri. Si usa la regola:

$\text{outlier se}\ x < Q_1 - 1.5 \cdot IQR \ \text{oppure} \ x > Q_3 + 1.5 \cdot IQR$

### Esercizio 7.1
Scrivi una funzione `trova_outlier(lista)` che restituisce la lista di outlier nella lista.

In [None]:
def trova_outliers(lista):
    q1, iqr, q3 = calcola_quartili(lista)
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = []
    for i in lista:
        if i < lower_bound or i > upper_bound:
            outliers.append(i)
    return outliers

### Esercizio 7.2
Trova gli outlier dei dati `[5, 7, 7, 8, 12, 15, 30, 6, 9, 8]`

In [69]:
dati = [5, 7, 7, 8, 12, 15, 30, 6, 9, 8]
print("Outliers: ", trova_outliers(dati))

Outliers:  [30]


---

# Statistica Descrittiva in Pandas

### Funzioni di Statistica Descrittiva su Singole Colonne

Pandas mette a disposizione una serie di **funzioni pronte all'uso** che puoi chiamare direttamente su una singola colonna (una `Series`) per ottenere statistiche importanti:

- **`.min()`**: Valore minimo
- **`.max()`**: Valore massimo  
- **`.mean()`**: Media aritmetica
- **`.median()`**: Mediana (valore centrale)
- **`.std()`**: Deviazione standard (misura della variabilità)
- **`.var()`**: Varianza
- **`.sum()`**: Somma di tutti i valori
- **`.count()`**: Numero di valori non-NaN

Queste funzioni sono **estremamente utili** per l'esplorazione preliminare dei dati (EDA - Exploratory Data Analysis) e permettono di rispondere rapidamente a domande come: "Qual è l'età media?", "Qual è lo stipendio massimo?", ecc.



In [None]:
import pandas as pd
import numpy as np
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hank'],
    'Età': [25, 30, 35, 40, 22, np.nan, 28, 55],
    'Città': ['Roma', 'Milano', 'Roma', 'Napoli', 'Milano', 'Torino', 'Roma', 'Napoli'],
    'Stipendio': [1200, 1500, 1800, 2000, 1100, 1600, 1350, 2500],
    'Dipartimento': ['HR', 'IT', 'IT', 'Sales', 'HR', 'Sales', 'IT', 'Management'],
    'Regione': ['Lazio', 'Lombardia', 'Lazio', 'Campania', 'Lombardia', 'Piemonte', 'Lazio', 'Campania']
}
df = pd.DataFrame(data)
df.head() # Prime 5 righe di default

In [None]:
# Esempi di funzioni di statistica descrittiva su singole colonne
print("=== STATISTICHE SULLA COLONNA 'Età' ===")
print(f"Valore minimo: {df['Età'].min()}")
print(f"Valore massimo: {df['Età'].max()}")
print(f"Media: {df['Età'].mean()}")
print(f"Mediana: {df['Età'].median()}")
print(f"Deviazione Standard: {df['Età'].std():.2f}")
print(f"Somma: {df['Età'].sum()}")
print(f"Conteggio (non-NaN): {df['Età'].count()}")

print("\n=== STATISTICHE SULLA COLONNA 'Stipendio' ===")
stipendio_stats = {
    'Min': df['Stipendio'].min(),
    'Max': df['Stipendio'].max(),
    'Media': df['Stipendio'].mean(),
    'Mediana': df['Stipendio'].median()
}
print(stipendio_stats)

# Nota: .count() è utile per verificare quanti valori NON NaN ci sono
print(f"\n'Età' ha {df['Età'].count()} valori validi su {len(df)} totali")
print(f"(Significa che ci sono {len(df) - df['Età'].count()} valori NaN)")


=== STATISTICHE SULLA COLONNA 'Età' ===
Valore minimo: 22.0
Valore massimo: 55.0
Media: 33.57142857142857
Mediana: 30.0
Deviazione Standard: 11.21
Somma: 235.0
Conteggio (non-NaN): 7

=== STATISTICHE SULLA COLONNA 'Stipendio' ===
{'Min': np.int64(1100), 'Max': np.int64(2500), 'Media': np.float64(1631.25), 'Mediana': np.float64(1550.0)}

'Età' ha 7 valori validi su 8 totali
(Significa che ci sono 1 valori NaN)


### Ora prova tu!

Carica il dataset Iris e prova a calcolare un po' di statistiche descrittive usando pandas!


In [82]:
# Domanda A.1: Carica il dataset Iris
from sklearn import datasets
import pandas as pd

# Carica il dataset
iris = datasets.load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
df_iris['Species'] = iris.target_names[iris.target]