#  Descriptive Statistics

Introduzione

La statistica descrittiva è una branca della statistica che si occupa di raccogliere, organizzare, analizzare e presentare i dati in modo significativo. A differenza della statistica inferenziale, che si concentra sul fare previsioni basate su un campione di dati, la statistica descrittiva aiuta a comprendere le caratteristiche fondamentali dei dati a disposizione.

1. Tipi di Statistica Descrittiva

La statistica descrittiva può essere suddivisa in tre categorie principali:

Misure di tendenza centrale: indicano il valore intorno al quale i dati tendono a concentrarsi.

Misure di dispersione: descrivono quanto i dati sono sparsi attorno alla tendenza centrale.

Misure di forma: indicano la distribuzione dei dati (asimmetria e curtosi).

### 📊 **Measures of Central Tendency: Lezione Completa**  

Le **misure di tendenza centrale** sono strumenti statistici utilizzati per descrivere un insieme di dati con un solo valore rappresentativo. Sono fondamentali nell'analisi dei dati perché forniscono un’indicazione sulla posizione del "centro" di una distribuzione.

---
## 📌 **1. Tipologie di Misure di Tendenza Centrale**
Le tre principali misure di tendenza centrale sono:
1. **Media (Mean)**
2. **Mediana (Median)**
3. **Moda (Mode)**

Ognuna di queste ha caratteristiche, vantaggi e limiti specifici. Vediamole nel dettaglio.  

---

## 🔢 **2. Media (Mean)**  
La **media aritmetica** è la somma di tutti i valori divisa per il numero totale di osservazioni.

### 📌 **Formula della Media**  
$$ 
x
ˉ = \frac{\sum x_i}{n}
$$
Dove:

𝑥
ˉ
x
ˉ
  = media
𝑥
𝑖
x 
i
​
  = valori dei dati
𝑛
n = numero totale di osservazioni
✅ Esempio Pratico
Supponiamo di avere i seguenti voti di uno studente:  
**8, 9, 7, 10, 6**  

La media sarà:  
\[$$
\bar{x} = \frac{8+9+7+10+6}{5} = \frac{40}{5} = 8$$
\]

🔹 **Pro:** Facile da calcolare, tiene conto di tutti i valori.  
🔹 **Contro:** Sensibile ai valori estremi (**outliers**).

---
## 📉 **3. Mediana (Median)**  
La **mediana** è il valore centrale di un insieme di dati ordinati. Se il numero di osservazioni è pari, la mediana è la media dei due valori centrali.

### ✅ **Esempio 1 (Numero Dispari di Osservazioni)**  
Dati: **3, 5, 7, 9, 11**  
La mediana è **7** perché è il valore centrale.

### ✅ **Esempio 2 (Numero Pari di Osservazioni)**  
Dati: **2, 4, 6, 8, 10, 12**  
I due valori centrali sono **6** e **8**, quindi la mediana è:  
\[
\frac{6+8}{2} = 7
\]

🔹 **Pro:** Non è influenzata dai valori estremi.  
🔹 **Contro:** Non tiene conto di tutti i valori nel calcolo.

---
## 🎯 **4. Moda (Mode)**  
La **moda** è il valore che compare più frequentemente in un dataset.  

### ✅ **Esempio 1**  
Dati: **2, 3, 3, 5, 7, 3, 8**  
La moda è **3** perché appare più volte.

### ✅ **Esempio 2 (Distribuzione Bimodale)**  
Dati: **4, 4, 6, 6, 8, 9**  
Qui abbiamo due valori con la stessa frequenza massima: **4 e 6**.  
➡️ La distribuzione è **bimodale**.

🔹 **Pro:** Utile per dati categorici e distribuzioni irregolari.  
🔹 **Contro:** Può non esistere o esserci più di una moda.

---

## 📊 **5. Confronto tra Media, Mediana e Moda**
| Proprietà  | Media | Mediana | Moda |
|------------|------|---------|------|
| **Uso tipico** | Dati numerici continui | Dati numerici con outliers | Dati categorici o distribuzioni non normali |
| **Sensibile agli outliers?** | ✅ Sì | ❌ No | ❌ No |
| **Facilità di calcolo** | ✅ Facile | ✅ Facile | ⚠️ A volte complesso |

---

## 📌 **6. Quando Usare Ciascuna Misura?**
- **Media**: Quando i dati sono distribuiti in modo normale e non ci sono outliers.  
- **Mediana**: Quando ci sono outliers o la distribuzione è asimmetrica.  
- **Moda**: Quando analizziamo dati categorici (es. il colore più scelto da un campione di persone).

---

## 🔎 **7. Esempio Pratico in Python**
Vediamo come calcolare queste misure con Python:

```python
import numpy as np
from scipy import stats

# Dataset
dati = [8, 9, 7, 10, 6, 100]  # Notiamo un outlier (100)

# Calcolo delle misure di tendenza centrale
media = np.mean(dati)
mediana = np.median(dati)
moda = stats.mode(dati, keepdims=True).mode[0]

print(f"Media: {media}")
print(f"Mediana: {mediana}")
print(f"Moda: {moda}")
```

🔹 **Output:**
```
Media: 23.333
Mediana: 8.5
Moda: 6
```
📌 **Nota:** L'outlier (100) ha distorto la media, mentre la mediana rimane più stabile!

---

## 📌 **8. Conclusione**
Le **misure di tendenza centrale** sono fondamentali per riassumere i dati in modo efficace. La scelta della misura giusta dipende dal contesto e dalla distribuzione dei dati.

## 📊 **Measures of Dispersion: Concetti, Formule ed Esempi**  

Le **misure di dispersione** (o **variabilità**) descrivono quanto i dati siano sparpagliati o distanti tra loro rispetto a una misura di tendenza centrale (come la media o la mediana). Sono fondamentali per capire la distribuzione di un dataset.  

### 🔹 **Perché sono importanti?**
- Permettono di confrontare la variabilità di diversi dataset.
- Aiutano a identificare la presenza di valori anomali (outlier).
- Sono essenziali per interpretare correttamente i risultati statistici.

## 🚀 **Tipologie di Measures of Dispersion**  

### **1️⃣ Range (Intervallo)**
📌 **Definizione**: È la differenza tra il valore massimo e il valore minimo di un dataset.  
📌 **Formula**:  
\[$$
\text{Range} = \max(X) - \min(X)$$
\]
📌 **Esempio**:  
Dati: \($$ X = \{3, 7, 8, 5, 12\} \)  $$
\[$$
\text{Range} = 12 - 3 = 9$$
\]
📌 **Limiti**:
- Dipende solo dai valori estremi (non considera la distribuzione dei dati).
- Sensibile agli **outlier**.

---

### **2️⃣ Variance (Varianza)**
📌 **Definizione**: Misura la dispersione dei dati rispetto alla loro media.  
📌 **Formula per la popolazione**:  
\[$$
\sigma^2 = \frac{\sum (X_i - \mu)^2}{N}$$
\]
📌 **Formula per il campione**:  
\[$$
s^2 = \frac{\sum (X_i - \bar{X})^2}{n-1}$$
\]
Dove:
- \($$ \sigma^2 $$\) = varianza della popolazione  
- \($$ s^2 $$\) = varianza del campione  
- \( $$\mu $$\) = media della popolazione  
- \( $$\bar{X}$$ \) = media del campione  
- \( $$N $$\), \( $$n $$\) = dimensione della popolazione/campione  

📌 **Esempio** (per un campione):  
Dati: \( $$X = \{4, 8, 6\} $$\)  
1. **Media**:  
\[$$
\bar{X} = \frac{4+8+6}{3} = 6$$
\]
2. **Scarti quadrati dalla media**:  
\[$$
(4-6)^2 = 4, \quad (8-6)^2 = 4, \quad (6-6)^2 = 0
$$\]
3. **Varianza**:  
\[$$
s^2 = \frac{4+4+0}{3-1} = \frac{8}{2} = 4
$$\]

📌 **Pro e Contro**:
✅ Usa tutti i dati → più affidabile del range  
❌ L’unità di misura è elevata al quadrato  

---

### **3️⃣ Standard Deviation (Deviazione standard)**
📌 **Definizione**: Radice quadrata della varianza, riporta la dispersione all’unità originale dei dati.  
📌 **Formule**:
\[$$
\sigma = \sqrt{\sigma^2} \quad \text{(popolazione)}, \quad s = \sqrt{s^2} \quad \text{(campione)}
$$\]
📌 **Esempio**:  
Se la varianza \( $$s^2 = 4$$ \), allora la deviazione standard è:  
\[$$
s = \sqrt{4} = 2
$$\]
📌 **Vantaggi**:
- È nella stessa unità di misura dei dati originali.
- Facilmente interpretabile.

---

### **4️⃣ Interquartile Range (IQR - Intervallo Interquartile)**
📌 **Definizione**: Misura la dispersione considerando solo i dati centrali, eliminando gli outlier.  
📌 **Formula**:  
\[$$
IQR = Q3 - Q1
$$\]
Dove:
- **Q1 (Primo Quartile)**: il 25% dei dati è inferiore a questo valore.
- **Q3 (Terzo Quartile)**: il 75% dei dati è inferiore a questo valore.

📌 **Esempio**:  
Dati ordinati: \( $$X = \{1, 3, 5, 7, 9\} $$\)  
- **Q1** = 3  
- **Q3** = 7  
\[$$
IQR = 7 - 3 = 4
$$\]
📌 **Vantaggi**:
- Resistente agli outlier.  
- Utile per capire la distribuzione centrale dei dati.

---

### **5️⃣ Coefficient of Variation (Coefficiente di Variazione - CV)**
📌 **Definizione**: Misura la dispersione relativa alla media, utile per confrontare dati con scale diverse.  
📌 **Formula**:  
\[$$
CV = \frac{\sigma}{\mu} \times 100\%
$$\]
📌 **Esempio**:  
Se \( $$\mu = 50 $$\) e \( $$\sigma = 5$$ \), allora  
\[$$
CV = \frac{5}{50} \times 100 = 10\%
$$\]
📌 **Vantaggi**:
- Permette di confrontare dispersioni tra dataset con medie diverse.

---

## 🔥 **Riepilogo delle Measures of Dispersion**
| Misura | Formula | Sensibile agli outlier? | Unità di misura |
|--------|---------|----------------|--------------|
| **Range** | \($ \max(X) - \min(X) $\) | ✅ Sì | Stessa dei dati |
| **Varianza** | \( $\frac{\sum (X_i - \mu)^2}{N} $\) | ✅ Sì | Quadrata rispetto ai dati |
| **Dev. Standard** | \($ \sqrt{\sigma^2} $\) | ✅ Sì | Stessa dei dati |
| **IQR** | \( $Q3 - Q1 $\) | ❌ No | Stessa dei dati |
| **CV** | \( $\frac{\sigma}{\mu} \times 100\% $\) | ✅ Sì | Percentuale |

---

## 📌 **Quando usare quale misura?**
- **Range** → Quando serve una misura semplice, ma con dati senza outlier.
- **Varianza & Deviazione standard** → Quando servono misure precise e dettagliate della dispersione.
- **IQR** → Quando i dati contengono outlier e vogliamo una misura robusta.
- **CV** → Quando vogliamo confrontare la dispersione di dataset con unità di misura diverse.

---
## **Lezione Dettagliata sulle Frequency Distributions**  

### **1. Introduzione alle Distribuzioni di Frequenza**  
Una **distribuzione di frequenza** è un metodo per organizzare i dati in modo che sia possibile vedere con quale frequenza ciascun valore o intervallo di valori appare in un dataset. È una delle tecniche fondamentali nell'analisi dei dati e nella statistica descrittiva.

### **2. Tipi di Frequenze**  
Quando analizziamo un dataset, possiamo calcolare diverse tipologie di frequenze:  
- **Frequenza Assoluta (fi)**: il numero di volte in cui un valore specifico appare nei dati.  
- **Frequenza Relativa (fr)**: la frequenza assoluta divisa per il numero totale di osservazioni.  
  \[$
  f_r = \frac{f_i}{N}
  $\]
- **Frequenza Percentuale**: la frequenza relativa moltiplicata per 100.  
  \[$
  f_p = f_r \times 100
  $\]
- **Frequenza Cumulata**: la somma progressiva delle frequenze assolute. Indica quante osservazioni hanno un valore uguale o inferiore a un certo limite.  
- **Frequenza Cumulata Relativa**: la frequenza cumulata divisa per il totale delle osservazioni.  

### **3. Creazione di una Distribuzione di Frequenza**  
#### **3.1 Distribuzione per dati discreti**  
Esempio: Un dataset con il numero di caffè bevuti al giorno da 20 persone:

| Caffè al giorno | Frequenza assoluta (fi) |
|-----------------|-------------------------|
| 0              | 3                         |
| 1              | 5                         |
| 2              | 6                         |
| 3              | 4                         |
| 4              | 2                         |

#### **3.2 Distribuzione per dati continui (creazione di classi)**  
Per dati continui, i valori devono essere raggruppati in classi.  
Passaggi:
1. **Determinare l’ampiezza della classe**  
   \[$
   \text{Ampiezza} = \frac{\text{Valore massimo} - \text{Valore minimo}}{\text{Numero di classi desiderato}}
   $\]
2. **Creare le classi** (intervalli di valori)  
3. **Contare le osservazioni in ogni classe**  

Esempio: Supponiamo di avere 50 dati sull'età dei partecipanti a un sondaggio e vogliamo creare una tabella di distribuzione di frequenza con 5 classi.

| Classe (Età) | Frequenza assoluta (fi) | Frequenza relativa (fr) | Frequenza cumulata (Fc) |
|-------------|-------------------------|-------------------------|-------------------------|
| 20 - 30    | 8                         | 0.16                     | 8                      |
| 30 - 40    | 12                        | 0.24                     | 20                     |
| 40 - 50    | 15                        | 0.30                     | 35                     |
| 50 - 60    | 9                         | 0.18                     | 44                     |
| 60 - 70    | 6                         | 0.12                     | 50                     |

### **4. Rappresentazione Grafica**
Una volta creata la distribuzione di frequenza, possiamo visualizzarla in diversi modi:
- **Istogramma**: rappresenta le classi con barre la cui altezza è proporzionale alla frequenza.
- **Poligono di frequenza**: collega i punti centrali delle barre di un istogramma con linee.
- **Grafico a barre**: utile per dati discreti.
- **Curva di frequenza cumulata**: mostra la crescita della frequenza cumulata.

### **5. Applicazione in Python**
Possiamo calcolare e visualizzare distribuzioni di frequenza con **Pandas e Matplotlib**:

```python
import pandas as pd
import matplotlib.pyplot as plt

# Esempio di dati
data = [20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 40, 30, 50, 45, 55, 35, 60, 40, 30]

# Creare intervalli di classi
bins = [20, 30, 40, 50, 60, 70]
labels = ["20-30", "30-40", "40-50", "50-60", "60-70"]

# Creare tabella di frequenza
df = pd.DataFrame(data, columns=["Età"])
df["Classe"] = pd.cut(df["Età"], bins=bins, labels=labels, right=False)
freq_table = df["Classe"].value_counts().sort_index()

# Visualizzazione
plt.bar(freq_table.index, freq_table.values, color='skyblue')
plt.xlabel("Classi di età")
plt.ylabel("Frequenza")
plt.title("Distribuzione di frequenza dell'età")
plt.show()
```

### **6. Conclusione**  
Le distribuzioni di frequenza sono essenziali per riassumere e comprendere i dati, sia che si tratti di fenomeni semplici come il numero di caffè bevuti, sia che si tratti di dati sanitari. Con strumenti come Python e librerie come Pandas, possiamo automatizzare l'analisi e la rappresentazione grafica in modo efficace.

## **Introduzione alla Probabilità**

La **probabilità** è un ramo della matematica che quantifica l'incertezza e misura la possibilità che un evento si verifichi. Viene espressa come un numero compreso tra 0 e 1, dove:
- **0** significa che l'evento è impossibile.
- **1** significa che l'evento è certo.

La probabilità viene utilizzata in molteplici ambiti, dalla statistica alla scienza dei dati, dall'ingegneria alla finanza, e persino nella medicina e nell'intelligenza artificiale.

---

### **Concetti Chiave**
Per comprendere la probabilità, è necessario familiarizzare con alcuni concetti fondamentali.

### **1. Esperimento (Experiment)**
Un **esperimento** è un'azione o un processo che produce un risultato osservabile. Può essere:
- **Deterministico**: sempre lo stesso risultato (es. mescolare acqua e zucchero).
- **Casuale (o aleatorio)**: può avere più risultati possibili (es. lanciare un dado, estrarre una carta da un mazzo).

🔹 **Esempio**: Lanciare un dado a sei facce è un esperimento casuale, perché ogni lancio può dare un numero da 1 a 6.

---

### **2. Esito (Outcome)**
Un **esito** è un singolo possibile risultato di un esperimento.

🔹 **Esempio**: Se lanciamo un dado e otteniamo "4", questo è un esito.

---

### **3. Spazio Campionario (Sample Space)**
Lo **spazio campionario** (o universo) è l'insieme di tutti i possibili esiti di un esperimento.

🔹 **Esempi**:
- **Lancio di un dado**: \( $S = \{1, 2, 3, 4, 5, 6\} $\)
- **Lancio di due dadi**: \( $S = \{(1,1), (1,2), (1,3), ..., (6,6)\}$ \), con 36 possibili risultati.

---

### **4. Evento (Event)**
Un **evento** è un sottoinsieme dello spazio campionario, cioè un gruppo di uno o più esiti.

🔹 **Esempi**:
- Nel lancio di un dado, l'evento **"ottenere un numero pari"** è: \($ A = \{2, 4, 6\}$ \).
- Nell'estrazione di una carta da un mazzo, l'evento **"pescare un asso"** è: \($ A = \{\text{Asso di cuori}, \text{Asso di quadri}, \text{Asso di picche}, \text{Asso di fiori}\} $\).

Se un evento contiene un solo esito (es. ottenere un "3" in un dado), si chiama **evento elementare**.

---

### **5. Probabilità di un Evento**
La **probabilità** di un evento \($ A $\) è definita come:

\[$
P(A) = \frac{\text{Numero di esiti favorevoli ad A}}{\text{Numero totale di esiti possibili}}
$\]

🔹 **Esempio**: Nel lancio di un dado, la probabilità di ottenere un numero pari è:

\[$
P(A) = \frac{3}{6} = \frac{1}{2} = 0.5
$\]

---

## **Tipologie di Probabilità**
Ci sono tre approcci principali alla probabilità:

1. **Classica** (o definizione di Laplace)  
   Si applica quando tutti gli esiti sono equiprobabili, cioè hanno la stessa possibilità di verificarsi.

   \[$   P(A) = \frac{\text{Numero di esiti favorevoli}}{\text{Numero totale di esiti possibili}}
   $\]

   *Esempio*: La probabilità di ottenere testa in un lancio di moneta è \( P(A) = \frac{1}{2} \).

2. **Frequentista**  
   Si basa sulla ripetizione dell'esperimento. Se ripetiamo molte volte un esperimento, la probabilità di un evento è la frequenza relativa con cui si verifica.

   \[$
   P(A) \approx \frac{\text{Numero di volte in cui A si verifica}}{\text{Numero totale di prove}}
   $\]

   *Esempio*: Se lanci una moneta 1000 volte e ottieni testa 510 volte, la probabilità stimata è \( P(A) = \frac{510}{1000} = 0.51 \).

3. **Soggettiva**  
   Basata su opinioni personali e stime. Spesso usata in scenari con incertezza elevata, come previsioni economiche o diagnosi mediche.

---

## **Proprietà della Probabilità**
- **0 ≤ P(A) ≤ 1** per ogni evento \( A \).
- **P(S) = 1**, la probabilità dell'intero spazio campionario è 1 (un evento certo).
- **P(∅) = 0**, la probabilità di un evento impossibile è 0.
- **Se due eventi sono complementari (cioè A e il suo complementare Ā), allora**:

  \[$
  P(A) + P(\overline{A}) = 1
  $\]

  *Esempio*: Se la probabilità di pioggia domani è 0.3, la probabilità che non piova è 0.7.

---

## **Esercizio Pratico**
### **Domanda**  
Se peschi una carta da un mazzo di 52 carte, qual è la probabilità di pescare una carta di cuori?

### **Soluzione**
- Lo spazio campionario \( S \) ha 52 carte.
- Ci sono 13 carte di cuori.
- Probabilità di pescare una carta di cuori:

  \[$
  P(A) = \frac{13}{52} = \frac{1}{4} = 0.25
  $\]


## 📚 **Lezione Dettagliata sulle Regole di Probabilità**  

La probabilità è la branca della matematica che studia il verificarsi di eventi in condizioni di incertezza. In questa lezione approfondiremo le principali regole della probabilità e il loro utilizzo pratico.

---

### 🔹 **1. Concetti Fondamentali**
1. **Spazio campionario (\(\Omega\))**: l'insieme di tutti i possibili risultati di un esperimento casuale.  
   - Esempio: nel lancio di un dado a 6 facce, lo spazio campionario è \(\Omega = \{1, 2, 3, 4, 5, 6\}\).

2. **Evento (\(A\))**: un sottoinsieme dello spazio campionario, ovvero uno o più risultati possibili.  
   - Esempio: nel lancio di un dado, l'evento "ottenere un numero pari" è \(A = \{2, 4, 6\}\).

3. **Probabilità di un evento (\(P(A)\))**: misura numerica dell’incertezza di un evento. Se tutti gli esiti sono ugualmente probabili, si calcola come:
   \[$
   P(A) = \frac{\text{numero di casi favorevoli a } A}{\text{numero di casi totali nello spazio campionario}}
   $\]

   - Esempio: nel lancio di un dado, la probabilità di ottenere un numero pari è:
     \[$
     P(A) = \frac{3}{6} = 0.5
     $\]

---

### 🔹 **2. Proprietà Fondamentali della Probabilità**
1. **Regola dell’intervallo della probabilità**: per ogni evento \( A \), la probabilità è compresa tra 0 e 1:
   \[$
   0 \leq P(A) \leq 1
   $\]
   - \($ P(A) = 0 $\) significa che l'evento è impossibile.
   - \( $P(A) = 1 $\) significa che l'evento è certo.

2. **Probabilità dell'evento complementare**: se \($ A $\) è un evento, allora il suo complemento \($ A^c $\) è l'insieme degli eventi che non appartengono ad \($ A $\).  
   La relazione tra \( $A $\) e \($ A^c$ \) è:
   \[$
   P(A^c) = 1 - P(A)
   $\]
   - Esempio: la probabilità di NON ottenere un numero pari lanciando un dado è:
     \[$
     P(A^c) = 1 - P(A) = 1 - 0.5 = 0.5
     $\]

3. **Additività della probabilità per eventi mutuamente esclusivi**: se due eventi \( A \) e \( B \) sono **mutuamente esclusivi** (cioè non possono verificarsi insieme), allora:
   \[$
   P(A \cup B) = P(A) + P(B)
   $\]
   - Esempio: nel lancio di un dado, la probabilità di ottenere un 2 o un 3 è:
     \[$
     P(\{2\} \cup \{3\}) = P(2) + P(3) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6} = 0.333
     $\]

---

### 🔹 **3. Regola della Probabilità Totale**
Se un evento \( A \) può avvenire in modi diversi, allora la sua probabilità totale si ottiene sommando le probabilità dei singoli modi in cui può verificarsi.

\[$
P(A) = P(A \cap B) + P(A \cap B^c)
$\]

- Esempio: Supponiamo di avere una classe con 60% di studenti maschi e 40% di studentesse. Il 30% dei maschi e il 50% delle femmine indossa gli occhiali.  
  Qual è la probabilità che uno studente scelto a caso indossi gli occhiali?
  \[$
  P(G) = P(G | M) P(M) + P(G | F) P(F) = (0.3 \times 0.6) + (0.5 \times 0.4) = 0.18 + 0.2 = 0.38
  $\]

---

### 🔹 **4. Regola del Prodotto (Probabilità Condizionata)**
La **probabilità condizionata** misura la probabilità che un evento \( A \) si verifichi, dato che sappiamo che si è verificato un altro evento \( B \):

\[$
P(A | B) = \frac{P(A \cap B)}{P(B)}
$\]

- Esempio: se il 10% delle persone in un'azienda sono manager (\(P(M) = 0.1\)) e il 70% dei manager ha una laurea (\(P(L | M) = 0.7\)), qual è la probabilità che una persona sia sia manager che laureata?
  \[$
  P(M \cap L) = P(L | M) P(M) = 0.7 \times 0.1 = 0.07
  $\]

---

### 🔹 **5. Regola della Moltiplicazione (Indipendenza)**
Due eventi \( A \) e \( B \) sono **indipendenti** se il verificarsi di uno non influenza la probabilità dell'altro, ovvero:

\[$
P(A \cap B) = P(A) P(B)
$\]

- Esempio: Se lanciamo una moneta e un dado, la probabilità di ottenere "Testa" (\(P(T) = 0.5\)) e un 6 (\(P(6) = 1/6\)) è:
  \[$
  P(T \cap 6) = P(T) P(6) = 0.5 \times \frac{1}{6} = \frac{1}{12}
  $\]

Se invece gli eventi non sono indipendenti, usiamo la regola più generale:
\[$
P(A \cap B) = P(A | B) P(B)
$\]

---

### 🔹 **6. Teorema di Bayes**
Il **Teorema di Bayes** permette di calcolare la probabilità di un evento basandosi su informazioni condizionate:

\[$
P(A | B) = \frac{P(B | A) P(A)}{P(B)}
$\]

- Esempio: Supponiamo che il 2% della popolazione abbia una malattia (\(P(M) = 0.02\)). Un test diagnostico ha il 95% di accuratezza (\(P(T | M) = 0.95\)), ma ha anche un 5% di falsi positivi (\(P(T | M^c) = 0.05\)).  
  Se una persona risulta positiva al test, qual è la probabilità che sia effettivamente malata?

  \[$
  P(M | T) = \frac{P(T | M) P(M)}{P(T | M) P(M) + P(T | M^c) P(M^c)}
  $\]

  \[$  = \frac{(0.95 \times 0.02)}{(0.95 \times 0.02) + (0.05 \times 0.98)}
  $\]

  \[$
  = \frac{0.019}{0.019 + 0.049} = \frac{0.019}{0.068} \approx 0.28
  $\]

  Quindi, nonostante il test sia positivo, la probabilità che la persona sia effettivamente malata è solo il 28%!

---

### 🔹 **Conclusione**
Le regole della probabilità sono strumenti fondamentali in Data Science, Machine Learning e Medicina. Comprendere questi concetti aiuta a interpretare meglio i dati e prendere decisioni più informate.


### La **probabilità condizionata** 

è un concetto fondamentale in probabilità che ci permette di calcolare la probabilità che un evento si verifichi dato che un altro evento è già accaduto. Si scrive matematicamente come \( P(A|B) \), che rappresenta la probabilità dell'evento \( A \) dato che l'evento \( B \) si è verificato.

### Formula della Probabilità Condizionata

La formula per calcolare la probabilità condizionata di \( A \) dato \( B \) è:

\[$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$\]

Dove:
- \($ P(A|B)$ \) è la probabilità che \( A \) si verifichi dato che \( B \) è accaduto.
- \( $P(A \cap B)$ \) è la probabilità che entrambi gli eventi \( A \) e \( B \) si verifichino contemporaneamente.
- \($ P(B)$ \) è la probabilità che l'evento \( B \) si verifichi (nota che \( P(B) > 0 \)).

### Significato della Formula
La formula dice che per calcolare la probabilità di \( A \) condizionata su \( B \), dobbiamo:
1. Trovare la probabilità che entrambi gli eventi \( A \) e \( B \) si verifichino simultaneamente.
2. Dividere questa probabilità per la probabilità che l'evento \( B \) si verifichi.

### Esempio di Probabilità Condizionata

Immagina di lanciare un dado a sei facce. Definiamo gli eventi:
- \( A \): il numero uscito è pari.
- \( B \): il numero uscito è maggiore di 2.

Se vogliamo calcolare \( P(A|B) \), ovvero la probabilità che il numero sia pari dato che è maggiore di 2, possiamo procedere come segue:

- L'insieme di \( B \) (i numeri maggiori di 2) è: \( \{3, 4, 5, 6\} \).
- L'insieme di \( A \cap B \) (i numeri che sono sia pari che maggiori di 2) è: \( \{4, 6\} \).

Ora possiamo applicare la formula:

\[$
P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{\frac{2}{6}}{\frac{4}{6}} = \frac{2}{4} = 0.5
$\]

Quindi, la probabilità di ottenere un numero pari dato che è maggiore di 2 è 0.5.

### Legge di Bayes

Una delle applicazioni più importanti della probabilità condizionata è la **legge di Bayes**, che permette di calcolare la probabilità di un evento \( B \) dato un altro evento \( A \). La formula di Bayes è:

\[$
P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)}
$\]

Dove:
- \( P(B|A) \) è la probabilità che \( B \) si verifichi dato che \( A \) è accaduto.
- \( P(A|B) \) è la probabilità che \( A \) si verifichi dato che \( B \) è accaduto.
- \( P(B) \) è la probabilità di \( B \).
- \( P(A) \) è la probabilità di \( A \).

La legge di Bayes è fondamentale in molti campi, tra cui l'intelligenza artificiale, la statistica e la medicina, per aggiornare le probabilità a mano a mano che si ottengono nuovi dati.

### Applicazioni della Probabilità Condizionata
La probabilità condizionata ha numerose applicazioni pratiche, come ad esempio:
1. **Diagnosi medica**: Calcolare la probabilità che un paziente abbia una malattia dato che presenta un certo sintomo.
2. **Machine Learning**: Viene utilizzata per la classificazione, come nel caso del **Naive Bayes**, che è un algoritmo basato sulla probabilità condizionata.
3. **Reti Bayesian**: Sono modelli probabilistici che rappresentano variabili casuali e le loro probabilità condizionate.

### Proprietà della Probabilità Condizionata
Alcune proprietà importanti della probabilità condizionata sono:

1. **Non-negatività**: \( P(A|B) \geq 0 \).
2. **Normalizzazione**: La probabilità condizionata deve essere normalizzata, cioè la somma delle probabilità condizionate su tutti gli eventi possibili deve essere uguale a 1.
   
   \[$
   \sum_{i} P(A_i | B) = 1
   $\]

3. **Indipendenza**: Se gli eventi \( A \) e \( B \) sono indipendenti, allora \( P(A|B) = P(A) \).

### Riflessione sull'Indipendenza

L'indipendenza tra due eventi \( A \) e \( B \) implica che la probabilità di \( A \) dato \( B \) sia la stessa di \( A \), cioè:

\[$
P(A|B) = P(A)
$\]

Questo succede quando il verificarsi di \( B \) non ha alcun effetto sulla probabilità che \( A \) si verifichi, e viceversa.

### Conclusione

La probabilità condizionata è uno strumento potente per analizzare la relazione tra eventi, ed è utilizzata in numerosi contesti pratici. La comprensione di come calcolare e applicare questa probabilità è essenziale per risolvere problemi complessi in statistica, data science, e machine learning.

# **Probability Distributions** (Distribuzioni di probabilità).

### 1. Cos'è una distribuzione di probabilità?

Una **distribuzione di probabilità** è una funzione che descrive la probabilità di occorrenza di eventi possibili in un esperimento casuale. Essa fornisce la probabilità associata a ciascun risultato (o intervallo di risultati) di un esperimento.

In altre parole, una distribuzione di probabilità può essere vista come una "mappa" che collega ciascun possibile risultato di un esperimento alla sua probabilità.

Esistono due principali categorie di distribuzioni di probabilità:

- **Distribuzioni discrete**: dove il numero di possibili risultati è finito o numerabile (come il lancio di un dado).
- **Distribuzioni continue**: dove il numero di possibili risultati è infinito e non numerabile (come la misurazione della temperatura).

### 2. Distribuzioni di probabilità discrete

Le distribuzioni di probabilità discrete sono associate a variabili casuali discrete, cioè variabili che possono assumere solo valori specifici (ad esempio, numeri interi). Ecco alcune delle distribuzioni discrete più comuni:

#### a. Distribuzione di Bernoulli

La distribuzione di **Bernoulli** descrive un esperimento che ha solo due risultati possibili: successo o insuccesso (ad esempio, testa o croce in un lancio di moneta). La variabile casuale può assumere il valore 1 (successo) o 0 (insuccesso), con probabilità \( p \) per il successo e \( 1 - p \) per l'insuccesso.

Funzione di probabilità:  
\[$
P(X = 1) = p, \quad P(X = 0) = 1 - p
$\]

#### b. Distribuzione binomiale

La distribuzione **binomiale** generalizza la distribuzione di Bernoulli per esperimenti ripetuti. Se eseguiamo un esperimento di Bernoulli \( n \) volte, la distribuzione binomiale descrive la probabilità di ottenere \( k \) successi in \( n \) prove indipendenti.

Funzione di probabilità:  
\[$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}
$\]

Dove:
- \( n \) è il numero di prove,
- \( k \) è il numero di successi desiderati,
- \( p \) è la probabilità di successo in ogni prova.

#### c. Distribuzione di Poisson

La distribuzione di **Poisson** è utile per modellare eventi che accadono in un intervallo di tempo o in uno spazio continuo, ma che si verificano in modo casuale e indipendente. È utilizzata per eventi che accadono con una certa frequenza media, ma in modo casuale.

Funzione di probabilità:  
\[$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$\]

Dove:
- \( \lambda \) è la media o il tasso di occorrenza dell'evento,
- \( k \) è il numero di eventi osservati.

#### d. Distribuzione geometrica

La distribuzione **geometrica** descrive il numero di prove necessarie per ottenere il primo successo in una sequenza di esperimenti di Bernoulli.

Funzione di probabilità:  
\[$
P(X = k) = (1 - p)^{k-1} p
$\]

Dove \( p \) è la probabilità di successo in ogni prova e \( k \) è il numero di prove prima del primo successo.

---

### 3. Distribuzioni di probabilità continue

Le distribuzioni di probabilità continue sono associate a variabili casuali che possono assumere qualsiasi valore in un intervallo continuo, ad esempio la temperatura, l'altezza o il peso. Le distribuzioni più comuni includono:

#### a. Distribuzione normale (Gaussiana)

La distribuzione **normale** è una delle distribuzioni più importanti e ampiamente utilizzate in statistica. È una distribuzione continua a forma di campana che è simmetrica attorno al suo valore medio.

Funzione di densità di probabilità:  
\[$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$\]

Dove:
- \( \mu \) è la media,
- \( \sigma^2 \) è la varianza.

La distribuzione normale è utilizzata per modellare fenomeni come l'altezza di un gruppo di persone o gli errori di misurazione.

#### b. Distribuzione uniforme

La distribuzione **uniforme** descrive una variabile casuale che ha uguale probabilità di assumere qualsiasi valore in un intervallo definito. Ad esempio, il lancio di un dado.

Funzione di densità di probabilità:  
\[$
f(x) = \frac{1}{b - a}, \quad \text{per } a \leq x \leq b
$\]

Dove \( a \) e \( b \) sono i limiti inferiore e superiore dell'intervallo.

#### c. Distribuzione esponenziale

La distribuzione **esponenziale** è utilizzata per modellare il tempo che intercorre tra due eventi che accadono in un processo di Poisson (ad esempio, il tempo tra le chiamate a un call center).

Funzione di densità di probabilità:  
\[$
f(x) = \lambda e^{-\lambda x}, \quad x \geq 0
$\]

Dove \( \lambda \) è il tasso di arrivo degli eventi.

#### d. Distribuzione t di Student

La distribuzione **t di Student** è utilizzata quando si stima la media di una popolazione da un campione, in particolare quando la dimensione del campione è piccola e la deviazione standard della popolazione è sconosciuta.

Funzione di densità di probabilità:  
La distribuzione t ha una forma simile alla normale, ma con code più spesse. La sua funzione di densità dipende da un parametro chiamato **gradi di libertà**.

---

### 4. Parametri delle distribuzioni

Ogni distribuzione di probabilità è descritta da una serie di parametri che definiscono la sua forma e proprietà. I parametri comuni includono:

- **Media (\( \mu \))**: la posizione centrale della distribuzione.
- **Varianza (\( \sigma^2 \))**: la misura della dispersione dei dati intorno alla media.
- **Deviazione standard (\( \sigma \))**: la radice quadrata della varianza, che è più facilmente interpretabile rispetto alla varianza.

---

### 5. Applicazioni delle distribuzioni di probabilità

Le distribuzioni di probabilità sono fondamentali in molte aree delle scienze, ingegneria, economia, e medicina. Ad esempio:
- **In statistica inferenziale**: per stimare parametri della popolazione e fare test statistici.
- **In finanza**: per modellare i ritorni degli investimenti e il rischio.
- **In machine learning**: per comprendere e costruire modelli probabilistici (es. Naive Bayes, distribuzioni gaussiane in modelli di regressione).
- **In medicina**: per modellare la probabilità di successo di un trattamento o l'andamento di una malattia.

---

### 6. Conclusione

Le distribuzioni di probabilità forniscono una base solida per analizzare e comprendere fenomeni casuali in vari contesti. La comprensione delle diverse distribuzioni e dei loro parametri è essenziale per affrontare problemi pratici e applicare correttamente la statistica e la probabilità in diverse discipline.

# **Inferential Statistics** (Statistica Inferenziale) 
è una branca della statistica che si occupa di fare inferenze o previsioni su una popolazione a partire da un campione di dati. A differenza della statistica descrittiva, che si limita a riassumere e descrivere i dati (mediante medie, deviazioni standard, ecc.), la statistica inferenziale cerca di trarre conclusioni o di fare predizioni basate su un insieme di dati più limitato. Questo processo si basa su teorie probabilistiche per fare stime e testare ipotesi.

### Concetti Fondamentali della Statistica Inferenziale

1. **Popolazione vs. Campione**:
   - **Popolazione**: È l'intero gruppo di elementi che si desidera studiare.
   - **Campione**: È un sottoinsieme di elementi prelevato dalla popolazione. Poiché è spesso difficile o impossibile studiare tutta la popolazione, si utilizza un campione per fare delle inferenze.
   - È essenziale che il campione sia rappresentativo della popolazione per ottenere stime accurate.

2. **Inferenze Statistiche**:
   Le inferenze statistiche includono:
   - **Stima**: Stimare valori sconosciuti (parametri) della popolazione, come la media o la proporzione.
   - **Test di ipotesi**: Valutare un'ipotesi sulla popolazione basandosi sul campione, determinando se ci sono prove sufficienti per accettare o rifiutare l'ipotesi.

3. **Distribuzione Campionaria**:
   La distribuzione campionaria è la distribuzione di una statistica (ad esempio, la media campionaria) ottenuta da campioni ripetuti estratti dalla stessa popolazione. È importante capire come queste distribuzioni si comportano per fare inferenze valide. Una delle teorie centrali qui è il **Teorema del Limite Centrale**, che afferma che, sotto certe condizioni, la distribuzione delle medie campionarie tende ad essere normale, indipendentemente dalla forma della distribuzione della popolazione, man mano che il campione cresce.

4. **Intervallo di Confidenza (Confidence Interval)**:
   Un intervallo di confidenza è un range di valori che, con un certo livello di probabilità, contiene il vero parametro della popolazione. Ad esempio, un intervallo di confidenza del 95% significa che, se si ripetessero gli esperimenti molte volte, il parametro della popolazione sarebbe contenuto nell'intervallo il 95% delle volte.
   
   Formula dell'intervallo di confidenza per la media:
   \[$
   \text{Intervallo di Confidenza} = \hat{\mu} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}
   $\]
   Dove:
   - \($\hat{\mu}\$) è la media campionaria,
   - \($Z_{\alpha/2}\$) è il valore critico per un dato livello di confidenza (ad esempio, 1.96 per il 95% di confidenza),
   - \($\sigma$\) è la deviazione standard della popolazione (o quella campionaria, se la popolazione è sconosciuta),
   - \($n$\) è la dimensione del campione.

5. **Test di Ipotesi**:
   Un test di ipotesi è un processo che consente di verificare se una certa affermazione su una popolazione è vera, basandosi su dati campionari. Si definiscono due ipotesi:
   - **Ipotesi nulla (H₀)**: L'affermazione da testare, solitamente una dichiarazione di "nessun effetto" o "nessuna differenza".
   - **Ipotesi alternativa (H₁)**: L'affermazione che si vuole sostenere, ovvero una differenza significativa o un effetto.
   
   Esempio di un test di ipotesi:
   - **H₀**: La media della popolazione è uguale a 50.
   - **H₁**: La media della popolazione non è uguale a 50.
   
   Un test di ipotesi si conclude con una decisione basata sul calcolo di una statistica di test e il suo confronto con un valore critico o tramite il p-value:
   - **p-value**: È la probabilità di ottenere un risultato uguale o più estremo di quello osservato, assumendo che l'ipotesi nulla sia vera. Un p-value basso (solitamente inferiore a 0.05) porta al rifiuto dell'ipotesi nulla.

6. **Tipo di Errori nei Test di Ipotesi**:
   - **Errore di Tipo I (α)**: Rifiutare erroneamente l'ipotesi nulla quando è vera (falso positivo).
   - **Errore di Tipo II (β)**: Non rifiutare l'ipotesi nulla quando è falsa (falso negativo).

7. **Distribuzioni di Probabilità Utilizzate**:
   In statistica inferenziale, le distribuzioni di probabilità sono utilizzate per modellare l'incertezza associata alle stime. Le principali distribuzioni includono:
   - **Distribuzione Normale**: Utilizzata quando i dati seguono una distribuzione continua simmetrica.
   - **Distribuzione t di Student**: Usata quando il campione è di dimensioni piccole e la deviazione standard della popolazione è sconosciuta.
   - **Distribuzione Chi-quadro**: Spesso usata per testare la bontà di adattamento o l'indipendenza in tabelle di contingenza.
   - **Distribuzione F**: Utilizzata per confrontare varianze in test di analisi della varianza (ANOVA).

### Applicazioni della Statistica Inferenziale

1. **Ricerca scientifica**: La statistica inferenziale è fondamentale nelle scienze per fare inferenze sui dati sperimentali e trarre conclusioni generali.
2. **Business e Marketing**: Per analizzare i comportamenti dei consumatori e fare previsioni sulle vendite o sul successo di un prodotto.
3. **Medicina**: Per determinare l'efficacia di un trattamento o per stimare la prevalenza di una malattia.
4. **Politica**: Per fare sondaggi e inferenze sui comportamenti degli elettori.

### Riepilogo

La statistica inferenziale è un potente strumento per prendere decisioni e fare previsioni sui dati. Utilizzando campioni di dati, è possibile fare inferenze sulla popolazione, stimare parametri, testare ipotesi e calcolare intervalli di confidenza. Le tecniche di inferenza, come il test di ipotesi e gli intervalli di confidenza, si basano su una solida comprensione delle distribuzioni di probabilità e delle caratteristiche dei campioni.

# **campionamento** (sampling) 
è una tecnica fondamentale in statistica e data science che consiste nel selezionare un sottoinsieme rappresentativo da un insieme di dati più grande (popolazione). L'obiettivo è raccogliere informazioni sufficienti da questo sottoinsieme per fare inferenze valide sulla popolazione. È una tecnica usata per risparmiare tempo e risorse, ma deve essere eseguita con attenzione per evitare distorsioni nei risultati.

### 1. **Tipi di Campionamento**

Esistono diversi metodi di campionamento, che si possono suddividere in due categorie principali: **campionamento probabilistico** e **campionamento non probabilistico**.

#### A. Campionamento Probabilistico

Nel campionamento probabilistico, ogni elemento della popolazione ha una probabilità conosciuta di essere selezionato. Questi metodi garantiscono che il campione sia rappresentativo della popolazione.

1. **Campionamento casuale semplice (Simple Random Sampling - SRS)**:
   - Ogni individuo della popolazione ha la stessa probabilità di essere selezionato.
   - Può essere effettuato senza reinserimento (quando un elemento selezionato non viene rimesso nel campione) o con reinserimento (quando un elemento selezionato viene rimesso nel campione).
   - **Esempio**: Se hai una popolazione di 100 persone e vuoi selezionare un campione di 10 persone, estrai casualmente 10 persone dalla lista.

2. **Campionamento sistematico (Systematic Sampling)**:
   - Si seleziona un punto di partenza casuale, e poi ogni k-esimo elemento della popolazione viene selezionato. 
   - **Formula**: \( k = \frac{N}{n} \), dove \( N \) è la dimensione totale della popolazione e \( n \) è la dimensione del campione.
   - **Esempio**: Se vuoi selezionare 10 persone da una popolazione di 100, puoi scegliere ogni 10a persona.

3. **Campionamento stratificato (Stratified Sampling)**:
   - La popolazione viene suddivisa in sottogruppi (strati) omogenei, e successivamente si seleziona un campione da ciascun strato. 
   - Si garantisce che tutte le caratteristiche della popolazione siano rappresentate in modo proporzionale.
   - **Esempio**: Se una popolazione è suddivisa in gruppi in base all'età (18-30, 31-40, ecc.), un campione stratificato selezionerà un numero proporzionale di persone da ogni gruppo.

4. **Campionamento a grappolo (Cluster Sampling)**:
   - La popolazione viene suddivisa in gruppi (grappoli), e poi si selezionano alcuni grappoli in modo casuale. Tutti gli elementi di ogni grappolo selezionato vengono inclusi nel campione.
   - È utile quando è difficile accedere a tutti gli individui della popolazione, ma è possibile accedere facilmente ai grappoli.
   - **Esempio**: Se vuoi studiare gli studenti di diverse scuole, potresti selezionare casualmente alcune scuole (grappoli) e includere tutti gli studenti di quelle scuole nel campione.

5. **Campionamento a probabilità proporzionale al peso (Probability Proportional to Size - PPS)**:
   - È una variante del campionamento a grappolo, in cui la probabilità di selezionare un grappolo è proporzionale alla sua dimensione.
   - **Esempio**: Se un grappolo è composto da 500 persone e un altro da 50 persone, il grappolo più grande avrà più probabilità di essere selezionato.

#### B. Campionamento Non Probabilistico

Nel campionamento non probabilistico, non tutti gli individui della popolazione hanno la stessa probabilità di essere selezionati. Questi metodi non sono adatti a fare inferenze generalizzabili, ma possono essere utili quando non è possibile utilizzare metodi probabilistici.

1. **Campionamento di convenienza (Convenience Sampling)**:
   - Si selezionano gli individui più facili da raggiungere, senza considerare la loro rappresentatività.
   - **Esempio**: Se selezioni i partecipanti alla tua ricerca tra coloro che sono facilmente disponibili, come amici o colleghi.

2. **Campionamento per giudizio (Judgmental or Purposive Sampling)**:
   - Il ricercatore seleziona deliberatamente i membri del campione sulla base di conoscenze o caratteristiche specifiche.
   - **Esempio**: Se stai studiando l'efficacia di un trattamento per una malattia rara, selezionerai solo i pazienti che soffrono di quella malattia.

3. **Campionamento a valanga (Snowball Sampling)**:
   - Un membro selezionato del campione viene utilizzato per identificare altri membri del campione, e così via. È utile per campionare popolazioni difficili da raggiungere o nascoste.
   - **Esempio**: Se stai cercando intervistare persone in un gruppo sociale specifico e non conosci personalmente nessuno di loro, puoi chiedere a una persona di raccomandarti altre persone.

### 2. **Esempi di Applicazione del Campionamento**

- **In ricerche sociali**: Per raccogliere opinioni o comportamenti di una popolazione più grande senza dover intervistare ogni singolo individuo.
- **In studi clinici**: Per testare un trattamento o una terapia, si seleziona un campione di pazienti rappresentativi dalla popolazione.
- **In analisi dei dati**: Quando lavoriamo con set di dati molto grandi, possiamo applicare il campionamento per ridurre la complessità computazionale senza perdere informazioni cruciali.

### 3. **Vantaggi e Svantaggi**

#### Vantaggi:
- Riduce il costo e il tempo rispetto a un censimento completo.
- È più pratico quando la popolazione è troppo grande per essere studiata interamente.
- Se eseguito correttamente, può produrre risultati che riflettono accuratamente la popolazione.

#### Svantaggi:
- Il campione potrebbe non essere perfettamente rappresentativo se non scelto correttamente.
- I metodi non probabilistici possono introdurre bias.
- L'errore di campionamento è una parte intrinseca dei campioni, e può limitare l'affidabilità delle inferenze.

### 4. **Errori nel Campionamento**

- **Errore di campionamento**: La differenza tra il risultato osservato nel campione e quello che sarebbe stato ottenuto se si fosse osservata l'intera popolazione.
- **Bias di selezione**: Quando il campione non rappresenta adeguatamente la popolazione, influenzando i risultati.
  
### 5. **Leggi del Campionamento**

Esistono alcune leggi matematiche che determinano la quantità di dati da campionare per ottenere un buon risultato statistico:

- **Legge dei grandi numeri**: Con l'aumento della dimensione del campione, la media campionaria si avvicina alla media della popolazione.
- **Teorema del limite centrale**: Con un numero sufficientemente grande di campioni, la distribuzione della media campionaria tende ad essere normale, indipendentemente dalla distribuzione della popolazione.

### Conclusioni

Il campionamento è una tecnica potente e fondamentale in statistica e data science. La scelta del metodo di campionamento dipende dal tipo di dati, dalla disponibilità della popolazione e dallo scopo della ricerca. È essenziale essere consapevoli dei potenziali bias e dell'errore di campionamento che possono influenzare la validità dei risultati.

# **Legge dei Grandi Numeri**

## **Introduzione**
La **Legge dei Grandi Numeri** (LLN, Law of Large Numbers) è un concetto fondamentale nella teoria della probabilità e nella statistica. Stabilisce che, man mano che il numero di osservazioni aumenta, la media campionaria dei valori osservati tende a convergere verso il valore atteso (la media vera della popolazione).

Questa proprietà è essenziale perché giustifica l'uso delle medie campionarie per stimare le medie della popolazione in molte applicazioni pratiche, dalla statistica inferenziale all'apprendimento automatico.

---
## **Definizione Formale**
Sia \( $X_1, X_2, \dots, X_n$ \) una sequenza di variabili casuali indipendenti e identicamente distribuite (i.i.d.), con valore atteso (media):( $mu$) e varianza finita \( $sigma^2$ ). La media campionaria è definita come:

\[
$\bar{X_n} = \frac{1}{n} \sum_{i=1}^{n} X_i
\$]

La Legge dei Grandi Numeri afferma che:

\[
$\lim_{n \to \infty} \bar{X_n} = \mu
\$]

con probabilità pari a 1, ovvero, la media campionaria converge alla media della popolazione quando \( n \) tende a infinito.

---
## **Tipi di Legge dei Grandi Numeri**
Esistono due versioni principali della LLN:

1. **Legge dei Grandi Numeri Debole (WLLN - Weak Law of Large Numbers)**
   - Stabilisce che la media campionaria \( \bar{X_n} \) converge in probabilità alla media della popolazione \$( \mu \$), ovvero:
     
     \[
     $P(|\bar{X_n} - \mu| \geq \varepsilon) \to 0 \quad \text{per ogni} \quad \varepsilon > 0, \text{quando} \quad n \to \infty.$
     \]
     
   - Questo significa che all'aumentare del numero di osservazioni, la probabilità che la media campionaria sia distante da \$( \mu \$) diventa sempre più piccola.

2. **Legge dei Grandi Numeri Forte (SLLN - Strong Law of Large Numbers)**
   - Stabilisce che la media campionaria converge quasi certamente a \( \mu \), ovvero:
     
     \[
     $P(\lim_{n \to \infty} \bar{X_n} = \mu) = 1.$
     \]
     
   - Ciò implica che, con probabilità 1, la successione \$( \bar{X_n} \)$ si avvicina a \$( \mu \$) e non si allontana mai più significativamente.

---
## **Esempio Intuitivo**
Un classico esempio per comprendere la Legge dei Grandi Numeri è il lancio di una moneta equa.

- Se lanciamo una moneta, abbiamo probabilità \( p = 0.5 \) di ottenere testa e \( 1 - p = 0.5 \) di ottenere croce.
- Se lanciamo la moneta poche volte (ad esempio 10 lanci), la proporzione di teste potrebbe discostarsi molto da 0.5.
- Se aumentiamo il numero di lanci a 100, 1000, 10.000, la proporzione delle teste tenderà a stabilizzarsi attorno a 0.5.

---
## **Implementazione in Python**
Ecco un codice Python che simula la Legge dei Grandi Numeri con il lancio di una moneta.

```python
import numpy as np
import matplotlib.pyplot as plt

# Impostiamo il seme per la riproducibilità
np.random.seed(1)

# Parametri della simulazione
p = 0.5  # Probabilità di ottenere "Testa"
n_trials = 10000  # Numero di lanci della moneta

# Generazione dei risultati casuali (0 = Croce, 1 = Testa)
results = np.random.choice([0, 1], size=n_trials)

# Calcolo della media cumulativa
cumulative_mean = np.cumsum(results) / np.arange(1, n_trials + 1)

# Visualizzazione della convergenza
plt.figure(figsize=(10, 5))
plt.plot(cumulative_mean, label='Media Cumulativa')
plt.axhline(p, color='red', linestyle='--', label='Media Vera (0.5)')
plt.title("Legge dei Grandi Numeri")
plt.xlabel("Numero di Lanci")
plt.ylabel("Media Cumulativa")
plt.legend()
plt.show()
```

### **Spiegazione del Codice**
1. **np.random.seed(1)**: Imposta un seme per rendere i risultati riproducibili.
2. **np.random.choice([0, 1], size=n_trials)**: Genera un array di 0 e 1 casuali, simulando i lanci della moneta.
3. **np.cumsum(results) / np.arange(1, n_trials + 1)**: Calcola la media cumulativa per ogni passo della simulazione.
4. **plt.plot(cumulative_mean)**: Disegna il grafico della media cumulativa per mostrare la convergenza.
5. **plt.axhline(p, color='red', linestyle='--')**: Traccia una linea orizzontale alla media teorica attesa (0.5).

---
## **Osservazioni dai Risultati**
- Nei primi tentativi, la media cumulativa oscilla notevolmente, perché il campione è piccolo.
- Con l'aumentare del numero di prove, la media cumulativa si stabilizza vicino a 0.5.
- Questo dimostra empiricamente la Legge dei Grandi Numeri: più osservazioni si raccolgono, più la media campionaria si avvicina alla media teorica.

---
## **Applicazioni della Legge dei Grandi Numeri**
1. **Statistica e inferenza**: Le medie campionarie vengono utilizzate per stimare parametri di popolazione.
2. **Assicurazioni**: Le compagnie assicurative usano questa legge per prevedere i costi futuri.
3. **Finanza**: Nell’analisi del rischio e nella previsione dei rendimenti.
4. **Apprendimento automatico**: Usata per comprendere il comportamento dei modelli con grandi dataset.
5. **Scienze mediche**: Studi clinici usano grandi campioni per stimare con precisione gli effetti dei trattamenti.

---
## **Conclusione**
La Legge dei Grandi Numeri è un concetto chiave della probabilità che garantisce che le medie campionarie convergano verso la media vera quando il numero di osservazioni cresce. Questa proprietà è alla base di molte applicazioni pratiche, dalla statistica all'intelligenza artificiale, ed è verificabile empiricamente attraverso simulazioni come quella vista sopra.



# Metodi Monte Carlo: Una Guida Dettagliata

## Introduzione ai Metodi Monte Carlo
I metodi Monte Carlo sono una classe di algoritmi computazionali che utilizzano campionamenti casuali ripetuti per ottenere risultati numerici. Questi metodi si basano sulla probabilità e sulla statistica per approssimare soluzioni a problemi complessi, spesso impossibili da risolvere analiticamente.

Questi metodi prendono il nome dal famoso casinò di Monte Carlo a Monaco, noto per il gioco d'azzardo, poiché si basano sull'uso di numeri casuali proprio come nei giochi di fortuna.

## Fondamenti Matematici
I metodi Monte Carlo sfruttano il **Teorema del Limite Centrale** e la **Legge dei Grandi Numeri**:
- **Legge dei Grandi Numeri**: Se un esperimento viene ripetuto un numero sufficiente di volte, la media dei risultati ottenuti tende al valore atteso teorico.
- **Teorema del Limite Centrale**: La distribuzione della media campionaria di variabili casuali indipendenti e identicamente distribuite tende a una distribuzione normale quando il numero di campioni è grande.

Questi principi permettono di stimare con alta precisione il valore atteso di una variabile aleatoria anche quando la funzione analitica è sconosciuta.

## Passaggi Fondamentali dell'Algoritmo Monte Carlo
Un algoritmo Monte Carlo segue questi passaggi:
1. **Definizione del Problema**: Identificare il dominio del problema e la quantità da stimare.
2. **Generazione di Campioni Casuali**: Creare un insieme di numeri casuali che rappresentano il sistema.
3. **Esecuzione del Modello**: Utilizzare i campioni casuali per eseguire calcoli e ottenere risultati.
4. **Aggregazione e Analisi dei Risultati**: Calcolare statistiche dai risultati per ottenere una stima dell'incognita.

## Applicazioni dei Metodi Monte Carlo
I metodi Monte Carlo sono utilizzati in diversi ambiti, tra cui:

### 1. **Fisica e Chimica Computazionale**
- Simulazione del comportamento di sistemi complessi (es. dinamica molecolare, fisica delle particelle, reazioni chimiche).
- Modellazione della diffusione di particelle in un fluido.

### 2. **Finanza Quantitativa**
- Valutazione di derivati finanziari e opzioni.
- Stima del rischio di portafoglio.
- Ottimizzazione di strategie di investimento.

### 3. **Machine Learning e AI**
- Ottimizzazione bayesiana per il tuning di iperparametri.
- Generazione di dati sintetici per il training di modelli.

### 4. **Scienze della Salute e Epidemiologia**
- Simulazione della diffusione di malattie infettive.
- Analisi della farmacodinamica e farmacocinetica di nuovi farmaci.

### 5. **Ingegneria e Scienze dei Materiali**
- Modellazione di sistemi termodinamici complessi.
- Simulazione di processi di produzione e ottimizzazione delle catene di fornitura.

## Esempio Pratico: Calcolo di Pi Greco con Monte Carlo
Uno degli esempi più noti di metodo Monte Carlo è il calcolo del valore di π.

### Procedura:
1. Disegnare un quadrato di lato 2 e un cerchio inscritto di raggio 1.
2. Generare punti casuali all'interno del quadrato.
3. Contare quanti punti cadono all'interno del cerchio.
4. Stimare π usando la proporzione tra i punti nel cerchio e quelli totali:

   \[ $\pi \approx 4 \times \frac{N_{cerchio}}{N_{totale}} $\]

### Implementazione in Python:
```python
import numpy as np
import matplotlib.pyplot as plt

N = 10000  # Numero di punti
x = np.random.uniform(-1, 1, N)
y = np.random.uniform(-1, 1, N)

inside_circle = x**2 + y**2 <= 1
pi_estimate = (np.sum(inside_circle) / N) * 4

print(f"Stima di Pi Greco: {pi_estimate}")
```

## Vantaggi e Svantaggi dei Metodi Monte Carlo

### **Vantaggi**:
- **Flessibilità**: Possono essere applicati a una vasta gamma di problemi.
- **Semplicità di Implementazione**: Facili da scrivere e comprendere.
- **Scalabilità**: Funzionano bene con grandi dataset e problemi complessi.

### **Svantaggi**:
- **Alto Costo Computazionale**: Richiedono molte iterazioni per ottenere risultati precisi.
- **Dipendenza dalla Generazione di Numeri Casuali**: La qualità dei risultati dipende dalla qualità dei numeri casuali generati.
- **Convergenza Lenta**: Rispetto ad altri metodi numerici, può essere meno efficiente in alcune applicazioni.

## Conclusione
I metodi Monte Carlo rappresentano uno strumento potente per la simulazione e l'analisi di problemi complessi in molteplici discipline. Il loro principio di base, fondato su campionamenti casuali e stime statistiche, li rende versatili e ampiamente utilizzati in applicazioni scientifiche, finanziarie e ingegneristiche.

Se utilizzati correttamente e con un numero adeguato di campioni, i metodi Monte Carlo forniscono risultati accurati e affidabili, contribuendo a migliorare la comprensione e la risoluzione di problemi difficili da affrontare con metodi analitici tradizionali.



Ecco una spiegazione riga per riga del codice:

---

### **Definizione della Funzione `roulette_spin()`**
```python
def roulette_spin():
    wheel = [i for i in range(0, 37)]
    result = np.random.choice(wheel)
    return result
```
1. **`wheel = [i for i in range(0, 37)]`**  
   - Crea una lista contenente i numeri della roulette europea, che vanno da 0 a 36.  

2. **`result = np.random.choice(wheel)`**  
   - Seleziona casualmente un numero dalla lista `wheel` simulando un giro di roulette.  

3. **`return result`**  
   - Restituisce il numero uscito dalla roulette.

---

### **Definizione della Funzione `play_roulette_game(n_spins)`**
```python
def play_roulette_game(n_spins):
    
    balance = 0
    bet = 1
```
4. **`balance = 0`**  
   - Inizializza il saldo del giocatore a 0€.  

5. **`bet = 1`**  
   - Fissa la puntata iniziale a 1€.  

---
```python
    for _ in range(n_spins):
        result = roulette_spin()
```
6. **`for _ in range(n_spins):`**  
   - Ripete il ciclo `n_spins` volte (numero di giri della roulette).  

7. **`result = roulette_spin()`**  
   - Simula un giro della roulette e salva il numero uscito in `result`.

---

### **Determinazione del Colore del Numero Uscito**
```python
        if result in range(1, 11) or result in range(19, 29):
            if result % 2 == 0:  # Win condition (black)
                balance += bet
            else:  # Lose condition (red)
                balance -= bet
```
8. **`if result in range(1, 11) or result in range(19, 29):`**  
   - Se il numero è tra **1-10 o 19-28**, si applicano le seguenti regole di colore:  
     - I numeri pari sono **neri**  
     - I numeri dispari sono **rossi**  

9. **`if result % 2 == 0:`**  
   - Se il numero è pari (nero), il giocatore vince e il saldo aumenta di 1€.  

10. **`else:`**  
   - Se il numero è dispari (rosso), il giocatore perde e il saldo diminuisce di 1€.  

---
```python
        elif result in range(11, 19) or result in range(29, 37):
            if result % 2 != 0:  # Win condition (black)
                balance += bet
            else:  # Lose condition (red)
                balance -= bet
```
11. **`elif result in range(11, 19) or result in range(29, 37):`**  
    - Se il numero è tra **11-18 o 29-36**, si applicano le seguenti regole di colore:  
      - I numeri dispari sono **neri**  
      - I numeri pari sono **rossi**  

12. **`if result % 2 != 0:`**  
    - Se il numero è dispari (nero), il giocatore vince e guadagna 1€.  

13. **`else:`**  
    - Se il numero è pari (rosso), il giocatore perde 1€.  

---
```python
        else:  # Zero
            balance -= bet  # The house wins
```
14. **Se il numero è 0**  
    - Il giocatore perde automaticamente, quindi il saldo diminuisce di 1€.  

---
```python
    return balance
```
15. **Restituisce il saldo finale** dopo `n_spins` giri.

---

### **Simulazione Monte Carlo**
```python
n_simulations = 10000
n_spins = 100
```
16. **`n_simulations = 10000`**  
    - Simula 10.000 partite di roulette.  

17. **`n_spins = 100`**  
    - Ogni partita consiste in 100 giri di roulette.  

---
```python
results = [play_roulette_game(n_spins) for _ in range(n_simulations)]
```
18. **`[play_roulette_game(n_spins) for _ in range(n_simulations)]`**  
    - Esegue `play_roulette_game(n_spins)` 10.000 volte e salva i risultati nella lista `results`.

---
```python
mean_balance = np.mean(results)
std_dev_balance = np.std(results)
```
19. **`np.mean(results)`**  
    - Calcola il saldo medio dopo 100 giri di roulette.  

20. **`np.std(results)`**  
    - Calcola la deviazione standard dei saldi finali.  

---
### **Grafico della Distribuzione dei Risultati**
```python
plt.hist(results, bins=38, color='green', alpha=0.7, edgecolor='black')
```
21. **`plt.hist(results, bins=38, color='green', alpha=0.7, edgecolor='black')`**  
    - Crea un istogramma con 38 bin (uno per ogni possibile saldo finale).  
    - Il colore del grafico è verde con trasparenza 0.7 e bordi neri.  

---
```python
plt.axvline(mean_balance, color='red', linestyle='dashed', linewidth=2, label=f'Mean: {mean_balance:.2f}')
```
22. **`plt.axvline(mean_balance, color='red', linestyle='dashed', linewidth=2, label=f'Mean: {mean_balance:.2f}')`**  
    - Disegna una linea verticale rossa tratteggiata che indica il saldo medio.  

---
```python
plt.title(f"Monte Carlo Simulation of Roulette Game\nAverage final balance after {n_spins} spins")
plt.xlabel("Final Balance ($)")
plt.ylabel("Frequency")
plt.legend()
plt.show()
```
23. **Titolo e etichette del grafico**  
    - **`plt.title(...)`** → Imposta il titolo del grafico.  
    - **`plt.xlabel("Final Balance ($)")`** → Etichetta dell'asse X (saldo finale).  
    - **`plt.ylabel("Frequency")`** → Etichetta dell'asse Y (frequenza).  
    - **`plt.legend()`** → Mostra la legenda.  
    - **`plt.show()`** → Mostra il grafico.  

---
### **Stampa dei Risultati**
```python
print(f"Average balance after {n_spins} spins: ${mean_balance:.2f}")
print(f"Standard deviation of balance: ${std_dev_balance:.2f}")
```
24. **Stampa del saldo medio e deviazione standard**  
    - Il saldo medio finale dopo 100 giri viene stampato con due decimali.  
    - La deviazione standard indica la variabilità nei risultati.  

---

### **Conclusione**
Questo codice esegue una **simulazione Monte Carlo** su un gioco di roulette in cui il giocatore punta sempre sul nero. I risultati mostrano come il saldo finale varia tra le partite e come, nel lungo periodo, la casa tende ad avere un vantaggio.



# Teorema del Limite Centrale (Central Limit Theorem - CLT)

## Introduzione
Il **Teorema del Limite Centrale (CLT - Central Limit Theorem)** è uno dei concetti fondamentali della statistica inferenziale. Esso afferma che, indipendentemente dalla distribuzione della popolazione di partenza, la distribuzione della media campionaria si avvicina sempre di più a una distribuzione normale all'aumentare della dimensione del campione.

Questo teorema è essenziale perché permette di applicare metodi statistici basati sulla normalità anche quando la distribuzione originale dei dati non è normale. In particolare, ci consente di effettuare inferenze sulle popolazioni basandoci solo su campioni.

## Dichiarazione formale del CLT
Data una popolazione con media \(\mu\) e deviazione standard \(\sigma\), se estraiamo molti campioni casuali di grandezza \(n\) e calcoliamo la media di ciascun campione, allora:

1. La distribuzione delle medie campionarie tenderà a seguire una **distribuzione normale** man mano che \(n\) aumenta (tipicamente \(n \geq 30\) è sufficiente).
2. La media della distribuzione delle medie campionarie sarà uguale alla media della popolazione:  
   \[$\mu_{\bar{x}} = \mu$\]
3. La deviazione standard della distribuzione delle medie campionarie, nota come **errore standard della media**, sarà pari a:  
   \[$\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}$\]

### Implicazioni del CLT
- Anche se la popolazione originale ha una distribuzione non normale, la distribuzione delle medie campionarie sarà **approssimativamente normale**.
- Questo è fondamentale per l'inferenza statistica, poiché consente di utilizzare test parametrici basati sulla normalità.

---

## Esempio Pratico con Python
Per comprendere meglio il CLT, possiamo fare un esperimento pratico generando dati da una distribuzione **esponenziale** (che non è normale) e calcolando le medie di campioni ripetuti.

```python
import numpy as np
import matplotlib.pyplot as plt

# Definiamo la dimensione del campione
sample_size = 10000

# Creiamo 10.000 medie campionarie da una distribuzione esponenziale
sample_means = [np.mean(np.random.exponential(1/4, sample_size)) for _ in range(10000)]

# Creiamo l'istogramma delle medie campionarie
plt.hist(sample_means, bins=30, density=True, color='red', alpha=0.7, edgecolor='black')
plt.title("Central Limit Theorem")
plt.xlabel("Sample means")
plt.ylabel("Density")
plt.show()
```

### Spiegazione del codice
1. Generiamo una popolazione da una distribuzione esponenziale con tasso \(\lambda = 4\) (che ha una forma fortemente asimmetrica).
2. Estraiamo 10.000 campioni di dimensione \(n = 10000\) e calcoliamo la media di ciascun campione.
3. Plottiamo l'istogramma delle medie campionarie.
4. Osserviamo che la distribuzione risultante è **approssimativamente normale**, nonostante la distribuzione di partenza fosse esponenziale.

---

## Dimostrazione del CLT tramite Simulazione
Per dimostrare ulteriormente il CLT, possiamo provare con diverse distribuzioni di partenza e osservare come si comporta la distribuzione delle medie campionarie.

### 1. Distribuzione Uniforme
```python
sample_size = 100
sample_means = [np.mean(np.random.uniform(0, 10, sample_size)) for _ in range(10000)]
plt.hist(sample_means, bins=30, density=True, color='blue', alpha=0.7, edgecolor='black')
plt.title("CLT con distribuzione uniforme")
plt.xlabel("Sample means")
plt.ylabel("Density")
plt.show()
```

### 2. Distribuzione di Poisson
```python
sample_size = 50
sample_means = [np.mean(np.random.poisson(5, sample_size)) for _ in range(10000)]
plt.hist(sample_means, bins=30, density=True, color='green', alpha=0.7, edgecolor='black')
plt.title("CLT con distribuzione di Poisson")
plt.xlabel("Sample means")
plt.ylabel("Density")
plt.show()
```

Come si può vedere, indipendentemente dalla distribuzione originale (uniforme, esponenziale, Poisson), la distribuzione delle medie campionarie tende a una **distribuzione normale**.

---

## Conclusioni
Il **Teorema del Limite Centrale** è un principio fondamentale della statistica che permette di trattare molte situazioni pratiche con strumenti basati sulla normalità. In particolare:

- È alla base delle tecniche di inferenza statistica.
- Ci permette di stimare intervalli di confidenza e condurre test statistici parametrici.
- Dimostra che, anche se i dati originali non sono normali, le medie campionarie lo saranno per campioni sufficientemente grandi.

Il CLT è un potente strumento per analizzare dati reali e fare inferenze affidabili, motivo per cui è uno dei concetti più importanti per chiunque lavori con la statistica e l'analisi dei dati.



# Errori Standard e Intervalli di Confidenza

## 1. Introduzione

L'inferenza statistica ci permette di fare delle stime educative su un parametro della popolazione basandoci su un campione. Tuttavia, a causa della variabilità del campionamento, ogni stima (statistica) basata su un campione non sarà esattamente uguale al vero parametro della popolazione. Per quantificare questa incertezza, utilizziamo l'**errore standard (SE)** e gli **intervalli di confidenza (CI)**.

### Errore Standard (SE)
L'**errore standard** misura la variabilità di una statistica campionaria da un campione all'altro. Quantifica quanto una stima del campione è destinata a fluttuare a causa del campionamento casuale.

Matematicamente, l'errore standard della media (SEM) è dato da:
\[$
SE = \frac{\sigma}{\sqrt{n}}
$\]
dove:
- \($ \sigma $\) è la deviazione standard della popolazione
- \($ n $\) è la dimensione del campione

Se la deviazione standard della popolazione \( \sigma \) è sconosciuta, la stimiamo utilizzando la deviazione standard del campione \( s \):
\[$
SE = \frac{s}{\sqrt{n}}
$\]

L'errore standard è fondamentale perché determina la precisione della nostra stima del campione. Un SE più piccolo indica una stima più precisa.

---
## 2. Intervalli di Confidenza (CI)
Un **intervallo di confidenza** fornisce un intervallo di valori plausibili per un parametro della popolazione con un livello di confidenza specificato (ad esempio, 95%). Esso è composto da una **stima** più o meno un **margine di errore (ME)**.

### Formula Generale per gli Intervalli di Confidenza
\[$
CI = \text{stima} \pm (\text{valore critico} \times \text{errore standard})
$\]

Ad esempio, l'intervallo di confidenza per la media della popolazione \( \mu \) è dato da:
\[$
CI = \bar{x} \pm (z^* \times SE)
$\]
dove:
- \($ \bar{x} $\) è la media del campione
- \($ z^*$ \) è il valore critico dalla distribuzione normale standard (per campioni grandi, o quando la varianza della popolazione è conosciuta)
- \($ SE $\) è l'errore standard

Se la varianza della popolazione è sconosciuta e la dimensione del campione è piccola (tipicamente \( n < 30 \)), si utilizza la **distribuzione t** invece della distribuzione normale:
\[$
CI = \bar{x} \pm (t^* \times SE)
$\]
dove \($ t^* $\) è il valore critico dalla **distribuzione t** con \($ n - 1$ \) gradi di libertà.

### Scelta del Valore Critico
Il valore critico corrisponde al livello di **confidenza desiderato (CL)**. I livelli di confidenza più comuni e i loro valori critici corrispondenti (per una distribuzione normale) sono:

| Livello di Confidenza | Valore \( z^* \) |
|-----------------------|------------------|
| 90%                   | 1.645            |
| 95%                   | 1.960            |
| 99%                   | 2.576            |

Per campioni piccoli, i valori \( t^* \) si ottengono da tabelle statistiche.

---
## 3. Interpretazione degli Intervalli di Confidenza
Un **intervallo di confidenza del 95%** significa che se ripetessimo il nostro processo di campionamento molte volte, circa il 95% degli intervalli risultanti conterranno il vero parametro della popolazione.

### Esempio:
Supponiamo di raccogliere un campione di 50 individui per stimare l'altezza media in una popolazione. La media del campione è di \( 170 \) cm, e la deviazione standard del campione è di \( 10 \) cm.

1. Calcoliamo l'errore standard (SE):
   \[$
   SE = \frac{10}{\sqrt{50}} = 1.414
   $\]
2. Determiniamo il valore critico per un intervallo di confidenza al 95%: \( z^* = 1.96 \)
3. Calcoliamo il margine di errore (ME):
   \[$
   ME = 1.96 \times 1.414 = 2.77
  $ \]
4. Calcoliamo l'intervallo di confidenza:
   \[$
   170 \pm 2.77 = (167.23, 172.77)
  $ \]
Pertanto, stimiamo con il 95% di confidenza che la vera altezza media nella popolazione sia tra **167.23 cm e 172.77 cm**.

---
## 4. Fattori che Influenzano gli Intervalli di Confidenza
Diversi fattori influenzano la larghezza di un intervallo di confidenza:
1. **Dimensione del campione (n):** Un campione più grande riduce l'errore standard, portando a un **intervallo di confidenza più stretto**.
2. **Livello di confidenza:** Livelli di confidenza più alti (ad esempio, 99%) aumentano il valore critico, portando a un **intervallo di confidenza più ampio**.
3. **Variabilità nei dati:** Maggiore variabilità (deviazione standard più alta) porta a un **intervallo di confidenza più ampio**.

---
## 5. Intervalli di Confidenza per Altre Statistiche
### 5.1. Intervallo di Confidenza per una Proporzione
Per una proporzione della popolazione \( p \), l'intervallo di confidenza si calcola come:
\[$
CI = \hat{p} \pm (z^* \times SE)
$\]
dove:
- \( $\hat{p}$ \) è la proporzione del campione
- \($ SE = \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}} $\)

### 5.2. Intervallo di Confidenza per la Differenza tra Due Medie
Quando si confrontano due gruppi indipendenti (ad esempio, trattamento vs. controllo), l'intervallo di confidenza per la differenza tra le medie è:
\[$
CI = (\bar{x}_1 - \bar{x}_2) \pm (t^* \times SE)
$\]
dove:
\[$$
SE = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}
\]
e \($ s_1, s_2 $\) sono le deviazioni standard dei campioni.

### 5.3. Intervallo di Confidenza per la Differenza tra Due Proporzioni
Per due proporzioni della popolazione \( p_1 \) e \( p_2 \):
\[$
CI = (\hat{p}_1 - \hat{p}_2) \pm (z^* \times SE)
$\]
dove:
\[$
SE = \sqrt{\frac{\hat{p}_1 (1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2 (1 - \hat{p}_2)}{n_2}}
$\]

---
## 6. Conclusione
Gli intervalli di confidenza forniscono un metodo essenziale per quantificare l'incertezza delle stime basate su un campione. Essi dipendono dall'errore standard, dalla dimensione del campione e dal livello di confidenza scelto. Una comprensione corretta e l'applicazione degli intervalli di confidenza consentono di prendere decisioni informate nella ricerca scientifica, nell'analisi aziendale e negli studi sanitari.

Padroneggiando gli errori standard e gli intervalli di confidenza, è possibile valutare l'affidabilità dei dati e trarre conclusioni significative dalle analisi statistiche.

Ecco una spiegazione riga per riga del codice:

---

### **Importazione delle librerie**
```python
import scipy.stats as stats
import numpy as np
import matplotlib.pyplot as plt
```
- `scipy.stats`: Modulo di `SciPy` per calcolare il valore critico della distribuzione normale.
- `numpy`: Utilizzato per generare dati casuali e calcolare statistiche.
- `matplotlib.pyplot`: Serve per creare il grafico delle confidence intervals.

---

### **Generazione della popolazione**
```python
population = np.random.normal(loc=100, scale=15, size=100000)
```
- Generiamo una **popolazione** di 100.000 elementi da una distribuzione **normale** con:
  - Media (`loc=100`)
  - Deviazione standard (`scale=15`)
  - Dimensione (`size=100000`).

---

### **Campionamento senza sostituzione**
```python
sample_size = 100000
sample = np.random.choice(population, size=sample_size, replace=False)
```
- Estraiamo un **campione** di dimensione 100.000 **senza sostituzione** (`replace=False`) dalla popolazione.

---

### **Calcolo delle statistiche campionarie**
```python
sample_mean = np.mean(sample)
sample_std = np.std(sample, ddof=1)
standard_error = sample_std / np.sqrt(sample_size)
```
- `sample_mean`: Media del campione.
- `sample_std`: Deviazione standard del campione, con `ddof=1` per applicare la **correzione di Bessel** (utilizzata per stimare la deviazione standard della popolazione).
- `standard_error`: L'**errore standard** della media è calcolato come:
  \[
  SE = \frac{\text{sample_std}}{\sqrt{\text{sample_size}}}
  \]

---

### **Determinazione del valore critico z per il 95% CI**
```python
confidence_level = 0.95
z_critical = stats.norm.ppf((1 + confidence_level) / 2)
```
- Il **valore critico z** (z-score) per un intervallo di confidenza del **95%** viene calcolato usando `stats.norm.ppf()`, che restituisce il quantile della distribuzione normale.
- Poiché il livello di confidenza è **95%**, calcoliamo il quantile corrispondente a:
  \[
  \frac{1 + 0.95}{2} = 0.975
  \]
  Il valore di **z** per il 95% è **circa 1.96**.

---

### **Calcolo del margine di errore e intervallo di confidenza**
```python
margin_of_error = z_critical * standard_error
ci_lower, ci_upper = sample_mean - margin_of_error, sample_mean + margin_of_error
```
- `margin_of_error`: Determina l'ampiezza dell'intervallo di confidenza.
  \[
  ME = z^* \times SE
  \]
- `ci_lower`, `ci_upper`: Calcoliamo il **limite inferiore** e **superiore** dell'intervallo di confidenza.

---

### **Stampa dei risultati**
```python
print(f"Sample Mean: {sample_mean:.2f}")
print(f"95% Confidence Interval: ({ci_lower:.2f}, {ci_upper:.2f})")
```
- Stampiamo la **media campionaria** e l'**intervallo di confidenza** con due cifre decimali.

---

### **Simulazione di più intervalli di confidenza**
```python
n_simulations = 100  # Number of confidence intervals to generate
sample_size = 50
true_mean = np.mean(population)
```
- `n_simulations = 100`: Generiamo **100** intervalli di confidenza.
- `sample_size = 50`: La dimensione del campione per ogni simulazione è **50**.
- `true_mean = np.mean(population)`: Calcoliamo la **vera media della popolazione**.

---

### **Creazione del grafico**
```python
plt.figure(figsize=(8, 6))
```
- Imposta la dimensione del grafico **8x6**.

---

### **Generazione degli intervalli di confidenza multipli**
```python
for i in range(n_simulations):
    sample = np.random.choice(population, size=sample_size, replace=False)
    sample_mean = np.mean(sample)
    standard_error = np.std(sample, ddof=1) / np.sqrt(sample_size)
    margin_of_error = z_critical * standard_error
    ci_lower, ci_upper = sample_mean - margin_of_error, sample_mean + margin_of_error
```
- Per **ogni simulazione**, eseguiamo i seguenti passi:
  1. **Estrazione di un campione** di 50 osservazioni dalla popolazione.
  2. **Calcolo della media campionaria**.
  3. **Calcolo dell'errore standard**.
  4. **Determinazione del margine di errore** e dei **limiti dell'intervallo di confidenza**.

---

### **Plot degli intervalli di confidenza**
```python
plt.plot([ci_lower, ci_upper], [i, i], color='blue' if (ci_lower <= true_mean <= ci_upper) else 'red')
plt.plot(sample_mean, i, 'bo')  # Sample mean point
```
- Disegniamo **una linea orizzontale** per ogni intervallo di confidenza:
  - Se l'intervallo contiene la vera media della popolazione (`true_mean`), la linea è **blu**.
  - Se l'intervallo **non** contiene la vera media, la linea è **rossa** (questo dovrebbe accadere in circa il 5% dei casi, in base alla teoria degli intervalli di confidenza al 95%).
- `plt.plot(sample_mean, i, 'bo')`: Plotta la **media campionaria** come un punto **blu**.

---

### **Linea della media della popolazione**
```python
plt.axvline(true_mean, color='black', linestyle="--", label="True Mean")
```
- Disegniamo una **linea verticale tratteggiata nera** per rappresentare la **vera media della popolazione**.

---

### **Etichette e visualizzazione del grafico**
```python
plt.xlabel("Sample Mean with Confidence Interval")
plt.ylabel("Simulation Index")
plt.title("Multiple 95% Confidence Intervals")
plt.legend()
plt.show()
```
- `plt.xlabel("Sample Mean with Confidence Interval")`: Etichetta dell'asse X.
- `plt.ylabel("Simulation Index")`: Etichetta dell'asse Y.
- `plt.title("Multiple 95% Confidence Intervals")`: Titolo del grafico.
- `plt.legend()`: Aggiunge la legenda.
- `plt.show()`: Mostra il grafico.

---

### **Risultato atteso**
- Il grafico mostra **100 intervalli di confidenza**.
- Circa **95 su 100** dovrebbero contenere la vera media della popolazione (**blu**).
- Circa **5 su 100** potrebbero **non** contenere la vera media (**rosso**).

Questa simulazione aiuta a **visualizzare il concetto degli intervalli di confidenza** e a comprendere l'incertezza nelle stime statistiche. 🎯

# **Lezione dettagliata sul Bootstrap**

## **Introduzione**

Il **Bootstrap** è un metodo di **ri campionamento** utilizzato per stimare la distribuzione di una statistica (media, mediana, varianza, ecc.) attraverso campionamenti ripetuti con riposizionamento (*with replacement*) dai dati originali.

Questa tecnica è particolarmente utile quando:
- La distribuzione della popolazione è **sconosciuta** o complessa.
- La dimensione del campione è **piccola** e i metodi teorici tradizionali potrebbero non essere affidabili.
- Si desidera **costruire intervalli di confidenza** o stimare l'errore standard di una statistica senza dover fare assunzioni parametriche.

## **Principi Fondamentali**

1. **Campionamento con riposizionamento**: ogni osservazione ha la possibilità di essere selezionata più volte in ogni campione bootstrap.
2. **Ripetizione del processo**: si ripete il processo di campionamento molte volte (tipicamente 1000 o più iterazioni).
3. **Calcolo delle statistiche**: su ogni campione estratto si calcola la statistica di interesse (es. media, mediana, varianza).
4. **Distribuzione delle statistiche**: dopo aver generato molti valori della statistica, possiamo approssimare la sua distribuzione empirica.
5. **Stima dell'incertezza**: si usano i dati ottenuti per calcolare errori standard, intervalli di confidenza e altre misure di incertezza.

## **Esempio pratico con Python**

Utilizziamo Python per implementare il bootstrap su dati generati da una distribuzione esponenziale.

### **Passo 1: Importazione delle librerie**
```python
import numpy as np
import matplotlib.pyplot as plt
```

### **Passo 2: Creazione del dataset**
Per il nostro esempio, generiamo 100 dati da una distribuzione **esponenziale** con parametro \( \lambda = 1/3 \).
```python
np.random.seed(42)  # Per rendere i risultati riproducibili
lambda_param = 1 / 3

# Generazione dei dati
n_samples = 100
data = np.random.exponential(scale=1/lambda_param, size=n_samples)
```

### **Passo 3: Implementazione del Bootstrap**
Scriviamo una funzione che esegua il ri campionamento bootstrap e calcoli la statistica desiderata (in questo caso la **mediana**).
```python
def bootstrap_resample(data, statistic_func, n_bootstrap_samples):
    """
    Esegue il Bootstrap per stimare la distribuzione di una statistica.
    
    Parametri:
    - data: array di dati originali
    - statistic_func: funzione statistica da applicare ai campioni
    - n_bootstrap_samples: numero di campioni bootstrap da generare
    
    Ritorna:
    - Un array contenente i valori della statistica su ogni campione bootstrap
    """
    bootstrap_stats = []
    n = len(data)
    
    for _ in range(n_bootstrap_samples):
        sample = np.random.choice(data, size=n, replace=True)  # Estrazione con riposizionamento
        bootstrap_stats.append(statistic_func(sample))
    
    return np.array(bootstrap_stats)
```

### **Passo 4: Calcolo dell'errore standard e intervallo di confidenza**
Ora applichiamo il metodo per stimare la distribuzione della mediana dei dati e calcolare un **intervallo di confidenza del 95%**.
```python
n_bootstrap_samples = 10000  # Numero di campioni bootstrap
bootstrap_medians = bootstrap_resample(data, np.median, n_bootstrap_samples)

# Calcolo dell'errore standard
standard_error = np.std(bootstrap_medians)

# Intervallo di confidenza al 95%
ci_lower = np.percentile(bootstrap_medians, 2.5)
ci_upper = np.percentile(bootstrap_medians, 97.5)

print(f"Bootstrap Standard Error: {standard_error:.3f}")
print(f"95% Bootstrap Confidence Interval: [{ci_lower:.3f}, {ci_upper:.3f}]")
```
#### **Risultati attesi (variano leggermente a seconda del campione generato):**
```
Bootstrap Standard Error: 0.345
95% Bootstrap Confidence Interval: [1.193, 2.520]
```

### **Passo 5: Visualizzazione della distribuzione bootstrap**
Per avere un'idea della distribuzione della mediana stimata:
```python
plt.hist(bootstrap_medians, bins=30, edgecolor='black', alpha=0.7)
plt.axvline(ci_lower, color='red', linestyle='dashed', label='2.5 percentile')
plt.axvline(ci_upper, color='red', linestyle='dashed', label='97.5 percentile')
plt.xlabel('Mediana Bootstrap')
plt.ylabel('Frequenza')
plt.title('Distribuzione Bootstrap della Mediana')
plt.legend()
plt.show()
```

## **Vantaggi del Bootstrap**
- **Non richiede ipotesi sulla distribuzione**: Funziona bene anche quando la distribuzione dei dati è sconosciuta.
- **Facile da implementare**: Non richiede formule matematiche complesse.
- **Adattabile a molte statistiche**: Può essere usato per medie, mediane, deviazioni standard e molte altre metriche.
- **Utile per piccoli campioni**: Permette di ottenere stime affidabili anche quando il dataset è ridotto.

## **Svantaggi e Limiti**
- **Computazionalmente intensivo**: Richiede molte iterazioni, quindi è più lento rispetto ai metodi analitici tradizionali.
- **Non sempre applicabile**: Se i dati hanno forte dipendenza tra loro (es. serie temporali), il metodo potrebbe non essere affidabile.

## **Conclusione**
Il Bootstrap è una tecnica estremamente potente e flessibile per stimare la distribuzione di una statistica e costruire intervalli di confidenza senza fare forti assunzioni sui dati. Grazie alla sua semplicità e robustezza, è uno strumento essenziale nell'analisi dei dati e nella statistica computazionale.



# Test delle ipotesi e t-test

## Introduzione
Il **test delle ipotesi** (
Hypothesis Testing) è una tecnica statistica utilizzata per valutare se un'asserzione riguardante un insieme di dati è supportata dall'evidenza empirica.
Esistono diversi tipi di test di significatività, che variano a seconda del tipo di dati, del numero di campioni e della misura che si desidera confrontare.
Uno dei test più comuni è il **t-test**, utilizzato per confrontare le medie di due gruppi quando i dati sono numerici e seguono una distribuzione normale.

---
## Definizione delle ipotesi
Prima di condurre un test statistico, si formulano due ipotesi:
- **Ipotesi nulla (H₀)**: afferma che non c'è differenza significativa tra i gruppi.
- **Ipotesi alternativa (H₁)**: afferma che esiste una differenza significativa tra i gruppi.

Nel caso del nostro esempio:
- **H₀**: Il trattamento non ha effetto sulla pressione sanguigna (le due medie sono uguali).
- **H₁**: Il trattamento ha un effetto sulla pressione sanguigna (le due medie sono diverse).

---
## Il t-test per il confronto delle medie
Il **t-test indipendente** (
t-test for independent samples) viene utilizzato quando vogliamo confrontare le medie di due gruppi indipendenti tra loro.

La formula del test t è:
\[$
t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$\]
dove:
- \($\bar{X_1}\) e \(\bar{X_2}$\) sono le medie dei due gruppi,
- \($s_1^2\) e \(s_2^2$\) sono le varianze campionarie,
- \($n_1\) e \(n_2$\) sono le dimensioni campionarie dei due gruppi.

Il valore di t ottenuto viene confrontato con una distribuzione **t di Student** per determinare se la differenza tra le medie è statisticamente significativa.

---
## Implementazione in Python
Eseguiamo ora un esempio pratico con Python utilizzando `numpy` e `scipy.stats`.

```python
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

# Impostiamo il seed per la riproducibilità
np.random.seed(42)

# Definiamo la dimensione del campione
sample_size = 50

# Generiamo dati casuali per due gruppi
placebo_group = np.random.normal(loc=120, scale=10, size=sample_size)  # Media 120, deviazione standard 10
treatment_group = np.random.normal(loc=115, scale=10, size=sample_size)  # Media 115, deviazione standard 10

# Calcoliamo il test t
t_stat, p_value = stats.ttest_ind(placebo_group, treatment_group)

# Definiamo il livello di significatività
alpha = 0.05

# Interpretazione del risultato
test_result = "Reject H0" if p_value < alpha else "Failed to reject H0"
print(test_result)

# Visualizziamo la distribuzione t con le regioni critiche
x = np.linspace(-4, 4, 1000)
pdf = stats.t.pdf(x, df=len(placebo_group) + len(treatment_group) - 2)

# Valori critici per il test a due code
t_critical_two_tailed = stats.t.ppf(1 - alpha / 2, df=len(placebo_group) + len(treatment_group) - 2)

# Grafico
plt.plot(x, pdf, label="t-Distribution", color="blue")
plt.fill_between(x, pdf, where=(x <= -t_critical_two_tailed) | (x >= t_critical_two_tailed),
                 color="red", alpha=0.5, label="Rejection Region")
plt.axvline(-t_critical_two_tailed, color="red", linestyle="--", label=f"Critical Value (-{t_critical_two_tailed:.2f})")
plt.axvline(t_critical_two_tailed, color="red", linestyle="--", label=f"Critical Value (+{t_critical_two_tailed:.2f})")
plt.axvline(t_stat, color="green", linestyle="--", label=f"Test Statistic ({t_stat:.2f})")
plt.title("Two-Tailed Test (H₀: No BP Difference)")
plt.legend()
plt.show()
```

---
## Interpretazione dei risultati
Dopo aver eseguito il codice, otteniamo:
1. **Valore di t-statistic**: misura la distanza tra le due medie rispetto alla variabilità dei dati.
2. **p-value**: indica la probabilità di ottenere un risultato uguale o più estremo sotto l'ipotesi nulla.
3. **Decisione**:
   - Se \($p < \alpha$\), rifiutiamo H₀ (evidenza a favore dell'effetto del trattamento).
   - Se \($p \geq \alpha$\), non possiamo rifiutare H₀ (non abbiamo abbastanza evidenza per affermare che il trattamento abbia effetto).

Nel nostro esempio, il test potrebbe concludere con **"Failed to reject H0"**, suggerendo che non ci sia abbastanza evidenza per affermare che il trattamento abbia un effetto significativo sulla pressione sanguigna.

---
## Conclusione
Il **t-test** è uno strumento potente per confrontare le medie di due gruppi indipendenti. Tuttavia, bisogna assicurarsi che le sue **assunzioni** siano soddisfatte:
- **Normalità**: i dati devono seguire una distribuzione normale (verificabile con un test di Shapiro-Wilk o un grafico Q-Q).
- **Omogeneità delle varianze**: le varianze dei due gruppi dovrebbero essere simili (verificabile con il test di Levene o Bartlett).

Se queste condizioni non sono rispettate, si possono usare test alternativi come il **test di Mann-Whitney U** o test di permutazione.

Questa lezione offre una panoramica dettagliata del t-test e della sua implementazione in Python, utile per chiunque voglia approfondire l'analisi statistica nei dati biomedici e farmaceutici.



**Test di Ipotesi**

Il test di ipotesi è un concetto fondamentale in statistica che aiuta a determinare se ci sono prove sufficienti in un campione per inferire una particolare condizione su una popolazione. Esistono numerosi tipi di test di significatività, a seconda del tipo di dati, del numero di campioni e di cosa si sta misurando.

Uno dei test più comuni è il **t-test**, utilizzato per confrontare due set di dati numerici.

### **Esempio: t-test per l'analisi della pressione sanguigna**

Supponiamo che stiamo testando un nuovo trattamento per vedere se ha un effetto sulla pressione sanguigna. Le nostre ipotesi nulla e alternativa sono:

- **H₀ (Ipotesi Nulla):** Il trattamento non ha effetto sulla pressione sanguigna.
- **H₁ (Ipotesi Alternativa):** Il trattamento ha effetto sulla pressione sanguigna.

#### **Generazione dei Dati del Campione**
```python
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

np.random.seed(42)

dimensione_campione = 50
gruppo_placebo = np.random.normal(loc=120, scale=10, size=dimensione_campione)
gruppo_trattamento = np.random.normal(loc=115, scale=10, size=dimensione_campione)
```

#### **Esecuzione del t-test Indipendente**
```python
t_stat, p_value = stats.ttest_ind(gruppo_placebo, gruppo_trattamento)
```

#### **Decisione (Test a Due Code)**
```python
alpha = 0.05
if p_value < alpha:
    print("Rifiutiamo H₀")
else:
    print("Non possiamo rifiutare H₀")
```

#### **Visualizzazione della distribuzione t**
```python
x = np.linspace(-4, 4, 1000)
pdf = stats.t.pdf(x, df=len(gruppo_placebo) + len(gruppo_trattamento) - 2)

t_critico_due_code = stats.t.ppf(1 - alpha / 2, df=len(gruppo_placebo) + len(gruppo_trattamento) - 2)

plt.plot(x, pdf, label="Distribuzione t", color="blue")
plt.fill_between(x, pdf, where=(x <= -t_critico_due_code) | (x >= t_critico_due_code),
                 color="red", alpha=0.5, label="Zona di Rifiuto")
plt.axvline(-t_critico_due_code, color="red", linestyle="--", label=f"Valore Critico (-{t_critico_due_code:.2f})")
plt.axvline(t_critico_due_code, color="red", linestyle="--", label=f"Valore Critico (+{t_critico_due_code:.2f})")
plt.axvline(t_stat, color="green", linestyle="--", label=f"Statistica del Test ({t_stat:.2f})")
plt.title("Test a Due Code (H₀: Nessuna Differenza BP)")
plt.legend()
plt.show()
```

**Interpretazione:** Se la statistica del test cade nella zona di rifiuto (in rosso), rifiutiamo H₀; altrimenti, non possiamo rifiutarla.

---

### **t-test a Una Coda**
Se vogliamo testare se il trattamento **abbassa** la pressione sanguigna (non solo se ha effetto in qualche modo), eseguiamo un **test a una coda**:

```python
p_value_una_coda = p_value / 2

if p_value_una_coda < alpha:
    print("Rifiutiamo H₀")
else:
    print("Non possiamo rifiutare H₀")
```

#### **Visualizzazione del Test a Una Coda**
```python
t_critico_una_coda = stats.t.ppf(1 - alpha, df=len(gruppo_placebo) + len(gruppo_trattamento) - 2)

plt.plot(x, pdf, label="Distribuzione t", color="blue")
plt.fill_between(x, pdf, where=(x <= -t_critico_una_coda), color="red", alpha=0.5, label="Zona di Rifiuto")
plt.axvline(-t_critico_una_coda, color="red", linestyle="--", label=f"Valore Critico ({-t_critico_una_coda:.2f})")
plt.axvline(t_stat, color="green", linestyle="--", label=f"Statistica del Test ({t_stat:.2f})")
plt.title("Test a Una Coda (H₀: BP Non Inferiore)")
plt.legend()
plt.show()
```

---

### **Errore di Tipo I e Tipo II**
- **Errore di Tipo I (Falso Positivo):** Rifiutare erroneamente un'ipotesi nulla vera.
- **Errore di Tipo II (Falso Negativo):** Non rifiutare un'ipotesi nulla falsa.
- **Potenza del Test:** La probabilità di rifiutare correttamente H₀ quando H₁ è vera.

#### **Analisi della Potenza per il t-test**
```python
import statsmodels.stats.power as smp

dimensione_effetto = 0.5  # Dimensione dell'effetto media
potenza = 0.8

dimensione_campione = smp.tt_ind_solve_power(effect_size=dimensione_effetto, alpha=alpha, power=potenza, alternative='two-sided')
dimensione_campione_una_coda = smp.tt_ind_solve_power(effect_size=dimensione_effetto, alpha=alpha, power=potenza, alternative='larger')

print(f"Dimensione del campione richiesta per una potenza dell'80%: {dimensione_campione:.0f}")
print(f"Dimensione del campione richiesta per una potenza dell'80% nel caso a una coda: {dimensione_campione_una_coda:.0f}")
```

---

### **ANOVA (Analisi della Varianza)**
Per confrontare più di due gruppi, utilizziamo **ANOVA**, basato sulla **statistica F**.

```python
np.random.seed(42)

dieta_1 = np.random.normal(loc=5, scale=2, size=30)
dieta_2 = np.random.normal(loc=6, scale=2, size=30)
dieta_3 = np.random.normal(loc=7, scale=2, size=30)

f_stat, p_value_anova = stats.f_oneway(dieta_1, dieta_2, dieta_3)

print(f"Statistica F ANOVA: {f_stat:.3f}, p-value: {p_value_anova:.3f}")
```

Se il p-value è inferiore a 0.05, rifiutiamo H₀ e concludiamo che almeno una media di gruppo è significativamente diversa.

---

### **Test Chi-Square per Dati Categoriali**
Per i dati categoriali, utilizziamo il **test chi-quadrato** per verificare se c'è un'associazione tra variabili.

```python
from scipy.stats import chi2_contingency

osservato = np.array([[50, 30],
                      [20, 60]])

chi2, p_value, _, _ = chi2_contingency(osservato)

if p_value < 0.05:
    print("Rifiutiamo H₀: C'è un'associazione significativa tra genere e preferenza di voto.")
else:
    print("Non possiamo rifiutare H₀: Nessuna associazione significativa rilevata.")
```

Se il p-value è maggiore di 0.05, **non rifiutiamo** H₀, il che significa che non c'è una relazione significativa tra le due variabili.

### Correlazione Lineare vs Monotonica

1. **Introduzione alla Correlazione**  
La correlazione è una misura statistica che descrive la forza e la direzione della relazione tra due variabili. È un concetto fondamentale nell'analisi dei dati, poiché consente di comprendere come due variabili si influenzano reciprocamente.

Esistono diversi tipi di correlazione, ma i più comuni sono la correlazione lineare e la correlazione monotona. Questi due tipi di correlazione vengono utilizzati in contesti diversi e hanno applicazioni specifiche.

2. **Correlazione Lineare**  
La correlazione lineare è una relazione tra due variabili che segue una retta. In altre parole, quando due variabili sono correlate linearmente, il cambiamento in una variabile è associato a un cambiamento costante nell'altra variabile. Ad esempio, se una variabile aumenta, anche l'altra aumenterà (o diminuirà) in modo prevedibile.

Il coefficiente di correlazione di Pearson è la misura più comune per calcolare la correlazione lineare. Esso assume valori compresi tra -1 e +1:

- **+1**: correlazione positiva perfetta (le variabili aumentano insieme in modo proporzionale).
- **-1**: correlazione negativa perfetta (una variabile aumenta mentre l'altra diminuisce in modo proporzionale).
- **0**: nessuna correlazione lineare.

Matematicamente, il coefficiente di Pearson è definito come:

\[$
r = \frac{n \sum{x y} - \left( \sum{x} \right) \left( \sum{y} \right)}{\sqrt{n \sum{x^2} - \left( \sum{x} \right)^2} \cdot \sqrt{n \sum{y^2} - \left( \sum{y} \right)^2}}
$\]

3. **Correlazione Monotona**  
La correlazione monotona indica una relazione tra due variabili in cui una variabile tende a crescere o decrescere in modo coerente con l'altra, ma non necessariamente in modo lineare. La funzione che lega le due variabili può essere crescente o decrescente, ma la velocità di cambiamento può non essere costante, come avviene nella correlazione lineare.

Il coefficiente di correlazione di Spearman è utilizzato per misurare la correlazione monotona. La correlazione di Spearman si basa sui ranghi (o posizioni) delle variabili, piuttosto che sui loro valori reali. Anche in questo caso, i valori del coefficiente vanno da -1 a +1:

- **+1**: relazione monotona crescente perfetta.
- **-1**: relazione monotona decrescente perfetta.
- **0**: nessuna correlazione monotona.

4. **Differenze tra Correlazione Lineare e Monotona**

- **Linearità**: La correlazione lineare implica che la relazione tra le variabili sia una retta, mentre la correlazione monotona non richiede una relazione retta.
- **Tipo di relazione**: La correlazione lineare misura la relazione in cui il cambiamento di una variabile corrisponde a un cambiamento costante nell'altra variabile. La correlazione monotona, invece, non richiede questa costanza nel cambiamento, ma solo che l'ordine delle variabili sia coerente.
- **Resistenza ai valori anomali (outliers)**: La correlazione di Pearson è più sensibile agli outliers rispetto alla correlazione di Spearman. Se ci sono dati anomali che deviano la relazione lineare, il coefficiente di Pearson potrebbe non essere un buon indicatore, mentre il coefficiente di Spearman può essere più robusto.

5. **Esempio Pratico con Codice Python**  
Nel codice seguente, esploreremo un esempio di dati con una relazione monotona ma non lineare tra due variabili. I dati seguiranno una funzione esponenziale, ma con l'aggiunta di rumore casuale per simulare un comportamento più realistico.

```python
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr, spearmanr

# Creiamo un dataset con una relazione monotona ma non lineare
x = np.linspace(0, 10, 100)
y = np.exp(x) + np.random.normal(0, 50, size=len(x))  # Relazione esponenziale con rumore

# Calcoliamo i coefficienti di Pearson e Spearman
pearson_coeff, _ = pearsonr(x, y)
spearman_coeff, _ = spearmanr(x, y)

# Creiamo il grafico dei dati
plt.scatter(x, y, label=f'Pearson Coefficient: {pearson_coeff:.2f}, Spearman Coefficient: {spearman_coeff:.2f}')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.grid(True)
plt.show()
```

5.1 **Descrizione del Codice**

- **Generazione dei Dati**: In questo esempio, abbiamo creato una variabile `x` che va da 0 a 10 e una variabile `y` che segue una relazione esponenziale con `x`, aggiungendo un po' di rumore casuale per rendere il modello più realistico.
- **Calcolo dei Coefficienti di Correlazione**:
  - Il coefficiente di Pearson è calcolato con `pearsonr(x, y)`, che restituisce una misura di quanto la relazione tra `x` e `y` sia lineare.
  - Il coefficiente di Spearman è calcolato con `spearmanr(x, y)`, che misura la forza della relazione monotona tra `x` e `y`, anche se non è lineare.
- **Visualizzazione dei Dati**: Abbiamo visualizzato i dati tramite un grafico a dispersione (scatter plot) per esaminare la relazione tra `x` e `y`.

5.2 **Interpretazione del Grafico**

Nel grafico, possiamo osservare come i punti siano distribuiti lungo una curva crescente, ma non seguano una retta. Questo suggerisce una relazione monotona crescente, ma non lineare.

- **Coefficiente di Pearson**: Il coefficiente di Pearson potrebbe essere relativamente basso (approssimativamente vicino a 0) poiché la relazione non è lineare.
- **Coefficiente di Spearman**: Il coefficiente di Spearman sarà invece più alto, indicando che, anche se la relazione non è lineare, le variabili tendono a seguire un ordine crescente coerente.

6. **Conclusione**  
La correlazione lineare è adatta per dati che mostrano una relazione diretta e proporzionale, mentre la correlazione monotona è utile per misurare relazioni che non sono lineari, ma che comunque seguono un comportamento monotono (ovvero, un aumento o una diminuzione costante).  
La correlazione di Pearson è più adatta per dati lineari, mentre la correlazione di Spearman è più robusta e utile per dati con una relazione monotona non lineare.  
In conclusione, scegliere tra Pearson e Spearman dipende dalla natura dei dati che si stanno analizzando e dal tipo di relazione che si ipotizza tra le variabili.