<a href="https://colab.research.google.com/github/NikolayNikolaev1982/categorical_models/blob/main/video_lezione_1_chatGPT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Modello ANOVA a 1 via in forma matriciale

L'obiettivo di questa sezione è esprimere il modello ANOVA a 1 via (One-Way ANOVA) utilizzando la notazione matriciale del **Modello Lineare Generale** (GLM - General Linear Model). Questo approccio consente una formulazione più compatta e generale, utile per estensioni e implementazioni computazionali.

### Forma generale del modello

Il modello ANOVA a 1 via può essere scritto, per osservazioni indicizzate da $i = 1, \dots, n_j$ (unità nella categoria $j$) e per $j = 1, \dots, k$ (categorie), nella forma:

$$
Y_{ij} = \mu + \alpha_j + \epsilon_{ij}
$$

Dove:
- $Y_{ij}$ è la risposta osservata per l'unità $i$ nella categoria $j$;
- $\mu$ è la media generale;
- $\alpha_j$ è l'effetto della categoria $j$;
- $\epsilon_{ij}$ è l'errore casuale.

In forma matriciale, il modello si scrive come:

$$
Y_{n \times 1} = X_{n \times p} \beta_{p \times 1} + \epsilon_{n \times 1}
$$

Dove:
- $Y$ è il vettore delle osservazioni (variabili casuali);
- $X$ è la **matrice disegno** (design matrix) che struttura il contributo di ciascun parametro;
- $\beta$ è il vettore dei parametri da stimare;
- $\epsilon$ è il vettore degli errori casuali.

### Significato delle componenti

- $Y$: vettore colonna $n \times 1$ contenente tutte le osservazioni campionarie;
- $\epsilon$: vettore colonna $n \times 1$ degli errori del modello;
- $\beta$: vettore colonna $p \times 1$ dei parametri ignoti (inclusa la media e gli effetti delle categorie);
- $X$: matrice disegno $n \times p$, con $n > p$ in genere.

### Struttura della matrice disegno $X$ nel caso ANOVA a 1 via

Esempio con $k=3$ categorie $s_1, s_2, s_3$, con $n_j = \bar{n} = 2$ osservazioni per categoria, quindi $n = 6$.

Il sistema di equazioni è:

- $Y_{11} = \mu + \alpha_1 + \epsilon_{11}$
- $Y_{21} = \mu + \alpha_1 + \epsilon_{21}$
- $Y_{12} = \mu + \alpha_2 + \epsilon_{12}$
- $Y_{22} = \mu + \alpha_2 + \epsilon_{22}$
- $Y_{13} = \mu + \alpha_3 + \epsilon_{13}$
- $Y_{23} = \mu + \alpha_3 + \epsilon_{23}$

Il vettore delle osservazioni è:

$$
Y = [Y_{11}, Y_{21}, Y_{12}, Y_{22}, Y_{13}, Y_{23}]^T
$$

Il vettore degli errori è:

$$
\epsilon = [\epsilon_{11}, \epsilon_{21}, \epsilon_{12}, \epsilon_{22}, \epsilon_{13}, \epsilon_{23}]^T
$$

Il vettore dei parametri è:

$$
\beta = [\mu, \alpha_1, \alpha_2, \alpha_3]^T
$$

La matrice disegno sarà quindi:

$$
X = \begin{bmatrix}
1 & 1 & 0 & 0 \\
1 & 1 & 0 & 0 \\
1 & 0 & 1 & 0 \\
1 & 0 & 1 & 0 \\
1 & 0 & 0 & 1 \\
1 & 0 & 0 & 1 \\
\end{bmatrix}
$$

Ogni riga corrisponde a una osservazione, e i valori binari indicano quali effetti sono presenti.

---

### Problema del rango della matrice $X$

La matrice $X$ ha $p = k + 1 = 4$ colonne, ma una di esse può essere espressa come combinazione lineare delle altre (a causa della dipendenza lineare tra la media generale e gli effetti delle categorie):

$$
\text{rank}(X) = 3 < 4 = p
$$

**Conseguenza:** la matrice $X$ **non ha rango pieno**, quindi:

$$
\det(X^TX) = 0 \Rightarrow X^TX \text{ non è invertibile}
$$

---

### GLM: General Linear Model

Il modello ANOVA con rango non pieno rientra nei **modelli lineari generali**, che si esprimono con:

$$
Y = X\beta + \epsilon
$$

con le seguenti **ipotesi sul modello**:

- a. $E[\epsilon] = 0$ (errore centrato in media)
- b. $V[\epsilon] = \sigma^2 I_n$ (omoscedasticità e indipendenza degli errori)
- c. $X$ matrice deterministica **a rango non pieno**
- d. $\epsilon \sim N_n(0, \sigma^2 I_n)$ (normalità multivariata degli errori)

---

### Implicazioni per la stima

Nel modello classico (CLM), con $X$ a rango pieno:

$$
\hat{\beta} = (X^TX)^{-1}X^TY
$$

Ma nel GLM:

- $\text{rank}(X) = k < p$;
- $(X^TX)$ è singolare;
- Non è possibile calcolare $(X^TX)^{-1}$.

Quindi, **non è possibile usare direttamente il metodo dei minimi quadrati ordinari (OLS)** per stimare $\beta$.

---

### Come stimare $\beta$ nel GLM?

Due soluzioni:

1. **Minimi quadrati con vincoli** (constrained OLS - COLS): si impongono condizioni come $\sum \alpha_j = 0$ per rendere il problema identificabile.
2. **Uso dell’inversa generalizzata (Moore-Penrose):** consente di calcolare una stima anche in assenza di inversa standard.

---

### Ipotesi sul vettore casuale $Y$

A partire dal modello $Y = X\beta + \epsilon$, otteniamo:

- a. $E[Y] = X\beta$
- b. $V[Y] = \sigma^2 I_n$
- c. $Y \sim N_n(X\beta, \sigma^2 I_n)$

Queste ipotesi permettono l’inferenza statistica su $Y$ anche se $\beta$ non è univocamente determinato.

---

### In sintesi

Il modello ANOVA a 1 via può essere espresso nella forma generale del modello lineare, ma la presenza di **collinearità** tra i predittori rende il problema **non identificabile senza ulteriori vincoli**. È quindi necessario:
- Modificare il modello con **vincoli** (es. somma a zero);
- Oppure usare **strumenti come l’inversa generalizzata**.

Queste strategie sono fondamentali per procedere con la stima dei parametri e le analisi successive, come il test F per il confronto tra gruppi.

---


## Approccio COLS (Constrained Ordinary Least Squares) – Cenni

Nel caso di **modelli lineari non a rango pieno** come l’ANOVA a 1 via, non è possibile stimare i parametri del modello usando direttamente la formula dei minimi quadrati ordinari (OLS), poiché la matrice $X^TX$ **non è invertibile**.

Per superare questo ostacolo, si ricorre all’approccio **COLS**, ovvero **minimi quadrati vincolati**, che prevede l’aggiunta di **vincoli lineari** per ottenere un sistema identificabile.

---

### Problema di rango

Nel modello GLM per ANOVA a 1 via:

- $\text{rank}(X) = k < p$, dove $p$ è il numero dei parametri e $k$ il rango effettivo di $X$.
- Questo significa che si perdono $p - k$ **unità di rango**.
- Il sistema di equazioni normali ha quindi solo $k$ equazioni linearmente indipendenti in $p$ incognite.

> 🔧 **Soluzione COLS:** aggiungere $p - k$ **vincoli lineari** al sistema per completare il numero di equazioni.

---

### Due modi per definire i vincoli lineari

#### A. Vincoli a somma nulla (*sum-to-zero constraints*)

Questa strategia impone che **la somma degli effetti di gruppo sia nulla**. È molto comune in ANOVA classica, specialmente con dati bilanciati.

#### Esempio: One-Way ANOVA bilanciata

Supponiamo:
- $k = 3$ gruppi,
- $n_j = \bar{n} = \frac{n}{3}$ osservazioni per gruppo,
- $X$ è una matrice $n \times 4$, ma $\text{rank}(X) = 3 < 4$.

Dunque, è necessario **1 vincolo lineare** ($p - k = 1$) per rendere il sistema identificabile.

Applichiamo il vincolo:

$$
\alpha_1 + \alpha_2 + \alpha_3 = 0
$$

In forma generale:

$$
\sum_{j=1}^k \alpha_j = 0
$$

Questo vincolo consente di esprimere $\alpha_k$ in funzione degli altri:

$$
\alpha_k = -\sum_{j=1}^{k-1} \alpha_j
$$

> ✅ Si stima quindi solo $k - 1$ effetti di gruppo.

---

#### Caso: dati **non bilanciati** ($n_j \ne n_l$ per almeno una coppia)

Nel caso di dati non bilanciati, si applica un **vincolo a somma ponderata**:

$$
\sum_{j=1}^k n_j \alpha_j = 0
$$

dove $n_j$ è il numero di osservazioni nel gruppo $j$.

Come prima, si può risolvere rispetto a $\alpha_k$:

$$
n_k \alpha_k = -\sum_{j=1}^{k-1} n_j \alpha_j \Rightarrow \alpha_k = -\frac{1}{n_k} \sum_{j=1}^{k-1} n_j \alpha_j
$$

> ✅ Anche in questo caso, si stimano $k - 1$ effetti, e il restante è ottenuto per complementarità.

##### Esempio concreto:

- $k = 3$
- Dati non bilanciati: $n_1, n_2, n_3$ differenti

Si impone:

$$
n_1\alpha_1 + n_2\alpha_2 + n_3\alpha_3 = 0
$$

Allora:

$$
\alpha_3 = -\frac{1}{n_3}(n_1\alpha_1 + n_2\alpha_2)
$$

---

### B. Vincoli di tipo *set-to-zero*

Un’alternativa al vincolo a somma nulla è fissare **uno degli effetti a zero**. È molto usata in ambito software, ad esempio in SAS.

> ❗ Di default, SAS impone $\alpha_k = 0$

In questo caso:

- Si stima $\mu$ e $\alpha_1, \dots, \alpha_{k-1}$
- $\alpha_k$ è fissato a zero e funge da **gruppo di riferimento**

#### Vantaggio:

- **Nessuna distinzione tra dati bilanciati e non bilanciati**.
- Il vincolo $\alpha_j = 0$ è valido in ogni caso, perché $n_j \ne 0$ garantisce che $n_j \alpha_j = 0 \Leftrightarrow \alpha_j = 0$.

---

### In sintesi

| Metodo           | Vincolo                               | Note |
|------------------|----------------------------------------|------|
| Sum-to-zero      | $\sum_{j=1}^k \alpha_j = 0$            | Preferibile con dati bilanciati |
| Set-to-zero      | $\alpha_j = 0$ per $j$ fissato         | Usato in software; valido in ogni caso |

L’obiettivo in entrambi i casi è **rendere il modello identificabile**, cioè ottenere una stima unica per i parametri $\beta$.

---


## Struttura della popolazione e struttura del campione

In questa sezione discutiamo il rapporto tra la **struttura della popolazione** e quella del **campione osservato**, in particolare quando le unità statistiche appartengono a categorie (o gruppi) discreti.

---

### Popolazione statistica

Sia $P$ la **popolazione di riferimento**, composta da $N$ unità statistiche.

Sia $S$ una **variabile categorica** con $k$ categorie, ad esempio:

$$
s_1, s_2, \dots, s_k
$$

Le unità della popolazione sono suddivise in $k$ **sottopopolazioni** in base ai livelli della variabile $S$.

#### Struttura teorica della popolazione $P$

| Categorie $s_j$         | $s_1$   | $\dots$ | $s_j$   | $\dots$ | $s_k$   |
|-------------------------|---------|---------|---------|---------|---------|
| Popolazione bilanciata | $\bar{N}$ | $\dots$ | $\bar{N}$ | $\dots$ | $\bar{N}$ |
| Popolazione non bilanciata | $N_1$   | $\dots$ | $N_j$   | $\dots$ | $N_k$   |

- Se la popolazione è **bilanciata**, allora tutte le sottopopolazioni hanno la stessa numerosità:
  
  $$
  \bar{N} = \frac{N}{k} \quad \Leftrightarrow \quad N = k \cdot \bar{N}
  $$

- In generale (anche per popolazione non bilanciata):

  $$
  \sum_{j=1}^k N_j = N
  $$

---

### Struttura del campione

Allo stesso modo, possiamo descrivere la **struttura del campione**:

| Categorie $s_j$       | $s_1$   | $\dots$ | $s_j$   | $\dots$ | $s_k$   |
|------------------------|---------|---------|---------|---------|---------|
| Campione bilanciato    | $\bar{n}$ | $\dots$ | $\bar{n}$ | $\dots$ | $\bar{n}$ |
| Campione non bilanciato| $n_1$   | $\dots$ | $n_j$   | $\dots$ | $n_k$   |

- Per campione bilanciato:

  $$
  \bar{n} = \frac{n}{k} \quad \Leftrightarrow \quad n = k \cdot \bar{n}
  $$

- In generale:

  $$
  \sum_{j=1}^k n_j = n
  $$

---

### Confronto tra struttura della popolazione e del campione

| Campione \ Popolazione | Bilanciata            | Non bilanciata                              |
|------------------------|-----------------------|---------------------------------------------|
| **Bilanciata**         | $\bar{N} \rightarrow \bar{n}$ (caso ideale) | $N_j \rightarrow \bar{n}$ |
| **Non bilanciata**     | $\bar{N} \rightarrow n_j$          | $N_j \rightarrow n_j$ (ideale se proporzionale) |

> 🔍 L'ideale teorico è quando **la struttura del campione riproduce quella della popolazione**, cioè $n_j \propto N_j$.

---

### Considerazioni pratiche

#### Versante della **popolazione**:

1. **La struttura della popolazione è spesso ignota**:
   - Non sempre si sa se la popolazione sia bilanciata o meno.
2. Anche conoscendo che la popolazione è sbilanciata, **non si conoscono i valori $N_j$** per ciascun gruppo.
3. In alcuni casi **non si conosce neanche $N$**, la dimensione complessiva della popolazione.

#### Versante del **campione**:

1. **Il campione è spesso già dato** (es. studi osservazionali):
   - Non è possibile controllare le numerosità $n_j$ per ciascun gruppo.
   - Non è possibile controllare la dimensione complessiva $n$.
   - Quindi **non è possibile costruire a priori un campione bilanciato**.
   
2. Se **non si conosce nulla della popolazione $P$**, **non si può costruire un campione proporzionato** alle dimensioni $N_j$ delle sottopopolazioni.

---

### Tabella riassuntiva: struttura campione vs struttura popolazione

| Campione \ Popolazione | Bilanciata                      | Non bilanciata                                          |
|------------------------|----------------------------------|---------------------------------------------------------|
| **Bilanciata**         | $\bar{N} \rightarrow \bar{n}$ (ideale) | $N_j \rightarrow \bar{n}$ (non proporzionale)            |
| **Non bilanciata**     | $\bar{N} \rightarrow n_j$              | $N_j \rightarrow n_j$ (ideale se $n_j \propto N_j$ per ogni $j$) |

---

### Nota software

> ⚙️ **Impostazioni di default nei software statistici (es. SAS):**
>  
> Spesso assumono implicitamente che **la popolazione sia bilanciata** (prima colonna della tabella).
> Questo può influenzare l’inferenza se la struttura reale della popolazione è diversa.

---
