# Chi-Square Test for One Way Tables

---

## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.power import TTestIndPower

plt.style.use("fivethirtyeight")
%matplotlib inline

---

Nelle *one-way tables* le osservazioni sono classificate secondo una sola variabile categorica.

Facciamo un esempio con un esperimento famoso, basato sull'ereditarietà di un tipo di fiore. Si è creato un innesto a partire da due fiori diversi, generando quattro possibili combinazioni di petali e grani di polline. Il petalo poteva essere rosso o viola, mentre i grani rotondi o allungati.

Nell'esperimento sono state considerati 381 fiori, con la seguente distribuzione:
- Purple/Long: 284
- Purple/Round: 21
- Red/Long: 21
- Red/Round: 55

La teoria afferma che, se questi geni fossero ereditati in maniera indipendente, la proporzione attesa dei diversi fenotipi sarebbe $9:3:3:1$. Questa sarà l'ipotesi nulla, mentre l'ipotesi alternativa sarà che la proporzione attesa dei fenotipi sia diversa da $9:3:3:1$, come a voler dire che i geni in questione non sono ereditati in maniera indipendente!

Riscriviamo l'ipotesi nulla in forma probabilistica:

$$\large P(\text{Purple and Long})=9/16$$
$$\large P(\text{Purple and Round})=3/16$$
$$\large P(\text{Red and Long})=3/16$$
$$\large P(\text{Red and Round})=1/16$$

Ci chiediamo se gli **observed counts** differiscano da quelli attesi. Calcoliamo gli **expected counts** (sotto l'ipotesi nulla) moltiplicando le probabilità per il *sample size*:

$$\large Exp(\text{Purple and Long})=9/16\times381=214.3$$
$$\large Exp(\text{Purple and Round})=3/16\times381=71.4$$
$$\large Exp(\text{Red and Long})=3/16\times381=71.4$$
$$\large Exp(\text{Red and Round})=1/16\times381=23.8$$

La *test statistic* in questo scenario è la **chi-square statistic**:

$$\large \chi^2=\sum_{all\;cells}\frac{(Observed-Expected)^2}
{Expected}$$

Il numero di *df* per questa *chi-square*, nello scenario *one-way*, è pari al numero di *cells* (cioè di **categorie**) meno uno:

$$\large df = \#cells-1$$

In [2]:
observed = [284, 21, 21, 55]
expected = [214.3, 71.4, 71.4, 23.8]

chisq_statistic, p_value = stats.chisquare(
    f_obs = observed,
    f_exp = expected)

chisq_statistic, p_value

(134.7233568742476, 5.188534725175303e-29)

Ci sono prove molto forti che evidenziano come l'ereditarietà dei fenotipi non si verifichi con la proporzione attesa.

---