## Test de la $\chi^2$

El test de la $\chi^2$ ens permet comparar les proporcions observades amb les esperades d'acord amb alguna hipòtesi. Exemples de possibles aplicacins:

- Comprovar si els sis codons que codifiquen la serina apareixen amb la mateixa freqüència (1/6) en un genoma.
- Comprovar si els sis codons que codifiquen la serina apareixen en les proporcions esperades d'acord amb les freqüències dels nucleòtids que els composen.
- Comprovar si dues variables categòriques (e.g., l'ús d'ulleres i el gènere) estan associades o són independents.
- Comprovar si la descendència d'un creuament presenta una distribució de fenotips com l'esperada d'un creuament trihíbrid.

### La hipòtsi

Creuem dues plantes amb pésols grocs i llisos i amb flors lila. Sospitem que els tres caràcters estan determinats per tres gens en cromosomes diferents, i que els fenotips parentals són els dominants. Si la nostra hipòtesi és correcta esperem observar en la descendència plantes de 8 fenotips diferents, amb les proporcions següents:

  | Freqüència esperada | Fenotip                                   |
  | ------------------- | ----------------------------------------- |
  | 27 / 64             | Fruits grocs, pell llisa, flors violeta   |
  |  9 / 64             | Fruits grocs, pell llisa, flors blanques  |
  |  9 / 64             | Fruits grocs, pell rugosa, flors violeta  |
  |  9 / 64             | Fruits verds, pell llisa, flors violeta   |
  |  3 / 64             | Fruits grocs, pell rugosa, flors blanques |
  |  3 / 64             | Fruits verds, pell llisa, flors blanques  |
  |  3 / 64             | Fruits verds, pell rugosa, flors violeta  |
  |  1 / 64             | Fruits verds, pell rugosa, flors blanques |

### Les dades

Observem les freqüències següents entre la descendència:

  | Freqüència observada | Fenotips                                  |
  | -------------------- | ----------------------------------------- |
  |              72      | Fruits grocs, pell llisa, flors violeta   |
  |              72      | Fruits grocs, pell llisa, flors blanques  |
  |              27      | Fruits grocs, pell rugosa, flors violeta  |
  |              23      | Fruits verds, pell llisa, flors violeta   |
  |              23      | Fruits grocs, pell rugosa, flors blanques |
  |              19      | Fruits verds, pell llisa, flors blanques  |
  |              11      | Fruits verds, pell rugosa, flors violeta  |
  |               3      | Fruits verds, pell rugosa, flors blanques |
  

In [1]:
Observades <- c(72, 72, 27, 23, 23, 19, 11, 3)
Observades

### L'estadístic

$X = \sum_{i=1}^{i=n}\frac{(O_i - E_i)^2}{E}$

In [3]:
Total = sum(Observades)
Esperades = Total * c(27/64, 9/64, 9/64, 9/64, 3/64, 3/64, 3/64, 1/64)
Esperades

In [4]:
X <- sum((Observades - Esperades) ^2 / Esperades)
X

L'estadístic ha estat calculat amb 7 graus de llibertat (8 classes fenotípiques o *dades*, menys un grau de llibertat consumit en el càlcul del número total d'individus). Per tant hem de comparar el seu valor amb la distribució $\chi^2_7$. Puc utilitzar la funció `pchisq()` per obtenir la probabilitat acumulada de tots els valors menors o iguals a l'obtingut (si `lower.tail = TRUE`) o bé la probabilitat deixada a la dreta, la de tots els valors majors a l'obtingut (si `lower.tail = FALSE`). Aquesta última és el *valor p*. És la probabilitat d'obtenir per casualitat un valor de l'estadístic igual o superior a l'observat si la hipòtesi nul·la és certa.

In [5]:
pchisq(X, df = 7, lower.tail = FALSE)

Com que el valor *p* és molt baix, rebutgem la hipòtesi nul·la i busquem alguna explicació alternativa. Aleshores, repassant les dades, t'adones que en realitat el creuament no era entre dues plantes amb pésols grocs i llisos i amb flors violeta, sinó que una de les plantes tenia en realitat les flors blanques!

Com modificaries aleshores la hipòtesi? Ets capaç de comprovar una nova hipòtesi?