![imagenes](logo.png)

# Anova de un factor

Como hemos dicho, el ANOVA de un solo factor es una prueba de hipótesis para saber si las medias de cierta característica  $X$  de la población son iguales en cada una de las $k$ clases (niveles) en que se clasifica la población de acuerdo a una característica $F$ (factor).

Los supuestos para poderlo aplicar son los siguientes:

* Las muestras de cada subpoblación son independientes interna y externamente.
* Cada una de las subpoblaciones son gaussianas.
* Todas las subpoblaciones tienen la misma varianza común $\sigma^2$ (**homocedasticidad**).

De esta manera, **imagina** que tu tabla se ve de la siguiente forma:

$F_1$|$F_2$|...|$F_k$
:--:|:--:|:--:|:--:
$X_1^{(1)}$|$X_1^{(2)}$|...|$X_1^{(k)}$
$X_2^{(1)}$|$X_2^{(2)}$|...|$X_2^{(k)}$
$X_3^{(1)}$|$X_3^{(2)}$|...|$X_3^{(k)}$
$\vdots$|$\vdots$|$\vdots$|$\vdots$
$X_{n_1}^{(1)}$|$X_{n_2}^{(2)}$|...|$X_{n_k}^{(k)}$

Observa que el total de elementos de la muestra pertencientes a la primer subpoblación es $n_1$; el total de elementos de la muestra pertencientes a la segunda subpoblación es $n_2$;...;el total de elementos de la muestra pertencientes a la $k$-ésima subpoblación es $n_k$. **No necesariamente se tiene $n_1=n_2=...=n_k$** en general.

De esta manera, $X_{j}^{(i)}$ es el valor de la característica $X$ correspondiente al individuo $j$ del nivel $i$.

Se definen las siguientes variables aleatorias:

Variabla aleatoria|Descripción|Significado
:--:|:--|:--
$T^{(i)}$|suma del grupo $i$| suma de la columna $i$
$\overline{X^{(i)}}$|media del grupo $i$| media de la columna $i$
$T$|suma de las $T^{(i)}$|suma de todos los valores
$\overline{X}$|$T$/total de datos|media de todos los valores

Si $\mu$ es la media global de toda la población y $\mu_i$ es la media poblacional del grupo $i$, entonces $$X_j^{(i)}-\mu=(X_j^{(i)}-\mu_i)+(\mu_i-\mu)$$

Si tomamos $\overline{X^{(i)}}$ como estimador de $\mu_i$ y $\overline{X}$ como estimador de $\mu$, elevando al cuadrado la identidad anterior tenemos: 

**Identidad de la suma de cuadrados para ANOVA**

$$\underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(X_j^{(i)}-\overline{X})^2}_{SS_{Total}}=\underbrace{\sum_{i=1}^kn_i(\overline{X^{(i)}}-\overline{X})^2}_{SS_{Tra}}+\underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(X_j^{(i)}-\overline{X^{(i)}})^2}_{SS_{Err}}$$

## Estadístico de contraste

Partiendo de la igualdad anterior, se puede demostrar que $$(n-1)\sigma^2_p=E\left[SS_{Tra}\right]+(n-k)\sigma^2,$$ de modo que el valor promedio de $SS_{Tra}$ no depende de las submuestras. 
    
Por otra parte, tomemos $MS_{Tra}=\frac{SS_{Tra}}{k-1}$ y $MS_{Err}=\frac{SS_{Err}}{n-k}$. Entonces es posible demostrar (pero es complicado) que

$$\begin{array}{rcl}E[MS_{Tra}]&=&\sigma^2+\frac{1}{k-1}\sum_{i=1}^kn_i(\mu_i-\mu)^2\\E[MS_{Err}]&=&\sigma^2\end{array}$$

De aquí concluimos dos cosas importantes:

* $MS_{Err}$ es un estimador de la varianza común
* $\frac{MS_{Tra}}{MS_{Err}}\ge 1$

Si $H_0$ es cierta, entonces $\frac{MS_{Tra}}{MS_{Err}}=1$ y si es falsa, entonces $\frac{MS_{Tra}}{MS_{Err}}>1$.

Toma $F$ como $$F=\frac{MS_{Tra}}{MS_{Err}}.$$

Si $H_0$ es cierta, la distribución de $F$ es lo que se conoce como una **distribución de Fisher** con $k-1$ y $n-k$ grados de libertad. Este es el estadístico de contraste de un ANOVA de un factor.

Por lo tanto, **rechazamos $H_0$ si $F$ es bastante mayor que 1**.


## Pasos del ANOVA

Ahora, recordemos que para aplicar un ANOVA de un factor debe cumplirse que cada subpoblación es gaussiana y todas tienen la misma varianza. Además, una vez que tenemos el resultado, debemos conocer cuáles subplobaciones tienen varianzas diferentes. 

En **R**, para poder realizar ANOVA de forma automática se requiere, en primer lugar, que nuestra tabla se presente en formato largo: Es decir, de la forma

Característica $X$|Factor $F$
:--:|:--:
$X_{1}^{(1)}$|1
$X_{2}^{(1)}$|1
$\vdots$|$\vdots$
$X_{n_1}^{(1)}$|1
$X_{1}^{(2)}$|2
$X_{2}^{(2)}$|2
$\vdots$|$\vdots$
$X_{n_2}^{(2)}$|2
$\vdots$|$\vdots$
$X_{1}^{(k)}$|$k$
$X_{2}^{(k)}$|$k$
$\vdots$|$\vdots$
$X_{n_k}^{(k)}$|$k$

Presentamos a continuación la serie de pasos para realizar el ANOVA de un factor. Para ello, iremos ilustrando con el siguiente ejemplo:

***
***
**Ejemplo 1.**

Se realizó un estudio para investigar el efecto del CO2 sobre la tasa de crecimiento de Pseudomonas fragi (un corruptor de alimentos). Se cree que el crecimiento se ve afectado por la cantidad de CO2 en el aire.

Para contrastarlo, en un experimento se administró CO2 a 5 presiones atmosféricas diferentes a 10 cultivos diferentes por cada nivel, y se anotó el cambio (en %) de la masa celular al cabo de una hora:

Presión de CO2 (en atmósferas)|0.0|0.083|0.29|0.50|0.86
:--|:--:|:--:|:--:|:--:|:--:
|62.6|	50.9|	45.5	|29.5|	24.9
|59.6|	44.3|	41.1	|22.8|	17.2
|64.5|	47.5|	29.8	|19.2|	7.8
|59.3|	49.5|	38.3	|20.6|	10.5
|58.6|	48.5|	40.2	|29.2|	17.8
|64.6|	50.4|	38.5	|24.1|	22.1
|50.9|	35.2|	30.2	|22.6|	22.6
|56.2|	49.9|	27.0	|32.7|	16.8
|52.3|	42.6|	40.0	|24.4|	15.9
|62.8|	41.6|	33.9	|29.6|	8.8

La tabla la encuentras con el nombre [presiones.csv](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/data/presiones.csv)

***
***

## Pasos del ANOVA

Recuerda tener tu tabla en formato largo. **A partir del Paso 2 es fundamental**.

**Paso 1) Prueba de normalidad**

$p$-valor|Decisión|Significado
:--|:--|:--
Pequeño|Rechazar $H_0$|Hay buena probabilidad de que **NO es gaussiana**
Grande|Rechazar $H_1$|Hay buena probabilidad de que **SÍ es gaussiana**

**Recuerda que para utilizarlos en R requieres la paquetería ``fBasics``**


Prueba|Abreviatura|Tamaño de<br> muestra|Desventaja|Estadístico|**R**
:--|:--:|:--:|:--|:--:|:--
Kolmogorov-Smirnov-Lilliefors|KSL|$5\le n$|No detecta bien las colas|D|``lillieTest()``
Anderson-Darling|AD|$7\le n\le1000$|No trabaja bien en muestras grandes|A|``adTest()``
Shapiro-Wilks|SW|En **R** admite $\le5000$|Sensible a repeticiones|W|``shapiroTest()``
D'Agostino|D|$20\le n$||Omnibus|``dagoTest()``

El $p-$ valor se obtiene con ``fBasics::nombreTest(muestra)@test$p.value``

**Paso 2) Pruebas de homocedasticidad**

El test mas usual es el de Bartlett. En **R** viene dado por ``bartlett.test`` (no necesita paqueterías) y su notación es 

``bartle.test(X~F,data=tabla)`` 

donde 

``X`` es el nombre de la columna de la característica $X$

``F`` es el nombre de la columna factor

``tabla`` es el nombre del dataframe

La decisión se toma de la siguiente manera:

$p$-valor|significado
:--|:--
Pequeño|Hay buena probabilidad de que las varianzas no sean iguales
Grande|Hay buena probabilidad de que las varianzas sean iguales

El $p$-valor se obtiene con ``bartlett.test(X~F,data=tabla)$p.value``

**Paso 3) Realización del ANOVA**

En **R**, la función para aplicar el ANOVA es ``aov()`` que no requiere instalar ninguna paquetería. Su sintaxis es 

``aov(X~F,data=tabla)`` 

donde 

``X`` es el nombre de la columna de la característica $X$

``F`` es el nombre de la columna factor

``tabla`` es el nombre del dataframe

El $p$-valor se obtiene con ``summary(resultado_anova)[[1]]$"Pr(>F)"`` donde ``resultado_anova=aov(X~F,data=tabla)``

La decisión se toma de la siguiente manera:

$p$-valor|significado
:--|:--
Pequeño|Hay buena probabilidad de que las medias no sean iguales
Grande|Hay buena probabilidad de que las medias sean iguales

** Paso 4) Hallar las medias diferentes**

Recuerda tener tu tabla en formato largo. 

Se consideran dos casos: si las subpoblaciones están o no balanceadas (es decir, el tamaño de cada submuestra es aproximadamente igual o no).

En el caso de balanceados, utilizamos la prueba de Duncan. En el caso de no balanceadas, utilizamos la prueba de Tukey. Ambas están en la paquetería ``agricolae``. 

Muestra|Agrupamiento por grupos|Función|Grupos|Descripción
:--|:--|:--|:--|:--
Desbalanceada|Tukey|``HSD.test``|``HSD.test(resultado_anova,trt = columna de factor,group = FALSE)$comparison``|Devuelve los $p$-valores
|||``HSD.test(resultado_anova,trt = columna de factor,group = TRUE)$groups``|Devuelve los grupos que tienen medias iguales
Balanceada|Duncan|``duncan.test``|``duncan.test(resultado_anova,trt = columna de factor,group = FALSE)$comparison``|Devuelve los $p$-valores
|||``duncan.test(resultado_anova,trt = columna de factor,group = TRUE)$groups``|Devuelve los grupos que tienen medias iguales

# Práctica.

La tabla [sismos.csv](https://drive.google.com/file/d/1QT-L1RLHlzO-vOJQFaI2lzdtC3vAKrnE/view?usp=sharing) consiste de la información del Servicio Sismológico Nacional de todos los sismos registrados desde el 1 de enero de 1900 hasta las 13:40pm (hora de CDMX) del 22 de septiembre de 2022. Realiza con ella un ANOVA para:

1. Verificar que la magnitud promedio mensual de los sismos en México varía durante todo el año.

2. Verificar que la magnitud promedio mensual de los sismos fuertes (arriba de 6.5) en México es la misma durante todo el año.