# Analisis de la Varianza: Ejemplo de Fertilizante

Se quieren comparar la calidad de la tierra para 4 fertilizantes. Para ello, se han tomado 16 trozos de tierra de las mismas características al azar, se han dividido en cuatro grupos de igual tamaño y a cada uno de ellos se les ha usado un tipo de fertilizante distinto. Los resultados se dan en quintales/HA. Considerar un nivel de significación del $5\%$.



In [6]:
# leer datos
Datos <-read_excel("AOV_Fertilizante.xls")
# ver tipo de variables de los datos
str(Datos)
# Pasar la variable Tipo a factor (necesario para después)
Datos$Tipo.f <-as.factor(Datos$Tipo)

tibble [16 × 2] (S3: tbl_df/tbl/data.frame)
 $ Mejora: num [1:16] 218 198 215 174 263 201 219 226 274 248 ...
 $ Tipo  : chr [1:16] "A" "A" "A" "A" ...


Comenzamos por dar presentar cosas vistas en estadística descriptiva.

In [10]:
#install.packages("RcmdrMisc")
library("RcmdrMisc")
numSummary(Datos[,"Mejora"], groups=Datos$Tipo.f,  statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))

    mean       sd  0%    25%   50%    75% 100% Mejora:n
A 201.25 20.18869 174 192.00 206.5 215.75  218        4
B 227.25 26.05603 201 214.50 222.5 235.25  263        4
C 272.50 37.54553 243 246.75 261.0 286.75  325        4
D 222.00 65.13064 180 182.25 195.0 234.75  318        4

Vemos que las medias obtenidas en la muestra son bastante distintas. ¿Qué podemos decir sobre las medias poblacionales?

### Verificamos normalidad

In [11]:
shapiro.test(Datos$Mejora[Datos$Tipo=="A"])


	Shapiro-Wilk normality test

data:  Datos$Mejora[Datos$Tipo == "A"]
W = 0.89425, p-value = 0.4031


El test de Shapiro-wilk realizar un contraste en el que $H_0$ es que los datos siguen una distribución normal. En este caso, hemos tenido en cuenta solo los datos del fertilizante A. El valor del estadístico es 0.89425  y el p-valor 0.4301. Por tanto, con nivel de significación del $5\%$, no se rechaza la normalidad de los datos del fertilizante A.

#### Nota: 
* Con los fertilizantes B, C y D debemos de proceder de la misma forma.
* Si el tamaño muestral es superior a $30$, es preferible usar el test de Kolmogorov-Smirnoff (ks.test)

### Varianzas Iguales

In [12]:
leveneTest(Datos$Mejora, Datos$Tipo.f, center=mean) 

Unnamed: 0_level_0,Df,F value,Pr(>F)
Unnamed: 0_level_1,<int>,<dbl>,<dbl>
group,3,1.804026,0.2000296
,12,,


El test de Levene realiza un contraste en el que $H_0$ es que las varianzas son iguales. En este caso, el valor del estadístico es 1.804026, los grados de libertad 3 y el p-valor 0.2000296. Por consiguiente, a un nivel de significación del $5\%$, no se rechaza la igualdad de varianzas.

Por tanto, todo indica que estamos en las condiciones para realizar el Analisis de la Varianza. Hemos de realizar el siguiente contraste de hipótesis: 

$H_0:\ \mu_A=\mu_B=\mu_C=\mu_D$

$H_1: \exists i,j$ donde $\mu_j\neq \mu_i$



In [13]:
Anova <-  aov(Mejora ~ Tipo.f, data=Datos)
summary(Anova)

            Df Sum Sq Mean Sq F value Pr(>F)
Tipo.f       3  10808    3603   2.139  0.149
Residuals   12  20214    1685               

Hemos obtenido un p-valor de 0.1486, que es superior a 0.05. Por consiguiente, no rechazamos $H_0$ y, por tanto, no hay diferencia significativa en las medias poblaciones con un nivel de significación del $5\%$. Entonces, con un nivel de significación del $5\%$, no hay diferencia en la mejora de la calidad de la tierra entre los distintos tipos de fertilizante considerado.