# Problemas de prueba de hip√≥tesis

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la p√©rdida de peso despu√©s de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la p√©rdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¬øExiste una diferencia significativa en la p√©rdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hip√≥tesis: hip√≥tesis nula y alternativa.
-Realizar la prueba para comprobar la hip√≥tesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

- **Hipotesis nula** ($H‚ÇÄ$): No hay diferencias significativas en la p√©rdida de peso promedio entre las personas que siguieron la primera y la segunda dieta. Esto implica que las medias de p√©rdida de peso para ambos grupos son iguales.
- **Hipotesis alternativa** ($H‚ÇÅ$):  Existe una diferencia significativa en la p√©rdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda.

In [1]:
# TODO
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

diet_1 = [2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5]
diet_2 = [3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2]

# Student's t-test
t_value, p_value = stats.ttest_ind(diet_1, diet_2)

print(f"t-value: {t_value}")
print(f"p-value: {p_value}")

t-value: -3.5383407969933938
p-value: 0.004083270191713912


Dado que el valor de
ùëù = 0.004
p=0.004 es menor que el nivel de significancia de 0.05, rechazamos la hip√≥tesis nula. Esto indica que existe una diferencia significativa en la p√©rdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda.

**Conclusiones**
Podemos concluir que los datos sugieren que las dos dietas producen diferentes resultados en t√©rminos de p√©rdida de peso. En particular, el grupo que sigui√≥ la segunda dieta parece haber perdido m√°s peso en promedio que el grupo que sigui√≥ la primera. 

## ANOVA

**ANOVA** (*Analysis of Variance - An√°lisis de variaci√≥n*) Es una t√©cnica estad√≠stica utilizada para comparar las medidas de dos o m√°s grupos. La idea detr√°s de ANOVA es descomponer la variabilidad total de los datos en dos componentes: variabilidad entre grupos y variabilidad dentro de los grupos:

- **Variabilidad entre grupos**: Esta variabilidad se refiere a las diferencias entre las medias del grupo. Si esta variabilidad es considerablemente mayor que la variabilidad dentro del grupo, podr√≠a ser una indicaci√≥n de que al menos una de las medias del grupo es diferente.
- **Variabilidad dentro del grupo**: Esta variabilidad se refiere a la dispersi√≥n de los datos dentro de cada grupo. Si todos los grupos tienen una variabilidad similar, entonces cualquier diferencia notable en las medias de los grupos podr√≠a considerarse significativa.

Las hip√≥tesis en ANOVA suelen incluir:

- **Hip√≥tesis nula** ($H‚ÇÄ$): Las medias de todos los grupos son iguales.
- **Hip√≥tesis alternativa** ($H‚ÇÅ$): Al menos una de las medias del grupo es diferente.

Si el resultado de la prueba ANOVA es significativo (por ejemplo, un valor p inferior a un umbral como 0,05), esto sugiere que al menos la media de un grupo es diferente.

## Ejercicio 2

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en t√©rminos de producci√≥n de ma√≠z. El agricultor planta ma√≠z en 15 parcelas id√©nticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de ma√≠z (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¬øExiste una diferencia significativa en el rendimiento promedio del ma√≠z entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

-Enunciar la hip√≥tesis: hip√≥tesis nula y alternativa.
-Realizar la prueba ANOVA.
-Analizar las conclusiones.
-Si un fertilizante es mejor que otro, ¬øc√≥mo podemos saberlo?

- **Hipotesis nula** ($H‚ÇÄ$): No hay diferencias significativas en el rendimiento promedio del ma√≠z entre los tres tipos de fertilizantes. Es decir, las medias de los rendimientos de los tres grupos son iguales."
- **Hipotesis alternativa** ($H‚ÇÅ$):  Al menos uno de los fertilizantes produce un rendimiento de ma√≠z significativamente diferente en comparaci√≥n con los otro

In [2]:
# TODO
import scipy.stats as stats


fertilizer_1 = [20, 21, 20, 19, 20]
fertilizer_2 = [22, 21, 23, 22, 21]
fertilizer_3 = [24, 23, 22, 23, 24]

# ANOVA test
f_value, p_value = stats.f_oneway(fertilizer_1, fertilizer_2, fertilizer_3)

print(f"f-value: {f_value}")
print(f"p-value: {p_value}")

f-value: 20.315789473684188
p-value: 0.00014047824793190475


In [4]:
import numpy as np
from statsmodels.stats.multicomp import pairwise_tukeyhsd

data = np.concatenate([fertilizer_1, fertilizer_2, fertilizer_3])
labels = ["F1"] * 5 + ["F2"] * 5 + ["F3"] * 5

# Tukey test
result = pairwise_tukeyhsd(data, labels, alpha = 0.05)
print(result)

Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj  lower  upper  reject
--------------------------------------------------
    F1     F2      1.8 0.0099 0.4572 3.1428   True
    F1     F3      3.2 0.0001 1.8572 4.5428   True
    F2     F3      1.4 0.0409 0.0572 2.7428   True
--------------------------------------------------


**An√°lisis de Conclusiones**
Dado que el valor de 
ùëù
p es significativamente menor que el nivel de significancia com√∫nmente utilizado (0.05), rechazamos la hip√≥tesis nula. Esto indica que existen diferencias significativas en el rendimiento promedio del ma√≠z entre al menos dos de los fertilizantes.

**Identificaci√≥n del Mejor Fertilizante**
La prueba ANOVA nos indica que hay una diferencia significativa, pero no identifica espec√≠ficamente cu√°les fertilizantes son diferentes entre s√≠. Para conocer qu√© fertilizante es superior, se puede realizar una prueba post hoc (como la prueba de Tukey) que compara cada par de fertilizantes.