# Problemas de prueba de hipótesis

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la pérdida de peso después de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la pérdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¿Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba para comprobar la hipótesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

In [None]:
# TODO

import numpy as np
from scipy import stats

# Hipótesis
(H_0) = "El grupo con la dieta 1 y 2 presentan los mismo resultados.No hay diferencias significativas. "
(H_1) = "Existen diferencias de peso significativas entre los dos grupos." 

# Prueba de T Student = valor t , grados de libertad y valor p.

# Datos de las dos dietas
dieta_1 = np.array([2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5])
dieta_2 = np.array([3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2])

# Calculamos medias y desviaciones estándard para las dos dietas, ddof = Delta degrees of freedom que será 1 al trabajar con una muestra. 
media_1 = np.mean(dieta_1)
media_2 = np.mean(dieta_2)
desviacion_1 = np.std(dieta_1, ddof=1)
desviacion_2 = np.std(dieta_2, ddof=1)

print(f"Media Dieta 1: {media_1:.2f}, Desviación estándar Dieta 1: {desviacion_1:.2f}")
print(f"Media Dieta 2: {media_2:.2f}, Desviación estándar Dieta 2: {desviacion_2:.2f}")

# Realizamos la prueba t de Student para cada muestra

t_stat, p_value = stats.ttest_ind(dieta_1, dieta_2)

print(f"Valor t: {t_stat:.4f}")
print(f"Valor p: {p_value:.4f}")

# Comparar el valor p con el nivel de significancia (0.05)
if p_value < 0.05:
    print("Hipótesis nula RECHAZADA: hay una diferencia significativa en la pérdida de peso.")
else:
    print("Hhipótesis nula NO RECHAZADA: no hay una diferencia significativa en la pérdida de peso.")


Media Dieta 1: 2.54, Desviación estándar Dieta 1: 0.33
Media Dieta 2: 3.03, Desviación estándar Dieta 2: 0.15
Valor t: -3.5383
Valor p: 0.0041
Rechazamos la hipótesis nula: hay una diferencia significativa en la pérdida de peso.


Los resultados de la media ya nos indican que los pacientes de la dieta 2 han obtenido 0,5kg de pérdida de peso más que los de la dieta 1, lo que ya es un primer indicativo de que la dieta 2 funciona mejor que la 1. 

Al compararlo con la prueba t Students, vemos que hay una diferencia significativa y que por lo tanto queda probado que los resultados de la dieta 2 son mejores. 

## ANOVA

**ANOVA** (*Analysis of Variance - Análisis de variación*) Es una técnica estadística utilizada para comparar las medidas de dos o más grupos. La idea detrás de ANOVA es descomponer la variabilidad total de los datos en dos componentes: variabilidad entre grupos y variabilidad dentro de los grupos:

- **Variabilidad entre grupos**: Esta variabilidad se refiere a las diferencias entre las medias del grupo. Si esta variabilidad es considerablemente mayor que la variabilidad dentro del grupo, podría ser una indicación de que al menos una de las medias del grupo es diferente.
- **Variabilidad dentro del grupo**: Esta variabilidad se refiere a la dispersión de los datos dentro de cada grupo. Si todos los grupos tienen una variabilidad similar, entonces cualquier diferencia notable en las medias de los grupos podría considerarse significativa.

Las hipótesis en ANOVA suelen incluir:

- **Hipótesis nula** ($H₀$): Las medias de todos los grupos son iguales.
- **Hipótesis alternativa** ($H₁$): Al menos una de las medias del grupo es diferente.

Si el resultado de la prueba ANOVA es significativo (por ejemplo, un valor p inferior a un umbral como 0,05), esto sugiere que al menos la media de un grupo es diferente.

## Ejercicio 2

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en términos de producción de maíz. El agricultor planta maíz en 15 parcelas idénticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de maíz (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba ANOVA.
-Analizar las conclusiones.
-Si un fertilizante es mejor que otro, ¿cómo podemos saberlo?

In [None]:
# TODO

# Hipótesis
(H_0) = "Los tres grupos han obtenido resultados similares. No hay diferencias significativas en el rendimiento promedio "
(H_1) = "Existen diferencias de producción ya que almenos un grupo tiene un rendimiento promedio superior" 

# Datos de los tres fertilizantes
fertilizante_1 = np.array([20, 21, 20, 19, 20])
fertilizante_2 = np.array([22, 21, 23, 22, 21])
fertilizante_3 = np.array([24, 23, 22, 23, 24])

# Prueba ANOVA = Analisis de Varianza
f_stat, p_value = stats.f_oneway(fertilizante_1, fertilizante_2, fertilizante_3)

print(f"Valor F: {f_stat:.4f}")
print(f"Valor p: {p_value:.4f}")

# Comparar el valor p con el nivel de significancia (0.05)
if p_value < 0.05:
    print("Hipótesis nula RECHAZADA: hay una diferencia significativa en el rendimiento promedio entre los fertilizantes.")
else:
    print("Hipótesis nula NO RECHAZADA: no hay una diferencia significativa en el rendimiento promedio entre los fertilizantes.")

# Como saber si un fertilizante es mejor que otro. Cálculo de medias. 

media_f1 = np.mean(fertilizante_1)
media_f2 = np.mean(fertilizante_2)
media_f3 = np.mean(fertilizante_3)

print(f'El fertilizante número 3 ha dado mejores resultados ({media_f3}) que el fertilizante 2 ({media_f2}) y que el fertilizante 1({media_f3})')

Valor F: 20.3158
Valor p: 0.0001
Hipótesis nula RECHAZADA: hay una diferencia significativa en el rendimiento promedio entre los fertilizantes.
El fertilizante número 3 ha dado mejores resultados (23.2) que el fertilizante 2 (21.8) y que el fertilizante 1(23.2)


CONCLUSIONES

El valor F indica la relación entre la variabilidad de los grupos y la variabilidad dentro de los grupos. Un valor alto indica que las diferencias entre los grupos son mayores que las diferencias dentro de los grupos.
Si el valor P es menor que 0.05, rechazamos la hipotesis nula y concluimos que si hay diferencias significativas entre los fertilizantes. 

El valor F es alto, por lo que podemos establecer que la variabilidad entre grupos es alta y el valor P es bajo por lo que rechazamos la idea de que no hay diferencias significativas entre fertilizantes.

En cuanto a cual es mejor, el rendimiento medio del fertilizante 3 es superior a los otros dos. 

