# Problemas de prueba de hipótesis

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la pérdida de peso después de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la pérdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¿Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba para comprobar la hipótesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

In [1]:
#PASO 0: Se importan las funciones de las librerías que usamos.
#Amedida que se va realizando la codificación se eligen las que se usarán (por prueba y error).
import numpy as np
import scipy.stats as stats

In [2]:
#PASO 1: Transcribir los datos de las dietas en listas.
#PASO 2: Esas listas las ponemos dentro de *np.array* para crear matrices multidimensionales.
#        son la estructura para realizar cálculos en python.
dieta_1= np.array([2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5])
dieta_2= np.array([3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2])
print(dieta_1)
print(dieta_2)

[2.  2.5 3.  2.8 2.3 2.7 2.5]
[3.  3.2 3.1 2.9 2.8 3.  3.2]


In [3]:
#PASO 3: Calculamos la media de cada dieta. Con *np.mean*.
media_dieta_1 = np.mean(dieta_1)
media_dieta_2 = np.mean(dieta_2)
print(media_dieta_1)
print(media_dieta_2)

2.542857142857143
3.0285714285714285


_OBSERVACIONES:_

_-Vemos que las medias son distintas, la dieta_2 tiene una media ligeramente mayor._
_Es un vago indicativo de que probablemente, sea mejor dieta que la dieta_1._

C.G.W.

In [4]:
#PASO 4: Calculamos la desviación estándard con *np.std*.
#        Usando como parámetro *ddof = 1* para calcular la desviación estándar muestral.
std_dieta_1 = np.std(dieta_1, ddof = 1)
std_dieta_2 = np.std(dieta_2, ddof = 1)
print(std_dieta_1)
print(std_dieta_2)

0.3309438162646487
0.14960264830861927


_OBSERVACIONES:_

_-Tienen una distribución bastante diferente. La dieta_1 tiene los datos más dispersos (tiene resultados más alejados de la media)._

C.G.W.

In [5]:
#PASO 5: -Calculamos la "t de student" con *stats.ttest_ind*
#         Juntamente con el "valor_p"
#        -*equal_var* indica si asumimos que las varianzas de ambas dietas son iguales.
#         Sabemos que no son iguales por eso lo igualamos a "False".
t_student, valor_p = stats.ttest_ind(dieta_1, dieta_2, equal_var = False)
print(t_student)
print(valor_p)

-3.5383407969933938
0.007125697852423989


_OBSERVACIONES:_

_-La t studente nos ayuda a examinar las diferencias entre dos muestras independientes y pequeñas, que tengan distribución normal y homogeneidad en sus varianzas. Al tener un valor negativo (-3.54), nos indica que el estadístico calculado es menor que el valor esperado._

_-El "valor_p"(0.007) nos indica la posibilidad de que la diferencia observada se deba al azar._

_-Como es menor que alpha (0.5), significa que tiene muy baja aleatoriedad._

C.G.W.

In [6]:
#PASO 6: Usamos "alpha" (0.5) para calcular el nivel de significancia del "valor_p".
#PASO 7: Establecemos la hipótesis, la hipótesis nula y la hipótesis alternativa.
print("HIPÓTESIS:\n¿Existe una diferencia en la pérdida de peso promedio entre las personas que siguieron la dieta_1 y las que siguieron la dieta_2?")
alpha = 0.5
if valor_p > alpha :
    print (f"Se aprueba hipótesis nula:\nPorque NO existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.")
else:    
    print (f"Se aprueba hipótesis alternativa:\nPorque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.")

HIPÓTESIS:
¿Existe una diferencia en la pérdida de peso promedio entre las personas que siguieron la dieta_1 y las que siguieron la dieta_2?
Se aprueba hipótesis alternativa:
Porque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.


_OBSERVACIONES:_

_-Alpha es el nivel de significancia en un contraste de hipótesis, indica la probabilidad de tener un error del tipo I (falso positivo)_

_-Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa, que es la opuesta._

C.G.W.

In [7]:
#PASO 8: Unir todo el código en una celda.
import numpy as np
import scipy.stats as stats
dieta_1= np.array([2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5])
dieta_2= np.array([3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2])
std_dieta_1 = np.std(dieta_1, ddof = 1)
std_dieta_2 = np.std(dieta_2, ddof = 1)
t_student, valor_p = stats.ttest_ind(dieta_1, dieta_2, equal_var = False)
print("HIPÓTESIS:\n¿Existe una diferencia en la pérdida de peso promedio entre las personas que siguieron la dieta_1 y las que siguieron la dieta_2?")
alpha = 0.5
if valor_p > alpha :
    print (f"Se aprueba hipótesis nula:\nPorque NO existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.")
else:    
    print (f"Se aprueba hipótesis alternativa:\nPorque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.")

HIPÓTESIS:
¿Existe una diferencia en la pérdida de peso promedio entre las personas que siguieron la dieta_1 y las que siguieron la dieta_2?
Se aprueba hipótesis alternativa:
Porque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.


_CONCLUSIONES:_

_-MEDIA:La dieta_1 (2.54 kg.) logra menor pérdida de peso que dieta_2 (3.03 kg.)._

_-DESVIACIÓN ESTÁNDARD:La dieta_1 (0.33) logra pérdidas de peso más variadas que la dieta_2 (0.15). Es decir, probablemente exista elementos externos a ella, que afecten a los resultados. Es menos precisa._

_-T-STUDENT: negativo (-3.54), el estadístico calculado es menor que el valor esperado._

_-VALOR-P: Es de (0.007), muy baja aleatoriedad. Efecto de las dietas es real, sugiere rechazar la hipótesis nula._

_-HIPÓTESIS NULA:
Se rechaza porque existe una diferencia significativa en la pérdida de peso con la dieta_1 y la dieta_2._




CONCLUSIÓN FINAL:

La dieta_2 es más eficiente para perder peso que la dieta_1.

C.G.W.

## ANOVA

**ANOVA** (*Analysis of Variance - Análisis de variación*) Es una técnica estadística utilizada para comparar las medidas de dos o más grupos. La idea detrás de ANOVA es descomponer la variabilidad total de los datos en dos componentes: variabilidad entre grupos y variabilidad dentro de los grupos:

- **Variabilidad entre grupos**: Esta variabilidad se refiere a las diferencias entre las medias del grupo. Si esta variabilidad es considerablemente mayor que la variabilidad dentro del grupo, podría ser una indicación de que al menos una de las medias del grupo es diferente.
- **Variabilidad dentro del grupo**: Esta variabilidad se refiere a la dispersión de los datos dentro de cada grupo. Si todos los grupos tienen una variabilidad similar, entonces cualquier diferencia notable en las medias de los grupos podría considerarse significativa.

Las hipótesis en ANOVA suelen incluir:

- **Hipótesis nula** ($H₀$): Las medias de todos los grupos son iguales.
- **Hipótesis alternativa** ($H₁$): Al menos una de las medias del grupo es diferente.

Si el resultado de la prueba ANOVA es significativo (por ejemplo, un valor p inferior a un umbral como 0,05), esto sugiere que al menos la media de un grupo es diferente.

## Ejercicio 2

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en términos de producción de maíz. El agricultor planta maíz en 15 parcelas idénticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de maíz (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba ANOVA.
-Analizar las conclusiones.
-Si un fertilizante es mejor que otro, ¿cómo podemos saberlo?

In [8]:
#PASO 0: Se importan las funciones de las librerías que usamos.
#Amedida que se va realizando la codificación se eligen las que se usarán (por prueba y error).
import numpy as np
from scipy import stats

In [9]:
#PASO 1: Transcribir los datos de las dietas en listas.
#PASO 2: Esas listas las ponemos dentro de *np.array* para crear matrices multidimensionales.
#        son la estructura para realizar cálculos en python.
fertilizante_1 = np.array([20, 21, 20, 19, 20])
fertilizante_2 = np.array([22, 21, 23, 22, 21])
fertilizante_3 = np.array([24, 23, 22, 23, 24])
print (fertilizante_1)
print (fertilizante_2)
print (fertilizante_3)

[20 21 20 19 20]
[22 21 23 22 21]
[24 23 22 23 24]


In [10]:
#PASO 3: Calculamos la media de la cantidad conseguida con cada tipo de fertilizante. Con *np.mean*.
media_fertilizante_1 = np.mean(fertilizante_1)
media_fertilizante_2 = np.mean(fertilizante_2)
media_fertilizante_3 = np.mean(fertilizante_3)
print (media_fertilizante_1)
print (media_fertilizante_2)
print (media_fertilizante_3)

20.0
21.8
23.2


_OBSERVACIONES:_

_-Vemos que las medias son distintas, el fertilizante_3 tiene una media ligeramente mayor a los otros._
_Es un vago indicativo de que probablemente, sea el mejor fertilizante de los tres usados._

C.G.W.

In [11]:
#PASO 4: Calculamos la desviación estándard con *np.std*.
#        Usando como parámetro *ddof = 1* para calcular la desviación estándar muestral.
std_fertilizante_1 = np.std(fertilizante_1, ddof = 1)
std_fertilizante_2 = np.std(fertilizante_2, ddof = 1)
std_fertilizante_3 = np.std(fertilizante_3, ddof = 1)
print(std_fertilizante_1)
print(std_fertilizante_2)
print(std_fertilizante_3)

0.7071067811865476
0.8366600265340756
0.8366600265340756


_OBSERVACIONES:_

_-Tienen una distribución de datos exactamente igual, el fertilizante_2 y el fertilizante_3._

_-El fertilizante_2 tiene los datos un poco menos dispersos (tiene resultados menos alejados de la media)._

C.G.W.

In [12]:
#PASO 5: -Para calcular la varianza, al ser más de dos conjuntos de datos, usamos la ANOVA.
#        ANOVA: f_stat -> *stats.f_oneway*
f_stat, valor_p_fertilizantes = stats.f_oneway (fertilizante_1, fertilizante_2, fertilizante_3)
print (f_stat)
print (valor_p_fertilizantes)

20.315789473684188
0.00014047824793190472


_OBSERVACIONES:_

_-PRUEBA ANOVA: compara las medias de dos o más grupos. Analiza la varianza, determina si tienen diferencias significativas (20.32), nos indica que hay una diferencia contundente entre los fertilizantes_

_-El "valor_p" (0.0001) nos indica la probabilidad de que la diferencia observada se deba al azar._

_-Como es menor que alpha (0.5), significa que tiene muy baja aleatoriedad._

C.G.W.

In [13]:
#PASO 6: Usamos "alpha" (0.5) para calcular el nivel de significancia del "valor_p".
#PASO 7: Establecemos la hipótesis, la hipótesis nula y la hipótesis alternativa.
print("HIPÓTESIS:\n¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?")
alpha = 0.5
if valor_p > alpha :
    print (f"Se aprueba hipótesis nula:\nPorque NO existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.")
else:    
    print (f"Se aprueba hipótesis alternativa:\nPorque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.")

HIPÓTESIS:
¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?
Se aprueba hipótesis alternativa:
Porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.


In [14]:
#PASO 8: Unir todo el código en una celda.
import numpy as np
from scipy import stats
fertilizante_1 = np.array([20, 21, 20, 19, 20])
fertilizante_2 = np.array([22, 21, 23, 22, 21])
fertilizante_3 = np.array([24, 23, 22, 23, 24])
std_fertilizante_1 = np.std(fertilizante_1, ddof = 1)
std_fertilizante_2 = np.std(fertilizante_2, ddof = 1)
std_fertilizante_3 = np.std(fertilizante_3, ddof = 1)
f_stat, valor_p_fertilizantes = stats.f_oneway (fertilizante_1, fertilizante_2, fertilizante_3)
print("HIPÓTESIS:\n¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?")
alpha = 0.5
if valor_p > alpha :
    print (f"Se aprueba hipótesis nula:\nPorque NO existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.")
else:    
    print (f"Se aprueba hipótesis alternativa:\nPorque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.")

HIPÓTESIS:
¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?
Se aprueba hipótesis alternativa:
Porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.
