# Problemas de prueba de hipótesis

In [29]:
import numpy as np
import scipy.stats as stats

## Ejercicio 1

Usted es un nutricionista que investiga dos tipos diferentes de dietas para ver si existe una diferencia significativa en la pérdida de peso después de un mes. Eliges dos grupos aleatorios de personas; un grupo sigue la primera dieta y el otro sigue la segunda. Al final del mes, se registra la pérdida de peso (en kg) de cada persona:

| Diet 1 | Diet 2 |
|:-------|:-------|
| 2.0 | 3.0 |
| 2.5 | 3.2 |
| 3.0 | 3.1 |
| 2.8 | 2.9 |
| 2.3 | 2.8 |
| 2.7 | 3.0 |
| 2.5 | 3.2 |

Con estos datos se busca responder a la siguiente pregunta: ¿Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta?

Para sacar conclusiones, siga los siguientes puntos:

-Enunciar la hipótesis: hipótesis nula y alternativa.
-Realizar la prueba para comprobar la hipótesis. Puede utilizar la prueba t de Student.
-Analizar las conclusiones.

### ENUNCIADO DE HIPÓTESIS

- Hipótesis Nula (Ho): No existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta.

- Hipótesis alternativa (H1): Existe una diferencia significativa en la pérdida de peso promedio entre las personas que siguieron la primera dieta y las que siguieron la segunda dieta.

In [30]:
#PASO 1: Transcribir los datos de las dietas en listas.
#PASO 2: Esas listas las ponemos dentro de *np.array* para crear matrices multidimensionales.
#        son la estructura para realizar cálculos en python.
dieta_1= np.array([2.0, 2.5, 3.0, 2.8, 2.3, 2.7, 2.5])
dieta_2= np.array([3.0, 3.2, 3.1, 2.9, 2.8, 3.0, 3.2])
dieta_1, dieta_2

(array([2. , 2.5, 3. , 2.8, 2.3, 2.7, 2.5]),
 array([3. , 3.2, 3.1, 2.9, 2.8, 3. , 3.2]))

In [31]:
#PASO 3: Calculamos la media de cada dieta. Con *np.mean*.
media_dieta_1 = np.mean(dieta_1)
media_dieta_2 = np.mean(dieta_2)

media_dieta_1, media_dieta_2

(np.float64(2.542857142857143), np.float64(3.0285714285714285))

### _OBSERVACIONES:_

_-Vemos que las medias son distintas, la dieta_2 tiene una media ligeramente mayor._
_Es un vago indicativo de que probablemente, sea mejor dieta que la dieta_1._

C.G.W.

In [32]:
#PASO 4: Calculamos la desviación estándard con *np.std*.
#        Usando como parámetro *ddof = 1* para calcular la desviación estándar muestral.
std_dieta_1 = np.std(dieta_1, ddof = 1)
std_dieta_2 = np.std(dieta_2, ddof = 1)

std_dieta_1, std_dieta_2

(np.float64(0.3309438162646487), np.float64(0.14960264830861927))

### _OBSERVACIONES:_

_-Tienen una distribución bastante diferente. La dieta_1 tiene los datos más dispersos (tiene resultados más alejados de la media)._

C.G.W.

In [33]:
#PASO 5: -Calculamos la "t de student" con *stats.ttest_ind*
#         Juntamente con el "valor_p"
#        -*equal_var* indica si asumimos que las varianzas de ambas dietas son iguales.
#         Sabemos que no son iguales por eso lo igualamos a "False".
t_student, valor_p = stats.ttest_ind(dieta_1, dieta_2, equal_var = False)
t_student, valor_p

(np.float64(-3.5383407969933938), np.float64(0.007125697852423989))

### _OBSERVACIONES:_

_-La t studente nos ayuda a examinar las diferencias entre dos muestras independientes y pequeñas, que tengan distribución normal y homogeneidad en sus varianzas. Al tener un valor negativo (-3.54), nos indica que el estadístico calculado es menor que el valor esperado._

_-El "valor_p"(0.007) nos indica la posibilidad de que la diferencia observada se deba al azar._

_-Como es menor que alpha (0.5), significa que tiene muy baja aleatoriedad._

C.G.W.

In [34]:
#PASO 6: Usamos "alpha" (0.5) para calcular el nivel de significancia del "valor_p".
#PASO 7: Establecemos la hipótesis, la hipótesis nula y la hipótesis alternativa.
alpha = 0.5

f"Se aprueba hipótesis nula: Porque NO existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2." if valor_p > alpha else f"Se aprueba hipótesis alternativa: Porque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2."

'Se aprueba hipótesis alternativa: Porque existe una diferencia significativa en la pérdida de peso promedio con la dieta_1 y la dieta_2.'

_OBSERVACIONES:_

_-Alpha es el nivel de significancia en un contraste de hipótesis, indica la probabilidad de tener un error del tipo I (falso positivo)_

_-Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa, que es la opuesta._

C.G.W.

## _CONCLUSIONES:_

- MEDIA:La dieta_1 (2.54 kg.) logra menor pérdida de peso que dieta_2 (3.03 kg.).

- DESVIACIÓN ESTÁNDARD:La dieta_1 (0.33) logra pérdidas de peso más variadas que la dieta_2 (0.15). Es decir, probablemente exista elementos externos a ella, que afecten a los resultados. Es menos precisa.

- T-STUDENT: negativo (-3.54), el estadístico calculado es menor que el valor esperado.

- VALOR-P: Es de (0.007), muy baja aleatoriedad. Efecto de las dietas es real, sugiere rechazar la hipótesis nula.

- HIPÓTESIS NULA:
Se rechaza porque existe una diferencia significativa en la pérdida de peso con la dieta_1 y la dieta_2.

- HIPÓTESIS ALTERNATIVA:
Se aprueba porque existe una diferencia significativa en la pérdida de peso con la dieta_1 y la dieta_2.



### CONCLUSIÓN FINAL:

La dieta_2 es más eficiente para perder peso que la dieta_1.

C.G.W.

## EJERCICIO 2

### INTRODUCCIÓN A ANOVA

**ANOVA** (*Analysis of Variance - Análisis de variación*) Es una técnica estadística utilizada para comparar las medidas de dos o más grupos. La idea detrás de ANOVA es descomponer la variabilidad total de los datos en dos componentes: variabilidad entre grupos y variabilidad dentro de los grupos:

- **Variabilidad entre grupos**: Esta variabilidad se refiere a las diferencias entre las medias del grupo. Si esta variabilidad es considerablemente mayor que la variabilidad dentro del grupo, podría ser una indicación de que al menos una de las medias del grupo es diferente.
- **Variabilidad dentro del grupo**: Esta variabilidad se refiere a la dispersión de los datos dentro de cada grupo. Si todos los grupos tienen una variabilidad similar, entonces cualquier diferencia notable en las medias de los grupos podría considerarse significativa.

Las hipótesis en ANOVA suelen incluir:

- **Hipótesis nula** ($H₀$): Las medias de todos los grupos son iguales.
- **Hipótesis alternativa** ($H₁$): Al menos una de las medias del grupo es diferente.

Si el resultado de la prueba ANOVA es significativo (por ejemplo, un valor p inferior a un umbral como 0,05), esto sugiere que al menos la media de un grupo es diferente.

### Enunciado

Un agricultor decide probar tres tipos diferentes de fertilizantes para determinar si alguno es superior en términos de producción de maíz. El agricultor planta maíz en 15 parcelas idénticas y utiliza los tres fertilizantes (5 parcelas para cada tipo). Al final de la temporada mide el rendimiento de maíz (en kg) de cada parcela, con el siguiente resultado:

| Fertilizante 1 | Fertilizante 2 | Fertilizante 3 |
|:-------------|:-------------|:-------------|
| 20 | 22 | 24 |
| 21 | 21 | 23 |
| 20 | 23 | 22 |
| 19 | 22 | 23 |
| 20 | 21 | 24 |

Con estos datos busca responder la siguiente pregunta: ¿Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes?

Para ayudarte, sigue los siguientes puntos:

- Enunciar la hipótesis: hipótesis nula y alternativa.
- Realizar la prueba ANOVA.
- Analizar las conclusiones.
- Si un fertilizante es mejor que otro, ¿cómo podemos saberlo?

### ENUNCIADO DE HIPÓTESIS

- HIPÓTESIS NULA (Ho): No existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.
- HIPÓTESIS ALTERNATIVA (H1): Existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.

In [35]:
#PASO 1: Transcribir los datos de las dietas en listas.
#PASO 2: Esas listas las ponemos dentro de *np.array* para crear matrices multidimensionales.
#        son la estructura para realizar cálculos en python.
fertilizante_1 = np.array([20, 21, 20, 19, 20])
fertilizante_2 = np.array([22, 21, 23, 22, 21])
fertilizante_3 = np.array([24, 23, 22, 23, 24])
fertilizante_1, fertilizante_2, fertilizante_3

(array([20, 21, 20, 19, 20]),
 array([22, 21, 23, 22, 21]),
 array([24, 23, 22, 23, 24]))

In [36]:
#PASO 3: Calculamos la media de la cantidad conseguida con cada tipo de fertilizante. Con *np.mean*.
media_fertilizante_1 = np.mean(fertilizante_1)
media_fertilizante_2 = np.mean(fertilizante_2)
media_fertilizante_3 = np.mean(fertilizante_3)
media_fertilizante_1, media_fertilizante_2, media_fertilizante_3

(np.float64(20.0), np.float64(21.8), np.float64(23.2))

### OBSERVACIONES:

- Vemos que las medias son distintas, el fertilizante_3 tiene una media ligeramente mayor a los otros._
- Es un vago indicativo de que probablemente, sea el mejor fertilizante de los tres usados._

C.G.W.

In [37]:
#PASO 4: Calculamos la desviación estándard con *np.std*.
#        Usando como parámetro *ddof = 1* para calcular la desviación estándar muestral.
std_fertilizante_1 = np.std(fertilizante_1, ddof = 1)
std_fertilizante_2 = np.std(fertilizante_2, ddof = 1)
std_fertilizante_3 = np.std(fertilizante_3, ddof = 1)
std_fertilizante_1, std_fertilizante_2, std_fertilizante_3

(np.float64(0.7071067811865476),
 np.float64(0.8366600265340756),
 np.float64(0.8366600265340756))

### OBSERVACIONES:

- Tienen una distribución de datos exactamente igual, el fertilizante_2 y el fertilizante_3._

- El fertilizante_1 tiene los datos un poco menos dispersos (tiene resultados menos alejados de la media)._

C.G.W.

In [38]:
#PASO 5: -Para calcular la varianza, al ser más de dos conjuntos de datos, usamos la ANOVA.
#        ANOVA: f_stat -> *stats.f_oneway*
f_stat, valor_p_fertilizantes = stats.f_oneway (fertilizante_1, fertilizante_2, fertilizante_3)
f_stat, valor_p_fertilizantes

(np.float64(20.315789473684188), np.float64(0.00014047824793190472))

### OBSERVACIONES:

- PRUEBA ANOVA: compara las medias de dos o más grupos. Analiza la varianza, determina si tienen diferencias significativas (20.3158), nos indica que hay una diferencia contundente entre los fertilizantes_

- El "valor_p" (0.0001) nos indica la probabilidad de que la diferencia observada se deba al azar._

- Como es menor que alpha (0.5), significa que tiene muy baja aleatoriedad._

C.G.W.

In [39]:
#PASO 6: Usamos "alpha" (0.5) para calcular el nivel de significancia del "valor_p".
#PASO 7: Establecemos la hipótesis, la hipótesis nula y la hipótesis alternativa.
alpha = 0.5

f"Se aprueba hipótesis nula: Porque NO existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes." if valor_p > alpha else f"Se aprueba hipótesis alternativa: Porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes."

'Se aprueba hipótesis alternativa: Porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.'

## _CONCLUSIONES:_

- MEDIA: El fertilizante_3 (23.2 kg.) logra más cantidad de cosecha que el fertilizante_1 y el fertilizante_2 (20.0 Kg y 21.8 kg., respectivamente).
El fertilizante_3 es (13.79%) mejor que el fertilizante_1; y (6.03%) mejor que el fertilizante_2.

- DESVIACIÓN ESTÁNDARD:
El fertilizante_1 (0.7071) logra cantidad en kg. menos variada que el fetilizante_2 (0.8166) y el fetilizante_3 (0.8166). Aunque, la diferencia es muy leve para concluir una eficiencia superior.

- PRUEBA ANOVA: diferencia significativa (20.3158), nos indica que hay una diferencia contundente entre los fertilizantes.

- VALOR P: (0.0001) tiene muy baja aleatoriedad, podemos fiarnos de los resultados obtenidos.

- HIPÓTESIS NULA:
Se rechaza porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.

- HIPÓTESIS ALTERNATIVA:
Se aprueba porque existe una diferencia significativa en el rendimiento promedio del maíz entre los tres tipos de fertilizantes.


### CONCLUSIÓN FINAL:


El fertilizante que debería usar es el fertilizante_3.
 
C.G.W.