<a href="https://colab.research.google.com/github/hfelizzola/Curso-Estadistica/blob/main/Prueba_Hipotesis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prueba de hipótesis para una muestra

In [22]:
import numpy as np
import pandas as pd
import scipy.stats as stats
from statsmodels.stats.weightstats import ztest, ttest_ind

## Caso 1. Prueba de hipótesis para la media de una población normalmente distribuida y con varianza $\sigma^2$ conocida y $n > 30$

### Ejemplo 1. Análisis del tiempo de ensamble

Suponga que el ingeniero de producción está interesado en el $X$: tiempo de ensamble en una línea de producción. Teniendo en cuenta que:

- Objetivo: La planta ha fijado un objetivo de 10 minutos promedio por unidad.
- Problema: Si el tiempo promedio es mayor a 10 minutos se revisará el proceso para analizar las causas y realizar ajustes.
- Para determinar el tiempo promedio se tomaran muestras de tamaño n=9 en cada turno.
- Se sabe que la desviación estándar del tiempo $\sigma=1.5$.
- Utilice un nivel de confianza del 95%, por tanto un $\alpha=0.05$.

Recuerde que en este caso las hipótesis son:
$$
H_0: \mu = 10 \\
H_1: \mu > 10
$$

In [4]:
# Datos
tiempo = np.array([11, 9, 11, 10, 10, 12, 13, 12, 10])
tiempo

array([11,  9, 11, 10, 10, 12, 13, 12, 10])

In [7]:
# Estadísticas descriptivas
tiempo_promedio = np.mean(tiempo)
tiempo_desv_est = np.std(tiempo, ddof=1)
tiempo_var = np.var(tiempo, ddof=1)
print("La media muestral es: {:.2f}".format(tiempo_promedio))
print("La desviación estandar muestral: {:.2f}".format(tiempo_desv_est))
print("La varianza muestral: {:.2f}".format(tiempo_var))

La media muestral es: 10.89
La desviación estandar muestral: 1.27
La varianza muestral: 1.61


Este código de Python utiliza la función `ztest()` del módulo `statsmodels.stats.weightstats` para realizar una prueba de hipótesis de una muestra z en una variable llamada tiempo con una media poblacional hipotética de 10. 

El parámetro `alternative="larger"` indica que estamos probando la hipótesis alternativa de que la verdadera media poblacional es mayor que 10. Para definir la hipótesis alterna en esta función utilice las siguientes opciones:
- Prueba bilateral ($H1: \mu \neq \mu_0$): `alternative="two-sided"`
- Prueba de cola derecha ($H1: \mu > \mu_0$): `alternative="larger"`
- Prueba de cola izquierda ($H1: \mu < \mu_0$): `alternative="smaller"`

La función devuelve dos valores: `zvalue`, que es la estadística de prueba calculado y el `pvalue`.

In [12]:
# Prueba de hipótesis
zvalue, pvalue = ztest(x1=tiempo, value=10, alternative="larger")
print("El estadístico de prueba es: {:.2f}".format(zvalue))
print("El valor-p de la prueba de hipótesis es: {:.4f}".format(pvalue))

El estadístico de prueba es: 2.10
El valor-p de la prueba de hipótesis es: 0.0178


Con un valor estadístico de prueba de 2.10 y un valor p de 0.0178, podemos concluir que existe evidencia estadística significativa para rechazar la hipótesis nula al nivel de significancia del 5% (o incluso del 1%). 

Esto significa que es muy poco probable que la diferencia observada entre la muestra y la hipótesis nula sea el resultado del azar, y es más probable que el tiempo promedio de la operación sea mayor a 10 minutos, según lo planteado en la hipótesis alterna $H_1: \mu > 10$.

### Ejemplo 2: Análisis del rendimiento de combustible

El propietario de un automóvil sospecha que el rendimiento del combustible de su vehículo es menor a lo especificado, lo cual es 30 millas/galón. El propietario realiza un experimento 9 veces donde observa la distancia en millas que recorre el vehículo por galón. Los datos son: 28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1. El propietario ha identificado que el rendimiento se distribuye de manera normal con $\sigma=1.4$.
__¿Los resultados del experimento respaldan la sospecha del propietario, utilice $\alpha=0.01$__.

In [19]:
# Datos de entrada
rendimiento = np.array([28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1])
rendimiento

array([28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1])

In [None]:
# Estadísticas descriptivas (Media, varianza y desviación estandar)



In [None]:
# Prueba de hipótesis



__Conclusión:__



## Caso 2. Prueba de hipótesis para la media de una población normalmente distribuida y con varianza $\sigma^2$ desconocida y $n < 30$

Este código de Python utiliza la función `test_1samp()` de la biblioteca `scipy.stats` para realizar una prueba de hipótesis de una sola muestra en una variable llamada tiempo, con una media poblacional hipotética de 10, cuyo valor es configurado con el parámetro `popmean=10`. El parámetro `alternative="greater"` indica que se está probando la hipótesis alternativa de que la verdadera media poblacional es mayor que 10. Las opciones para la hipótesis alterna son:

- Prueba bilateral ($H1: \mu \neq \mu_0$): `alternative="two-sided"`
- Prueba de cola derecha ($H1: \mu > \mu_0$): `alternative="greater"`
- Prueba de cola izquierda ($H1: \mu < \mu_0$): `alternative="less"`

La función devuelve un valor t que representa la estadística de prueba calculada, el valor p y los grados de libertad de la prueba de hipótesis. 


In [26]:
stats.ttest_1samp(a=tiempo, popmean=10, alternative="greater")

TtestResult(statistic=2.1009029257555616, pvalue=0.03442038297291411, df=8)

Ahora desarrolle la prueba con el ejemplo 2.

In [None]:
# Prueba de hipótesis

