# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 3</font>

***

# <font color=green>3. PRUEBA DE HIPÓTESIS PARA UNA MEDIA </font>
***

## <font color=green>3.1 Prueba Bilateral</font>
***

### **Problema**

Una máquina que llena **paquetes de café** estaba regulada para llenarlos con un **peso medio de $500 \,g$**.  Después de un tiempo de uso, la máquina se ha desregulado y se desea saber cuál es el **peso medio actual** $\mu$ con el que la máquina llena los paquetes de café. Cuando el volumen medio cae debajo de $500 \,g$ la empresa se preocupa en perder ventas y tener problemas con los organos fiscalizadores. Por otro lado, cuando el valumen pasa los $500 \,g$ la empresa empieza a preocuparse con pérdidas en el proceso de producción. 

El sector de control de calidad de la empresa, extrae periodicamente **muestras de 50 paquetes** para monitorear el proceso de producción. Para cada muestra, realiza una **prueba de hipótesis** para evaluar si la máquina se desajustó. En todos los casos, el equipo de control de calidad asumió un **nivel de significancia del 5%**. 

Suponga que una muestra **muestra de 50 paquetes** tuvo un peso promedio de $503.24 \, g$. ¿Es este valor medio muestral suficientemente mayor que $500 \, g$ para hacernos rechazar la hipótesis de que el promedio del proceso es $500 \, g$ al **nivel de significancia del 5%**? 

Asuma que el peso de los paquetes que llena la máquina se distribuye normalmente con una desviacion estándar de $4.5 \, g$.

Si denotamos por \\
<font color='blue'>$\mu$</font> $\Rightarrow$ el peso medio de los paquetes de cafe. \\
<font color='red'>$\mu_0$</font> $\Rightarrow$ el peso medio de referencia. \\

las hipótesis que queremos probar son \\
$
\begin{cases}
H_0: \mu = 500\\
H_1: \mu \neq 500
\end{cases}
$

observe que <font color='red'>$\mu_0 = 500$.</font>

***


**Datos del problema**

In [None]:
muestra_Cafe = [509, 505, 495, 510, 496, 509, 497, 502, 503, 505, 
                501, 505, 510, 505, 504, 497, 506, 506, 508, 505,
                497, 504, 500, 498, 506, 496, 508, 497, 503, 501,
                503, 506, 499, 498, 509, 507, 503, 499, 509, 495,
                502, 505, 504, 509, 508, 501, 505, 497, 508, 507]

In [None]:
import pandas as pd 

In [None]:
muestra_Cafe = pd.DataFrame(muestra_Cafe,columns=["muestra_Cafe"])
muestra_Cafe.head()

Unnamed: 0,muestra_Cafe
0,509
1,505
2,495
3,510
4,496


In [None]:
desviacion = 4.5
mu_0 = 500
n = 50
media_muestral = 503.24
significancia = 0.05
confianza = 1 - significancia    

#### <b> Haciendo cálculos </b>

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**

$\mu\Rightarrow$ el peso medio de los paquetes de cafe.


$
\begin{cases}
H_0: \mu = 500   \\
H_1: \mu \neq 500
\end{cases}
$

En este caso tenemos que $\mu_0 = 500 $ 

  

**Paso 2: Fijar el nivel de significancia $\alpha$ de la prueba**

$\alpha = 0.05$

**Paso 3: Determinar la distribución de muestreo y Estadística de Prueba adecuada**

![Resumen una media](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Resumen_mu.png)

Como la muestra es normal y $\sigma$ es conocido, **la estadística de prueba adecuada** es 
$$Z=\frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}}$$ 

Sabemos  que $Z$ se distribuye aproximadamente como una normal estándar.

In [None]:
import numpy as np

In [None]:
Z = (media_muestral - mu_0)/(desviacion/np.sqrt(n))
Z

5.091168824543157

**Paso 4: Determinar la región crítica**

![Region Critica Bilateral](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Bilateral.png)

Obteniendo $z_{\alpha/2}$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

In [None]:
from scipy.stats import norm

In [None]:
z_alpha_2 = norm.ppf(0.975)
z_alpha_2

1.959963984540054

Por lo tanto, la Región Crítica es como sigue


![Valor Critico Bilateral](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Valor_Critico_Bilateral.png)

**Paso 5: Tomar la decisión y concluir**

<font color='red'>¿$Z = 5,09$ está en la Región Crítica?</font> o equivalentemente <font color='red'>¿ $Z \leq -1,96$ ou $Z \geq 1,96$?</font>




In [None]:
Z >= z_alpha_2

True

Observe que <font color='red'>$Z \geq 1,96$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

![Decision Cafe](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Decision_Cafe.png)

<font color='red'>Rechazamos $H_0$ si $p$-valor $\leq \alpha$.</font>



Recordemos que cuando la prueba es bilateral $(H_1: \mu \neq 500)$ el $p$-valor se calcula como 

$$p-\textrm{valor}= 2\times P(W \geq Z) = 2\times [1-P(W < Z)]$$.

In [None]:
p_valor = 2*(norm.sf(Z))
p_valor 

3.558629930076567e-07

In [None]:
p_valor = 2*(1-norm.cdf(Z))
p_valor 

3.5586299307333036e-07

In [None]:
p_valor <= significancia

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

<font color='blue'>**Conclusión:** Se sechaza la hipótesis nula $H_0$ de que la máquina llena los paquetes de café con un peso promedio de $500\, g$. Entonces, deben tomarse medidas para ajustar la máquina.</font>

#### <b>Usando biblioteca de Phyton </b>
  

<font color='red'>Usando ztest</font>

https://www.statsmodels.org/stable/generated/statsmodels.stats.weightstats.ztest.html

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
ztest(x1=muestra_Cafe,value=mu_0,alternative='two-sided')

(array([5.10955978]), array([3.22910317e-07]))

In [None]:
z, p_valor = ztest(x1=muestra_Cafe,value=mu_0,alternative='two-sided')
print(z[0])
print(p_valor[0])

5.109559775991873
3.229103172445771e-07


In [None]:
p_valor[0] <= significancia 

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

<font color='red'>Usando DescrStatsW</font>

https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.DescrStatsW.html

In [None]:
from statsmodels.stats.weightstats import DescrStatsW

In [None]:
test = DescrStatsW(muestra_Cafe)

In [None]:
test.ztest_mean(value=mu_0,alternative='two-sided')

(array([5.10955978]), array([3.22910317e-07]))

In [None]:
z,p_valor= test.ztest_mean(value=mu_0,alternative='two-sided')
print(z[0])
print(p_valor[0])

5.109559775991874
3.2291031724457596e-07


In [None]:
p_valor[0] <= significancia

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

<font color='blue'>**Conclusión:** Se sechaza la hipótesis nula $H_0$ de que la máquina llena los paquetes de café con un peso promedio de $500\, g$. Entonces, deben tomarse medidas para ajustar la máquina.</font>

### **Resumiendo** 

![Bilateral](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Bilateral.png)