# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 3</font>

***

# <font color=green>4. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS</font>


***

**Problema**

En nuestro conjunto de datos de la **Encuesta Nacional por Muestra de Hogares - 2015** tenemos los salarios de los jefes de hogar. Un problema bastante conocido en Brasil es la **desigualdad de salarios entre hombres y mujeres**.  

Con el objetivo de probar esta desigualdad, seleccione dos muestras aleatorias de los jefes del hogar, una con **500 hombres** y otra con **500 mujeres**. **Pruebe la igualdad de las medias de los salarios de los dos géneros utilizando un nivel de significancia del 1% y asuma que las desviaciones estándar son iguales.**

Si denotamos por \\

<font color='red'>$\mu_H$</font> $\Rightarrow$ el salario medio poblacional de jefes del hogar <font color='red'>hombres</font>,

<font color='blue'>$\mu_M$</font> $\Rightarrow$  el salario medio poblacional de jefes del hogar <font color='blue'>mujeres</font>,

podemos plantear las hipótesis como sigue

$
\begin{cases}
H_0: \mu_H \leq \mu_M \,  \\
H_1: \mu_H > \mu_M
\end{cases}
$
**O equivalentemente**
$
\begin{cases}
H_0: \mu_H - \mu_M \leq 0\,  \\
H_1: \mu_H - \mu_M > 0 
\end{cases}
$
***

**Selecionando las muestras**

In [None]:
muestra_hombres = datos.query('Sexo == 0').sample(n=500, random_state = 101).Renta

In [None]:
muestra_mujeres = datos.query('Sexo == 1').sample(n=500, random_state = 101).Renta

**Datos del problema**

In [None]:
significancia = 0.01
confianza = 1- significancia
n_H = 500
n_M = 500

## **Haciendo cálculos**

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**



Si denotamos por \\

<font color='red'>$\mu_H$</font> $\Rightarrow$ el salario medio poblacional de jefes del hogar <font color='red'>hombres</font>,

<font color='blue'>$\mu_M$</font> $\Rightarrow$  el salario medio poblacional de jefes del hogar <font color='blue'>mujeres</font>,

podemos plantear las hipótesis como sigue

$
\begin{cases}
H_0: \mu_H \leq \mu_M \,  \\
H_1: \mu_H > \mu_M
\end{cases}
$
**O equivalentemente**
$
\begin{cases}
H_0: \mu_H - \mu_M \leq 0\,  \\
H_1: \mu_H - \mu_M > 0 
\end{cases}
$

Observe que en este caso tenemos una hipótesis <font color='green'> Unilateral a Derecha</font>.

**Paso 2: Fijar el nivel de significancia $\alpha$ de la prueba**

$\alpha = 0,01$

**Paso 3: Determinar la distribución de muestreo y Estadística de prueba adecuada**

![Resumen dos medias](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Resumen_Dif.png)

¿Es posible afirmar que las muestras provienen de una distribución normal?

>*Respuesta*: No.

 ¿El tamaño de las muestras es grande?
> *Respuesta*: Sí $(n_H = n_M = 500)$. 

Conforme las respuestas anteriores, la **estadística de prueba adecuada** es
$$Z = \frac{\left(\overline{X}_H - \overline{Y}_M\right) - D_0}{\sqrt{\frac{S^{2}_H}{n_H}+\frac{S^{2}_M}{n_M}}} \sim N(0,1)$$

siendo:
>- $\overline{X}_H$: el salario medio muestral de los jefes del hogar que son hombres,

>- $\overline{Y}_M$: el salario medio muestral de los jefes del hogar que son mujeres,

>- $S^{2}_H$: la varianza muestral del salario de los jefes del hogar que son hombres,

>- $S^{2}_M$: la varianza muestral del salario de los jefes del hogar que son mujeres,

>- $n_H$: Total de observaciones en la muestra de los salarios de los jefes del hogar que son hombres,

>- $n_M$: Total de observaciones en la muestra de los salarios de los jefes del hogar que son mujeres,

>- $D_0$: el valor de referecia de la diferencia entre $\mu_H$ y $\mu_M$.

In [None]:
media_muestral_H = muestra_hombres.mean()
media_muestral_H

2142.608

In [None]:
media_muestral_M = muestra_mujeres.mean()
media_muestral_M

1357.528

In [None]:
varianza_muestral_H = muestra_hombres.var()
varianza_muestral_H

6492562.892120256

In [None]:
varianza_muestral_M = muestra_mujeres.var()
varianza_muestral_M

2464589.748713426

In [None]:
D_0 = 0

$$Z = \frac{\left(\overline{X}_H - \overline{Y}_M\right) - D_0}{\sqrt{\frac{S^{2}_H}{n_H}+\frac{S^{2}_M}{n_M}}} $$

In [None]:
numerador = (media_muestral_H - media_muestral_M) - D_0


In [None]:
denominador = np.sqrt( varianza_muestral_H/n_H + varianza_muestral_M/n_M)

In [None]:
Z = numerador/denominador
Z

5.86562005776475

**Paso 4: Determinar la región crítica**

![Region Critica Renta](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Renta.png)

Obteniendo $z_\alpha$ 

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

In [None]:
from scipy.stats import norm

In [None]:
z_alpha = norm.ppf(0.99)
z_alpha 

2.3263478740408408

Por lo tanto la Región Crítica es


![Valor Crítico Renta](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Valor_Critico_Renta.png)

**Paso 5: Tomar la decisión y concluir**

<font color='red'>¿$Z = 5,87 $ está en la Región Crítica?</font> o equivalentemente <font color='red'> ¿ $Z \geq 2,33$?</font>

In [None]:
Z >= z_alpha

True

Observe que <font color='red'>$Z \geq 2,33$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

![Decision Renta](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Decision_Renta.png)

<font color='red'>Rechazamos $H_0$ si $p$-valor $\leq \alpha$.</font>


Recordemos que cuando la prueba es unilateral a derecha $(H_1: \mu_{H} - \mu_{y} > 0)$ el $p$-valor se calcula como 

$$p-\textrm{valor}= P(W \geq Z) = 1-P(W < Z)$$.


In [None]:
p_valor = 1- norm.cdf(Z)
p_valor 

2.237286800266247e-09

In [None]:
p_valor<=significancia

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.



<font color='blue'>**Conclusión:** Tenemos suficiente envidencia muestral para rechazar $H_0$, por lo tanto 
se concluye que el ingreso promedio de los hombres jefes de hogar es superior al ingreso promedio de las mujeres jefas de hogar. Esto confirma la alegación de desigualdad de ingresos entre géneros.</font>

## Usando biblioteca de Phyton

<font color='red'>Usando DescrStatsW</font>

https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.DescrStatsW.html


In [None]:
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans

In [None]:
test_H = DescrStatsW(muestra_hombres)
test_M = DescrStatsW(muestra_mujeres)

In [None]:
test_1 = test_H.get_compare(test_M)

In [None]:
test_1.ztest_ind(value=D_0,alternative='larger')

(5.865620057764754, 2.2372867859458255e-09)

In [None]:
z,p_valor = test_1.ztest_ind(value=D_0,alternative='larger')
p_valor 

2.2372867859458255e-09

In [None]:
p_valor <= significancia

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.



<font color='red'>Usando CompareMeans</font>

https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.CompareMeans.ttest_ind.html

In [None]:
test_2 = CompareMeans(test_H,test_M)


In [None]:
z,p_valor = test_2.ztest_ind(value=D_0,alternative='larger')
p_valor

2.2372867859458255e-09

In [None]:
p_valor <= significancia

True

Observe que <font color='red'>$p-\textrm{valor} \leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

<font color='blue'>**Conclusión:** Tenemos suficiente envidencia muestral para rechazar $H_0$, por lo tanto 
se concluye que el ingreso promedio de los hombres jefes de hogar es superior al ingreso promedio de las mujeres jefas de hogar. Esto confirma la alegación de desigualdad de ingresos entre géneros.</font>

## Generalizando

**En este tipo de prueba se comparan las medias de dos poblaciones independientes.**

Suponga que se tienen dos poblaciones independientes y que se extrae una muestra aleatoria de cada una, digamos $x$ y $y$, cuyas medias (poblacionales) son $\mu_x$ y $\mu_y$, y con varianzas (poblacionales) $\sigma^{2}_x$ y $\sigma^{2}_y$, respectivamente.

Considere que el interés es probar hipótesis acerca de $\mu_x - \mu_y$, entonces se pueden plantear las siguientes pruebas de hipótesis:

>1. Prueba de hipótesis <font color='red'>bilateral</b></font> $\hspace{2.2 cm}$
$
\begin{cases}
H_0: \mu_x = \mu_y\\
H_1: \mu_x \neq \mu_y
\end{cases}
$
<font color='blue'>o equivalentemente </b></font>
$
\begin{cases}
H_0: \mu_x - \mu_y = D_0\\
H_1: \mu_x -  \mu_y \neq D_0
\end{cases}
$

> 2. Prueba de hipótesis <font color='red'>unilateral a derecha</font> $\hspace{0.1 cm}$
$
\begin{cases}
H_0: \mu_x \leq \mu_y\\
H_1: \mu_x > \mu_y
\end{cases}
$
<font color='blue'>o equivalentemente </b></font>
$
\begin{cases}
H_0: \mu_x - \mu_y \leq D_0\\
H_1: \mu_x -  \mu_y > D_0
\end{cases}
$

>3. Prueba de hipótesis <font color='red'>unilateral a izquierda</font>
$
\begin{cases}
H_0: \mu_x \geq \mu_y\\
H_1: \mu_x < \mu_y
\end{cases}
$
<font color='blue'>o equivalentemente </b></font>
$
\begin{cases}
H_0: \mu_x - \mu_y \geq D_0\\
H_1: \mu_x -  \mu_y < D_0
\end{cases}
$

**$D_0$ es el valor de referencia de la diferencia entre las medias poblacionales.**

### **Estadística de Prueba** 

<font color='red'>Puntos importantes</font>

> 1. Si ambas muestras aleatorias proviene de **distribuciones normales con varianzas conocidas** $(\sigma^2_{x}, \sigma^2_{y})$, la estadística de prueba es

$$Z = \frac{\left(\overline{X} - \overline{Y}\right) - D_{0}}{\sqrt{\frac{\sigma^2_{x}}{n_{x}} + \frac{\sigma^2_{y}}{n_{y}}}} \sim N(0,1)$$
en que $\overline{X}$ y $\overline{Y}$ son las medias muestrales.

> 2. Si ambas muestras aleatorias proviene de **distribuciones normales con varianzas desconocidas** $(\sigma^2_{x}, \sigma^2_{y})$, la estadística de prueba dependerá de como sean $\sigma^2_{x}$ y $\sigma^2_{y}$:

>- **Si** $\boldsymbol{\sigma^{2}_{x}=\sigma^{2}_{y}}$, la estadística de prueba es
$$ T = \frac{\left(\overline{X} - \overline{Y}\right) - D_{0}}{S_{p}\sqrt{\frac{1}{n_{x}} + \frac{1}{n_{y}}}} \sim t_{(n_{x}+n_{y}-2)}; \hspace{0.9 cm} S_{p}=\frac{(n_{x}-1)S^{2}_{x} + (n_{y}-1)S^{2}_{y}}{n_{x}+n_{y}-2}$$
donde $n_{x}+n_{y}-2$ son los grados de libertad de la distribución t-Student.

>- **Si** $\boldsymbol{\sigma^{2}_{x}\neq \sigma^{2}_{y}}$, la estadística de prueba es
$$ T = \frac{\left(\overline{X} - \overline{Y}\right) - D_{0}}{\sqrt{\frac{S^{2}_{x}}{n_{x}} + \frac{S^{2}_{y}}{n_{y}}}} \stackrel{aprox}{\sim} t_{v}; \hspace{0.9 cm} v= \frac{\left(\frac{S^2_{x}}{n_{x}}+\frac{S^{2}_{y}}{n_y}\right)^2}{ \frac{\left(S^2_{x}/n_{x}\right)^2}{n_{x}+2} + \frac{\left(S^2_{y}/n_{y}\right)^2}{n_{y}+1} } - 2  $$

> 3. Si no sabemos la procedencia distribucional de las muestras, pero **$n$ es suficientemente grande $(n\geq 30)$**, la estadística de prueba adecuada es
$$ Z = \frac{\left(\overline{X} - \overline{Y}\right) - D_{0}}{\sqrt{\frac{\sigma^2_{x}}{n_{x}} + \frac{\sigma^2_{y}}{n_{y}}}}  \sim N(0,1) $$

> 4. Si no sabemos la procedencia distribucional de las muestras y **$n$ es pequeño $(n<30)$** debemos aumentar el tamaño de la muestra o usar pruebas no paramétricas.

![Resumen dos medias](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Resumen_Dif.png)

### **Región Critica**

![Region Critica dos medias](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Dif.png)

### **$p$-valor**

<font color='red'>Puntos importantes</font>

Podemos decidir si rechazamos o no $H_0$ usando dos criterios:
> 1. Si la Estadística de prueba $(Z \, \textrm{o}\, T)$  cae en la región de rechazo, entonces rechazamos $H_0$. 
> 2. Si $p$-valor $\leq \alpha$ rechazamos $H_0$. Asuma que $W$ es una estadística de prueba ($Z$ o $T$) cualquiera, entonces
>- Prueba <font color='red'>bilateral $(H_1: \mu_{x} - \mu_{y} \neq D_0)$</font>

$$p-\textrm{valor}= 2\times P(W \geq Z) = 2\times [1-P(W < Z) ] $$.

>- Prueba <font color='red'>Unilateral a derecha $(H_1: \mu_{x} - \mu_{y} > D_0)$</font>

$$p-\textrm{valor}= P(W \geq Z)= 1-P(W < Z)$$

>- Prueba <font color='red'>Unilateral a izquierda $(H_1:\mu_{x} - \mu_{y} < D_0)$</font> 

$$p-\textrm{valor}= P(W \leq Z)$$.