# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 3</font>

***

# <font color=green>6. PRUEBAS NO PARAMÉTRICAS</font>
***

En las pruebas no paramétricas, no hacemos suposiciones sobre la distribución (de probabilidad) de la que se extraen las observaciones.



Tipos de pruebas no paramétricas:
> 1. Prueba de **Wilcoxon** \\
 Se contrasta la hipótesis nula de igualdad de medias de poblaciones dependientes.
> 2. Prueba de **Mann-Whitney** \\
Se contrasta la hipótesis nula de igualdad de medias de poblaciones independientes.

## 6.1 **Prueba de Wilcoxon**

Comparación de dos poblaciones - Muestras pareadas

***

### **Problema**

Un nuevo tratamiento para acabar con el hábito de fumar esta siendo empleado en un grupo de **35 pacientes** voluntarios. **De cada voluntario** sometido a la prueba se obtuvo información sobre la cantidad de cigarrillos consumidos por día **antes** y **después** del final del tratamiento. Asumiendo un **nivel de confianza del 95%** ¿es posible concluir que, después de la aplicación del nuevo tratamiento, hubo un cambio en el habito de fumar en el grupo de pacientes evaluados?





Si denotamos por \\

$\mu_{antes} \Rightarrow$ la media de cigarrillos consumidos antes del tratamiento,

$\mu_{despues} \Rightarrow$ la media de cigarrillos consumidos despues del tratamiento,

podemos plantear las hipótesis como sigue

$
\begin{cases}
H_0: \mu_{antes} = \mu_{despues} \,  \\
H_1: \mu_{antes} \neq \mu_{despues}
\end{cases}
$


**Datos del problema**

In [None]:
import pandas as pd

In [None]:
fumar = {'Antes': [39, 25, 24, 50, 13, 52, 21, 29, 10, 22, 50, 15, 36, 39, 52, 48, 24, 15, 40, 41, 17, 12, 21, 49, 14, 55, 46, 22, 28, 23, 37, 17, 31, 49, 49],
         'Despues':[16, 8, 12,  0, 14, 16, 13, 12, 19, 17, 17,  2, 15, 10, 20, 13,  0,  4, 16, 18, 16, 16,  9,  9, 18,  4, 17,  0, 11, 14,  0, 19,  2,  9,  6 ]}
significancia = 0.05
confianza  = 1  - significancia 
n = 35  

In [None]:
fumar = pd.DataFrame(fumar)
fumar.head()

Unnamed: 0,Antes,Despues
0,39,16
1,25,8
2,24,12
3,50,0
4,13,14


#### Haciendo cálculos

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**

$\mu_{antes} \Rightarrow$ la media de cigarrillos consumidos antes del tratamiento,

$\mu_{despues} \Rightarrow$ la media de cigarrillos consumidos despues del tratamiento.


$
\begin{cases}
H_0: \mu_{antes} = \mu_{despues} \,  \\
H_1: \mu_{antes} \neq \mu_{despues}
\end{cases}
$



**Paso 2: Fijar el nivel de  significancia $\alpha$ de la prueba**

$\alpha=0.05$

**Paso 3: Calcular la Estadística de Prueba**

$$Z = \frac{T - \mu_{T}}{\sigma_{T}},$$

en que $T$ es la menor de las sumas de rangos del mismo signo y 
$$\mu_{T} = \frac{n(n+1)}{4},$$

$$ \sigma_{T} = \sqrt{\frac{n(n+1)(2n+1)}{24}}. $$

Calculando $T$

In [None]:
fumar

Unnamed: 0,Antes,Despues
0,39,16
1,25,8
2,24,12
3,50,0
4,13,14
5,52,16
6,21,13
7,29,12
8,10,19
9,22,17


In [None]:
fumar['Dif'] = fumar.Despues - fumar.Antes
fumar

Unnamed: 0,Antes,Despues,Dif
0,39,16,-23
1,25,8,-17
2,24,12,-12
3,50,0,-50
4,13,14,1
5,52,16,-36
6,21,13,-8
7,29,12,-17
8,10,19,9
9,22,17,-5


In [None]:
fumar['|Dif|'] = fumar.Dif.abs()
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|
0,39,16,-23,23
1,25,8,-17,17
2,24,12,-12,12
3,50,0,-50,50
4,13,14,1,1
5,52,16,-36,36
6,21,13,-8,8
7,29,12,-17,17
8,10,19,9,9
9,22,17,-5,5


In [None]:
fumar.sort_values(by = '|Dif|', inplace=True)
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|
4,13,14,1,1
20,17,16,-1,1
31,17,19,2,2
21,12,16,4,4
24,14,18,4,4
9,22,17,-5,5
6,21,13,-8,8
29,23,14,-9,9
8,10,19,9,9
17,15,4,-11,11


In [None]:
fumar['Rango'] = range(1, len(fumar) + 1)
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|,Rango
4,13,14,1,1,1
20,17,16,-1,1,2
31,17,19,2,2,3
21,12,16,4,4,4
24,14,18,4,4,5
9,22,17,-5,5,6
6,21,13,-8,8,7
29,23,14,-9,9,8
8,10,19,9,9,9
17,15,4,-11,11,10


In [None]:
rango =  fumar[['|Dif|','Rango']].groupby(['|Dif|']).mean()
rango

Unnamed: 0_level_0,Rango
|Dif|,Unnamed: 1_level_1
1,1.5
2,3.0
4,4.5
5,6.0
8,7.0
9,8.5
11,10.0
12,11.5
13,13.0
17,15.0


In [None]:
rango.reset_index(inplace = True)
rango

Unnamed: 0,|Dif|,Rango
0,1,1.5
1,2,3.0
2,4,4.5
3,5,6.0
4,8,7.0
5,9,8.5
6,11,10.0
7,12,11.5
8,13,13.0
9,17,15.0


In [None]:
fumar.drop(['Rango'],axis=1, inplace=True) 
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|
4,13,14,1,1
20,17,16,-1,1
31,17,19,2,2
21,12,16,4,4
24,14,18,4,4
9,22,17,-5,5
6,21,13,-8,8
29,23,14,-9,9
8,10,19,9,9
17,15,4,-11,11


In [None]:
fumar = fumar.merge(rango, left_on='|Dif|', right_on='|Dif|',how='left')
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|,Rango
0,13,14,1,1,1.5
1,17,16,-1,1,1.5
2,17,19,2,2,3.0
3,12,16,4,4,4.5
4,14,18,4,4,4.5
5,22,17,-5,5,6.0
6,21,13,-8,8,7.0
7,23,14,-9,9,8.5
8,10,19,9,9,8.5
9,15,4,-11,11,10.0


In [None]:
fumar['Rango(+)'] = fumar.apply(lambda x: x.Rango if x.Dif>0 else 0, axis=1)
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|,Rango,Rango(+)
0,13,14,1,1,1.5,1.5
1,17,16,-1,1,1.5,0.0
2,17,19,2,2,3.0,3.0
3,12,16,4,4,4.5,4.5
4,14,18,4,4,4.5,4.5
5,22,17,-5,5,6.0,0.0
6,21,13,-8,8,7.0,0.0
7,23,14,-9,9,8.5,0.0
8,10,19,9,9,8.5,8.5
9,15,4,-11,11,10.0,0.0


In [None]:
fumar['Rango(-)'] = fumar.apply(lambda x: x.Rango if x.Dif<0 else 0, axis=1)
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|,Rango,Rango(+),Rango(-)
0,13,14,1,1,1.5,1.5,0.0
1,17,16,-1,1,1.5,0.0,1.5
2,17,19,2,2,3.0,3.0,0.0
3,12,16,4,4,4.5,4.5,0.0
4,14,18,4,4,4.5,4.5,0.0
5,22,17,-5,5,6.0,0.0,6.0
6,21,13,-8,8,7.0,0.0,7.0
7,23,14,-9,9,8.5,0.0,8.5
8,10,19,9,9,8.5,8.5,0.0
9,15,4,-11,11,10.0,0.0,10.0


In [None]:
fumar.drop(['Rango'], axis = 1, inplace = True)
fumar

Unnamed: 0,Antes,Despues,Dif,|Dif|,Rango(+),Rango(-)
0,13,14,1,1,1.5,0.0
1,17,16,-1,1,0.0,1.5
2,17,19,2,2,3.0,0.0
3,12,16,4,4,4.5,0.0
4,14,18,4,4,4.5,0.0
5,22,17,-5,5,0.0,6.0
6,21,13,-8,8,0.0,7.0
7,23,14,-9,9,0.0,8.5
8,10,19,9,9,8.5,0.0
9,15,4,-11,11,0.0,10.0


$T$ es la menor de las sumas de rangos del mismo signo

In [None]:
T = min(fumar['Rango(+)'].sum(), fumar['Rango(-)'].sum())
T

22.0

Calculamos $\mu_{T}$:
$$\mu_{T} = \frac{n(n+1)}{4},$$



In [None]:
mu_T = (n*(n+1))/4
mu_T

315.0

Calculamos $\sigma_{T}$
$$ \sigma_{T} = \sqrt{\frac{n(n+1)(2n+1)}{24}} $$

In [None]:
sigma_T = np.sqrt( (n*(n+1)*(2*n + 1))/24 )
sigma_T

61.053255441458646

Calculamos $Z$:

$$Z = \frac{T - \mu_{T}}{\sigma_{T}}$$

In [None]:
Z = (T - mu_T)/sigma_T
Z

-4.799088891843698

**Paso 4: Determinar la región crítica**

![Region Critica Bilateral](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Bilateral.png)

Obteniendo $z_{\alpha/2}$

In [None]:
from scipy.stats import norm

In [None]:
z_alpha_2 = norm.ppf(0.975) 
z_alpha_2

1.959963984540054

Por lo tanto la región crítica es

![Valor Critico Bilateral](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Valor_Critico_Bilateral.png)

**Paso 5: Tomar la decisión y concluir**

<font color='red'>¿$Z = -4,80$ está en la Región Crítica?</font> o equivalentemente <font color='red'> ¿ $Z \geq 1,96$ o $Z\leq -1,96$?</font>

In [None]:
Z <= -z_alpha_2

True

Observe que $Z\leq -1,96$ y por lo tanto hay suficiente evidencia en la muestra para rechazar $H_0$.

![Decision Fumar](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Decision_Fumar.png)

<font color='red'>Rechazamos $H_0$ si $p$-valor $\leq \alpha$.</font>

#### Usando biblioteca de Phyton

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html

In [None]:
from scipy.stats import wilcoxon

In [None]:
wilcoxon(fumar.Antes,fumar.Despues)

WilcoxonResult(statistic=22.0, pvalue=1.584310018505865e-06)

In [None]:
T, p_valor = wilcoxon(fumar.Antes,fumar.Despues)
print(T)
print(p_valor)

22.0
1.584310018505865e-06


In [None]:
p_valor <= significancia

True

 <font color='blue'>**Conclusión**: Rechazamos la hipótesis de que no hay diferencia entre grupos, es decir, hay diferencia entre el número promedio de cigarrillos fumados por los pacientes antes y después del tratamiento. Y como se puede comprobar a través del promedio de cigarrillos fumados por día antes (31,86) y después (11,2) del tratamiento, podemos concluir que el tratamiento presentó un resultado satisfactorio.</font>

### **Generalizando**

#### **Hipótesis**
> Prueba <font color ='red'> Bilateral </font> $\hspace{2.3 cm}$
$
\begin{cases}
H_0: \mu_1 = \mu_2\\
H_1: \mu_1 \neq \mu_2
\end{cases}
$

> Prueba  <font color ='red'>Unilateral a Derecha</font>$\hspace{0.2 cm}$
$
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

> Prueba <font color ='red'> Unilateral a Izquierda </font>
$
\begin{cases}
H_0: \mu_1 \geq \mu_2\\
H_1: \mu_1 < \mu_2
\end{cases}
$



#### **Estadística de prueba**

$$Z = \frac{T - \mu_{T}}{\sigma_{T}},$$

en que $T$ es la menor de las sumas de rangos del mismo signo y 

$$\mu_{T} = \frac{n(n+1)}{4},$$

$$ \sigma_{T} = \sqrt{\frac{n(n+1)(2n+1)}{24}}. $$

#### **Región Crítica**

![Region Critica NP](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_NP.png)

#### **$p$-valor**

Asumiendo que $W$ es una estadística de prueba  cualquiera (calculada bajo $H_0$ cierta), el $p$-valor es calculado como sigue:

>- Prueba <font color='red'>Bilateral $(H_1: \mu_{1} \neq \mu_{2})$</font>

$$p-\textrm{valor}= 2\times P(W \geq Z) = 2\times [1-P(W < Z) ] $$.

>- Prueba <font color='red'>Unilateral a Derecha $(H_1: \mu_{1} > \mu_{2})$</font>

$$p-\textrm{valor}= P(W \geq Z)= 1-P(W < Z)$$

>- Prueba <font color='red'>Unilateral a Izquierda $(H_1: \mu_{1} < \mu_{2})$</font> 

$$p-\textrm{valor}= P(W \leq Z)$$.

## 6.2 **Prueba de Mann-Whitney**

Comparación de dos poblaciones - Muestras independientes

***

### **Problema**

En nuestro conjunto de datos de la **Encuesta Nacional por Muestra de Hogares - 2015** tenemos los ingresos de los jefes de hogar. Un problema bastante conocido en Brasil es la **desigualdad de ingresos**, especialmente entre hombres y mujeres. 

Dos muestras al azar, uno de **6 hombres** y uno de **8 mujeres**, fueron seleccionados en nuestro conjunto de datos. Para probar esta desigualdad, **pruebe la igualdad de medias entre estas dos muestras con un nivel de significancia del 5%**

Si denotamos por \\
<font color='blue'> $\mu_m$ </font> $\Rightarrow$ el ingreso medio de los jefes del hogar de género <font color='blue'>femenino</font>. \\
<font color='red'>$\mu_h$</font> $\Rightarrow$ el ingreso medio de los jefes del hogar de género <font color='red'>masculino</font>, \\

las hipótesis que queremos probar son
$
\begin{cases}
H_0: \mu_m \geq \mu_h\\
H_1: \mu_m < \mu_h
\end{cases}
$

**Seleccionando las muestras**

In [None]:
muestra_hombres = datos.query('Sexo == 0').sample(n=6, random_state = 1010).Renta

In [None]:
muestra_mujeres = datos.query('Sexo == 1').sample(n=8, random_state = 1010).Renta

In [None]:
media_muestral_h = muestra_hombres.mean()
media_muestral_h

3633.3333333333335

In [None]:
media_muestral_m = muestra_mujeres.mean()
media_muestral_m

598.5

**Datos del problema**

In [None]:
significancia = 0.05
confianza = 1 - significancia
n_1 = len(muestra_hombres)
n_2 = len(muestra_mujeres)

#### Haciendo cálculos

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**

<font color='blue'> $\mu_m$ </font> $\Rightarrow$ el ingreso medio de los jefes del hogar de género <font color='blue'>femenino</font>. \\
<font color='red'>$\mu_h$</font> $\Rightarrow$ el ingreso medio de los jefes del hogar de género <font color='red'>masculino</font>. \\

$
\begin{cases}
H_0: \mu_m = \mu_h \\
H_1: \mu_m < \mu_h
\end{cases}
$


**Paso 2: Fijar el nivel de  significancia $\alpha$ de la prueba**

$\alpha=0.05$


**Paso 3: Calcular la Estadística de Prueba**

$$Z = \frac{u - \mu{(u)}}{\sigma{(u)}},$$

donde 

> $u = min(u_1, u_2)$
>- $u_1 = n_1 \times n_2 + \frac{n_1 \times (n_1 + 1)}{2} - R_1$
>- $u_2 = n_1 \times n_2 + \frac{n_2 \times (n_2 + 1)}{2} - R_2$
>- $n_1$ = nº de elementos del grupo más pequeño (hombres)
>- $n_2$ = nº de elementos del grupo más grande (mujeres)
>- $R_1$ = suma de los rangos del grupo $n_1$
>- $R_2$ = suma de los rangos del grupo $n_2$

> $\mu{(u)} = \frac{n_1 \times n_2}{2}$

> $\sigma{(u)} = \sqrt{\frac{n_1 \times n_2 \times (n_1 + n_2 + 1)}{12}}$

Calculando $R_1$ y $R_2$

In [None]:
H = pd.DataFrame(muestra_hombres)
H['Sexo'] = 'Hombres'
H 

Unnamed: 0,Renta,Sexo
696,800,Hombres
59541,5000,Hombres
40800,1600,Hombres
41986,1200,Hombres
52349,12000,Hombres
27443,1200,Hombres


In [None]:
M = pd.DataFrame(muestra_mujeres)
M['Sexo'] = 'Mujeres'
M

Unnamed: 0,Renta,Sexo
38880,800,Mujeres
44988,600,Mujeres
54310,1200,Mujeres
43236,900,Mujeres
74741,788,Mujeres
10600,350,Mujeres
4611,0,Mujeres
1638,150,Mujeres


In [None]:
sexo = H.append(M)
sexo.reset_index(inplace=True, drop=True)
sexo 

Unnamed: 0,Renta,Sexo
0,800,Hombres
1,5000,Hombres
2,1600,Hombres
3,1200,Hombres
4,12000,Hombres
5,1200,Hombres
6,800,Mujeres
7,600,Mujeres
8,1200,Mujeres
9,900,Mujeres


In [None]:
sexo.sort_values(by='Renta', inplace=True)
sexo

Unnamed: 0,Renta,Sexo
12,0,Mujeres
13,150,Mujeres
11,350,Mujeres
7,600,Mujeres
10,788,Mujeres
0,800,Hombres
6,800,Mujeres
9,900,Mujeres
3,1200,Hombres
5,1200,Hombres


In [None]:
sexo['Rango'] = range(1, len(sexo) + 1)
sexo

Unnamed: 0,Renta,Sexo,Rango
12,0,Mujeres,1
13,150,Mujeres,2
11,350,Mujeres,3
7,600,Mujeres,4
10,788,Mujeres,5
0,800,Hombres,6
6,800,Mujeres,7
9,900,Mujeres,8
3,1200,Hombres,9
5,1200,Hombres,10


In [None]:
rango = sexo[['Renta','Rango']].groupby(['Renta']).mean()
rango

Unnamed: 0_level_0,Rango
Renta,Unnamed: 1_level_1
0,1.0
150,2.0
350,3.0
600,4.0
788,5.0
800,6.5
900,8.0
1200,10.0
1600,12.0
5000,13.0


In [None]:
rango.reset_index(inplace=True)
rango

Unnamed: 0,Renta,Rango
0,0,1.0
1,150,2.0
2,350,3.0
3,600,4.0
4,788,5.0
5,800,6.5
6,900,8.0
7,1200,10.0
8,1600,12.0
9,5000,13.0


In [None]:
sexo.drop(['Rango'], axis=1, inplace=True)
sexo

Unnamed: 0,Renta,Sexo
12,0,Mujeres
13,150,Mujeres
11,350,Mujeres
7,600,Mujeres
10,788,Mujeres
0,800,Hombres
6,800,Mujeres
9,900,Mujeres
3,1200,Hombres
5,1200,Hombres


In [None]:
sexo = sexo.merge(rango, left_on='Renta', right_on='Renta', how = 'left')
sexo

Unnamed: 0,Renta,Sexo,Rango
0,0,Mujeres,1.0
1,150,Mujeres,2.0
2,350,Mujeres,3.0
3,600,Mujeres,4.0
4,788,Mujeres,5.0
5,800,Hombres,6.5
6,800,Mujeres,6.5
7,900,Mujeres,8.0
8,1200,Hombres,10.0
9,1200,Hombres,10.0


$R_1$: suma de los rangos del grupo $n_1$ (hombres) \\
$R_2$: suma de los rangos del grupo $n_2$ (mujeres)

In [None]:
Temp = sexo[['Sexo', 'Rango']].groupby('Sexo').sum()
Temp

Unnamed: 0_level_0,Rango
Sexo,Unnamed: 1_level_1
Hombres,65.5
Mujeres,39.5


In [None]:
R_1 = Temp.loc['Hombres'][0]
R_1

65.5

In [None]:
R_2 = Temp.loc['Mujeres'][0]
R_2

39.5

Calculando  $u = min(u_1, u_2)$
>- $u_1 = n_1 \times n_2 + \frac{n_1 \times (n_1 + 1)}{2} - R_1$
>- $u_2 = n_1 \times n_2 + \frac{n_2 \times (n_2 + 1)}{2} - R_2$

In [None]:
u_1 = n_1 * n_2  +  (n_1*(n_1 + 1))/2  - R_1
u_1

3.5

In [None]:
u_2 = n_1 * n_2  +  (n_2*(n_2 + 1))/2  - R_2
u_2

44.5

In [None]:
u = min( u_1, u_2)
u

3.5

Calculando 
$$\mu{(u)} = \frac{n_1 \times n_2}{2}$$



In [None]:
mu_u = (n_1*n_2)/2
mu_u

24.0

Calculando
$$\sigma{(u)} = \sqrt{\frac{n_1 \times n_2 \times (n_1 + n_2 + 1)}{12}}$$

In [None]:
sigma_u = np.sqrt( (n_1*n_2*(n_1+n_2+1))/12 )
sigma_u

7.745966692414834

Calculamos 
$$Z = \frac{u - \mu{(u)}}{\sigma{(u)}}$$

In [None]:
Z = (u - mu_u)/sigma_u
Z

-2.6465386199084016

In [None]:
Z.round(2)

-2.65

**Paso 4: Determinar la región crítica**

![Region Critica Salario](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Salario.png)

Obteniendo $z_\alpha$

In [None]:
from scipy.stats import norm

In [None]:
z_alpha = norm.ppf(0.05)
z_alpha

-1.6448536269514729

![Valor Critico Salario](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Valor_Critico_Salario.png)

**Paso 5: Tomar la decisión y concluir**

<font color='red'>¿$Z = -2,65$ está en la Región Crítica?</font> o equivalentemente <font color='red'> ¿ $Z \geq 1,64$ o $Z \leq -1,64$?</font>

In [None]:
Z <= z_alpha

True

Observe que $Z\leq -1,64$ y por lo tanto hay suficiente evidencia en la muestra para rechazar $H_0$.

![Decision Salario](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Decision_Salario.png)

<font color='red'>Rechazamos $H_0$ si $p$-valor $\leq \alpha$.</font>


Recordemos que cuando la prueba es unilateral a izquierda $(H_1: \mu_{m} < \mu_{h})$ el $p$-valor se calcula como 

$$p-\textrm{valor}= P(W \leq Z)$$


In [None]:
from scipy.stats import  norm

In [None]:
p_valor = norm.cdf(Z)
p_valor

0.004066010949440919

In [None]:
p_valor <= significancia

True

<font color='blue'>**Conclusión:** Rechazamos la hipótesis de que no existe diferencia entre los dos grupos, por lo tanto concluimos que el ingreso promedio de las mujeres jefas de hogar es menor que el ingreso promedio de los hombres jefes de hogar. Esto confirma la alegación de la desigualdad de ingresos entre los sexos.</font>

#### Usando biblioteca de Phyton


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html

In [None]:
from scipy.stats import mannwhitneyu

In [None]:
mannwhitneyu(muestra_mujeres,muestra_hombres, alternative='less')

MannwhitneyuResult(statistic=3.5, pvalue=0.0047117744306222065)

In [None]:
u, p_valor = mannwhitneyu(muestra_mujeres,muestra_hombres, alternative='less')
print(u)
print(p_valor)

3.5
0.0047117744306222065


In [None]:
p_valor <= significancia

True

<font color='blue'>**Conclusión:** Rechazamos la hipótesis de que no existe diferencia entre los dos grupos, por lo tanto concluimos que el ingreso promedio de las mujeres jefas de hogar es menor que el ingreso promedio de los hombres jefes de hogar. Esto confirma la alegación de la desigualdad de ingresos entre los sexos.</font>

### **Generalizando**

#### **Hipótesis**
> Prueba <font color ='red'> bilateral </font> $\hspace{2.3 cm}$
$
\begin{cases}
H_0: \mu_1 = \mu_2\\
H_1: \mu_1 \neq \mu_2
\end{cases}
$

> Prueba  <font color ='red'>Unilateral a derecha</font>$\hspace{0.2 cm}$
$
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

> Prueba <font color ='red'> Unilateral a Izquierda </font>
$
\begin{cases}
H_0: \mu_1 \geq \mu_2\\
H_1: \mu_1 < \mu_2
\end{cases}
$

#### **Estadística de prueba**
La estadística de la prueba es

$$Z = \frac{u - \mu{(u)}}{\sigma{(u)}} \stackrel{aprox}{\sim} N(0,1),$$

donde 

> $u = min(u_1, u_2)$ 
>- $u_1 = n_1 \times n_2 + \frac{n_1 \times (n_1 + 1)}{2} - R_1$
>- $u_2 = n_1 \times n_2 + \frac{n_2 \times (n_2 + 1)}{2} - R_2$
>- $n_1$ = nº de elementos del grupo mas pequeño (hombres)
>- $n_2$ = nº de elementos del grupo más grande (mujeres)
>- $R_1$ = suma de los rangos del grupo $n_1$
>- $R_2$ = suma de los rangos del grupo $n_2$

$u \stackrel{aprox}{\sim} N\left(\mu(u), \sigma(u)\right)$

> $\mu{(u)} = \frac{n_1 \times n_2}{2}$

> $\sigma{(u)} = \sqrt{\frac{n_1 \times n_2 \times (n_1 + n_2 + 1)}{12}}$

#### **Región Crítica**

![Region Critica NP](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_NP.png)

#### **$p$-valor**

Asumiendo que $W$ es una estadística de prueba  cualquiera (calculada bajo $H_0$ cierta), el $p$-valor es calculado como sigue:

>- Prueba <font color='red'>bilateral $(H_1: \mu_{1} \neq \mu_{2})$</font>

$$p-\textrm{valor}= 2\times P(W \geq Z) = 2\times [1-P(W < Z) ] $$.

>- Prueba <font color='red'>Unilateral a derecha $(H_1: \mu_{1} > \mu_{2})$</font>

$$p-\textrm{valor}= P(W \geq Z)= 1-P(W < Z)$$

>- Prueba <font color='red'>Unilateral a izquierda $(H_1: \mu_{1} < \mu_{2})$</font> 

$$p-\textrm{valor}= P(W \leq Z)$$.