# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 3</font>

***



# Trabajo sobre pruebas de hipótesis

Utilizando los conocimientos adquiridos en nuestro entrenamiento realice la prueba de hipótesis indicadas abajo.

Siga el guión propuesto y vaya completando las celdas vacias.
Procure pensar en otras pruebas interesantes que puedan ser realizadas con muestro conjunto de datos.

# <font color=green>Base de datos</font>
***

La <b> Encuesta Nacional de Hogares (PNDA, del portugués Pesquisa Nacional por Amostra de Domicílios)</b> anualmente investiga, de forma permanente, las características generales de la población, educación, trabajo, ingresos y vivienda, y otras con frecuencia variable, de acuerdo con las necesidades de información del país, tales como las características de migración, fecundidad, nupcialidad, salud, seguridad alimentaria, entre otros temas. La recopilación de estas estadísticas constituye, durante los 49 años de realización de la investigación, un importante instrumento para la formulación, validación y evaluación de políticas orientadas al desarrollo socioeconómico y a la mejora de las condiciones de vida en Brasil.

**Fuente**

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

**Variables**


> Renta 
> ***

Ingreso mensual del jefe del hogar.

> Edad
> ***

Edad (en años) del jefe del hogar.

> Altura (construida)
> ***

Altura (en metros) del jefe del hogar.

> UF (Unidad de federación)
> ***

|Código|Descripción|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> Sexo	
> ***

|Código|Descripción|
|---|---|
|0|Masculino|
|1|Femenino|

> Años de estudio
> ***

|Código|Descripción|
|---|---|
|1|Sin instrucción o menos de 1 año|
|2|1 año|
|3|2 años|
|4|3 años|
|5|4 años|
|6|5 años|
|7|6 años|
|8|7 años|
|9|8 años|
|10|9 años|
|11|10 años|
|12|11 años|
|13|12 años|
|14|13 años|
|15|14 años|
|16|15 años o más|
|17|No determinados| 
||No aplica|

> Color 
> ***

|Código|Descripción|
|---|---|
|0|Indigena|
|2|Blanca|
|4|Negra|
|6|Amarilla|
|8|Parda|
|9|Sin declaración|

<font color='red'>Observación</font>
***
> Se realizaron los siguientes tratamientos sobre los datos originales:
> 1. Se eliminaron los registros en los que la <b>Renta</b> no era válida (999 999 999 999);
> 2. Se eliminaron los registros en los que la <b>Renta</b> era missing;
> 3. Sólo se consideraron los registros de las  <b>personas de referencia</b> de cada hogar (responsables del hogar).

***
***

## Importe las bibliotecas



Utilice las celda de abajo para importar las bibliotecas que serán necesarias para ejecutar las tareas

<font color='red'>Sugerencias: pandas, numpy, scipy, statsmodels</font>

In [17]:
import pandas as pd
import numpy as np
from scipy.stats import norm
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans

## Importe la base de datos y almacene el contenido en un DataFrame

In [3]:
datos = pd.read_csv('datos.csv')

## Visualice el contenido del DataFrame

In [4]:
datos.head()

Unnamed: 0,UF,Sexo,Edad,Color,Anos de Estudio,Renta,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


**Problema**

Asuma que usted es un investigador que estudia el mercado de trabajo brasilero y está interesado en estudiar las diferencias salariales de los trabajadores de los estados de Rio de Janeiro y de São Paulo. 

Durante su investigación usted comienza a sospechar que aparentemente los rendimientos de los trabajadores del estado de Rio de Janeiro son más bajos que los rendimientos de los trabajadores del estado de São Paulo. Para verificar su sospecha realice una prueba de hipótesis de comparación de medias utilizando dos muestras con los salarios de los  trabajadores de los dos estados. Siga las siguientes etapas:

- Selecione dos muestras **500 trabajadores** para cada uno de los dos estados (variable UF) para realizar la prueba. Utilize el **parámetro random_state=101**.
- Considere un **nivel de significancia del 5%**.
- Pruebe la hipótesis que el **salario medio de los trabalhadores de Rio de Janeiro es menor que el salario medio de los trabajadores de São Paulo**.

---

## Selecione las muestras

In [6]:
rj = datos.query('UF == 33').sample(n = 500, random_state = 101).Renta

In [7]:
sp = datos.query('UF == 35').sample(n = 500, random_state = 101).Renta

## Calcule la media muestral de cada muestra

Para tener una noción si la sospecha del investigador es cierta compare las medias muestrales dos estados. 

In [8]:
media_muestral_rj = rj.mean()
media_muestral_rj

2240.518

In [9]:
media_muestral_sp = sp.mean()
media_muestral_sp

2839.352

## Datos del problema



In [10]:
significancia = 0.05
confianza = 1 - significancia
n_rj = 500
n_sp = 500
D_0 = 0

## Resuelva paso a paso 

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**

<font color='red'>Recuerde que la afirmación se coloca en hipótesis nula $(H_0)$ y la sospecha en la hipótesis alterna $(H_1)$. </font>

Denote por \\

<font color='red'>$\mu_R$</font> $\Rightarrow$ el salario medio poblacional de los trabajadores del estado de <font color='red'>Rio de Janeiro</font>,

<font color='blue'>$\mu_S$</font> $\Rightarrow$  el salario medio poblacional de los trabajadores del estado de <font color='red'>São Paulo</font>.

Plantee las hipótesis:

$
\begin{cases}
H_0: \mu_R \geq \mu_S   \\
H_1: \mu_R < \mu_S
\end{cases}
$
**O equivalentemente**
$
\begin{cases}
H_0: \mu_R - \mu_S \geq 0\,  \\
H_1: \mu_R - \mu_S < 0 
\end{cases}
$

Note que $D_0=0$.

<font color='red'>Ayuda: menor igual (\leq), mayor igual (\geq), menor que (<), mayor que (>) </font>.


Qué tipo de prueba de hipótesis es? 

<font color='blue'> Rta: Unilateral (o unicaudal) a izquierda.</font>

**Paso 2: Fijar el nivel de significancia $\alpha$ de la prueba**

$\alpha = 0,05$

**Paso 3: Determinar la distribución de muestreo y Estadística de prueba adecuada**

![Resumen dos medias](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Resumen_Dif.png)

Calcule la estadística de prueba adecuada


<font color='blue'> Observe que no se puede afirmar si la distribución de la renta es normal o no, sin embargo las muestras son de tamaños grandes, por lo tanto la estadística de prueba adecuada es:</font>

$$Z = \frac{\left(\overline{X}_{rj} - \overline{Y}_{sp}\right) - D_0}{\sqrt{\frac{\sigma^{2}_{rj}}{n_{rj}}+\frac{\sigma^{2}_{sp}}{n_{sp}}}} \sim N(0,1) $$

<font color='blue'> Como no conocemos las varianzas poblacionales $\left(\sigma^{2}_{rj}, \sigma^{2}_{sp}\right)$, usamos las varianzas muestrales $\left(S^{2}_{rj}, S^{2}_{sp}\right)$. Así, tenemos que </font>

$$Z = \frac{\left(\overline{X}_{rj} - \overline{Y}_{sp}\right) - D_0}{\sqrt{\frac{S^{2}_{rj}}{n_{rj}}+\frac{S^{2}_{sp}}{n_{sp}}}} \sim N(0,1) $$

<font color='red'> Observación: El Teorema del límite central (TLC) garantiza la distribución normal de esta estadística de prueba.</font>

In [12]:
varianza_muestral_rj = rj.var()
varianza_muestral_rj

21565214.298272368

In [13]:
varianza_muestral_sp = sp.var()
varianza_muestral_sp

13685443.647390857

In [14]:
numerador = (media_muestral_rj - media_muestral_sp) - D_0

denominador = np.sqrt( varianza_muestral_rj/n_rj + varianza_muestral_sp/n_sp)

Z = numerador / denominador
Z


-2.255318273608561

**Paso 4: Determinar la región crítica**

![Region Critica dos medias](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Dif.png)

Calcule el valor critico

<font color='red'>Obs: Como $\alpha=0,05$ y la prueba es unilateral a izquierda, el área acumulada es 0,05 (ver gráfica arriba).</font>



In [18]:
z_alpha = norm.ppf(0.05)
z_alpha 

-1.6448536269514729

**Paso 5: Tomar la decisión y concluir**

Criterio de la región critica.

<font color='red'>Verifique si su estadística de prueba cae o no en la región crítica </font>

In [19]:
Z <= z_alpha

True

<font color='red'>Note que $Z$ está en la región crítica. Por lo tanto hay suficiente evidencia en la muestra para rechazar $H_0$.</font>

Calcule el $p$-valor.

Recuerque que si $p-\textrm{valor} \leq \alpha$ rechazamos $H_0$.

<font color='red'>Tenemos una prueba unilateral a izquierda $(H_1: \mu_{rj} < \mu_{sp})$, entonces el p-valor se calcula como </font>

$$p-\textrm{valor}= P(W \leq Z)$$.

In [21]:
p_valor = norm.cdf(Z)
p_valor 

0.012056679215693302

In [22]:
p_valor <= significancia

True

<font color='green'>Conclusión: Tenemos suficiente evidencia en las muestras para rechaza la hipótesis nula $H_0$. Por lo tanto, la renta media de los jefes del hogar del estado de Rio de Janeiro es menor que la renta media de los jefes del hogar del estado de São Paulo. </font>

## Resuelva usando paquetes de Phyton

### Utilize DescrStatsW

In [23]:
test_rj = DescrStatsW(rj)

In [24]:
test_sp = DescrStatsW(sp)

In [25]:
test_1 = test_rj.get_compare(test_sp)

In [28]:
z, p_valor = test_1.ztest_ind(alternative='smaller', value=D_0)
print(z)
print(p_valor)

-2.255318273608558
0.012056679215693396


In [29]:
p_valor <= significancia

True

### Utilize CompareMeans

In [31]:
test_2 = CompareMeans(test_rj, test_sp)

In [32]:
z,p_valor = test_2.ztest_ind(value=D_0,alternative='smaller')
p_valor

0.012056679215693396

In [33]:
p_valor <= significancia

True

<font color='green'>Conclusión: Tenemos suficiente evidencia en las muestras para rechaza la hipótesis nula $H_0$. Por lo tanto, la renta media de los jefes del hogar del estado de Rio de Janeiro es menor que la renta media de los jefes del hogar del estado de São Paulo.</font>