# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 3</font>

***

## Trabalho sobre testes de hipóteses

Utilizando os conhecimentos adquiridos em nosso treinamento realize o teste de hipóteses proposto abaixo.

Siga o roteiro proposto e vá completando as células vazias. Procure pensar em mais testes interessantes que podem ser realizados com o nosso dataset.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as biblioteca que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy, statsmodels</font>

In [32]:
import pandas as pd
import numpy as np

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [33]:
df = pd.read_csv('dados.csv')

### Visualize o conteúdo do DataFrame

In [34]:
df

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


## <font color='red'>Problema</font>

Você é um pesquisador que estuda o mercado de trabalho brasileiro e resolve estudar as diferenças salariais dos trabalhadores dos estados do Rio de Janeiro e de São Paulo. Durante sua pesquisa você verifica que, aparentemente, os rendimentos dos trabalhadores no estado do Rio de Janeiro são mais baixos que os rendimentos dos trabalhadores no estado de São Paulo. Para confirmar esta conclusão realize um teste de hipótese de comparação de médias em cima de duas amostras de trabalhadores dos dois estados. Siga as seguintes etapas:

- Selecione duas amostras de **500 trabalhadores** para cada um dos dois estados (variável UF) para realizar o teste. Utilize o **parâmetro random_state=101**.
- Considere o **nível de significância de 5%**.
- Teste a hipótese de que a **renda média dos trabalhadores do Rio de Janeiro é menor que a renda média dos trabalhadores de São Paulo**.

---

### Seleção das amostras

In [35]:
rj= df.query("UF == 33").sample( n = 500, random_state= 101).Renda
sp = df.query("UF == 35").sample( n = 500, random_state= 101).Renda

### Dados do problema
Obter média e desvio-padrão para as duas amostras

In [36]:
media_rj = rj.mean()
media_rj

2240.518

In [37]:
media_sp = sp.mean()
media_sp

2839.352

In [56]:
desv_rj = rj.std()

In [57]:
desv_sp = sp.std()

## Lembre-se...

<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img014.png' width=60%>

---

### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

#### <font color='red'>Lembre-se, a hipótese nula sempre contém a alegação de igualdade</font>

$H0$ Renda RJ $>=$ SP 
$H1$ Renda de RJ $<$ que SP

---

In [47]:
sig = 0.05
conf = 1 - sig
d_0 = 0
n_RJ = 500
n_SP = 500

### **Passo 2** - escolha da distribuição amostral adequada

### O tamanho da amostra é maior que 30?
#### Resp.:  sim

### Podemos afirmar que a população se distribui aproximadamente como uma normal?
#### Resp.: Não

### O desvio padrão populacional é conhecido?
#### Resp.: Não

---

### **Passo 3** - fixação da significância do teste ($\alpha$)

In [50]:
probabilidade = sig
probabilidade

0.05

In [53]:
from scipy.stats import norm

In [55]:
z_alpha = norm.ppf(probabilidade)
z_alpha

-1.6448536269514729

---

### **Passo 4** - cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

In [61]:
numerador = (media_rj - media_sp) - d_0
denominador = np.sqrt((desv_rj ** 2 /n_RJ) + (desv_sp ** 2 /n_SP))
z = numerador / denominador
z


-2.255318273608558

---

### **Passo 5** - Aceitação ou rejeição da hipótese nula

### <font color='red'>Critério do valor crítico</font>

In [63]:
z <= z_alpha

True

Hipótese nula rejeitada, RJ não tem o mesmo rendimento que SP

### <font color='red'>Critério do valor $p$</font>

### Utilize DescrStatsW

In [41]:
from statsmodels.stats.weightstats import DescrStatsW

In [42]:
Teste_rj = DescrStatsW(rj)
Teste_Sp = DescrStatsW(sp)

In [43]:
test = Teste_rj.get_compare(Teste_Sp)

In [65]:
z, p_valor = test.ztest_ind(alternative='smaller')

In [66]:
z

-2.255318273608558

In [67]:
p_valor

0.012056679215693396

In [68]:
p_valor <= sig

True

### Utilize CompareMeans

In [69]:
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans

In [72]:
test_B = CompareMeans(Teste_rj, Teste_Sp)
test_B

<statsmodels.stats.weightstats.CompareMeans at 0x7ff7c0a8fe10>

In [79]:
z, p_valor = test_B.ztest_ind(alternative= 'smaller', value = 0)

In [80]:
z

-2.255318273608558

In [81]:
p_valor

0.012056679215693396

In [82]:
p_valor <= sig

True

### <font color='green'>Conclusão: (Digite sua conclusão aqui)</font>


**Com umn nível de confiança de 95%, a hipótese nula deve ser rejeitada. O estado de São Paulo tem uma maior remuneração média em relação ao Rio de Janeiro.**
