# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 3</font>

***

## Trabalho sobre testes de hipóteses

Utilizando os conhecimentos adquiridos em nosso treinamento realize o teste de hipóteses proposto abaixo.

Siga o roteiro proposto e vá completando as células vazias. Procure pensar em mais testes interessantes que podem ser realizados com o nosso dataset.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as biblioteca que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy, statsmodels</font>

In [45]:
import pandas as pd
import numpy as np
from scipy.stats import normaltest, chi, norm, t as t_student
from statsmodels.stats.weightstats import ztest, DescrStatsW, CompareMeans

### Importe o dataset e armazene o conteúdo em uma DataFrame

In [3]:
df = pd.read_csv('dados.csv')

### Visualize o conteúdo do DataFrame

In [4]:
df.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## <font color='red'>Problema</font>

Você é um pesquisador que estuda o mercado de trabalho brasileiro e resolve estudar as diferenças salariais dos trabalhadores dos estados do Rio de Janeiro e de São Paulo. Durante sua pesquisa você verifica que, aparentemente, os rendimentos dos trabalhadores no estado do Rio de Janeiro são mais baixos que os rendimentos dos trabalhadores no estado de São Paulo. Para confirmar esta conclusão realize um teste de hipótese de comparação de médias em cima de duas amostras de trabalhadores dos dois estados. Siga as seguintes etapas:

- Selecione duas amostras de **500 trabalhadores** para cada um dos dois estados (variável UF) para realizar o teste. Utilize o **parâmetro random_state=101**.
- Considere o **nível de significância de 5%**.
- Teste a hipótese de que a **renda média dos trabalhadores do Rio de Janeiro é menor que a renda média dos trabalhadores de São Paulo**.

---

### Seleção das amostras

In [6]:
df_sp = df.query('UF == 35').sample(n=500, random_state=101)
df_sp.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
49905,35,0,43,8,12,1800,1.801195
47376,35,1,57,8,4,700,1.635869
50288,35,0,35,2,16,8000,1.729744
54266,35,0,30,2,16,1800,1.777682
54578,35,0,59,2,9,2364,1.741015


In [7]:
df_rj = df.query('UF == 33').sample(n=500, random_state=101)
df_rj.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
45760,33,0,44,2,12,1300,1.739675
42265,33,0,36,2,16,35000,1.653202
41069,33,0,58,8,7,1300,1.595751
44659,33,0,41,2,12,2364,1.661829
46366,33,0,25,2,16,1500,1.711975


### Dados do problema
Obter média e desvio-padrão para as duas amostras

In [43]:
significancia = 0.05
confianca = 1 - significancia
n = 500
D_0 = 0

In [24]:
media_amostra_sp = df_sp.Renda.mean()
desvio_padrao_amostra_sp = df_sp.Renda.std()
media_amostra_sp

2839.352

In [25]:
media_amostra_rj = df_rj.Renda.mean()
desvio_padrao_amostra_rj = df_rj.Renda.std()
media_amostra_rj

2240.518

## Lembre-se...

<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img014.png' width=90%>

---

### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

#### <font color='red'>Lembre-se, a hipótese nula sempre contém a alegação de igualdade</font>

### $H_0: \mu_{renda-rj} - \mu_{renda-sp} \geq 0$

### $H_1: \mu_{renda-rj} - \mu_{renda-sp} < 0 $

---

### **Passo 2** - escolha da distribuição amostral adequada
<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img003.png' width=70%>

### O tamanho da amostra é maior que 30?
#### Resp.: <font color='red'>Sim</font>

### Podemos afirmar que a população se distribui aproximadamente como uma normal?
#### Resp.: <font color='red'>Não</font>

### O desvio padrão populacional é conhecido?
#### Resp.: <font color='red'>Não</font>

---

### **Passo 3** - fixação da significância do teste ($\alpha$)

In [100]:
probabilidade = significancia
probabilidade

0.05

In [103]:
z_alpha = norm.ppf(probabilidade)
z_alpha

-1.6448536269514729

---

### **Passo 4** - cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

In [107]:
z = ((media_amostra_rj - media_amostra_sp - D_0) / np.sqrt((desvio_padrao_amostra_rj ** 2) / n + (desvio_padrao_amostra_sp ** 2) / n))
z

-2.255318273608561

---

### **Passo 5** - Aceitação ou rejeição da hipótese nula

### <font color='red'>Critério do valor crítico</font>

In [110]:
z <= z_alpha

True

### <font color='red'>Critério do valor $p$</font>

In [113]:
p_valor = norm.cdf(z)
p_valor

0.012056679215693302

In [114]:
p_valor <= significancia

True

### Utilize DescrStatsW

In [130]:
test_rj = DescrStatsW(df_rj.Renda)

In [131]:
test_sp = DescrStatsW(df_sp.Renda)

In [132]:
test_media = test_rj.get_compare(test_sp)

In [133]:
z, p_valor = test_media.ztest_ind(value=D_0, alternative='smaller')
print(z)
print(p_valor)

-2.2553182736085575
0.012056679215693415


In [134]:
p_valor <= significancia

True

### Utilize CompareMeans

In [135]:
test_media = CompareMeans(test_rj, test_sp)

In [136]:
z, p_valor = test_media.ztest_ind(value=D_0, alternative='smaller')
print(z)
print(p_valor)

-2.2553182736085575
0.012056679215693415


In [137]:
p_valor <= significancia

True

### <font color='green'>Conclusão: (Digite sua conclusão aqui)</font>

<font color='red'> Rejeita $H_0$</font>

De acordo com o p_valor de todos os testes realizados, tanto o z $\leq$ $z_{alpha}$, quanto P_valor $\leq$ significancia. Logo rejeitamos $H_0$ que as médias da Renda do Rio de Janeiro e de São Paulo são iguais. 

Com um nível de confiança de 95%, podemos concluir que a renda média das pessoas do estado de São Paulo é maior que a renda média das pessoas do Rio de Janeiro.