# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 3</font>

***

## Trabalho sobre testes de hipóteses

Utilizando os conhecimentos adquiridos em nosso treinamento realize o teste de hipóteses proposto abaixo.

Siga o roteiro proposto e vá completando as células vazias. Procure pensar em mais testes interessantes que podem ser realizados com o nosso dataset.

# <font color=green>DATASET DO PROJETO</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Utilize a célula abaixo para importar as biblioteca que precisar para executar as tarefas
#### <font color='red'>Sugestões: pandas, numpy, scipy, statsmodels</font>

In [36]:
import pandas as pd
import numpy as np
from scipy.stats import norm
from statsmodels.stats.weightstats import ztest
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans
from scipy.stats import normaltest


### Importe o dataset e armazene o conteúdo em uma DataFrame

In [2]:
dados = pd.read_csv("../dados.csv")

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


### Visualize o conteúdo do DataFrame

In [3]:
dados.head(10)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
5,11,1,34,8,12,790,1.637906
6,11,0,57,8,12,3150,1.570078
7,11,1,60,8,12,1700,1.608495
8,11,1,50,4,14,1800,1.780329
9,11,0,26,8,12,1150,1.793203


## <font color='red'>Problema</font>

Você é um pesquisador que estuda o mercado de trabalho brasileiro e resolve estudar as diferenças salariais dos trabalhadores dos estados do Rio de Janeiro e de São Paulo. Durante sua pesquisa você verifica que, aparentemente, os rendimentos dos trabalhadores no estado do Rio de Janeiro são mais baixos que os rendimentos dos trabalhadores no estado de São Paulo. Para confirmar esta conclusão realize um teste de hipótese de comparação de médias em cima de duas amostras de trabalhadores dos dois estados. Siga as seguintes etapas:

- Selecione duas amostras de **500 trabalhadores** para cada um dos dois estados (variável UF) para realizar o teste. Utilize o **parâmetro random_state=101**.
- Considere o **nível de significância de 5%**.
- Teste a hipótese de que a **renda média dos trabalhadores do Rio de Janeiro é menor que a renda média dos trabalhadores de São Paulo**.

---

### Seleção das amostras

In [6]:
n = 500
sp = dados.query("UF == 35")["Renda"].sample(n, random_state=101)
sp.head()

49905    1800
47376     700
50288    8000
54266    1800
54578    2364
Name: Renda, dtype: int64

In [7]:
rj = dados.query("UF == 33")["Renda"].sample(n, random_state=101)
rj.head()

45760     1300
42265    35000
41069     1300
44659     2364
46366     1500
Name: Renda, dtype: int64

### Dados do problema
Obter média e desvio-padrão para as duas amostras

In [8]:
media_sp = sp.mean()
media_sp

2839.352

In [9]:
desvio_sp = sp.std()
desvio_sp

3699.384225434117

In [10]:
media_rj = rj.mean()
media_rj

2240.518

In [12]:
desvio_rj = rj.std()
desvio_rj

4643.83616186796

## Lembre-se...

<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img014.png' width=90%>

---

### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

#### <font color='red'>Lembre-se, a hipótese nula sempre contém a alegação de igualdade</font>

###
$\begin{cases}
H_0: \mu rj -\mu sp \geq 0\\
H_1: \mu rj -\mu sp < 0
\end{cases}
$

---

### **Passo 2** - escolha da distribuição amostral adequada

In [20]:
stat_test, p_valor = normaltest(dados.query("UF == 35")["Renda"])
if (p_valor <= significancia):
    print("SP não é uma amostra normal")
else:
    print("SP é uma amostra normal")

SP não é uma amostra normal


In [21]:
stat_test, p_valor = normaltest(dados.query("UF == 33")["Renda"])
if (p_valor <= significancia):
    print("RJ não é uma amostra normal")
else:
    print("RJ é uma amostra normal")

RJ não é uma amostra normal


### O tamanho da amostra é maior que 30?
#### Resp.: SIM

### Podemos afirmar que a população se distribui aproximadamente como uma normal?
#### Resp.: Não

### O desvio padrão populacional é conhecido?
#### Resp.: Não

---

### **Passo 3** - fixação da significância do teste ($\alpha$)

In [15]:
significancia = 0.05

In [17]:
confianca = 1 - significancia
confianca

0.95

In [22]:
D0 = 0

In [46]:
probabilidade = significancia
probabilidade

0.05

In [47]:
z_alpha = norm.ppf(probabilidade)
z_alpha

-1.6448536269514729

---

### **Passo 4** - cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

In [30]:
z = ((media_rj - media_sp) - D0) / np.sqrt(((desvio_rj ** 2) / n) + ((desvio_sp ** 2) / n))
z

-2.255318273608558

In [31]:
p_valor = norm.cdf(z)
p_valor

0.012056679215693396

---

### **Passo 5** - Aceitação ou rejeição da hipótese nula

### <font color='red'>Critério do valor crítico</font>

In [33]:
if (z <= z_alpha):
    print("Pelo valor crítico, Rejeita-se H0, ou seja, a renda média do RJ é inferior à renda média de SP, com uma taxa de certeza de 95%.")
else:
    print("Pelo valor crítico, Aceita-se H0, ou seja, a renda média do RJ é igual ou superior à renda média de SP, com uma taxa de certeza de 95%.")

Pelo valor crítico, Rejeita-se H0, ou seja, a renda média do RJ é inferior à renda média de SP, com uma taxa de certeza de 95%.


### <font color='red'>Critério do valor $p$</font>

In [35]:
if (p_valor <= significancia):
    print("Pelo Valor P, Rejeita-se H0, ou seja, a renda média do RJ é inferior à renda média de SP, com uma taxa de certeza de 95%.")
else:
    print("Pelo Valor P, Aceita-se H0, ou seja, a renda média do RJ é igual ou superior à renda média de SP, com uma taxa de certeza de 95%.")

Pelo Valor P, Rejeita-se H0, ou seja, a renda média do RJ é inferior à renda média de SP, com uma taxa de certeza de 95%.


### Utilize DescrStatsW

In [37]:
renda_rj = DescrStatsW(rj)

In [38]:
renda_sp = DescrStatsW(sp)

In [39]:
descrstatsw_result = renda_rj.get_compare(renda_sp)

In [40]:
z, p_valor = descrstatsw_result.ztest_ind(alternative="smaller", value = 0)
p_valor

0.012056679215693396

### Utilize CompareMeans

In [43]:
comparemeans = CompareMeans(renda_rj, renda_sp)

In [44]:
z, p_valor = comparemeans.ztest_ind(alternative='smaller', value=0)

In [45]:
p_valor

0.012056679215693396

### <font color='green'>Conclusão: Com uma taxa de certeza de 95%, rejeita-se a hipótese nula de que a renda média do estado do RJ é igual ou superior à renda média do estado de SP, ou seja, o estado do RJ possui uma renda média inferior à do estado de SP.</font>