# CURSO DE ESTATÍSTICA - PARTE 3
## Vinicius Antunes

***

## Trabalho sobre testes de hipóteses

Utilizando os conhecimentos adquiridos no curso realizou-se aqui o teste de hipóteses proposto abaixo.

# DATASET DO PROJETO
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria para fins didáticos)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Observação
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

***
***

### Importando as biblioteca necessárias

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import norm
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans

### Importando o dataset e armazenando o conteúdo em uma DataFrame

In [2]:
dados = pd.read_csv('dados.csv', sep=',')

### Visualizando o conteúdo do DataFrame

In [3]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## Problema

Você é um pesquisador que estuda o mercado de trabalho brasileiro e resolve estudar as diferenças salariais dos trabalhadores dos estados do Rio de Janeiro e de São Paulo. Durante sua pesquisa você verifica que, aparentemente, os rendimentos dos trabalhadores no estado do Rio de Janeiro são mais baixos que os rendimentos dos trabalhadores no estado de São Paulo. Para confirmar esta conclusão realize um teste de hipótese de comparação de médias em cima de duas amostras de trabalhadores dos dois estados. Siga as seguintes etapas:

<ol>
    <li>Selecione duas amostras de **500 trabalhadores** para cada um dos dois estados (variável UF) para realizar o teste. Utilize o **parâmetro random_state=101**.<\li>
    <li>Considere o **nível de significância de 5%**.<\li>
    <li>Teste a hipótese de que a **renda média dos trabalhadores do Rio de Janeiro é menor que a renda média dos trabalhadores de São Paulo**.<\li>
<\ol>

---

### Seleção das amostras

In [4]:
SP = dados.query('UF == 35').sample(n=500, random_state=101).Renda
SP.head()

49905    1800
47376     700
50288    8000
54266    1800
54578    2364
Name: Renda, dtype: int64

In [5]:
RJ = dados.query('UF == 33').sample(n=500, random_state=101).Renda
RJ.head()

45760     1300
42265    35000
41069     1300
44659     2364
46366     1500
Name: Renda, dtype: int64

### Dados do problema
Obtendo média e desvio-padrão para as duas amostras

In [6]:
media_SP = SP.mean()
media_SP

2839.352

In [7]:
media_RJ = RJ.mean()
media_RJ

2240.518

In [8]:
desvio_padrao_SP = SP.std()
desvio_padrao_SP

3699.384225434127

In [9]:
desvio_padrao_RJ = RJ.std()
desvio_padrao_RJ

4643.836161867941

In [10]:
n_SP = len(SP)
n_RJ = len(RJ)
print('n_RJ = n_SP = {}'.format(n_SP))

n_RJ = n_SP = 500


In [11]:
D_0 = 0
print('D_0 = {}'.format(D_0))

D_0 = 0


## Lembrando-se...

<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img014.png' width=85%>

---

### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

#### Lembrando que a hipótese nula sempre contém a alegação de igualdade

### $\mu_R \Rightarrow$ Média das rendas dos chefes de domicílios de Rio de Janeiro
## $\mu_S \Rightarrow$ Média das rendas dos chefes de domicílios do São Paulo

### $
\begin{cases}
H_0: \mu_R \geq \mu_S\\
H_1: \mu_R < \mu_S
\end{cases}
$

### ou

### $
\begin{cases}
H_0: \mu_R -\mu_S \geq 0 = D_0\\
H_1: \mu_R -\mu_S < 0 = D_0
\end{cases}
$

---

### **Passo 2** - escolhendo a distribuição amostral adequada
<img src='https://caelum-online-public.s3.amazonaws.com/1229-estatistica-parte3/01/img003.png' width=50%>

### O tamanho da amostra é maior que 30?
#### Resp.: Sim. É 500 para cada Unidade da Federação.

### Podemos afirmar que a população se distribui aproximadamente como uma normal?
#### Resp.: Não.

### O desvio padrão populacional é conhecido?
#### Resp.: Não.

---

### **Passo 3** - fixaçando a significância do teste ($\alpha$)

In [12]:
significancia = 0.05
print('Significancia = {:.0f}%'.format(significancia * 100))

Significancia = 5%


In [13]:
confianca = 1 - significancia
print('confiança = {:.0f}%'.format(confianca * 100))

confiança = 95%


---

### **Passo 4** - calculando a estatística-teste e verificando esse valor com as áreas de aceitação e rejeição do teste

In [14]:
z_alpha = norm.ppf(significancia)
print('z_alpha = {}'.format(z_alpha.round(2)))

z_alpha = -1.64


In [15]:
numerador = (media_RJ - media_SP) - D_0
denominador = np.sqrt((desvio_padrao_RJ ** 2) / n_RJ + (desvio_padrao_SP ** 2) / n_SP)
z = numerador / denominador
print('z = {}'.format(z.round(3)))

z = -2.255


---

### **Passo 5** - Aceitando ou rejeitando a hipótese nula:

### - Pelo critério do valor crítico

In [16]:
# Para rejeitar a hipótese H_0 devemos comparar os valores de z e z_alplha
# Se z <= -z_alpha ==> rejeitamos a hipótese H_0

if(z <= z_alpha):
    print('\nRejeitar a hipótese H_0\n'
          'Rejeitamos, com 95% de confiança')
else:
    print('\nAceitamos a hipótese H_0\n'
          'Aceitamos, com 95% de confiança')


Rejeitar a hipótese H_0
Rejeitamos, com 95% de confiança


### Pelo critério do valor $p$

### Utilizando a classe DescrStatsW

In [17]:
teste_SP = DescrStatsW(SP)

In [18]:
teste_RJ = DescrStatsW(RJ)

In [19]:
teste_A = teste_RJ.get_compare(teste_SP)

In [20]:
z, p_valor = teste_A.ztest_ind(alternative="smaller", value=D_0)
print('Estatística z = {}'.format(z.round(3)))
print('p_valor = {}'.format(p_valor.round(3)))

Estatística z = -2.255
p_valor = 0.012


In [21]:
# Para rejeitar a hipótese H_0 devemos comparar os valores de p_valor e da significancia
# Se p_valor <= significancia ==> rejeitamos a hipótese H_0

if(p_valor <= significancia):
    print('\nRejeitar a hipótese H_0\n'
          'Rejeitamos, com 95% de confiança')
else:
    print('\nAceitamos a hipótese H_0\n'
          'Aceitamos, com 95% de confiança')



Rejeitar a hipótese H_0
Rejeitamos, com 95% de confiança


### Utilizando a classe CompareMeans

In [22]:
teste_B = CompareMeans(teste_RJ, teste_SP)

In [23]:
z, p_valor = teste_B.ztest_ind(alternative="smaller", value=D_0)
print('Estatística z = {}'.format(z.round(3)))
print('p_valor = {}'.format(p_valor.round(3)))

Estatística z = -2.255
p_valor = 0.012


In [24]:
# Para rejeitar a hipótese H_0 devemos comparar os valores de p_valor e da significancia
# Se p_valor <= significancia ==> rejeitamos a hipótese H_0

if(p_valor <= significancia):
    print('\nRejeitar a hipótese H_0\n'
          'Rejeitamos, com 95% de confiança')
else:
    print('\nAceitamos a hipótese H_0\n'
          'Aceitamos, com 95% de confiança')



Rejeitar a hipótese H_0
Rejeitamos, com 95% de confiança
