<a href="https://colab.research.google.com/github/viviannemedeiros/estatisticaDescritiva/blob/master/Ex3_TesteDeHipotesesSalarios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Projeto - Estatística Descritiva - Exercício 03 - Teste de Hipóteses ***
08/02/2020

**Prof:** Tsang Ing Ren

**Grupo:** Alexandra Vitorio

Vivianne Medeiros

**Objetivo:** Realizar testes de hipótese para validar se a idade média de quem ganha acima de 50k é maior que 40 anos.


**Fonte dos dados:** https://archive.ics.uci.edu/ml/machine-learning-databases/adult/

A fonte de dados é a mesma utilizada nos exercícios anteriores, contendo detalhes de seu conteúdo no Exercício 1.

## **Procedimento para realizar um teste de hipótese:**
1. Identifique o parâmetro de interesse no problema em análise.
2. Fixe qual a hipótese nula  $H_0$ e alternativa  $H_a$.
3. Use teoria estatı́stica e informações disponı́veis para decidir que estimador será usado para testar  $H_0$.
4. Obtenha a distribuição do estimador proposto.
Determine  α.
5. Construa a região crı́tica para o teste de modo que  α  seja satisfeita.
6. Use os dados da amostra para determinar o valor do estimador, ou seja, uma estimativa para o parâmetro.
7. Se o valor do estimador pertencer a região crı́tica, rejeite  $H_0$. Caso contrário, reporte que não existe evidência para se rejeitar  $H_0$.

# Teste de hipóteses

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
adultosTotal=pd.read_csv("https://raw.githubusercontent.com/viviannemedeiros/estatisticaDescritiva/master/adult.data", 
                      encoding = "ISO-8859-1", sep=",", header=None, names=['age', 'workclass', 'fnlwgt', 'education', 'education-num', 
                                                                            'marital-status', 'occupation', 'relationship', 'race', 'sex', 
                                                                            'capital-gain', 'capital-loss', 'hours-per-week', 
                                                                            'native-country', 'class'])
# Filtrando dados de apenas uma classe, pessoas que ganham acima de 50K
adultos = adultosTotal.loc[(adultosTotal['class'] == ' >50K')] 
adultos.describe()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
count,24720.0,24720.0,24720.0,24720.0,24720.0,24720.0
mean,36.783738,190340.9,9.595065,148.752468,53.142921,38.84021
std,14.020088,106482.3,2.436147,963.139307,310.755769,12.318995
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,25.0,117606.0,9.0,0.0,0.0,35.0
50%,34.0,179465.0,9.0,0.0,0.0,40.0
75%,46.0,239023.0,10.0,0.0,0.0,40.0
max,90.0,1484705.0,16.0,41310.0,4356.0,99.0


**Afirmação:**  A idade média de quem ganha acima de 50k é maior que 40 anos.

1. Parâmetro de interesse: $\mu_{age}$
2. $H_0: \mu_{age} \leq 40$;
$H_a: \mu_{age} > 40$
3. Estimador: $\bar{X}$
4. $Z_0 = \frac{\bar{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$ 
5. $\alpha = 0,05$
6. $z_c = 1,65$. Rejeitamos $H_0$ se $z_0 > 1,65$.

In [0]:
# Cálculo de média e desvio padrão da idade
mi_age = adultos['age'].mean()
sigma_age = adultos['age'].std()

In [0]:
# Separando uma amostra com 50 elementos randômicos
smp = np.arange(len(adultos))
np.random.shuffle(smp)
n = 50
sub_adultos = adultos.loc[smp[:n]]

# Cálculo de média e desvio padrão da idade para a amostra
xm_age = sub_adultos['age'].mean()
xsigma_age = sub_adultos['age'].std()

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike
  after removing the cwd from sys.path.


In [0]:
print(mi_age)
print(sigma_age)

print(xm_age)
print(xsigma_age)

44.24984058155847
10.51902771985177
45.46666666666667
8.542888995003528


In [0]:
import scipy.stats as st
import numpy as np

# Função para cáculo da distribuição do estimador proposto
def calc_z0(xm, mi, sigma, n):
  return (xm - mi)/(sigma/np.sqrt(n))

# Verificação da hipótese nula considerando distribuição normal, considerando a área da curva
def decision_normal(z0, alpha, unilateral=True, right=True):
  p = st.norm.cdf(z0)
  if unilateral:
    if right:
      reject = (p > (1.0 - alpha))
    else:
      reject = (p < alpha)
  else:
    reject = ((p < (alpha/2)) | (p > (1.0 - alpha/2)))

  return reject

In [0]:
# Cáculo da distribuição do estimador proposto
z0 = calc_z0(xm_age, 40, sigma_age, n)
print('z0 = ', z0)

z0 =  3.6747855157671667


In [0]:
# Área da região
p_z0 = st.norm.cdf(z0)
print('p(z0) = ', p_z0)
# Nível de significância de 5%, ou seja, grau de confiança de 95%
alpha = 0.05

reject = decision_normal(z0, alpha)

if(reject):
  print('H_0 rejeitada')
  print('A média de idade de quem ganha acima de 50k é maior que 40 anos.')
else:
  print('H_0 não rejeitada')
  print('Não há evidência de que a média de idade de quem ganha acima de 50k é maior que 40 anos.')

p(z0) =  0.9998809753462167
H_0 rejeitada
A média de idade de quem ganha acima de 50k é maior que 40 anos.
