# Teste de Hipóteses

> Uma **hipótese estatística** é uma suposição quanto ao valor de um parâmetro populacional (ou conjunto de parâmetros), quanto à comparação de parâmetros ou quanto à natureza da distribuição de probabilidade de uma variável populacional.

> Um **teste de hipótese** é um procedimento para estabelecer regras de decisão para aceitar ou rejeitar uma hipótese estatística com base nos dados amostrais, os quais fornecem evidências para a aceitação ou rejeição da hipótese.


In [1]:
# Carregar bibliotecas necessárias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import scipy.stats as stats

Aqui vamos estabelecer o procedimento de testes de hipóteses seguindo uma sequência de etapas:

- **Passo 1** - Definir parâmetro de interesse e formular as hipóteses $H_0$ e $H_1$. A partir do contexto do problema, identifique o parâmetro de interesse e especifique a hipótese nula, $H_0$, e uma hipótese alternativa apropriada, $H_1$.

- **Passo 2** - Determinar a estatística de teste apropriada (e sua distribuição). A estatística de teste é baseada no conhecimento prévio da distribuição e no tamanho da amostra.

- **Passo 3** - Definir o nível de significância do teste ($\alpha$). O nível de signifiância é importante para a definição da margem de erro e das regiões de rejeição ou não da hipótese.

- **Passo 4** - Cálculo da estatística-teste e definição da região de rejeição do teste.

- **Passo 5** - Interpretação e decisão: H0 deve ou não ser rejeitada.

Vamos aplicar esses passos em diferentes exemplos.

## Teste de hipótese para a média, com variância conhecida

Vamos simular uma população fingindo não conhecer a média, com variância conhecidada de $\sigma^2=100$ (desvio-padrão $\sigma=10$).

In [2]:
# semente aleatória
np.random.seed(123)

# Simular uma população com média = 80 e desvio-padrão = 10
X = np.random.normal(80, 10, 1000)

dp=10

Vamos considerar uma amostra com $n = 40$.

In [3]:
# Amostra com n=40
n=40

# Selecionar uma amostra da população simulada
amostra = np.random.choice(X, n)
amostra

array([80.20315998, 84.25335857, 68.83435166, 67.26429763, 79.4639054 ,
       79.75374019, 60.74413109, 61.04824407, 80.47002445, 80.81490899,
       91.50205543, 92.58721303, 69.25233407, 84.1291216 , 80.23372343,
       69.59837119, 95.34090289, 76.67524725, 98.15652064, 83.43257981,
       76.02636508, 82.78683517, 79.04347256, 59.91414532, 88.87766069,
       77.93337697, 75.65648724, 71.75499425, 84.56270895, 58.77701117,
       76.45091168, 87.42686221, 74.02144919, 98.62927585, 81.09403156,
       77.71965462, 81.13755973, 92.31871789, 77.54402334, 82.47979885])

Vamos calcular a média amostral

In [4]:
# Cálculo da média
media = amostra.mean()
media

79.19783834198316

#### Passo 1 - Definir parâmetro de interesse e formular as hipóteses $H_0$ e $H_1$

Suponha que uma pesquisa prévia tenha obtido média estimada de 78.
Assim, vamos assumir uma hipótese de que $\mu=78$.

**$H_0: \mu = 78$**

**$H_1: \mu \neq 78$**

In [5]:
# Definir H0
m_H0 = 78

#### Passo 2 - Determinar a estatística de teste adequada (e sua distribuição).

Com o valor conhecido de $\sigma=10$ desconhecido, utilizaremos a estatística de teste Z (que tem distribuição normal padrão).

#### Passo 3 - Definir o nível de significância do teste ($\alpha$)

In [6]:
# Importar módulo 'norm' do 'scipy.stats'
from scipy.stats import norm

# Definir nível de significância
alfa = 0.01

# Definir coeficiente de confiança
cconf = 1 - alfa

In [7]:
# Probabilidade
prob = (0.5 + (cconf / 2))
prob

0.995

**Obtendo $z_{\alpha/2}$**

In [8]:
# valor crítico
z_alfa_2 = norm.ppf(prob)
round(z_alfa_2, 4)

2.5758

#### Passo 4 - Cálculo da estatística-teste e definição da região de rejeição do teste

$$z = \frac{\bar{x} - \mu_0}{s/ \sqrt{n}}$$

In [9]:
# Estatística de teste
z = (media - m_H0) / (dp / np.sqrt(n))
z

0.757579485869294

#### Passo 5. Decisão (pelo critério do valor crítico). 

> **Teste Bicaudal** 

> Rejeitar $H_0$ se **$z \leq -z_{\alpha / 2}$** ou se **$z \geq z_{\alpha / 2}$**.

In [10]:
# Verificar se a estatísitica de teste está na região de rejeição - cauda inferior
z <= - z_alfa_2

False

In [11]:
# Verificar se a estatísitica de teste está na região de rejeição - cauda superior
z >= z_alfa_2

False

Decisão: Considerando um nível de significância de 5%, **não** temos evidências suficientes para rejeitar $H_0$.

## Teste de hipótese para a média, variância conhecida e amostra grande


**EXEMPLO**

Amostra com 50 observações ($n=50$).

Suposição: $\mu = 500$.

amostra = [509, 505, 495, 510, 496, 509, 497, 502, 503, 505, 
           501, 505, 510, 505, 504, 497, 506, 506, 508, 505, 
           497, 504, 500, 498, 506, 496, 508, 497, 503, 501, 
           503, 506, 499, 498, 509, 507, 503, 499, 509, 495, 
           502, 505, 504, 509, 508, 501, 505, 497, 508, 507]

In [12]:
# Estabelecer amostra com dados observados em uma lista
amostra = [509, 505, 495, 510, 496, 509, 497, 502, 503, 505, 
           501, 505, 510, 505, 504, 497, 506, 506, 508, 505, 
           497, 504, 500, 498, 506, 496, 508, 497, 503, 501, 
           503, 506, 499, 498, 509, 507, 503, 499, 509, 495, 
           502, 505, 504, 509, 508, 501, 505, 497, 508, 507]

Vou transformar este conjunto de dados em um Data Frame do Pandas.

In [13]:
# Transformar amostra de lista para Data Frame
amostra = pd.DataFrame(amostra, columns=['Amostra'])
amostra.shape

(50, 1)

In [14]:
# número de observações (linhas)
n = amostra.shape[0]

In [15]:
# Visualizar
amostra.head(n)

Unnamed: 0,Amostra
0,509
1,505
2,495
3,510
4,496
5,509
6,497
7,502
8,503
9,505


In [16]:
# média
media = amostra.mean()
media

Amostra    503.24
dtype: float64

In [17]:
# Desvio-padrão
desvpad = amostra.std()
desvpad

Amostra    4.483803
dtype: float64

#### **Passo 1** - Definir parâmetro de interesse e formular as hipóteses $H_0$ e $H_1$

**$H_0: \mu = 500$**

**$H_1: \mu \neq 500$**

In [18]:
# H0
media_H0 = 500

#### **Passo 2** - Determinar a estatística de teste adequada (e sua distribuição).

Mesmo com $\sigma$ desconhecido, considerando $n=50$ utilizaremos a normal padrão.

#### **Passo 3** - Definir o nível de significância do teste ($\alpha$)


In [19]:
from scipy.stats import norm

# Nível de significância
alfa = 0.01
# Coeficiente de confiança
cconf = 1 - alfa

In [20]:
prob = (0.5 + (cconf / 2))
prob

0.995

**Obtendo $z_{\alpha/2}$**

In [21]:
# valor crítico
z_alfa_2 = norm.ppf(prob)
round(z_alfa_2, 4)

2.5758

#### **Passo 4** - Cálculo da estatística-teste e definição da região de rejeição do teste

$$z = \frac{\bar{x} - \mu_0}{s/ \sqrt{n}}$$

In [22]:
# Estatística de teste
z = (media - media_H0) / (desvpad / np.sqrt(n))
z

Amostra    5.10956
dtype: float64

#### Passo 5. Decisão (pelo critério do valor crítico). 

> **Teste Bicaudal** 

> Rejeitar $H_0$ se $z \leq -z_{\alpha / 2}$ ou se $z \geq z_{\alpha / 2}$

In [23]:
# Verificar se a estatísitica de teste está na região de rejeição - cauda inferior
z <= - z_alfa_2

Amostra    False
dtype: bool

In [24]:
# Verificar se a estatísitica de teste está na região de rejeição - cauda superior
z >= z_alfa_2

Amostra    True
dtype: bool

Uma vez que $z \geq z_{\alpha / 2}$, temos evidências para rejeitar $H_0$ ao nível de significância de 5%.

## Teste de hipótese para a média, variância desconhecida e amostra pequena

In [25]:
from scipy.stats import t as t_student

**EXEMPLO**

Vamos carregar os dados da amostra de produtividade na produção de milho.

In [26]:
# Caso esteja executando este notebook no Google Colab
#from google.colab import files
#uploaded = files.upload()

In [27]:
# Carregar dados
dados = pd.read_excel('prod_media.xlsx')
dados.head(25)

Unnamed: 0,fazenda,regiao,rend_kha
0,F1,REG1,4459
1,F2,REG1,2615
2,F3,REG1,2340
3,F4,REG1,5238
4,F5,REG1,3194
5,F6,REG1,912
6,F7,REG1,4190
7,F8,REG1,4235
8,F9,REG1,4198
9,F10,REG1,812


In [28]:
# tamanho da amostra
n = dados.shape[0]
n

25

In [29]:
# média amostral
m = dados['rend_kha'].mean()
m

4462.44

In [30]:
# desvio-padrão amostral
dp = dados['rend_kha'].std()
dp

2181.335811683596

#### **Passo 1** - formulação das hipóteses $H_0$ e $H_1$

**$H_0: \mu \leq 4500 $**

**$H_1: \mu > 4500 $**

In [31]:
# H0
m_H0 = 4500

#### **Passo 2** - Determinar a estatística de teste adequada (e sua distribuição).

Com $\sigma$ desconhecido, considerando $n=25$ utilizaremos a distribuição t de Student.

In [32]:
# Graus de liberdade
gl = n - 1
gl

24

#### **Passo 3** - fixação da significância do teste ($\alpha$)

In [33]:
# Nível de significância
alfa = 0.05

# Coeficiente de confiança
cconf = 1 - alfa

#### **Passo 4** - Cálculo da estatística-teste e definição da região de rejeição do teste

$$ t = \frac{\bar{x} - \mu_0}{s/ \sqrt{n}}$$

In [34]:
# Estatística de teste
t = (m - m_H0) / (dp/ np.sqrt(n))
t

-0.08609403421248304

In [35]:
# Valor crítico
t_c = t_student.ppf(cconf, gl)
t_c

1.7108820799094275

#### Passo 5. Decisão (pelo critério do valor crítico). 

> **Teste monocaudal** 

> Rejeitar $H_0$ se $t \geq t_{\alpha}$

In [36]:
#### Passo 5. Decisão (pelo critério do valor crítico). 
t >= t_c

False

Não temos evidências para rejeitar $H_0$.