# Conceitos de Inferência Frequentista (Notebook 2)

- Nesse notebook vamos incluir as principais definições estatísticas atribuidas pela abordagem frequentista

## Intervalo de confiança

Observações importantes: 
- A soma de variáveis aleatórias também é uma variável aleatória, e portanto tem uma distribuição de probabilidade associada.
- O parâmetro de uma distribuição de $Bernoulli(\theta$) é dado por $\hat{\theta} = \frac{\sum_{i=1}^{N}x_{i}}{N} = \bar{x}$ 
- Assim como o parâmetro de locação de uma distribuição $Normal(\mu, \sigma^{2})$ também é dado por $\hat{\mu}=\frac{\sum_{i=1}^{N}x_{i}}{N}= \bar{x}$
- Além disso, se adotarmos o TCL temos que variáveis aleatórias iid tendem a uma distribuição normal e $\hat{\mu} \sim N(\mu, \sigma^{2}/N)$
    - Uma variância grande nos dados observados leva a uma variância grande do estimador do parâmetro da distribuição
    - Se aumentamos a amostra N diminuimos a variância do nosso estimador


**Definição:** intervalo que contém o verdadeiro valor da média populacional com um certo grau de confiança ($1-\alpha$) em que $X\sim N(\mu,\sigma^{2}/N)$. 
$$1-\alpha = \int_{x_{left}}^{x_{right}}N(\mu,\sigma^{2}/N)$$
- Para encontrar esse intervalo precisamos encontrar os limites inferior e superior da distribuição dos dados observados
- Podemos começar padronizando os dados $z=\frac{x-\mu}{\sigma/\sqrt{N}}\sim N(0,1)$ para encontrar os correspondentes $z_{left}=z_{\alpha/2}$ e $z_{right}=z_{1-\alpha/2}$

Exemplos: se considerarmos os exemplos que vimos no notebook anterior. Observe que podemos conhecer ou não o desvio dos dados amostrais. Se conhecemos podemos utilizar o próprio valor do parâmetro (estatística da população) $\sigma$, caso contrário podemos usar a estatística encontrada na amostra $s$. Um ponto que vale ressaltar aqui é quando fazemos essa troca e usamos o devio padrão da amostra estamos lidando com uma distribuição não mais Normal, mas uma distribuição *t-student* que veremos em mais detalhes a seguir.
- O intervalo de confiança para o tempo médio que o usuário gasta no site considerando um nível de significância de $5\%$ é dado por $[\hat{\mu}+z_{left}\frac{s}{\sqrt N};\hat{\mu}+z_{left}\frac{s}{\sqrt N}]$ onde $z_{left}=-1,96$ e $z_{rigth}=1,96$
- O intervalo de confiança para o usuário clicou em um produto recomendado considerando um nível de significância de $5\%$ é dado por $[\hat{p}+z_{left}\frac{\hat{p}(1-\hat{p})}{\sqrt N};\hat{p}+z_{left}\frac{\hat{p}(1-\hat{p})}{\sqrt N}]$ onde $z_{left}=-1,96$ e $z_{rigth}=1,96$

# Teste de Hipótese:

- O teste de hipotese consiste em estabelecer um hipótese nula (que geralmente temos a intenção de refutar) e uma hipótese alternativa. Vamos supor que a distribuição dos dados sob a hipótese nula ficam a esquerda da distribuição dos dados sob a hipótese alternativa, como na figura abaixo.

Tomando a figura abaixo como exemplo, vamos definir os seguintes conceitos:

- **Erro tipo I** ($\alpha$) ou **nível de nignificância**: probabilidade de rejeitar a hipótese nula quando ela é verdadeira. 

- **Erro tipo II**: probabilidade de rejeitar a hipótese alternativa quando ela é verdadeira.

- **Estatística de Teste**: valor calculado a partir dos dados amostrais. Ele é um balisador para rejeitarmos ou não a nossa hipótese nula.

- **P-valor**: área sob a curva à direita da estatística de teste. Ao compararmos o p-valor e o nível de significância (erro tolerado no experimento).  

-Obs.: todos os cálculos aqui seguem a mesma orientação que usamos no tópico de intervalos de confiança.

<img src="hyp_test.png" width="400" height="400">

## Distribuição T-Student

- Como descrito anteriormente essa distribuição é utilizada quando desconhecemos a variância dos dados populacionais.
- Assim como a distribuição normal ela tem formato de sino e é simétrica em torno da sua média. Além disso, aumentando o seu parâmetro de graus de liberdade convergimos para uma distribuição normal, ou seja, mesmo que não tenhamos a variância da população se temos uma amostra suficientemente grande podemos usar os dados tabelados da distribuição normal para o teste estatístico em questão.
- Calculamos o desvio padrão da amostra $s = \sqrt\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}$



<img src="t_student.png" width="250" height="250">

### Código Teste t

In [2]:
import numpy as np
from scipy import stats 

In [13]:
# gerar dados
N = 10
a = np.random.randn(N) + 2 # distribuição normal padrão de tamanho N variância 2
b = np.random.randn(N) # distribuição normal padrão de tamanho N

In [19]:
# This is a two-sided test for the null hypothesis that 2 independent samples 
# have identical average (expected) values. This test assumes that the
# populations have identical variances by default.

alpha = 0.05
t_test, p_value = stats.ttest_ind(a,b)
print('Estatística de Teste:', t_test, 'p-valor:', p_value)
if p_value > alpha:
    print('Temos evidência para rejeitar a hipótese nula ao nível de significância de', alpha*100, '%')
else:
    print('Não temos evidência para rejeitar a hipótese nula ao nível de significância de', alpha*100, '%')

Estatística de Teste: 4.57864504306524 p-valor: 0.00023293661833954652
Não temos evidência para rejeitar a hipótese nula ao nível de significância de 5.0 %
