#  Estimação e Inferência

Nessa aula, iremos tratar dos seguintes conteúdos:
- Tamanho amostral
- Níveis de confiança e significância
- Erro Inferencial e Intervalo de Confiança
- Cálculo do Tamanho Amostral

## 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# função para calcular a probabilidade a partir do Z Score
import scipy.stats as st

## 

## Tamanho Amostral

<br>

Ao se realizar uma amostra para inferir uma determinada função paramétrica (média, máximo ou outra função de um parâmetro), há um erro associado ao planejamento amostral. A medida que o tamanho da amostra aumenta, o erro do estimador decresce. Vale ressaltar que uma amostra muito grande pode implicar em custos desnecessários, enquanto que uma amostra pequena pode tornar a pesquisa inconclusiva. Deste modo, o ponto chave de um levantamento amostral é determinar o tamanho da amostra.  Uma forma de garantir o tamanho amostral seja significativo em relação à população, é utilizado do Teorema Central do Limite.

Recapitulando, seja uma amostra aleatória ($x_1, x_2, \cdots, x_n$) de uma variável aleatória $X$ com qualquer distribuição, média $\mu$ e desvio padrão $\sigma$. A medida que $n$ cresce, a distribuição de probabilidade da média amostral, $\overline{X}$, se aproxima de uma Normal com média $\mu$ e desvio padrão $\frac{\sigma}{\sqrt{n}}$. Isto é $\overline{X} \sim N (\mu, \sigma^2/n)$. Se a transformação a baixo for realizada, então $Z \sim N (0,1)$.

$$Z = \frac{\overline{X} -\mu}{\sigma/\sqrt{n}} $$

O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para $n$ maior ou igual a 30.

$$\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}$$

O desvio padrão das médias amostrais é conhecido como __erro padrão da média__.

<br><br>

## Níveis de confiança e significância

<br>

O **nível de confiança** ($1 - \alpha$) representa a probabilidade de acerto da estimativa. De forma complementar o **nível de significância** ($\alpha$) expressa a probabilidade de erro da estimativa. O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixado em uma pesquisa um **nível de confiança** de 95%, por exemplo, é assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

<br>

<img src = "https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png" width = 500>

Fonte: [Caelum](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png)

<br><br>

## Erro inferencial e Intervalo de Confiança

<br>

O **erro inferencial** é definido pelo **desvio padrão das médias amostrais** $\sigma_\bar{x}$ e pelo **nível de confiança** determinado para o processo.

$$e = z \frac{\sigma}{\sqrt{n}}$$

<br><br>

Já o __intervalo de confiança__ pode ser obtido adicionando o erro inferencial aos parâmetros de referência. Levantando os casos de intervalo de confiança para a média da população, pode-se ser aplicados em duas ocasiões:

<br>

- __Com desvio padrão populacional conhecido:__ $\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}$

- __Com desvio padrão populacional desconhecido:__ $\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}$

<br>

__Exemplo de Aplicação__: Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatória de 30 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**. Construa um intervalo de confiança para a **média populacional** assumindo um **nível de significância de 5%**.

<br>

Implementando a resolução do exemplo em _Python_, temos que:

In [8]:
# Carregando as funções para distribuição normal do SciPy
from scipy.stats import norm

# parâmetros
X = 5050         # média amostral
desvpad = 150    # desvio padrão populacional
n = 30           # tamanho da amostra
alpha = 0.05     # nível de significância
conf = 1 - alpha # nível de confiança

# Calculando a probabilidade
prob = conf + (alpha / 2)

print(prob) # pela tabela, com prob = 0.9750 vimos que o z = 1.96 # em vez disso, vamos usar a lib do python

# Calculando o Z-score para a probabilidade
z = norm.ppf(prob)

print("Z-score: ", np.round(z, 4))  # igual ao visto pela tabela

# Definindo o erro inferencial
e = (z * desvpad) / np.sqrt(n)
print("Erro inferencial: ", np.round(e,4))


# Definindo o intervalo de confiança de duas formas
print("Intervalo de confiança pela fórmula: ", (X - e, X + e))

print("Intervalo de confiança usando o SciPy: ", norm.interval(conf, loc = X, scale = desvpad / np.sqrt(n)))

0.975
Z-score:  1.96
Erro inferencial:  53.6758
Intervalo de confiança pela fórmula:  (4996.324175688485, 5103.675824311515)
Intervalo de confiança usando o SciPy:  (4996.324175688485, 5103.675824311515)


Na tabela abaixo, segue uma relação de valores que normalmente são utilizados para nível de confiança, com a probabilidade e o _Z-score_:

|Nível de<br>confiança|Valor da área sob<br>a curva normal| $z$ |
|:----------------:|:---------------------------------:|:---:|
|90%               |0,95                               |1,645|
|95%               |0,975                              |1,96 |
|99%               |0,995                              |2,575|

<br><br>

## Cálculo do tamanho amostral baseado na estimativa da média populacional

<br>

### População Infinita

<br>

Uma população é considerada infinita quando seu tamanho é muito grande.

Ao realizar o cálculo do tamanho da amostra $n$, deve-se levar em consideração o erro $\epsilon$ máximo que deseja-se assumir (ao estimar a função paramétrica) e o nível de confiança do resultado (probabilidade). Sendo assim, o problema consiste em determinar $n$ de forma que:

$$P(\mid \overline{X} - \mu \mid \leq \epsilon) \simeq 1 - \alpha $$

Mas pelo Teorema Central do Limite, a equação acima pode ser reescrita como:

$$P \left(\mid \overline{X} - \mu \mid \leq z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) \simeq 1 - \alpha $$

Sendo assim, dados um erro máximo e nível de confiança, calcular o tamanho amostral consiste em:

$$ z_{\alpha/2}\frac{\sigma}{\sqrt{n}} = \epsilon  \Longrightarrow n = \left(\frac{z_{\alpha/2}\sigma}{\epsilon }\right) ^2 $$

<br>

__Exemplo de Aplicação:__ Um estudo a respeito do rendimento mensal dos chefes de domicílios no Brasil, determinou que o __erro máximo em relação a média seja de R$\$$ 100,00__. Sabendo que o desvio padrão populacional deste grupo de trabalhadores é de **R$\$$ 3.323,39$$**. Para um __nível de confiança de 95%__, qual deve ser o tamanho da amostra de nosso estudo?


In [12]:
# parametros

desvpad = 3323.39  # desvio padrão
e = 100  # erro inferencial
conf = 0.95  # nivel de confiança
alpha = 1 - conf  # nivel de significancia

# Calcular o Z-score
z = norm.ppf(conf + (alpha / 2))

# Determinar o tamanho da amostra
n = ((z * desvpad) / e)**2

# Valor da amostra
print("Tamanho da amostra será: ", np.round(n, 0))

Tamanho da amostra será:  4243.0


### População Finita

<br>

No caso em que o tamanho populacional não é tão grande, a consideramos finita. **Caso a amostra tenha um tamanho $n$ maior ou igual a 5% do tamanho da população $N$, considera-se que a população é finita**. Neste caso, aplica-se um fator de correção à fórmula vista anteriormente:

<br>

$$n = \frac{N (z_{\alpha/2}\sigma)^2}{(N-1)\epsilon^2 + (z_{\alpha/2}\sigma)^2 }$$

<br>

__Exemplo de Aplicação:__ Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **500 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

In [25]:
# parâmetros
desvpad = 12      # desvio padrão
e = 5             # erro inferencial
N = 10000         # Tamanho da população
conf = 0.95       # nível de confiança
alpha = 1 - conf  # nível de significancia

# calculo do Z-score
z = norm.ppf(conf + alpha / 2)

# Calculo do tamanho da amostra
n = (N * (z * desvpad)**2)/(((N - 1) * e**2) + (z * desvpad)**2)

# Valor da amostra
print("Tamanho da amostra será: ", np.round(n, 0))

Tamanho da amostra será:  22.0


### Variância populacional desconhecida

<br>

No caso em que a variância populacional é desconhecida, pode-se realizar uma amostragem aleatória preliminar (ao menos 30 elementos) para estimar a variância amostral e usá-la na equação acima.

$$\widehat{\sigma^2} = s^2 = \frac{\sum_{i=1}^{n}(x_i -\overline{X})^2}{N-1} $$

## 