<a href="https://colab.research.google.com/github/vitormiro/estatistica_ppger_ufc/blob/main/Distribuicoes_amostrais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Distribuições amostrais

**Definição**. Uma amostra aleatória de tamanho $n$ de uma variável aleatória $X$ com função distribuição $F$ , é um vetor $X = (X_1,X_2, \cdots ,X_n )$ em que as componentes $X_i$ são independentes e possuem distribuição $F$.


Dada uma amostra aleatória $X = (X_1,X_2, \cdots, X_n)$ de uma variável $X$ com média $\mu$ e variancia $\sigma^2$ então $\mathbb{E}(X_i) = \mu$ e $Var(X_i) = \sigma^2$ para todo $i = {1, 2, \cdots, n}$.

A distribuição de probabilidade de um estimador é chamada de **distribuição amostral**.

Por exemplo, a distribuição de probabilidade de $\bar{X}$ é chamada de distribuição amostral da média. 

*Observação*: A distribuição amostral de um estimador depende da distribuição de probabilidade da população da qual a amostra foi selecionada, do tamanho da amostra e do método de seleção da amostra.

Vamos usar o módulo [`random`](https://numpy.org/doc/stable/reference/random/index.html) do Numpy para simular distribuições populacionais.

No exemplo a seguir usaremos a função [`gamma`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.gamma.html) para simular uma variável aleatória com distribuição Gama: $X \sim Gama(\alpha,\beta)$; com $ \alpha > 0 $ e $ \beta > 0 $.

- Função de probabilidade
$$ f(X) = \frac{X^{\alpha-1} e^{\frac{-X}{\beta}}}{\beta^{\alpha} \Gamma(\alpha)}; \hspace {5pt} x > 0 $$

Em que $\alpha$ é um parâmetro de forma (*shape*) e $\beta$ é um parâmetro de escala (*scale*).

- Valor esperado:
$$ E(X) = \alpha \beta $$

- Variância
$$ Var(X) = \alpha \beta^2 $$


Com $\alpha =1$ temos uma distribuição exponencial: $X \sim Exp(\lambda)$ e $\lambda= \frac{1}{\beta}$.

In [None]:
# Importar o Numpy e o Matplotlib
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Semente aleatória
np.random.seed(42)

# simular dados populacionais com uma distribuição Gama (média = 100 e variância = 10.000)
pop_data = np.random.gamma(1, 100, 3000)
plt.hist(pop_data);

**Média populacional**

In [None]:
pop_data.mean()

**Variância e desvio padrão amostral**

In [None]:
print("Variância = ", pop_data.var())
print("Desvio-padrão = ", pop_data.std())

Vamos selecionar uma amostra aleatória de 10 unidades dessa população usando [`random.choice`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html) do Numpy. 

Qual é a média da amostra para esses 10 valores?

In [None]:
sample = np.random.choice(pop_data, 10)
print(sample)
print("Média amostral = ", sample.mean())

Qual é a variância e desvio-padrão da amostra?

In [None]:
print("Variância = ", sample.var())
print("Desvio-padrão = ", sample.std())

Vamos obter uma amostra com $n=5$.

In [None]:
# Amostra
sample = np.random.choice(pop_data, 5)
print("Amostra (n=5) =", sample)

# Média amostral
x = np.mean(sample)
print("Média amostral (n=5) =", x5)

Vamos criar um processo de extração de diversas amostras da nossa população e analisar a distribuição amostral do estimador da média.

In [None]:
# criar vetor para receber médias amostrais
means_size_3 = []

# Simular 1.000 amostras e salvar as médias em means_size_3
for _ in range(1000):
    sample = np.random.choice(pop_data, 3)
    means_size_3.append(sample.mean())

plt.hist(means_size_3);

Lembre-se:

$$ E(\bar{X}) = \mu  $$

$$ Var(\bar{X}) = \frac{\sigma^2}{n} $$

In [None]:
xbar = np.mean(means_size_3)
print(xbar)

In [None]:
s = np.std(means_size_3)
print(s)

# O Teorema do Limite Central

Um resultado importante muito utilizado em inferência é o Teorema Central do Limite, que fornece uma inportante conclusão a respeito da distribuição da soma de variáveis aleatórias independentes.

**Teorema**. Seja ${X_n ,n \geq 1}$ uma seqüência de variáveis aleatórias independentes e identicamnte distribuídas, com média $\mu$ e variância $\sigma^2 < \infty$. Então, para $S_n = \sum_{i=1}^{n} X_n$, tem-se:

$$ \frac{S_n - \mathbb{E}(X_i)}{\sqrt{Var(S_n}} = \frac{S_n - n \mu}{\sigma \sqrt{n}} \xrightarrow{d}  N(0,1) $$

In [None]:
sample1 = np.random.choice(pop_data, 100)
x1 = np.mean(sample1)
print(x1)

In [None]:
# criar vetor para receber médias amostrais
means_size_100 = []

# Simular 10.000 amostras e salvar as médias em means_size_100
for _ in range(10000):
    sample = np.random.choice(pop_data, 100)
    means_size_100.append(sample.mean())

plt.hist(means_size_100);

**Parâmetros populacionais**

In [None]:
mu = np.mean(pop_data)
print("Média =", mu)
var_pop = np.var(pop_data)
print("Variância =", var_pop)

**Estimativas amostrais**

In [None]:
xbar = np.mean(means_size_100);
print("Média amostral =", xbar)
var_sample = np.var(means_size_100)
print("Variância amostral =", var_sample)

*Observação*: A qualidade da aproximação normal para a distribuição amostral da média dependerá do tamanho da amostra e da distribuição da população de onde foi retirada a amostra. Em muito casos de interesse prático, se $n \geq 30$ a aproximação normal será satisfatória, independente da distribuição da população.

### Distribuição amostral da variância

In [None]:
# Criar um vetor para receber variâncias amostrais
var_size_100 = []

# Simulando 10.000 valores de variância amostral
for _ in range(10000):
    sample = np.random.choice(pop_data, 100)
    var_size_100.append(sample.var())

plt.hist(var_size_100);

**Média e variância da estimativa de variância amostral**

In [None]:
mean_s2 = np.mean(var_size_100);
print("Valor esperado =", mean_s2)

var_s2 = np.var(var_size_100)
print("Variância =", var_s2)

# Lei dos Grandes Números

A **Lei dos Grandes Números** é um dos teoremas mais importantes da probabilidade.

De forma simplificada, ela diz que quanto maior o número de amostras, mais a média amostral tenderá ao valor esperado ($\mu$).

Considerando uma variável aleatória $X$ e seja $X_1,X_2, \cdots,X_n$ uma amostra aleatória de $X$ com $n$ "grande".

$$ \bar{X_n} = \frac{1}{n} \sum_{i=1}^{n} X_i \rightarrow \mu \quad \text{quando} \quad n \rightarrow \infty  $$

### Lei Fraca Dos Grandes Números

Seja $X_1, X_2 , \cdots, X_n$ uma AAS de variáveis aleatórias *i.i.d.* com média $\mu$ e variância $\sigma^2 < \infty$. Então, para qualquer $\epsilon > 0$,

\begin{align}
  \lim_{n \rightarrow \infty} P(|\overline{X}-\mu| \geq \epsilon)=0.
\end{align}

In [None]:
# Semente aleatória
np.random.seed(42)

# simular dados populacionais com uma distribuição Gama
pop_data = np.random.gamma(1,100, 3000)
plt.hist(pop_data);

In [None]:
# Tamanho da população
N = len(pop_data)
print(N)

In [None]:
# Média populacional
mu = np.mean(pop_data)
print(mu)

Vamos considerar uma amostra inicial de $n=5$:

In [None]:
# Uma amostra de 5 observações
sample5 = np.random.choice(pop_data, 5)
print("Amostra (n=5) =", sample5)

# Média amostral  (n=5)
x5 = np.mean(sample5)
print("Média amostral (n=5) =", x5)

Vejamos o valor de $|\overline{X}-\mu|$:

In [None]:
print("Diferença =", abs(x5 - mu))

Vamos aumentar o tamanho da amostra para $n=20$

In [None]:
# Uma amostra de 20 observações
sample20 = np.random.choice(pop_data, 20)
print("Amostra (n=20) =", sample20)

# Média amostral (n=20)
x20 = np.mean(sample20)
print("Média amostral (n=20) =", x20)

In [None]:
print("Diferença =", abs(x20 - mu))

In [None]:
# Uma amostra de 100 observações
sample100 = np.random.choice(pop_data, 100)
print("Amostra (n=100) =", sample100)

# Média amostral (n=100)
x100 = np.mean(sample100)
print("Média amostral (n=100) =", x100)

In [None]:
print("Diferença =", abs(x100 - mu))

In [None]:
# Uma amostra de 1000 observações
samplemil = np.random.choice(pop_data, 1000)

# Média amostral (n=1000)
xmil = np.mean(samplemil)
print("Média amostral (n=1000) =", xmil)

In [None]:
print("Diferença =", abs(xmil - mu))