# Estimadores

Um **estimador** é uma **variável aleatória**, definida como uma função dos dados amostrais, que fornece uma aproximação de um parâmetro populacional desconhecido.

### 1. Definição Formal

Seja $ \theta $ um parâmetro populacional desconhecido. Um estimador para $ \theta $ é uma função:

$$
\hat{\theta} = g(X_1, X_2, \ldots, X_n),
$$

onde:
- $ X_1, X_2, \ldots, X_n $ são observações da amostra da população,
- $ g $ é uma função que mapeia a amostra para um valor estimado de $ \theta $.

### Exemplo
- Para estimar a **média populacional** $ \mu $:
  $$
  \hat{\mu} = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i.
  $$
- Para estimar a **variância populacional** $ \sigma^2 $:
  $$
  \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2.
  $$

### 2. Propriedades
1. **Viés**:
   $$
   \text{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta.
   $$
   Se $ \mathbb{E}[\hat{\theta}] = \theta $, o estimador é **não viesado**.

2. **Consistência**:
   Um estimador é **consistente** se $ \hat{\theta} $ converge em probabilidade para $ \theta $ à medida que o tamanho da amostra $ n \to \infty $.

3. **Eficiência**:
   Um estimador é **eficiente** se tiver a menor variância entre todos os estimadores não viesados para um dado tamanho de amostra.

4. **Suficiência**:
   Um estimador é suficiente se captura toda a informação sobre $ \theta $ disponível na amostra.

## 3. Erro Padrão
O **erro padrão** de um estimador quantifica sua precisão, representando o **desvio padrão de sua distribuição amostral**. Se $ \hat{\theta} $ é um estimador de um parâmetro $ \theta $, seu erro padrão é definido como:

$$
SE(\hat{\theta}) = \sqrt{\text{Var}(\hat{\theta})}.
$$

### Exemplo: *Coeficientes de Regressão*

Na regressão linear simples:
$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2),
$$
os erros padrão dos coeficientes estimados $ \hat{\beta}_0 $ e $ \hat{\beta}_1 $ são:

1. **Erro Padrão de $ \hat{\beta}_1 $:**
   $$
   SE(\hat{\beta}_1) = \sqrt{\hat{\sigma}^2 \cdot \frac{1}{\sum_{i=1}^n (x_i - \bar{x})^2}},
   $$
   onde $ \hat{\sigma}^2 $ é a variância residual estimada:
   $$
   \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^n (y_i - \hat{y}_i)^2.
   $$

2. **Erro Padrão de $ \hat{\beta}_0 $:**
   $$
   SE(\hat{\beta}_0) = \sqrt{\hat{\sigma}^2 \cdot \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right)}.
   $$

## 4. Distribuição Amostral de um Estimador
A **distribuição amostral de um estimador** é a distribuição de probabilidade do estimador considerando todas as possíveis amostras de mesmo tamanho da população.

### Exemplo: *Distribuição da Média Amostral*

Para uma população com média $ \mu $ e variância $ \sigma^2 $:
- Se $ X_1, X_2, \ldots, X_n $ são independentes e identicamente distribuídos (i.i.d.),
- A média amostral $ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $ tem:
  - Média: $ \mathbb{E}[\bar{X}] = \mu $,
  - Variância: $ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $,
  - Erro Padrão: $ SE(\bar{X}) = \sqrt{\frac{\sigma^2}{n}} $.

Se a população é normal, $ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) $. Para $ n $ grande, o Teorema Central do Limite garante que $ \bar{X} $ é aproximadamente normal, mesmo que a população não seja.

## 5. Dedução da Normalidade dos Coeficientes de Regressão
Na regressão, os coeficientes estimados $ \hat{\beta}_0 $ e $ \hat{\beta}_1 $ são combinações lineares dos erros $ \epsilon_i $, que são assumidos como normalmente distribuídos. Pela propriedade das combinações lineares de variáveis normais, os coeficientes também seguem uma distribuição normal.

### Dedução para $ \hat{\beta}_1 $

O estimador $ \hat{\beta}_1 $ é:
$$
\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}.
$$

Substituímos $ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $:
$$
\hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^n (x_i - \bar{x})\epsilon_i}{\sum_{i=1}^n (x_i - \bar{x})^2}.
$$

Como $ \epsilon_i \sim N(0, \sigma^2) $, o termo $ \sum_{i=1}^n (x_i - \bar{x})\epsilon_i $ é uma combinação linear de variáveis normais e segue uma distribuição normal. Portanto:
$$
\hat{\beta}_1 \sim N\left(\beta_1, \text{Var}(\hat{\beta}_1)\right),
$$
onde $ \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \bar{x})^2}. $

### Dedução para $ \hat{\beta}_0 $

O estimador $ \hat{\beta}_0 $ é:
$$
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}.
$$

Substituímos $ \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i $:
$$
\hat{\beta}_0 = \beta_0 + \frac{1}{n} \sum_{i=1}^n \epsilon_i - \hat{\beta}_1 \bar{x}.
$$

Como $ \hat{\beta}_1 $ e $ \frac{1}{n} \sum_{i=1}^n \epsilon_i $ são combinações lineares de variáveis normais, $ \hat{\beta}_0 $ também é normalmente distribuído:
$$
\hat{\beta}_0 \sim N\left(\beta_0, \text{Var}(\hat{\beta}_0)\right).
$$

## 5. Estimando a Distribuição de um Estimador com uma Única Amostra

Quando apenas uma amostra está disponível, a distribuição de um estimador $ \hat{\theta} $ pode ser aproximada usando os seguintes métodos:

### 5.1 Aproximações Teóricas
- Use resultados conhecidos sobre o estimador (por exemplo, normalidade para amostras grandes).
- Estime a variância do estimador a partir dos dados da amostra.

### 5.2 Método Bootstrap
1. Reamostre repetidamente (com reposição) a partir dos dados originais.
2. Calcule $ \hat{\theta} $ para cada reamostra.
3. Use a distribuição empírica de $ \hat{\theta} $ para aproximar sua distribuição amostral.

### 5.3 Simulação (Monte Carlo)
1. Assuma uma distribuição para a população.
2. Gere muitas amostras aleatórias e calcule $ \hat{\theta} $ para cada uma.
3. Use os resultados para aproximar a distribuição de $ \hat{\theta} $.

---