# Introdução à Inferência Estatística

*fonte: Wikipedia*

Inferência estatística é um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativos (amostra) sobre um universo (população), sendo que assume-se que a população é muito maior do que o conjunto de dados observados, a amostra. Tal tipo de afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Para realizar este trabalho, o estatístico coleta informações de dois tipos, experimentais (as amostras) e aquelas que obtém na literatura. As duas principais escolas de inferência são a inferência frequencista (ou clássica) e a inferência bayesiana.

A inferência estatística é geralmente distinta da estatística descritiva. A descrição estatística pode ser vista como a simples apresentação dos fatos, nos quais o modelo de decisões feito pelo analista tem pouca influência. É natural que análises estatísticas avancem, indo da descrição para a inferência de padrões. Essa última tarefa depende do modelo usado e/ou criado pelo analista dos dados. 

Na prática, a matemática é mais dedutiva e a inferência é indutiva.

- Parâmetros -> População
- Estatisticas -> Amostra

<br>
<img src="img/estatistica.png" width="450" />
<br>

## Conceitos fundamentais para a compreeensão da estatística

- **Viés**: Viés ou erro sistemático é a distorção sistemática entre a medida de uma variável estatística e o valor real da grandeza a estimar. A introdução de um viés no cálculo estatístico pode estar ligada à imperfeição ou à deformação da amostra (estatística) que serve de base para a estimativa, ou ao próprio método de avaliação. 

- **Intervalos de confiança**:  Intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro populacional desconhecido.

- **Testes de hipóteses**: ou teste de significância é um procedimento estatístico que permite tomar uma decisão (aceitar ou rejeitar a hipótese).

- **Curva Normal:**

Distribuição De-Moivre-Laplace-Gauss

Nos séculos dezoito e dezenove, alguns matemáticos e físicos desenvolveram uma função densidade de probabilidade que descrevia os erros experimentais obtidos em medidas físicas _Caire_, 2012. De certa forma todo e qualquer processo de mensuração está sujeito a um erro de medida. Esse erro pode ter diferentes fontes, desde a variação de tempertura, tempo, entre inúmeras outras características não identificáveis. Essa função densidade de probabilidade é conhecida como distribuição normal ou gaussina.

A grande utilidade dessa distribuição está associada ao fato de que aproxima de forma bastante satisfatória as curvas de frequências de medidas físicas.

<br>
<img src="img/normal.png" width="550" />
<br>

## Intervalo de Confiança

*fonte: Wikipedia*

Em estatística, intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro populacional desconhecido. Introduzido na estatística por Jerzy Neyman em 1937, é um intervalo observado (calculado a partir de observações) que pode variar de amostra para amostra e que com dada frequência (nível de confiança) inclui o parâmetro de interesse real não observável.

Como os dados observados são amostras aleatórias da população, o intervalo de confiança construído a partir dos dados também é aleatório. Entretanto, o intervalo de confiança calculado a partir de uma amostra particular não inclui necessariamente o valor real do parâmetro. Quando se tem 99% de confiança de que o valor real do parâmetro está no intervalo de confiança, significa que 99% dos intervalos de confiança observados têm o valor real do parâmetro. Tomando–se qualquer amostra particular, o parâmetro populacional desconhecido pode ou não pode estar no intervalo de confiança observado.

<br>
<img src="img/intervalo_de_confianca.png" width="700" />
<br>

## Teste de Hipóteses

Teste de hipóteses, teste estatístico ou teste de significância é um procedimento estatístico que permite tomar uma decisão (aceitar ou rejeitar a hipótese nula ${H_0}$ entre duas ou mais hipóteses (geralmente adota-se hipótese nula ${H_0}$ e hipótese alternativa ${H_1}$), utilizando os dados observados de um determinado experimento. Há diversos métodos para realizar o teste de hipóteses, que incluem Fisher (teste de significância), o método de Neyman–Pearson, método de Bayes, e o método t-Student.

Por meio da teoria da probabilidade, é possível inferir sobre quantidades de interesse de uma população a partir de uma amostra observada de um experimento científico. Por exemplo, estimar pontualmente e de forma intervalar um parâmetro de interesse, testar se uma determinada teoria científica deve ser descartada, verificar se um lote de remédios deve ser devolvido por falta de qualidade, entre outros. Por meio do rigor matemático, a inferência estatística pode ser utilizada para auxiliar a tomada de decisões nas mais variadas áreas.

<br>
<img src="img/zona_aceitacao.png" width="450" />
<br>

Portanto, para um teste de hipóteses teremos geralmente:

- Hipótese nula ${H_0}$: é a hipótese assumida como verdadeira para a construção do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar e **não rejeitar**.

- Hipótese alternativa ${H_1}$: é considerada quando a hipótese nula não tem evidência estatística.

Os testes de hipóteses são utilizados para determinar quais resultados de um estudo científico podem levar à rejeição da hipótese nula ${H_0}$ a um nível de significância pré–estabelecido. O estudo da teoria das probabilidades e a determinação da estatística de teste correta são fundamentais para a coerência de um teste de hipótese. Se as hipóteses do teste de hipóteses não forem assumidas de maneira correta, o resultado será incorreto e a informação será incoerente com a questão do estudo científico. Os tipos conceituais de erro (erro do tipo I e erro do tipo II) e os limites paramétricos ajudam a distinguir entre a hipótese nula ${H_0}$ e a hipótese alternativa ${H_1}$.

<br>
<img src="img/erro_tabela.png">
<br>

Graficamente temos:

<br>
<br>
<img src="img/erros.png" width="600" />
<br>
<br>

### Procedimentos para fazer um Teste de Hipótese com uma amostra

É apropriado para comparar a amostra com a população a partir da hipótese. As características da população são conhecidas a partir da teoria ou são calculadas a partir da população.

- (1) Escolher a hipótese a ser testada
- (2) Dependendo do que se quer testar, escolher a estatística a ser usada na comparação dos valores na realização do teste de hipóteses

Vamos ver agora os tipos de teste mais comuns para **mostragem alearórias simples - uma variável**.

#### Teste da média ou t-Student

Por exemplo, para se testar um certo valor $\overline x$ como média da hipótese de uma população com média $\mu_0$ e variância $\sigma^2$ conhecida, devemos utilizar a transformação seguinte, com $n$ observações:

<br>
$$z=\frac{\overline x-\mu_0}{\sigma / \sqrt{n}}$$
<br>

onde:

- ${\bar x}$ - valor médio da hipótese
- ${\mu_0}$ - valor medio da amostra
- ${\sigma}$ - desvio padrão da população
- ${n}$ - tamanho da amostra

Caso o desvio padrão da população seja desconhecido, utilizamos o desvio padrão da amostra ${s}$:

<br>
$$z=\frac{\overline x-\mu_0}{s / \sqrt{n}}$$
<br>

Para este caso, o desvio padrão amostral ${s}$ será:

<br>
$$s=\sqrt{\frac{\sum(x_i-\overline x)²}{n-1}}$$
<br>

Para melhor visualização do teste de hipóteses da média, a figura abaixo ilustra a média $\mu_0$ da amostra com a grande região de não rejeição, e a média da hipótese à esquerda gerando uma segunda curva normal e as regiões de rejeição para o **erro tipo I** e o **erro tipo II** em destaque.

<br>
<br>
<img src="img/Teste_T_Gráfico_bicaudal.gif" width="450" />
<br>
<br>

#### Teste da variância

Para se testar a variância, deveremos utilizar a estatística *Ki-Quadrado*, com $(n-1)$ graus de liberdade

<br>
$$\chi^2 = \frac{(n-1)s^2}{\sigma_0}$$
<br>

#### Teste da proporção

O teste a proporção é análogo ao teste das médias, só que para valores de proporção: 

<br>
$$z=\frac{p\prime-p_0}{\sqrt{\frac{p_0-(1-p_0)}{n}}}$$
<br>