In [None]:
url = 'https://raw.githubusercontent.com/allanspadini/linear_estatistica/main/winequality-red.csv'

https://archive.ics.uci.edu/ml/datasets/Wine

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.

In [None]:
import pandas as pd

In [None]:
vinho = pd.read_csv(url,sep=';')

In [None]:
vinho.head()

In [None]:
vinho.shape

# Qual a chance da nossa amostra retratar a realidade?

O **nível de confiança** ($1 - \alpha$) representa a probabilidade de acerto da estimativa. De forma complementar o **nível de significância** ($\alpha$) expressa a probabilidade de erro da estimativa.

O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um **nível de confiança** de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png)

## Erro inferencial

O **erro inferencial** é definido pelo **desvio padrão das médias amostrais** $\sigma_\bar{x}$ e pelo **nível de confiança** determinado para o processo.

# $$e = z \frac{\sigma}{\sqrt{n}}$$

Suponha que a densidade do vinho se distribui aproximadamente como uma normal. Calcule o desvio padrão e a média de uma amostra de 1000 elementos. Construa um intervalo de confiança para a média populacional assumindo um **nível de significância de 5%**.

In [None]:
amostra = vinho.sample(n=1000, random_state=202)

In [None]:
desvio_padrao = amostra['density'].std()

In [None]:
amostra['density'].hist()

In [None]:
significancia = 0.05

In [None]:
confianca = 1 - significancia

In [None]:
media_amostra = amostra['density'].mean()

### Obtendo z - Tabela normal padronizada.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img008.png)

### Valores de $z$ para os níveis de confiança mais utilizados

|Nível de<br>confiança|Valor da área sob<br>a curva normal| $z$ |
|:----------------:|:---------------------------------:|:---:|
|90%               |0,95                               |1,645|
|95%               |0,975                              |1,96 |
|99%               |0,995                              |2,575|

Obtendo o **desvio padrão das médias amostrais** $\sigma_\bar{x}$

In [None]:
n = 1000

In [None]:
import numpy as np

In [None]:
sigma = desvio_padrao/np.sqrt(n)

Obtendo o $e$

In [None]:
z = 1.96

In [None]:
erro = z*sigma

In [None]:
erro

### Calculando o intervalo de confiança

In [None]:
intervalo = [media_amostra - erro, media_amostra + erro ]

In [None]:
intervalo

In [None]:
from scipy.stats import norm

In [None]:
norm.interval(alpha=0.95, loc=media_amostra,scale=sigma)