# Calculadora de intervalo de confiança

In [18]:
import numpy as np 
from scipy.stats import t

In [19]:
# Simular um conjunto de dados composto por 100 números extraídos de uma distribuição normal.
x = np.random.normal (size=100)

In [20]:
# Vamos calcular o intervalo de confiança de 95% do valor médio.
# Vamos calcular todos os números que precisamos de acordo com a fórmula dos intervalos de confiança.
m = x.mean()
s = x.std()
dof = len(x) -1
confidence = 0.95

In [21]:
# Agora precisamos do valor de t. A função que calcula a distribuição cumulativa inversa é ppf.
# Precisamos aplicar o valor absoluto porque a distribuição cumulativa funciona com a cauda esquerda, então o resultado seria negativo.
t_crit = np.abs(t.ppf((1-confidence)/2,dof))

In [24]:
# Agora, podemos aplicar a fórmula original para calcular o intervalo de confiança de 95%.
(m-s*t_crit/np.sqrt(len(x)), m+s*t_crit/np.sqrt(len(x)))

# (-0,14017768797464097, 0,259793719043611)

(-0.2080613985931279, 0.19644237743923)

# Sabemos que está correto porque a distribuição normal tem média 0, mas se não soubermos nada sobre a população, podemos dizer que, com 95% de confiança, o valor esperado da população está entre -0,14 e 0,26.

# Poderíamos ter alcançado o mesmo resultado usando um bootstrap, que é imparcial. Neste exemplo, crio 1.000 reamostras do nosso conjunto de dados (com substituições).

In [25]:
values = [np.random.choice(x,size=len(x),replace=True).mean() for i in range(1000)] 
np.percentile(values,[100*(1-confidence)/2,100*(1-(1-confidence)/2)]) 
# array([-0.13559955, 0.26480175])

array([-0.20442072,  0.19259062])

# Como podemos ver, o resultado é quase igual ao que alcançamos com a fórmula fechada.

# Conclusão

- Os intervalos de confiança são fáceis de calcular e podem fornecer uma visão muito útil para analistas de dados e cientistas.

- Eles fornecem uma estimativa de erro muito poderosa e, se usados corretamente, podem realmente nos ajudar a extrair o máximo de informações possível de nossos dados.