# Aula 19 - Estatística pt4 - Estatística Inferencial pt2 - Intervalos de confiança

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Intervalo de confiança

_____________

### Problema gerador: com base nos dados coletados de pesos e alturas, o que podemos dizer sobre as médias de peso e altura como parâmetros populacionais?

Nosso estudo até o momento foi feito com base na amostra coletada. Assim, é super simples calcularmos os estimadores pontuais de média de altura e peso (inclusive pra ambos os sexos). Mas, podemos dizer com confiança que esses estimadores pontuais equivalem aos parâmetros populacionais?

____

In [8]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import scipy

In [9]:
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/CURSO GERDAU /alturas_pesos.csv")

df

Unnamed: 0,sexo,altura,peso
0,M,187.57,109.72
1,M,174.71,73.62
2,M,188.24,96.50
3,M,182.20,99.81
4,M,177.50,93.60
...,...,...,...
9995,F,168.08,62.04
9996,F,170.35,77.51
9997,F,162.22,58.28
9998,F,175.35,74.32


In [10]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [11]:
df.groupby("sexo")[["altura", "peso"]].mean()

Unnamed: 0_level_0,altura,peso
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,161.820188,61.625692
M,175.326958,84.832028


____
____
____

## 1)  Intervalos de confiança

Primeiramente, vamos lembrar do principal objetivo da inferência estatística:

<img src="https://phhp-faculty-cantrell.sites.medinfo.ufl.edu/files/2012/07/mod10-big_picture_inference.gif" width="600">

Vamos lembrar também dos resultados do TCL para médias e proporções:

> Seja uma **amostra aleatória** ($x_1, x_2, \cdots, x_n$) de uma variável aleatória $X$ com **qualquer distribuição**, média $\mu$ e desvio padrão $\sigma$. Para $n$ suficientemente grande ($n>30$), a **distribuição das médias amostrais**, $\overline{X}$, se **aproxima de uma distribuição normal** com média $\mu_{\overline{x}} = \mu$ e erro padrão $SE_{\overline{X}} = \frac{\sigma}{\sqrt{n}}$. Isto é, $$\overline{X} \sim N \left(\mu, \frac{\sigma}{\sqrt{n}} \right)$$
OBS.: quando estamos falando do **estimador amostral do desvio padrão**, costumamos usar o termo **erro padrão** (standard error), denotado $SE$.

> Seja uma **amostra aleatória** ($x_1, x_2, \cdots, x_n$) de uma variável aleatória $X$ com **qualquer distribuição**, que tem como parâmetro populacional a proporção $p$. Se $np \geq 10$ e $n(1-p) \geq 10$, a **distribuição das proporções amostrais**, $\hat{p}$, se **aproxima de uma distribuição normal** com média $\mu_{\hat{p}} = p$ e erro padrão $SE_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}$. Isto é, $$\hat{p} \sim N \left(p, \sqrt{\frac{p(1-p)}{n}} \right)$$
OBS.: como $p$ em geral é desconhecida, a condição de aplicação pode ser avaliada com: $n\hat{p} \geq 10$ e $n(1-\hat{p}) \geq 10$.

_____

Quando calculamos um **estimador pontual** com base nos dados de uma amostra, esse valor do estimador é a **melhor (e única!) estimativa que temos para o parâmetro populacional**.

Mas, como este estimador foi calculado com base em um pedaço reduzido da população, é natural **haja uma diferença com relação ao parâmetro populacional**.

> Por isso, é importante que tenhamos um **intervalo de valores possíveis** para a estimativa do parâmetro populacioonal ao invés do estimador pontual (daí o nome "pontual", aliás)

Especificar apenas o parâmetro pontual é como **pescar com uma lança**: é uma técnica precisa, mas tem alta chance de errar.

Se queremos ter mais chances de caputrar o peixe, seria melhor **usar uma rede**: menos precisa, mas mais segura.

O equivalente de "pescar com uma rede" é especificar um **intervalo de confiança**, ou seja, um **intervalo de valores para o parâmetro populacional**, com certo grau de confiança, ao invés de apresentarmos um único valor.

Como o estimador pontual é nosso melhor palpite para o parâmetro populacional, faz sentido que ele seja o centro do intervalo de confiança. Mas como definir os limites do intervalo?

<img src="https://i1.wp.com/itfeature.com/wp-content/uploads/2019/07/ci11.png?resize=644%2C216" width=500>

Para definir a **largura do intervalo de confiança**, utilizamos **o erro padrão**!

> Sabemos que, **dentro das hipóteses do TCL**:
- A **média da distribuição amostral será o parâmetro de interesse** ($\mu_{\bar{x}} = \mu$, $\mu_{\hat{p}} = p$);
- O erro padrão representa o **desvio padrão** do estimador pontual;
- A distribuição amostral do estimador será **aproximadamente normal**

Sabendo tudo isso, e sabendo que 95% dos dados estão centrados entre 1.96 desvios-padrão da dsitribuição normal,

<img src="https://upload.wikimedia.org/wikipedia/commons/b/bf/NormalDist1.96.png" width=400>

> **Podemos construir um intervalo de confiança que se estende 1.96 erros padrões (SEs) do estimador pontual para estarmos 95% confiantes de que o intervalo captura o parâmetro populacional!**

Isso significa que se fizéssemos **muitas amostras**, aproximadamente 95% dos intervalos de confiança construídos **conteriam o parâmetro populacional!**

<img src="https://lh3.googleusercontent.com/y0l2Oz0E1AWPhKL_6-v5AnKJbf_63hOPlmvWWMTrHyXt9gXuZGP6VmnWU6HElc2MAmqevJwrMk8WrXI99LWI-3vAdYfoyMJ6iak-R3a7oyZOuNO4iBZiobOtjKGkKL6q9hXQdaAB" width=900>

**Níveis de confiança e significância**

O **nível de confiança** ($1 - \alpha$) representa a probabilidade de **acerto** da estimativa.

De forma complementar, o **nível de significância** ($\alpha$) expressa a probabilidade de **erro** da estimativa.

O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um **nível de confiança** de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png)

No caso que discutimos acima, tomando $1-\alpha=95\%$, temos que:

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img008.png)

De fato,

In [19]:
scipy.stats.norm.cdf(-1.96) # 2,5%  #cdf é a integral area sobre curva  #calculando a area da curva (integral) de infito até o desvio padrão -1.96

0.024997895148220435

In [18]:
scipy.stats.norm.cdf(1.96)  # 97,5%

0.9750021048517795

In [14]:
z = 2.5

scipy.stats.norm.cdf(z)-scipy.stats.norm.cdf(-z)

0.9875806693484477

Podemos também nos fazermos a pergunta inversa: dado um nível de confiança $1-\alpha$, qual deve ser o valor de z?

In [22]:
conf = 0.95
sig = 1 - conf  # os 5% que sobram

scipy.stats.norm.ppf(conf + sig/2)  # o contrario da cdf

1.959963984540054

In [16]:
abs(scipy.stats.norm.ppf(sig/2))

1.959963984540054

É comum usarmos a notação: $z_{\alpha/2}=1.96$.

Assim,

> **Se a distribuição amostral de um estimador pontual $EP$ se enquadra nas condições do TCL, o intervalo de confiança de 95% é dado por $$\boxed{EP \pm 1.96 \  SE_{EP}}$$**

Ou seja, para o caso da **média**, temos $\bar{x} \pm 1.96 \ \frac{\sigma}{\sqrt{n}}$

E para o caso das proporções, $\hat{p} \pm 1.96 \ \sqrt{\frac{p(1-p)}{n}}$

Para diferentes graus de confiança, usamos diferentes multiplicadores

<img src="https://s3-us-west-2.amazonaws.com/courses-images/wp-content/uploads/sites/1729/2017/04/15032441/m9_inference_two_proportion_topic_9_2_m9_est_diff_two_pop_prop_2_image3.png" width=400>

> **IC de 90%: $\boxed{EP \pm 1.645 \  SE_{EP}}$**

> **IC de 99%: $\boxed{EP \pm 2.576 \  SE_{EP}}$**

Naturalmente, quanto **mais largo o IC**, mais **confiança você tem que o parâmetro populacional é capturado dentro do intervalo**: quanto maior a rede, mais chance vc tem de pegar o peixe!

### Agora deu pra perceber a importância de uma amostra grande?

Note as equações para o SE da média e da proporção:


Não somente um $n$ grande nos perimite usar o TCL (**e isso é um elemento fundamental de tudo o que fizemos!!**), como os SE são **inversamente proporcionais** a $\sqrt{n}$, de modo que $$\uparrow n  \ \ \Leftrightarrow  \ \downarrow SE \ \ \ \Leftrightarrow \  \downarrow IC$$

E, claro, quão menor é o IC, mais precisa é nossa estimativa para o parâmetro populacional!

Vamos agora a alguns exemplos!

_____


**Exemplo 1**: Uma pesquisa feita com 1000 adultos aleatoriamente selecionados revelou que 848 deles eram a favor da expansão do uso de energia eólica no país.

In [None]:
n = 1000
n_favor = 848

p_hat = n_favor/n   #estimador p pontual

p_hat

0.848

$p$ : proporção populacional

In [None]:
# amostra aleatória, check!

# tamanho amostral, check!
n*p_hat >= 10 and n*(1-p_hat) >= 10

True

In [None]:
n*p_hat, n*(1-p_hat)   # proporções da amostra

(848.0, 152.00000000000003)

Como nossa amostra satisfaz as condições do TCL, podemos dizer que as proporções amostrais são normalmente distibuídas, e, portanto, podemos construir o IC (95%) como: $\hat{p} \pm 1.96 \ \sqrt{\frac{p(1-p)}{n}}$

In [None]:
conf = 0.95
sig = 1 - conf

z_a2 = scipy.stats.norm.ppf(conf + sig/2)

SE = np.sqrt((p_hat*(1-p_hat))/n)

ME = z_a2*SE

IC = (p_hat - ME, p_hat + ME)

IC

(0.8257480635415209, 0.8702519364584791)

Também é possível fazer diretamente com o scipy:

In [None]:
IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

IC

(0.8257480635415209, 0.8702519364584791)

In [None]:
p_hat

0.848

In [None]:
print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 82.57% e 87.03%


Mudando confiança pra 99%, mantendo mesmo `n`

In [None]:
conf = 0.99

p_hat = n_favor/n
SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 99% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 81.88% e 87.72%


In [None]:
conf = 0.999

p_hat = n_favor/n
SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.2%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 99.90% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 81.06% e 88.54%


Mantendo confiança pra 95%, mas aumentando `n`

In [None]:
conf = 0.95

n = 1000
n_favor = 848

p_hat = n_favor/n
SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 82.57% e 87.03%


In [None]:
conf = 0.95

n = 10000  # quanto maior o N maior a precisao no intervalo de confiança, por isso que é bom muitas amostras!
n_favor = 8480

p_hat = n_favor/n
SE = np.sqrt((p_hat*(1-p_hat))/n)

IC = scipy.stats.norm.interval(conf, loc=p_hat, scale=SE)

print(f"Temos {conf:.0%} de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre {IC[0]:.2%} e {IC[1]:.2%}")

Temos 95% de confiança que a proporção populacional das pessoas que são a favor da energia eólica está entre 84.10% e 85.50%


_____

### Vamos agora resolver o problema gerador!

In [None]:
df.query("sexo == 'F'")["altura"].mean()

161.8201879999998

In [None]:
n = df.query("sexo == 'F'").shape[0]

n

5000

In [None]:
# TCL é aplicável?

# amostra é aleatória, check. o design experimental foi bem feito.

n >= 30

True

$\bar{x} \pm z_{\alpha/2} \ \frac{\sigma}{\sqrt{n}}$

In [None]:
x_barra = df.query("sexo == 'F'")["altura"].mean()

sigma = df.query("sexo == 'F'")["altura"].std()
SE = sigma/np.sqrt(n)

for conf in [0.9, 0.95, 0.99]:

    IC = scipy.stats.norm.interval(conf, loc=x_barra, scale=SE)

    print(f"Temos {conf:.0%} de confiança que a altura média das mulheres da cidade está entre {IC[0]:.2f}cm e {IC[1]:.2f}cm\n")

Temos 90% de confiança que a altura média das mulheres da cidade está entre 161.66cm e 161.98cm

Temos 95% de confiança que a altura média das mulheres da cidade está entre 161.63cm e 162.01cm

Temos 99% de confiança que a altura média das mulheres da cidade está entre 161.57cm e 162.07cm



___
___
___