### Dizemos que uma métrica é uma proporção quando ela representa uma razão entre uma parte e o todo. Por exemplo, quando dizemos que 58% dos carros vendidos no Brasil são automáticos, estamos falando de uma proporção.

<br>

### O intervalo de confiaça para proporção funciona na mesma lógica do intervalo de confiança para média. Na prática, o que estamos calculando é um intervalo de x% de confiança onde esperamos que a proporção da população esteja, com x% de probabilidade.

<br>

### Por exemplo, para um intervalo de 95% de confiança, a gente espera que a proporção da população esteja dentro desse intervalo, com 95% de probabilidade. Quanto mais o nível de confiança, maior será o intervalo.

![alt_text](https://faculty.elgin.edu/dkernler/statistics/ch09/images/sample-proportions.jpg)

<br>
<br>
<br>

### Para calcularmos um intervalo de 99% de confiança, por exemplo, utilizamos o quantil 0.99 da Normal Padrão. A grande diferença do intervalo de confiança de média para o de proporção está na variância.


#### Quando pensamos numa variável de proporção, para cada observação temos a possibilidade de sucesso ou fracasso, com uma probabilidade p. Isso nos lembra uma distribuição específica, a de Bernoulli! No fim do dia, a proporção de sucessos é uma estimativa para a probabilidade de sucesso. 

#### Para uma variável Bernoulli com probabilidade de sucesso p, a variância é igual a p*(1-p).

![alt text](https://images.slideplayer.com/31/9598749/slides/slide_26.jpg)




---
<br>
<br>

#### Quanto a margem de erro, a lógica permanece a mesma, e quanto maior a amostra, menor é a margem de erro.


### Na grande maioria das vezes, não sabemos o valor da variância da população e acabamos por utilizar a variância da amostra em vez disso. O problema é que, muito provavelmente, a variância amostral vai ser menor do que a variância populacional.

### Por isso, ao invés de utilizarmos os quantis da distribuição Normal para construir o intervalo de confiança, utilizamos os quantis da distribuição T de Student.

<br>

### Vamos usar os dados do preço do Big Mac de Julho de 2022.

<br>

https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice

#### Importando a biblioteca pandas (https://pandas.pydata.org)

In [3]:
import pandas

#### Lendo os dados, que estão em csv

In [4]:
df = pandas.read_csv('BigmacPriceJuly2022.csv')

In [5]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


### Descrição das colunas

* **`date`** - Data do registro
* **`currency_code`** - Código ISO 4217 internacional da moeda do país
* **`name`** - Nome do país
* **`local_price`** - Preço do Big Mac na moeda local
* **`dollar_ex`** - Taxa de Conversão do dólar americano para a moeda local
* **`local_price`** - Preço do Big Mac em dólares americanos


#### Vamos criar uma coluna cujo resultado é 1 se o bigmac custa mais do que 4 dólares e 0 se custa igual ou menos do que 4 dólares

In [6]:
def e_caro(preco):
    if preco > 4:
        return 1
    return 0

In [7]:
df['bigmac_caro'] = df['dollar_price'].apply(e_caro)

In [8]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price,bigmac_caro
0,2022-07-01,ARS,Argentina,590.0,129,4.57,1
1,2022-07-01,AUD,Australia,6.7,1,6.7,1
2,2022-07-01,EUR,Austria,4.35,1,4.35,1
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7,1
4,2022-07-01,BHD,Bahrain,1.6,1,1.6,0


In [9]:
df.describe()

Unnamed: 0,local_price,dollar_ex,dollar_price,bigmac_caro
count,70.0,70.0,70.0,70.0
mean,3793.318143,1042.428571,4.003571,0.428571
std,17915.281337,4462.135648,1.353213,0.498445
min,1.3,1.0,1.3,0.0
25%,4.6625,1.0,3.0,0.0
50%,16.84,4.0,3.905,0.0
75%,93.5,27.75,4.6875,1.0
max,130000.0,25600.0,7.1,1.0


#### Vamos fazer um Intervalo com 95% Confiança para a proporção de Big Mac caros

In [13]:
big_mac_caro_prop = df["bigmac_caro"].mean()
big_mac_caro_prop_desvio_padrao = (big_mac_caro_prop * (1 - big_mac_caro_prop)) ** 0.5

print('\n')
print("Proporção de Big Mac's caros: {}".format(big_mac_caro_prop))
print("Desvio Padrão da proporção de Big Mac's caros: {}"\
      .format(big_mac_caro_prop_desvio_padrao))



Proporção de Big Mac's caros: 0.42857142857142855
Desvio Padrão da proporção de Big Mac's caros: 0.49487165930539345


In [14]:
from scipy.stats import t

# df = graus de liberdade , que vai ser o tamanho da amostra menos 1.
# loc = média da amostra
# scale = desvio padrão da amostra

graus_de_liberdade = df.shape[0] - 1

intervalo_95_big_mac_prop = t.interval(0.95 , 
                                  df = graus_de_liberdade,
                                  loc = big_mac_caro_prop,
                                  scale = big_mac_caro_prop_desvio_padrao)


print('Intervalo de 95% de Confiança para Proporção: {}'.format(intervalo_95_big_mac_prop))



Intervalo de 95% de Confiança para Proporção: (-0.5586705189915981, 1.4158133761344551)


In [15]:
margem_de_erro_big_mac_prop = intervalo_95_big_mac_prop[1] - big_mac_caro_prop
print('Margem de erro do intervalo: {}'.format(margem_de_erro_big_mac_prop))

Margem de erro do intervalo: 0.9872419475630265
