# `Proporção`


### Dizemos que uma métrica é uma proporção quando ela representa uma razão entre uma parte e o todo. Por exemplo, quando dizemos que 58% dos carros vendidos no Brasil são automáticos, estamos falando de uma proporção.

<br>

### O intervalo de confiaça para proporção funciona na mesma lógica do intervalo de confiança para média. Na prática, o que estamos calculando é um intervalo de x% de confiança onde esperamos que a proporção da população esteja, com x% de probabilidade.

<br>

### Por exemplo, para um intervalo de 95% de confiança, a gente espera que a proporção da população esteja dentro desse intervalo, com 95% de probabilidade. Quanto mais o nível de confiança, maior será o intervalo.

<br>

![alt_text](https://faculty.elgin.edu/dkernler/statistics/ch09/images/sample-proportions.jpg)

<br>

### Para calcularmos um intervalo de 99% de confiança, por exemplo, utilizamos o quantil 0.99 da Normal Padrão. A grande diferença do intervalo de confiança de média para o de proporção está na variância.

<br>

### Quando pensamos numa variável de proporção, para cada observação temos a possibilidade de sucesso ou fracasso, com uma probabilidade p. Isso nos lembra uma distribuição específica, a de Bernoulli! No fim do dia, a proporção de sucessos é uma estimativa para a probabilidade de sucesso.

<br>

### Para uma variável Bernoulli com probabilidade de sucesso p, a variância é igual a p*(1-p).

![alt text](https://images.slideplayer.com/31/9598749/slides/slide_26.jpg)

<br>

---

<br>

### Quanto a margem de erro, a lógica permanece a mesma, e quanto maior a amostra, menor é a margem de erro.

<br>

### Na grande maioria das vezes, não sabemos o valor da variância da população e acabamos por utilizar a variância da amostra em vez disso. O problema é que, muito provavelmente, a variância amostral vai ser menor do que a variância populacional.

<br>

### Por isso, ao invés de utilizarmos os quantis da distribuição Normal para construir o intervalo de confiança, utilizamos os quantis da distribuição T de Student.



### Vamos usar os dados do preço do Big Mac de Julho de 2022.

<br>

https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('BigmacPriceJuly2022.csv')

In [3]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


### Descrição das colunas

* **`date`** - Data do registro
* **`currency_code`** - Código ISO 4217 internacional da moeda do país
* **`name`** - Nome do país
* **`local_price`** - Preço do Big Mac na moeda local
* **`dollar_ex`** - Taxa de Conversão do dólar americano para a moeda local
* **`local_price`** - Preço do Big Mac em dólares americanos

### Vamos criar uma coluna cujo resultado é 1 se o bigmac custa mais do que 4 dólares e 0 se custa igual ou menos do que 4 dólares

In [4]:
def e_caro(preco):
    if preco > 4:
        return 1
    else:
        return 0

In [6]:
df['bigmac_caro'] = df['dollar_price'].apply(e_caro)

In [7]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price,bigmac_caro
0,2022-07-01,ARS,Argentina,590.0,129,4.57,1
1,2022-07-01,AUD,Australia,6.7,1,6.7,1
2,2022-07-01,EUR,Austria,4.35,1,4.35,1
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7,1
4,2022-07-01,BHD,Bahrain,1.6,1,1.6,0


In [8]:
df.describe()

Unnamed: 0,local_price,dollar_ex,dollar_price,bigmac_caro
count,70.0,70.0,70.0,70.0
mean,3793.318143,1042.428571,4.003571,0.428571
std,17915.281337,4462.135648,1.353213,0.498445
min,1.3,1.0,1.3,0.0
25%,4.6625,1.0,3.0,0.0
50%,16.84,4.0,3.905,0.0
75%,93.5,27.75,4.6875,1.0
max,130000.0,25600.0,7.1,1.0


### Vamos fazer um Intervalo com 95% Confiança para a proporção de Big Mac caros

In [9]:
big_mac_caro_prop = df["bigmac_caro"].mean()
big_mac_caro_prop_desvio_padrao = (big_mac_caro_prop * (1 - big_mac_caro_prop)) ** 0.5

print('\n')
print("Proporção de Big Mac's caros: {}".format(big_mac_caro_prop))
print("Desvio Padrão da proporção de Big Mac's caros: {}"\
      .format(big_mac_caro_prop_desvio_padrao))



Proporção de Big Mac's caros: 0.42857142857142855
Desvio Padrão da proporção de Big Mac's caros: 0.49487165930539345


In [11]:
from scipy.stats import t

# df = graus de liberdade , que vai ser o tamanho da amostra menos 1.
# loc = média da amostra
# scale = desvio padrão da amostra

graus_de_liberdade = df.shape[0] - 1 ### df.shape[0] = número de linhas na tabelas (dados)

intervalo_95_big_mac_prop = t.interval(0.95 ,
                                  df = graus_de_liberdade,
                                  loc = big_mac_caro_prop,
                                  scale = big_mac_caro_prop_desvio_padrao)


print('Intervalo de 95% de Confiança para Proporção: {}'.format(intervalo_95_big_mac_prop))


Intervalo de 95% de Confiança para Proporção: (-0.5586705189915981, 1.4158133761344551)


In [18]:
df.shape[0]

70

In [12]:
margem_de_erro_big_mac_prop = intervalo_95_big_mac_prop[1] - big_mac_caro_prop
print('Margem de erro do intervalo: {}'.format(margem_de_erro_big_mac_prop))

Margem de erro do intervalo: 0.9872419475630265


# Entendendo o Intervalo de Confiança para Proporções com o Exemplo do Big Mac

O material que você compartilhou apresenta o conceito de intervalo de confiança para proporções e como calculá-lo. Vamos destrinchar esse conceito com exemplos claros e esclarecer suas dúvidas sobre o código Python.

<br>

## O que é uma Proporção?

Em estatística, uma **proporção** representa a fração de elementos em um conjunto que possuem uma determinada característica. Pense na proporção de carros automáticos no Brasil: se 58% dos carros vendidos são automáticos, estamos lidando com uma proporção.


<br>

## Intervalo de Confiança para Proporções: A Ideia Central

Assim como no caso da média, o **intervalo de confiança para proporções** busca estimar um intervalo onde acreditamos que a verdadeira proporção da população se encontra, com um certo nível de confiança.

<br>

Imagine que queremos estimar a proporção de pessoas que preferem café a chá em uma cidade. É inviável perguntar a todos os habitantes. Em vez disso, entrevistamos uma **amostra** da população e calculamos a proporção de amantes de café nesse grupo. O **intervalo de confiança** nos diz, com uma certa probabilidade (ex: 95%), onde a verdadeira proporção de amantes de café na cidade **provavelmente** se encontra.

<br>

**Exemplo:** Um intervalo de confiança de 95% significa que, se repetirmos a pesquisa várias vezes com amostras diferentes, esperaríamos que o intervalo calculado contivesse a verdadeira proporção da população em 95% das vezes.

<br>

## Distribuição de Bernoulli e a Variância da Proporção

**(Dúvida: Somente usamos variável de proporção para casos parecidos com Bernoulli, de sucesso e fracasso, pois, não entendi essa parte)**

<br>

A sua dúvida é pertinente! O conceito de proporção está intrinsecamente ligado à **distribuição de Bernoulli**. Essa distribuição descreve a probabilidade de sucesso ou fracasso em um único experimento com apenas dois resultados possíveis.

<br>


Pense no exemplo do Big Mac: um Big Mac pode ser considerado "caro" (sucesso) ou "não caro" (fracasso). Cada Big Mac avaliado representa um experimento de Bernoulli. A **proporção de Big Macs caros** na amostra é uma estimativa da **probabilidade** de um Big Mac ser considerado caro na população.

<br>


A **variância** de uma variável de Bernoulli, que mede a dispersão dos dados em torno da média, é calculada como **p*(1-p)**, onde 'p' é a probabilidade de sucesso. No caso do Big Mac, seria a probabilidade de um Big Mac ser considerado caro.

<br>


## Distribuição T de Student e a Estimação da Variância

<br>

**(Dúvida: Por que usamos o quantis da distribuição T de Student?)**

Na maioria das vezes, não sabemos a variância da população e a estimamos a partir da variância da amostra. O problema é que a **variância amostral tende a ser menor** que a variância populacional, o que pode levar a estimativas imprecisas.

<br>

Para compensar essa diferença, em vez de usar a distribuição Normal padrão, utilizamos a **distribuição T de Student**. A distribuição T é semelhante à Normal, mas possui "caudas" mais pesadas, o que significa que leva em consideração a incerteza adicional ao estimar a variância populacional a partir da amostra.

<br>

### Desvendando o Código Python

Vamos analisar o código passo a passo:

1. **Importando bibliotecas:**
 ```python
 import pandas as pd
 from scipy.stats import t
 ```

2. **Carregando e explorando os dados:**
 ```python
 df = pd.read_csv('BigmacPriceJuly2022.csv')
 df.head()
 df.describe()

  saida:

  count: Número de valores não nulos na coluna.
  mean: Média aritmética dos valores.
  std: Desvio padrão, que mede a dispersão dos dados em torno da média.
  min: Valor mínimo na coluna.
  25%: Primeiro quartil (Q1), ou seja, 25% dos dados estão abaixo deste valor.
  50%: Segundo quartil (Q2) ou mediana, ou seja, 50% dos dados estão abaixo deste valor.
  75%: Terceiro quartil (Q3), ou seja, 75% dos dados estão abaixo deste valor.
  max: Valor máximo na coluna.

 ```

3. **Criando a variável "Big Mac Caro":**
 ```python
 def e_caro(preco):
     if preco > 4:
         return 1
     return 0

 df['bigmac_caro'] = df['dollar_price'].apply(e_caro)
 ```
 Aqui, estamos criando uma nova coluna chamada `bigmac_caro`. Para cada preço na coluna `dollar_price`, a função `e_caro` verifica se o preço é maior que 4 dólares. Se for, atribui 1 (caro), caso contrário, atribui 0 (não caro).

<br>

4. **Calculando a proporção e o desvio padrão:**
 ```python
 big_mac_caro_prop = df["bigmac_caro"].mean()
 big_mac_caro_prop_desvio_padrao = (big_mac_caro_prop * (1 - big_mac_caro_prop)) ** 0.5
 ```
 - `big_mac_caro_prop`: calcula a proporção de Big Macs caros na amostra, que é a média da coluna `bigmac_caro`.
 - `big_mac_caro_prop_desvio_padrao`: calcula o desvio padrão da proporção amostral usando a fórmula  √(p*(1-p)), como explicado anteriormente.

<br>

5. **Calculando o intervalo de confiança:**
 ```python
 graus_de_liberdade = df.shape[0] - 1
 intervalo_95_big_mac_prop = t.interval(0.95 ,
                                   df = graus_de_liberdade,
                                   loc = big_mac_caro_prop,
                                   scale = big_mac_caro_prop_desvio_padrao)
 ```
 - **(Dúvida: favor explicar essa parte)**:
    - `graus_de_liberdade = df.shape[0] - 1`: os **graus de liberdade** são essenciais para usar a distribuição T. No contexto de um intervalo de confiança para proporções,  eles são calculados como o tamanho da amostra menos 1.
    - `t.interval(...)`:  esta função calcula o intervalo de confiança de 95% usando a distribuição T.
        - `0.95`:  nível de confiança desejado.
        - `df`: graus de liberdade.
        - `loc`: média da amostra (proporção de Big Macs caros).
        - `scale`: desvio padrão da amostra.

<br>

6. **Margem de erro:**
 ```python
 margem_de_erro_big_mac_prop = intervalo_95_big_mac_prop[1] - big_mac_caro_prop
 ```
 A margem de erro é a diferença entre o limite superior do intervalo de confiança e a proporção amostral.

<br>

### Em Resumo

O código calcula o intervalo de confiança de 95% para a proporção de Big Macs caros usando a distribuição T de Student. O intervalo resultante nos dá uma faixa de valores onde acreditamos que a verdadeira proporção de Big Macs caros na população se encontra, com 95% de confiança.
