<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Probabilidade" data-toc-modified-id="Probabilidade-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Probabilidade</a></span><ul class="toc-item"><li><span><a href="#Espaço-Amostral" data-toc-modified-id="Espaço-Amostral-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Espaço Amostral</a></span></li><li><span><a href="#Amostragem" data-toc-modified-id="Amostragem-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Amostragem</a></span></li><li><span><a href="#Amostra" data-toc-modified-id="Amostra-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Amostra</a></span></li><li><span><a href="#Distribuições-de-Probabilidade" data-toc-modified-id="Distribuições-de-Probabilidade-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Distribuições de Probabilidade</a></span><ul class="toc-item"><li><span><a href="#Distribuição-de-Bernoulli" data-toc-modified-id="Distribuição-de-Bernoulli-1.4.1"><span class="toc-item-num">1.4.1&nbsp;&nbsp;</span>Distribuição de Bernoulli</a></span></li><li><span><a href="#Distribuição-Binomial" data-toc-modified-id="Distribuição-Binomial-1.4.2"><span class="toc-item-num">1.4.2&nbsp;&nbsp;</span>Distribuição Binomial</a></span></li><li><span><a href="#Distribuição-Geométrica" data-toc-modified-id="Distribuição-Geométrica-1.4.3"><span class="toc-item-num">1.4.3&nbsp;&nbsp;</span>Distribuição Geométrica</a></span></li><li><span><a href="#Distribuição-de-Poisson" data-toc-modified-id="Distribuição-de-Poisson-1.4.4"><span class="toc-item-num">1.4.4&nbsp;&nbsp;</span>Distribuição de Poisson</a></span></li><li><span><a href="#Distribuição-Exponencial" data-toc-modified-id="Distribuição-Exponencial-1.4.5"><span class="toc-item-num">1.4.5&nbsp;&nbsp;</span>Distribuição Exponencial</a></span></li><li><span><a href="#Teorema-do-Limite-Central" data-toc-modified-id="Teorema-do-Limite-Central-1.4.6"><span class="toc-item-num">1.4.6&nbsp;&nbsp;</span>Teorema do Limite Central</a></span></li></ul></li></ul></li><li><span><a href="#Intervalo-de-Confiaça-e-RMSE" data-toc-modified-id="Intervalo-de-Confiaça-e-RMSE-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Intervalo de Confiaça e RMSE</a></span><ul class="toc-item"><li><span><a href="#RMSE-e-Complexidade" data-toc-modified-id="RMSE-e-Complexidade-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>RMSE e Complexidade</a></span></li></ul></li></ul></div>

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

sns.set_theme(context="notebook", style="darkgrid", palette=sns.color_palette("Set2"))
bc = sns.color_palette("Set2")[0]


# Probabilidade

Como vimos na aula de estatíticas descritivas, probabilidade é o estudo de fenômenos aleatórios a partir da construção de modelos probabilísticos (no sentido contrário da estatística, que estima modelos probabílisticos a partir de observações/dados).

Mas o que são **modelos probabilísticos**? Para entender este conceito, vamos olhar primeiro para alguns conceitos fundamentais em probabilidade: **variáveis aleatórias**, **espaço amostral** e **função de probabilidade**.

## V.A. e Espaço Amostral

*Uma variável aleatória é uma variável quantitativa, cujo resultado (valor) depende de fatores aleatórios*. Por exemplo, o **resultado** do lance de uma moeda é uma variável aleatória. O espaço amostral é o conjunto de valores que nossa variável aleatória pode assumir: no exemplo da moeda, o espaço amostral é o conjunto `{cara, coroa}`.

Vamos representar o espaço amostral acima através de uma lista:

In [None]:
moeda = ["cara", "coroa"]


## Função de Probabilidade

A segunda parte de um modelo probabilístico é a **função de probabilidade**: esta função **atribui** à cada elemento do nosso **espaço amostral** uma probabilidade tal que a somatória da probabilidade de todos os eventos de nosso espaço amostra é sempre 1.

No nosso exemplo da moeda, caso esta seja justa, a função de probabilidade atribuirá 0,5 ao elemento `cara` e 0,5 ao elemento `coroa`. Vamos utilizar a função `choice()` do submódulo `random` da biblioteca `numpy` para representar nossa função de probabilidade. Esta função nos permite mapear um vetor de probabilidades, através do argumento `p = [...]`, à um espaço amostral:

In [None]:
np.random.choice(moeda, p=[0.5, 0.5])


## Amostragem

Toda vez que executamos a função acima estamos **amostrando** nossa variável aleatória, ou seja, estamos *criando* uma observação a partir do nosso modelo probabilístico. Vamos definir duas funções de probabilidade (dois modelos distintos descrevendo duas variáveis aleatórias diferentes): uma para uma moeda justa e outra para uma moeda injusta:

In [None]:
def jogar_moeda_justa():
    return np.random.choice(moeda)


In [None]:
jogar_moeda_justa()


In [None]:
def jogar_moeda_injusta():
    return np.random.choice(moeda, p=[0.1, 0.9])


In [None]:
jogar_moeda_injusta()


## Amostra

Uma **amostra** é um conjunto de observações da nossa variável aleatória. Por exemplo, se lançarmos 100 moedas justas, teremos uma amostra de tamanho 100 da nossa variável. Vamos utilizar um `list comprehesion` para simular este processo:

In [None]:
amostra_100 = [jogar_moeda_injusta() for i in range(100)]


In [None]:
amostra_100[0:5]


In [None]:
from collections import Counter


In [None]:
Counter(amostra_100)


## Extendendo Variáveis Aleatórias

O exemplo acima trata um tipo de fenômeno aleatório extremamente simples: um lance de moeda. No entanto, podemos construir variáveis aleatórias mais complexas a partir da realização do processo de amostragem. Por exemplo, podemos definir uma variável aleatória para mensurar a probabilidade de ter **N caras** em **M lances de uma moeda justa**.

Esta nova função tem um espaço amostral composto por vetores de cara e coroa com **comprimento M** e nos permite medir a probabilidade de observarmos **2 caras em 3 lances de uma moeda justa**. O espaço amostral dessa variável aleatória:

```
['cara', 'cara', 'cara']

['cara', 'cara', 'coroa']
['cara', 'coroa', 'cara']
['coroa', 'cara', 'cara']

['cara', 'coroa', 'coroa']
['coroa', 'cara', 'coroa']
['coroa', 'coroa', 'cara']

['coroa', 'coroa', 'coroa']
```

Ou seja, nosso espaço amostral contém todos os resultados possíveis de 3 lances de uma moeda justa - e a probabilidade de observar 2 caras em 3 lances de uma moeda justa é 3/8. No exemplo acima fica claro que a construção manual do espaço amostral, mesmo quando ele é simples, é inviável! Temos duas formas de contornar este problema:

1. Diversos problemas, como o descrito acima, tem equações que nos permitem calcular, a partir da formulação do problema, a probabilidade de um certo tipo de evento;
1. Utilizando amostragem e a **lei dos grandes números**!


A **lei dos grandes números** é um teorema fundamental da probabilidade que garante que conforme aumentamos o tamanho de uma amostra a **% de eventos observada converge para a probabilidade daquele evento**!

Vamos alavancar o poder computacional e utilizar a função `jogar_moeda_justa()` para ver a **lei dos grandes números** em operação. Primeiro, vamos definir uma nova função de amostragem para nosso novo espaço amostral:

In [None]:
def jogar_3_moedas():
    evento = [jogar_moeda_justa() for i in range(3)]
    return evento


In [None]:
jogar_3_moedas()


Agora, vamos criar uma função para construir amostras de tamanho fixo:

In [None]:
def amostrar_3_moedas(n_amostras):
    amostra = [jogar_3_moedas() for i in range(n_amostras)]
    return amostra


In [None]:
amostrar_3_moedas(10)


Agora vamos construir uma função para calcular a **% de observações com duas caras** para uma dada amostra:

In [None]:
def per_2_caras(amostra):
    contagem_caras = [evento.count("coroa") for evento in amostra]
    return contagem_caras.count(2) / len(amostra)


In [None]:
per_2_caras(amostrar_3_moedas(10))


Agora vamos criar um loop para calcular **% de observações com duas caras** para amostras de tamanho de 1 à 1000:

In [None]:
per_observada = []
for i in range(1, 2001):
    per_observada.append(per_2_caras(amostrar_3_moedas(i)))


Agora vamos comparar a **% de observações com 2 caras** com a **probabilidade que calculamos** a partir do espaço amostral:

In [None]:
tb_simul_moeda = pd.DataFrame({"tx_obs": per_observada})
tb_simul_moeda["tam_amostra"] = range(1, 2001)
tb_simul_moeda["desvio"] = np.abs(3 / 8 - tb_simul_moeda["tx_obs"])
tb_simul_moeda["mm_desvio"] = tb_simul_moeda["desvio"].rolling(10).mean()


In [None]:
fig, ax = plt.subplots(2, 1, figsize=(10, 8))
sns.scatterplot(
    data=tb_simul_moeda,
    x="tam_amostra",
    y="desvio",
    alpha=0.8,
    s=2,
    color="black",
    ax=ax[1],
)
sns.lineplot(data=tb_simul_moeda, x="tam_amostra", y="mm_desvio", color="red", ax=ax[1])
sns.scatterplot(
    data=tb_simul_moeda,
    x="tam_amostra",
    y="tx_obs",
    alpha=0.8,
    s=2,
    color="black",
    ax=ax[0],
)
ax[0].axhline(3 / 8, color="red")
ax[1].set_ylim(0, 0.3)
fig.suptitle("Lei dos Grandes Números")


## Distribuições de Probabilidade

No problema acima, do lance de 3 moedas, poderíamos construir um modelo mais genérico se considerassemos outro espaço amostral: **o # de caras obtidas**. Neste caso nossa variável aleatória teria como espaço amostral os números `0, 1, 2 e 3` e nossa função de probabilidade teria que ser redefinida a partir deste espaço amostral. Neste caso teríamos construído uma **distribuição de probabilidade** bem conhecida!

Vários processos analogos ao que construímos acima já foram estudados pela probabilidade. Vamos conhecer algumas **distribuições probabílisticas** famosas, assim como o processo que ela modelam e seu espaço amostral.

### Distribuição de Bernoulli

<img src="images/bernoulli.jpg" alt="Drawing" style="width: 200px;"/>

**Espaço amostral**: *Booleano*

**Parâmetros**: 
1. *p*: probabilidade de sucesso.

A distribuição de Bernoulli é a distribuição de probabilidade mais simples que existe: ela representa o resultado de um **teste binário**, sua função de probabilidade **atribui a cada resultado, uma probabilidade**. O nosso lance de moedas é uma distribuição de Bernoulli!

Vamos utilizar a lei dos grandes números para construir amostras representativas de um variável aleatório seguindo uma distribuição de Bernoulli.

In [None]:
TAMANHO_AMOSTRA = 100

amostra_justa = [jogar_moeda_justa() for i in range(TAMANHO_AMOSTRA)]
amostra_injusta = [jogar_moeda_injusta() for i in range(TAMANHO_AMOSTRA)]

tb_justa = pd.DataFrame({"justa": dict(Counter(amostra_justa))}) / TAMANHO_AMOSTRA
tb_injusta = pd.DataFrame({"injusta": dict(Counter(amostra_injusta))}) / TAMANHO_AMOSTRA


In [None]:
fig, ax = plt.subplots(1, 2, figsize=(10, 5))
sns.barplot(data=tb_justa, x=tb_justa.index, y="justa", ax=ax[0])
ax[0].set_title("Moeda Justa")
sns.barplot(data=tb_injusta, x=tb_injusta.index, y="injusta", ax=ax[1])
ax[1].set_title("Moeda Injusta")


### Distribuição Binomial

**Espaço amostral**: *Números Inteiros >= 0* e *<= n*

**Parâmetros**: 
1. *n*: número de testes;
1. *p*: probabilidade de sucesso.

**Estatísticas Descritivas**:
* *Média* $$\mu = p*n$$
* *Desvio Padrão* $$\sigma = \sqrt{n * p * (1-p)}$$

A distribuição Binomial (inventada pelo mesmo Jacob Bernoulli...) representa a generalização segunda distribuição que simulamos na primeira parte da aula: dada uma série de ***n*** testes de Bernoulli, com probabilidade de sucesso igual à ***p***, qual a chance de observamos ***k*** sucessos?

Vamos construir uma função de amostragem para essa generalização:



In [None]:
def numero_coroa_justa(amostras):
    amostra = [jogar_moeda_justa() for i in range(amostras)]
    return Counter(amostra)["coroa"]


In [None]:
numero_coroa_justa(10)


A função acima retorna o **número de coroas**, *N*, em *M* lances de uma moeda justa. Vamos utilizar essa função para amostrar a distribuição Binomial através de uma `list comprehension`:

In [None]:
amostra_binomial = [numero_coroa_justa(10) for i in range(100)]


In [None]:
amostra_binomial[0:6]


In [None]:
contagem_amostra = Counter(amostra_binomial)
contagem_amostra


In [None]:
contagem_amostra = Counter(amostra_binomial)
tb_binom = pd.DataFrame(
    {"num_coroas": contagem_amostra.keys(), "num_eventos": contagem_amostra.values()}
)
tb_binom["prob_medida"] = tb_binom["num_eventos"] / sum(tb_binom["num_eventos"])
tb_binom = tb_binom.sort_values("num_coroas").reset_index(drop=True)
tb_binom


In [None]:
sns.barplot(data=tb_binom, x="num_coroas", y="prob_medida", color=bc)


Qual a média de uma distribuição **Binomial**, ou seja, em *n* lances de moeda (*p* = 0,5), quantas **coroas** observaremos em **média**?

Uma das grandes vantagem de utilizarmos distribuições de probabilidade conhecidas é que suas **funções de probabilidade** são determinadas. Por exemplo, a função de probabilidade de uma Distribuição Binomial é:

$$P(k)   = {n \choose k} p^k (1-p)^{ n-k} \$$
onde 
$${n \choose k} = \frac{n!}{n! (n! - k!)}$$

Essa equação nos permite calcular a probabilida precisa (sem efeitos de amostragem) de observar ***k*** sucessos em ***n*** testes de Bernoulli com probabilidade de sucesso igual à ***p***.

O nome desta função é **PMF** - *probability mass function*. A **PMF** nos permite, em distribuições discretas, calcular a **função de probabilidade** a partir dos parâmetros da nossa distribuição.

Vamos utilizar o submódulo `stats` da biblioteca `scipy` para acessar diretamente funções pré-programadas para diferentes distribuições.

In [None]:
import scipy as sp


A função `binom()` nos permite construir uma distribuição binomial dentro do Python. Seus dois argumentos são os parâmetros da Distribuição Binomial (*n* e *p*):

In [None]:
dist_binomial = sp.stats.binom(10, 0.5)


In [None]:
dist_binomial


A função `binom()` retorna uma objeto do tipo `rv_frozen`: uma variável aleatória (r.v. = *random variable*) com parâmetros (*n* e *p*) fixos ('congelados').

Através desse objeto podemos acessar a **PMF** de nossa variável aleatória:

In [None]:
dist_binomial.pmf(4)


Vamos utilizar nossa **PMF** para construir um gráfico da nossa distribuição:

In [None]:
x = np.arange(0, 11)
y = dist_binomial.pmf(x)
sns.barplot(x=x, y=y, color=bc)


Utilizando a **PMF** podemos comparar como nossa amostra construída acima se compara com a distribuição teórica:

In [None]:
tb_binom["prob_real"] = tb_binom["num_coroas"].apply(dist_binomial.pmf)


In [None]:
sns.barplot(data=tb_binom, x="num_coroas", y="prob_medida", color=bc)
sns.pointplot(data=tb_binom, x="num_coroas", y="prob_real", color="red")


Por fim, podemos utilizar a **PMF** para calcular a **probabilidade cumulativa**: qual a chance de observamos 2 ou menos coroas em 10 lances de uma moeda justa?

In [None]:
sum([dist_binomial.pmf(i) for i in [0, 1, 2]])


Essa operação é tão comum que temos um nome para esta função: **CDF**, *cumulative distribution function*. Podemos utilizar o método `.cdf()` da nossa variável aleatória para calcular isto:

In [None]:
dist_binomial.cdf(2)


In [None]:
x = np.arange(0, 11)
y = dist_binomial.cdf(x)
sns.barplot(x=x, y=y, color=bc)


### Distribuição Geométrica

**Espaço amostral**: *Números Inteiros >= 1*

**Parâmetros**: 
1. *p*: probabilidade de sucesso.

**Estatísticas Descritivas**:
* *Média* $$\mu = \frac{1}{p}$$
* *Desvio Padrão* $$\sigma = \sqrt{\frac{(1-p)}{p^2}}$$

Uma segunda distribuição diretamente ligada à Distribuição de Bernoulli é a **Distribuição Geométrica**. Enquanto a **Binomial** mede a probabilidade de observamos *k* sucessos em *n* testes, a **Geométrica** me a probabilidade de obtermos o *primeiro sucesso* no *k-ésimo* teste.

No nosso exemplo da moeda justa, a distribuição **Geométrica** mede a probabilidade de observarmos a primeira *coroa* no primeiro, segundo, terceiro... teste. Vamos construir uma função de amostragem para distribuição geométrica:

In [None]:
def primeira_coroa_justa():
    i = 0
    while True:
        if jogar_moeda_justa() == "coroa":
            i += 1
            return i
        else:
            i += 1


In [None]:
primeira_coroa_justa()


Agora vamos utilizar uma `list comprehension` para construir uma amostra dessa distribuição:

In [None]:
amostra_geo = [primeira_coroa_justa() for i in range(100)]


In [None]:
amostra_geo[1:10]


In [None]:
contagem_amostra = Counter(amostra_geo)
tb_geo = pd.DataFrame(
    {
        "num_primeira_coroa": contagem_amostra.keys(),
        "num_eventos": contagem_amostra.values(),
    }
)
tb_geo = tb_geo.sort_values("num_primeira_coroa")
tb_geo["prob_medida"] = tb_geo["num_eventos"] / sum(tb_geo["num_eventos"])
tb_geo


In [None]:
sns.barplot(data=tb_geo, x="num_primeira_coroa", y="prob_medida", color=bc)


A **PMF** da distribuição **Geométrica** é:

$$P(k) = (1 - p)^{k-1}p$$

e podemos acessa-la através da função `geom()` do submódulo `stats` da biblioteca `scipy`:

In [None]:
dist_geom = sp.stats.geom(0.5)


Vamos adicionar a coluna `prob_real` a nossa tabela de amostrar para comparar as taxas medidas e as taxas reais:

In [None]:
tb_geo["prob_real"] = tb_geo["num_primeira_coroa"].apply(dist_geom.pmf)


In [None]:
sns.barplot(data=tb_geo, x="num_primeira_coroa", y="prob_medida", color=bc)
sns.pointplot(data=tb_geo, x="num_primeira_coroa", y="prob_real", color="red")


### Distribuição de Poisson
**ou Finalmente uma distribuição que não foi inventada por um Bernoulli...**

<img src="images/poisson.jpg" alt="Drawing" style="width: 200px;"/>

**Espaço amostral**: *Números Inteiros >= 0*

**Parâmetros**: 
1. *lambda*: taxa de eventos.

**Estatísticas Descritivas**:
* *Média* $$\mu = \lambda$$
* *Desvio Padrão* $$\sigma = \sqrt{\lambda}$$

Simone Poisson foi um matemático francês que estudou, entre outras coisas, a probabilidade de convicções erradas na justiça francesa no séc XVIII.

A distribuição que ele inventou é um tipo particular de distribuição **Binomial**: binomiais onde o número de testes é altíssimo e a probabilidade de sucesso baixíssima. Antes da popularização da probabilidade computacional, esse tipo de distribuição era extremamente dificil de se calcular (já que a **PMF** da **Binomial** tem um **n!** em sua fórmula!).

Vamos derivar a distribuição de Poisson a partir da distribuição de Bernoulli:

In [None]:
evento_raro = ["raro", "comum"]
p = 1 / 1e05
n = 2e04


In [None]:
def simular_er(p):
    return np.random.choice(evento_raro, p=[p, 1 - p])


In [None]:
def numero_eventos_raros(amostras):
    amostra = [simular_er() for i in range(int(amostras))]
    return Counter(amostra)["raro"]


In [None]:
numero_eventos_raros(n)


In [None]:
amostra_poi = [numero_eventos_raros(n) for i in range(100)]


In [None]:
contagem_amostra = Counter(amostra_poi)
tb_poisson = pd.DataFrame(
    {"num_raros": contagem_amostra.keys(), "num_eventos": contagem_amostra.values()}
)
tb_poisson = tb_poisson.sort_values("num_raros").reset_index()
tb_poisson


In [None]:
sns.barplot(data=tb_poisson, x="num_raros", y="num_eventos", color=bc)


A distribuição de Poisson não é parametrizada por *n* e *p* mas sim pelo **número médio de sucessos** - chamada de **lambda**:

$$\lambda = p n$$

A **PMF** da distribuição de Poisson é calculada através da equação

$$P(k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

Vamos utilizar a `scipy` para construir a **PMF** da nossa distribuição de **Poisson**:

In [None]:
lamb = p * n
dist_poisson = sp.stats.poisson(p * n)


In [None]:
tb_poisson["prob_medida"] = tb_poisson["num_eventos"] / sum(tb_poisson["num_eventos"])
tb_poisson["prob_real"] = tb_poisson["num_raros"].apply(dist_poisson.pmf)


In [None]:
sns.barplot(data=tb_poisson, x="num_raros", y="prob_medida", color=bc)
sns.pointplot(data=tb_poisson, x="num_raros", y="prob_real", color="red")


Embora no exemplo acima tenhamos construído uma função de amostragem para uma distribuição de Poisson através de uma simulação isto foi feito apenas para ilustrar a conexão entre as distribuições.

Quando precisamos amostrar uma distribuição de Poisson podemos utilizar o método `.rvs()` da nossa variável aleatória (definida através do `scipy`). Este método recebe como argumento o **# de eventos que queremos amostrar da nossa distribuição**, e retorna esta amostragem como um vetor:

In [None]:
amostra_100 = dist_poisson.rvs(100)
amostra_100


A distribuição de Poisson é usada habitualmente como uma **distribuição de contagem**: toda vez que noss espaço amostral é composto pelo **# de vezes que algo acontece**. Por exemplo, ela é utilizada para modelar o # de ligações que um call center recebe por hora, ou então o # de clientes que entram em um supermercado por minuto.

Em todos estes casos, o parâmetro fundamental da distribuição de Poisson é **lambda**: o número de acontecimentos por *time bucket*. 

#### Aplicação I - Call Center
Vamos utilizar a nossa **PMF** para resolver um problema prático: dado que um call center recebe **4 chamadas em média por minuto** em seu horário de pico, **até quantas ligações ele receberá em 99% dos minutos**?

Vamos começar criando os parâmetros de nossa distribuição:

In [None]:
lamb = 4


Agora, vamos inicializar nossa variável aleatória:

In [None]:
dist_ligacoes = sp.stats.poisson(lamb)


Podemos utilizar a nossa **PMF** para visualizar a probabilidade do call center receber *k* chamadas em cada minuto:

In [None]:
tb_ligacoes = pd.DataFrame({"num_ligacoes": range(20)})
tb_ligacoes["prob"] = tb_ligacoes["num_ligacoes"].map(dist_ligacoes.pmf)
sns.barplot(data=tb_ligacoes, x="num_ligacoes", y="prob", color=bc)


A PMF nos permite calcula a **probabilidade de receber *k* ligações em um minuto** mas o problema nos pede **qual o número *k* de ligações tal que 99% dos minutos recebem menos que *k* ligações**. Podemos utilizar a **CDF** para visualizar a curva acumulada:

In [None]:
tb_ligacoes = pd.DataFrame({"num_ligacoes": range(20)})
tb_ligacoes["prob_acum"] = tb_ligacoes["num_ligacoes"].map(dist_ligacoes.cdf)
sns.barplot(data=tb_ligacoes, x="num_ligacoes", y="prob_acum", color=bc)


In [None]:
tb_ligacoes


Uma outra forma mais simples é utilizar a **PPF** (*percent point function*) que nos permite calcular a partir de uma **probabilidade** o **k** tal que:

$$P(x) < k = p$$

In [None]:
dist_ligacoes.ppf(0.99)


### Distribuição Exponencial

**Espaço amostral**: *Números Reais >= 0*

**Parâmetros**: 
1. *lambda*: taxa.

**Estatísticas Descritivas**:
* *Média* $$\mu = \frac{1}{\lambda}$$
* *Desvio Padrão* $$\sigma = \frac{1}{\lambda}$$

Até agora as variáveis aleatória que vimos são todas **discretas**, ou seja, o seu espaço amostral é composto por um número pequeno de eventos possíveis (`['cara', 'coroa']` por exemplo) ou por um número inteiro.

A distribuição exponencial é **contínua**, o que significa que **não podemos calcular a probabilidade em um evento em particular**, apenas de conjuntos de eventos:

1. Se uma variável aleatória tem uma distribuição exponencial, não conseguimos calcular a probabilidade de um número *x* (**P**(*x*));
1. Para calcular a probabilidade de conjunto de eventos, calculamos a probabilide de intervalos, por exemplo: 
    * **P**(*x* < *A*) (probabilidade de um evento ter valor menor que A);
    * **P**(*x* > *A*) (probabilidade de um evento ter valor maior que A);
    * **P**(*A* < *x* < *B*) (probabilidade de um evento ter valor maior que A e menor que B);

Vamos inicializar uma variável aleatória com distribuição **Exponencial** através da função `expon()`. 

Um detalhe **importante** é que essa função não é **parametrizada por lambda** e sim por `scale = 1/lambda` (ou seja, pela média da distribuição)!

In [None]:
dist_exp = sp.stats.expon(scale=1 / lamb)


Como uma distribuição contínua não possui probabilidade associadas à cada evento, precisamos utilizar outra função para `visualizar` a distribuição: a **PDF** ou *probability density function*:

In [None]:
tb_expon = pd.DataFrame({"x": np.linspace(0.01, 2, 100)})
tb_expon["pdf"] = tb_expon["x"].map(dist_exp.pdf)
sns.lineplot(x=x, y=y, color="red")


Note que a **PDF** tem valores **ACIMA DE 1**! Ela não é uma função de probabilidade!

Para calcular a probabilidade de um intervalo devemos utilizar a **CDF**:

In [None]:
tb_expon["CDF"] = dist_exp.cdf(x)
sns.lineplot(x=x, y=y, color="red")
tb_expon.head(10)


A **CDF** de uma distribuição continua nos da a probabilidade de que um evento tenha valor inferior a X (comunmente escrito **P**(*x* < *X*)). Na distribuição acima vemos que a probabilidade de um evento ter valor menor que 0,07 é de 0,245.

Para calcular a probabilidade de intervalos podemos utilizar a diferença entre **CDF**s. Vamos calcular a chance de um enveto com valores entre 0,5 e 1,5:

In [None]:
dist_exp.cdf(1.5) - dist_exp.cdf(0.5)


A distribuição exponencial é utilizada para modelar o **tempo entre eventos independentes**, por exemplo, o tempo entre chamadas chegando em um call center. **Eventos independentes** são eventos cuja probabilidades de ocorrer não são relacionadas - por exemplo, em 2 lances de moedas sequencias, a chance de caras no segunda lance não depende do resultado do primeiro!

Utilizaremos a distribuição exponencial para simular o tempo entre ligações chegando em um call center - assumindo o mesmo lambda que utilizamos na nossa simulação de Call Center da distribuição de Poisson. **Assim como a distribuição de Poisson**, a distribuição **Exponencial** é parametrizada por **lambda**, *a taxa de chegada de eventos por unidade de tempo*.

In [None]:
amostra_exp = dist_exp.rvs(size=1000)
amostra_exp


Agora vamos transformar essa amostra em um `DataFrame` e criar duas colunas:

1. `t_acumulado`: quanto tempo passou desde o começo da coleta de dados;
1. `minuto`: em qual minuto aconteceu cada evento.

In [None]:
tb_expon = pd.DataFrame({"t": amostra_exp})
tb_expon["t_acumulado"] = tb_expon["t"].cumsum()
tb_expon["minuto"] = np.floor(tb_expon["t_acumulado"])
tb_expon.head(10)


Agora vamos agrupar nossa tabela de eventos para saber quantos eventos foram observados em cada `minuto`.

In [None]:
n_eventos_minuto = (
    tb_expon.groupby("minuto")["t"]
    .count()
    .reset_index()
    .rename({"t": "num_eventos"}, axis=1)
)
n_eventos_minuto.head()


Como a tabela acima contém apenas os minutos com pelo menos um evento, vamos criar uma tabela auxiliar com todos os minutos possíveis (entre 0 e o máximo da tabela de eventos):

In [None]:
lista_minutos = range(int(tb_expon["minuto"].min()), int(tb_expon["minuto"].max()))
tb_minutos = pd.DataFrame({"minuto": lista_minutos})
tb_minutos.head()


Vamos juntar as duas tabelas para ter a contagem de eventos em cada minuto da nossa coleta de dados. 

In [None]:
tb_num_eventos = pd.merge(tb_minutos, n_eventos_minuto, how="left", on="minuto")
tb_num_eventos = tb_num_eventos.fillna(0)
tb_num_eventos


Agora podemos visualizar a distribuição do # de ligações por minuto - e veremos que essa distribuição é uma distribuição de Poisson!

In [None]:
tb_poiss_pro = tb_num_eventos.groupby("num_eventos").count().reset_index()
tb_poiss_pro = tb_poiss_pro.rename({"minuto": "contagem"}, axis=1)
tb_poiss_pro


In [None]:
tb_poiss_pro["prob_real"] = tb_poiss_pro["num_eventos"].apply(dist_ligacoes.pmf)
tb_poiss_pro["prob_medida"] = tb_poiss_pro["contagem"] / sum(tb_poiss_pro["contagem"])
tb_poiss_pro


In [None]:
sns.barplot(data=tb_poiss_pro, x="num_eventos", y="prob_medida", color=bc)
sns.pointplot(data=tb_poiss_pro, x="num_eventos", y="prob_real", color="red")


O exercício acima nos permite ver como as distribuições de Poisson e Exponencial são conectadas:

1. A distribuição de Poisson mede a probabilidade de *x* eventos acontecerem por unidade de tempo;
1. A distribuição Exponencial mede a probabilidade do intervalo de tempo entre eventos.

### Distribuição Normal 
**e o Teorema do Limite Central**

<img src="images/gauss.jpeg" alt="Drawing" style="width: 200px;"/>

**Espaço amostral**: *Números Reais*

**Parâmetros**: 
1. *mu*: média.
1. *sigma*: desvio padrão.

**Estatísticas Descritivas**:
* *Média* $$\mu$$
* *Desvio Padrão* $$\sigma$$

A distribuição **Normal** foi inventada por Carl Gauss (e por isso as vezes é chamada de *Gaussiana*) em 1809 durante seu estudo de erros em medições astronômicas. Gauss descobriou que quando uma variável aleatória é o resultado de muitos processos aleatórios diferentes e independentes ela terá uma distribuição Normal.

Essa descoberta, chamada de **Teorema do Limite Central**, é uma das descobertas mais fundamentais na probabilidade. A onipresença da distribuição **Normal** é explicada por este teorema: a maior parte das coisas que mensuramos e quantificamos são resultados de inúmeros processos aleatórios complexos! Uma demonstração do teorema descoberto por Gauss está fora do escopo da aula mas podemos alavancar a probabilidade computacional para *enxergar* este teorema em ação.

Até o momento criamos diversas amostras de diferentes distribuições probabilísticas como exemplo. Vamos 'juntar' todas estas amostras em uma amostra única.

In [None]:
amostra_binomial_array = np.array(amostra_binomial[0:99])
amostra_binomial[0:5]


In [None]:
amostra_geo_array = np.array(amostra_geo[0:99])
amostra_geo[0:5]


In [None]:
amostra_poi_array = np.array(amostra_poi[0:99])
amostra_poi[0:5]


In [None]:
amostra_exp_array = np.array(amostra_exp[0:99])
amostra_exp[0:5]


Vamos consolidar essas amostras em uma matriz de amostras onde cada linha é uma observação, cada coluna é uma distribuição diferente:

In [None]:
matriz_amostras = np.array(
    [amostra_binomial_array, amostra_geo_array, amostra_poi_array, amostra_exp_array]
)


Agora vamos calcular a média de cada observação, criando um novo vetor de observações:

In [None]:
amostra_estranha = matriz_amostras.mean(axis = 0)
amostra_estranha

Agora, vamos construir uma variável aleatório com distribuição **Normal** utilizando a função `norm()`. Os parâmetros dessa função são `loc = ` e `scale = `, a média e o desvio padrão respectivamente.

Vamos construir nossa R.V. com a média e o desvio padrão do nosso vetor com as médias das outras distribuições.

In [None]:
dist_norm = sp.stats.norm(loc=np.mean(amostra_estranha), scale=np.std(amostra_estranha))

Agora vamos construir um `DataFrame` com nossa `amostra_estranha` e criar uma **CDF** *empírica* dessa amostra:

In [None]:
tb_estranha = pd.DataFrame({'amostra' : amostra_estranha})
tb_estranha = tb_estranha.sort_values('amostra', ascending=True).reset_index(drop = True)
tb_estranha['cdf_emp'] = (tb_estranha.index + 1)/tb_estranha.shape[0]
tb_estranha

Vamos adicionar a **CDF** de nossa distribuição **Normal** à nossa tabela:

In [None]:
tb_estranha['cdf_normal'] = tb_estranha['amostra'].map(dist_norm.cdf)

In [None]:
sns.scatterplot(data = tb_estranha, x = 'amostra', y = 'cdf_emp', color = 'black')
sns.lineplot(data = tb_estranha, x = 'amostra', y = 'cdf_normal', color = 'red');

# Intervalos de Confiança

O processo de amostragem sempre apresenta desvios em relação à distribuição real. Como vimos ao longo da aula hoje,  a lei dos grandes números garanta que conforme aumentamos uma amostra ela 'converge' para o valor real da distribuição.

A estatística utiliza-se de intervalos de confiança para medir a confiabilidade de uma amostra. Vamos aprender como utilizar esses intervalos mais a frente no curso mas podemos utilizar a probabilidade computacional para observar como eles emergem.

Vamos simular o pesquisa de intenção de voto entre dois candidatos.

In [None]:
candidatos = ["A", "B"]


def intencao_voto():
    return np.random.choice(candidatos, p=[0.3, 0.7])


In [None]:
intencao_voto()


Nossa função de amostragem `intencao_voto()` nos permite amostrar **uma pessoa**. Vamos construir uma segunda função para realizar **amostras com tamanho parametrizável**: 

In [None]:
def pesquisa_opiniao(tamanho_amostra):
    pesquisa = [intencao_voto() for i in range(tamanho_amostra)]
    c_pesq = Counter(pesquisa)
    return c_pesq["A"] / tamanho_amostra


In [None]:
pesquisa_opiniao(1000)


Com essa função definida, podemos analisar **a distribuição de amostragem** da intenção de voto no candidato *A*. A **distribuição de amostragem** é a distribuição, entre pesquisas amostras de tamanho igual, **de uma estatística de interesse**, no caso, a *% de intenção de votos em A*:

In [None]:
lista_pesquisas = [pesquisa_opiniao(10) for i in range(1000)]
lista_pesquisas

In [None]:
sns.boxplot(lista_pesquisas);


Podemos agora comparar o desvio padrão dessa distribuição entre amostras de tamanhos diferentes:

In [None]:
resultado_pesquisa = []
for tamanho_amostra in range(10, 561, 50):
    lista_pesquisas = [pesquisa_opiniao(tamanho_amostra) for i in range(1000)]
    desvpad_amostragem = np.std(lista_pesquisas)
    resultado_pesquisa.append({'tam_amostra': tamanho_amostra,'sd_amostragem' : desvpad_amostragem})

tb_amostragem = pd.DataFrame(resultado_pesquisa)

In [None]:
sns.lineplot(data = tb_amostragem, x = 'tam_amostra', y = 'sd_amostragem', color = 'black')