# Distribuições

O objetivo desse notebook é ajudar na visualização de algumas distribuições conhecidas, notadamente, Binomial, Geométrica e Poisson.

In [50]:
## Importando módulos
# Análise
import pandas as pd
import random
import math

# Visualização
import plotly
import plotly.express as px
import plotly.graph_objs as go

# Distribuições Discretas

## Binomial

A distribuição binomial é definida como a repetição de $n$ experimentos de Bernoulli, cada um com probabilidade de sucesso $p$.

A probabilidade de um determinado número de sucessos $k$ ocorrer é $P(X = k) = \binom{n}{k} \cdot p^k(1-p)^{n-k}$

A esperança da distribuição é $E[X] = np$ e a variância é $Var[x] = np(1-p)$, maximizada quando $p = 0,5$.

### Simulação

In [51]:
# Definindo a probabilidade de sucesso e criando a lista vazia que servirá de repositório para os números de sucesso de cada uma das 5000 simulações
n = 50
p = 0.95
iteracoes = []

# Fazendo os loops (5000 iterações, cada uma com n experimentos)
## Sucesso: numero gerado entre 0 e 1 <= p
for i in range(5000):
    contagem = 0
    for experimento in range(n):
        num = random.uniform(0,1)
        if num <= p:
            contagem += 1
    iteracoes.append(contagem)

# Salvando DataFrame com o número de sucessos de cada iteração
df = pd.DataFrame({'Sucessos':iteracoes})

In [52]:
# Criando uma lista para deixar as cores do histograma bonitinhas
## Pode haver espaços em branco nos valores únicos (por exemplo: [39, 41, 42...])
## Para isso, fazemos o loop abaixo e depois fazemos um sort na lista
sucessos_unicos = list(df['Sucessos'].unique())

for i in range(min(sucessos_unicos), max(sucessos_unicos) + 1):
    if i not in sucessos_unicos:
        sucessos_unicos.append(i)
        
sucessos_unicos.sort()

# Capturando o valor mais frequente
valor_mais_frequente = df['Sucessos'].value_counts().idxmax()

## Criando a lista das cores
colors = ['lightslategray'] * len(sucessos_unicos)
colors[sucessos_unicos.index(valor_mais_frequente)] = 'crimson'  # vermelho

In [53]:
## Criando o gráfico
fig = go.Figure(
    data = [go.Histogram(
        x = df['Sucessos'],
        histnorm= "probability",
        marker_color=colors
        )
    ]
)

fig.update_layout(
    title_text= "Resultados da Simulações - Binomial",
    xaxis_title_text='Número de Sucessos', 
    yaxis_title_text='Probabilidade',
    yaxis= dict(tickformat=".1%")
)

### Gráfico

In [54]:
# Printando a porcentagem correta para cada um dos valores
for k in sucessos_unicos:
    comb = math.factorial(n) / (math.factorial(n - k) * math.factorial(k))
    print(f"Probabilidade de {k} sucessos: {round(100 * (comb * p ** k) * ((1 - p) ** (n - k)), 1)}%.")

# Exibindo gráfico
fig.show()

Probabilidade de 41 sucessos: 0.1%.
Probabilidade de 42 sucessos: 0.2%.
Probabilidade de 43 sucessos: 0.9%.
Probabilidade de 44 sucessos: 2.6%.
Probabilidade de 45 sucessos: 6.6%.
Probabilidade de 46 sucessos: 13.6%.
Probabilidade de 47 sucessos: 22.0%.
Probabilidade de 48 sucessos: 26.1%.
Probabilidade de 49 sucessos: 20.2%.
Probabilidade de 50 sucessos: 7.7%.


## Geométrica

A distribuição geométrica reflete a distribuição do número de experimentos (independentes) de Bernoulli até a obtenção do 1º sucesso.

A probabilidade do 1º sucesso ocorrer no $k$-ésimo experimento é dado por $P(X=k) = p(1-p)^{k-1}$, sendo a função de distribuição acumulada $F(X) = P(X \leq k) = 1 - (1-p)^k$ ($(1-p)^k$ reflete a chance de nenhum sucesso ter ocorrido até a $k$-ésima tentativa). 
Por construção, $P(X > k) = (1-p)$.

A esperança da distribuição é $E[X] = \frac{1}{p}$ e a variância é $Var[x] = \frac{1-p}{p^2}$.

**ATENCÃO!** A distribuição geométrica tem a propriedade de *perda de memória*, ou seja, $P(X > t + s | X > s) = P(X > t)$.

### Simulação

In [55]:
# Definindo a probabilidade de sucesso e criando a lista vazia que servirá de repositório para os números de sucesso de cada uma das 5000 simulações
p = 0.2
iteracoes = []

# Fazendo os loops (5000 iterações, cada uma com n experimentos)
## Sucesso: numero gerado entre 0 e 1 <= p
for i in range(5000):
    contagem_fracassos = 0
    sucesso = False
    while not sucesso:
        contagem_fracassos += 1
        num = random.uniform(0,1)
        if num <= p:
            sucesso = True

    iteracoes.append(contagem_fracassos)

# Salvando DataFrame com o k de cada iteração
df = pd.DataFrame({'Fracassos':iteracoes})

In [56]:
# Criando uma lista para deixar as cores do histograma bonitinhas
## Pode haver espaços em branco nos valores únicos (por exemplo: [39, 41, 42...])
## Para isso, fazemos o loop abaixo e depois fazemos um sort na lista
fracassos_unicos = list(df['Fracassos'].unique())

for i in range(min(fracassos_unicos), max(fracassos_unicos) + 1):
    if i not in fracassos_unicos:
        fracassos_unicos.append(i)
        
fracassos_unicos.sort()

# Capturando o valor mais frequente
valor_mais_frequente = df['Fracassos'].value_counts().idxmax()

## Criando a lista das cores
colors = ['lightslategray'] * len(fracassos_unicos)
colors[fracassos_unicos.index(valor_mais_frequente)] = 'crimson'  # vermelho

In [57]:
## Criando o gráfico
fig = go.Figure(
    data = [go.Histogram(
        x = df['Fracassos'],
        histnorm= "probability",
        marker_color=colors
        )
    ]
)

fig.update_layout(
    title_text= "Resultados da Simulações - Geométrica",
    xaxis_title_text='Número de Fracassos até o 1º Sucesso', 
    yaxis_title_text='Probabilidade',
    yaxis= dict(tickformat=".1%")
)

### Gráfico

In [58]:
# Printando a porcentagem correta para cada um dos valores
for k in fracassos_unicos:
    if k <= 2 / p:  # só printar valores até duas vezes a esperança
        print(f"Probabilidade de {k} fracassos até o 1º sucesso: {round(100 * p * (1-p)**(k-1), 1)}%.")

fig.show()

Probabilidade de 1 fracassos até o 1º sucesso: 20.0%.
Probabilidade de 2 fracassos até o 1º sucesso: 16.0%.
Probabilidade de 3 fracassos até o 1º sucesso: 12.8%.
Probabilidade de 4 fracassos até o 1º sucesso: 10.2%.
Probabilidade de 5 fracassos até o 1º sucesso: 8.2%.
Probabilidade de 6 fracassos até o 1º sucesso: 6.6%.
Probabilidade de 7 fracassos até o 1º sucesso: 5.2%.
Probabilidade de 8 fracassos até o 1º sucesso: 4.2%.
Probabilidade de 9 fracassos até o 1º sucesso: 3.4%.
Probabilidade de 10 fracassos até o 1º sucesso: 2.7%.


## Poisson

A distribuição Poisson representa a probabilidade da ocorrência do número de eventos que ocorrem com uma taxa média ($\lambda$).

Ela pode ser interpretada como um caso especial da Binomial, na qual $n \rightarrow \infty$, $p \rightarrow 0$ e $np > 0$; nesse caso, $\lambda = np$.

A probabilidade do número de sucessos ser igual a $k$ é $P(X=k) = \frac{\lambda^k}{e^\lambda k!}$.

A esperança e variância da distribuição são $E[X] = Var[X] = \lambda$.

### Simulação

In [69]:
# Definindo a probabilidade de sucesso e criando a lista vazia que servirá de repositório para os números de sucesso de cada uma das 5000 simulações
## Como n é grande, célula demora alguns 1-2 minutos para rodar.
n = 10**5
p = 0.0001
iteracoes = []

# Fazendo os loops (1000 iterações, cada uma com n experimentos)
## Sucesso: numero gerado entre 0 e 1 <= p
for i in range(1000):
    contagem = 0
    for experimento in range(n):
        num = random.uniform(0,1)
        if num <= p:
            contagem += 1
    iteracoes.append(contagem)

# Salvando DataFrame com o número de sucessos de cada iteração
df = pd.DataFrame({'Sucessos':iteracoes})

In [70]:
# Criando uma lista para deixar as cores do histograma bonitinhas
## Pode haver espaços em branco nos valores únicos (por exemplo: [39, 41, 42...])
## Para isso, fazemos o loop abaixo e depois fazemos um sort na lista
sucessos_unicos = list(df['Sucessos'].unique())

for i in range(min(sucessos_unicos), max(sucessos_unicos) + 1):
    if i not in sucessos_unicos:
        sucessos_unicos.append(i)
        
sucessos_unicos.sort()

# Capturando o valor mais frequente
valor_mais_frequente = df['Sucessos'].value_counts().idxmax()

## Criando a lista das cores
colors = ['lightslategray'] * len(sucessos_unicos)
colors[sucessos_unicos.index(valor_mais_frequente)] = 'crimson'  # vermelho

In [71]:
## Criando o gráfico
fig = go.Figure(
    data = [go.Histogram(
        x = df['Sucessos'],
        histnorm= "probability",
        marker_color=colors
        )
    ]
)

fig.update_layout(
    title_text= "Resultados da Simulações - Poisson",
    xaxis_title_text='Número de Sucessos', 
    yaxis_title_text='Probabilidade',
    yaxis= dict(tickformat=".1%")
)

### Gráfico

In [72]:
# Printando a porcentagem correta para cada um dos valores
for k in sucessos_unicos:
    if k in range(int(0.6 * n*p), int(1.4 * n*p)):
        print(f"Probabilidade de {k} sucessos: {round(100 * (n*p)**k / (math.e**(n*p) * math.factorial(k)), 1)}%.")

fig.show()

Probabilidade de 6 sucessos: 6.3%.
Probabilidade de 7 sucessos: 9.0%.
Probabilidade de 8 sucessos: 11.3%.
Probabilidade de 9 sucessos: 12.5%.
Probabilidade de 10 sucessos: 12.5%.
Probabilidade de 11 sucessos: 11.4%.
Probabilidade de 12 sucessos: 9.5%.
Probabilidade de 13 sucessos: 7.3%.
