### Estatística descritiva
  
Distribuições discretas:  https://en.wikipedia.org/wiki/List_of_probability_distributions
  - Uniform
  - Bernoulli (uma moeda)
  - Binomial (várias moedas)
  - Multinomial
  - Poisson
  - Geométrica
  - Hipergeométrica
  - Binomial negativa
  - outras ...
  
Distribuições contínuas: https://en.wikipedia.org/wiki/Probability_distribution#Continuous_probability_distribution
  - Uniform
  - Normal (Gaussiana)
  - Z
  - t (t-student)
  - Gamma (Exponential)
  - Beta
  - Logistic
  - outras ..

In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

from statistics import mode

import matplotlib.pyplot as plt # matplotlib e seu alias plt
# %matplotlib inline

### Uniform discrete distribution

In [None]:
N = 10000
divs = 10
nums = np.random.randint(0, divs, N)

fig = plt.figure(figsize=(10,5))
ax = sns.histplot(nums, bins=divs, kde=False)
ax.set_title("Gráfico de Frequências Discreto")
ax.set_xticks(np.arange(0, divs));

In [None]:
# Set up the matplotlib figure
#             subplots(nrow, ncol ....)
f, axes = plt.subplots(2, 1, figsize=(10,6), sharex=True)
sns.despine(left=True)

ax=axes[0]
# histograma com seaborn ->                       eixo 0 ou 1 ax=axes[0]
ax = sns.histplot(nums, bins=divs, kde=False, color='blue', ax=ax)
ax.set_ylabel("Contagem")
ax.set_title("Gráfico de Frequência - dados uniformemente amostrados")

ax=axes[1]
# segundo axes --> boxplot
ax = sns.boxplot(x=nums, color='lightblue', ax=ax)
ax.set_title("Boxplot")

# plt.tight_layout()

## Distribuição binomial
  - binomial: sim / não, cara / coroa, mutou / não mutou

![binomial distribution](../figure/binomial_distribution.jpg)

In [None]:
n = 5    # moedas = [5C, 4C, .... 0C]
p = 0.5  # moedas não são viciadas p(cara) = p(coroa) = .5
N = 10000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
# coeficiente de variação = SD/media
VC = SSD/mu

fig = plt.figure(figsize=(10,6))
ax = sns.histplot(jogo, bins=n+1, kde=False, stat="count", color="darkcyan")

ax.axvline(n*p, color='navy')
ax.set_title("Gráfico de Frequência de uma Binomial\nmédia = %.2f (%.2f) e CV = %.2f%%"%(mu, SSD, VC*100));

In [None]:
sns.set(style="white", palette="muted", color_codes=True)

# Set up the matplotlib figure
f, axes = plt.subplots(2, 1, figsize=(10,6), sharex=True)
sns.despine(left=True)


ax = sns.histplot(jogo, bins=n+1, kde=False, stat="probability", color="darkcyan", ax=axes[0])
ax.axvline(n*p, color='navy')
ax.set_title("Uma distribuição binomial discreta\nmédia = %.2f (%.2f) e CV = %.2f%%"%(mu, SSD, VC*100));

ax = sns.boxplot(x=jogo, color='orange', ax=axes[1])
ax.set_title("Boxplot da distribuição binomial");

### Qual a probabilidade de eu tirar CCCCC ou CCCCK?

P(X≤1)=PMF(0)+PMF(1)

onde:
  - 0 = CCCCC
  - 1 = CCCCK

In [None]:
from scipy.stats import binom

x=1
prob = binom.cdf(x, n, p)
f"A probabilidade de eu tirar CCCCC ou CCCCK (0 ou 1) é de {100*prob:.2f}% para o lançamento de {n} moedas"

### Também posso usar a cumulativa

In [None]:
# Cumulativa até 1 = CCCCC e CCCCK
prob = binom.cdf(1, n, p)

f"A probabilidade de eu tirar CCCCC ou CCCCK (0 ou 1) é de {100*prob:.2f}% para o lançamento de {n} moedas"

In [None]:
# n = 5    # moedas = [5C, 4C, .... 0C]
# p = 0.5  # moedas não são viciadas p(cara) = p(coroa) = .5

for x in range(n+1):
    prob = binom.cdf(x, n, p)
    msg = f"A probabilidade de eu tirar as primeiras {x} combinações é de {100*prob:.2f}% para o lançamento de {n} moedas"
    print(msg)

### Vamos entender a Função Distribuição Cumulativa (FDC ou CDF) para a distribuição binomial

In [None]:
# de 0 a 10 acidentes
x_list = np.arange(0, n+1)

# CDF values
# gera n+1 probailidades ~  similar a um loop
cdf_list = binom.cdf(x_list, n, p)

# plot
plt.figure(figsize=(7,4))
plt.step(x_list, cdf_list, where="post")
plt.scatter(x_list, cdf_list)

plt.xlabel("moedas")
plt.ylabel("P(X ≤ x)")
plt.title(f"Função Cumulativa da Binomial para {n} moedas justas")
plt.xlim(0, n+1)
plt.ylim(0, 1)
plt.grid(True)

### Muito legal ! Entenderam?

In [None]:
n = 5    # moedas = [5C, 4C, .... 0C]
p = 0.5  # moedas não são viciadas p(cara) = p(coroa) = .5
N = 1000
jogo = np.random.binomial(n, p, N)

mu  = np.mean(jogo)
SSD = np.std(jogo)
# coeficiente de variação = SD/media
VC = SSD/mu


sns.set(style="white", palette="muted", color_codes=True)

# 3 subplots: distribuição, boxplot e cumulativa
f, axes = plt.subplots(3, 1, figsize=(12,6), sharex=True)
sns.despine(left=True)


ax = sns.histplot(jogo, bins=n+1, kde=False, stat="probability", color="darkcyan", ax=axes[0])
ax.axvline(n*p, color='navy')
ax.set_title("Uma distribuição binomial discreta\nmédia = %.2f (%.2f) e CV = %.2f%%"%(mu, SSD, VC*100));

ax = sns.boxplot(x=jogo, color='orange', ax=axes[1])
ax.set_title("Boxplot da distribuição binomial")

#--- último eixo ax[2] ---------------
# de 0 a 10 acidentes
x_list = np.arange(0, n+1)
# CDF values
# gera n+1 probabilidades ~  similar a um loop
cdf_list = binom.cdf(x_list, n, p)

ax = axes[2]
ax.step(x_list, cdf_list, where="post")
ax.scatter(x_list, cdf_list)

ax.set_xlabel("moedas")
ax.set_ylabel("P(X ≤ x)")
ax.set_title(f"Função Cumulativa da Binomial para {n} moedas justas")
ax.set_xlim(0, n)
ax.set_ylim(0, 1)
ax.grid(True);

### Qual a probabilidade de tirar CCCKK ou CCKKK?

  - São bins 2 e 3 - correto?

In [None]:
plt.figure(figsize=(10,6))

ax = sns.histplot(jogo, bins=n+1, discrete=True, stat="probability", color="darkcyan")

title = f"Qual a probabilidade de eu tirar CCCKK ou CCKKK (bins 2 ou 3) no lançamento de {n} moedas?"

# recolorir as 2 barras centrais
center_bins = [2, 3]

for patch in ax.patches:
    x = patch.get_x() + patch.get_width() / 2
    if int(round(x)) in center_bins:
        patch.set_facecolor("moccasin")

# mean line
ax.axvline(mu, color='navy', linewidth=2)

ax.set_title(title)

In [None]:
# as primeiras 2 combinações = 0 + 1 = cumulativa até 1
prob1 = binom.cdf(1, n, p)
f"A probabilidade de eu tirar as primeiras 2 combinações é de {100*prob1:.2f}%"

In [None]:
# as quatro combinações iniciais = 0 + 1 + 2 + 3 = cumulativa até 3
prob3 = binom.cdf(3, n, p)
f"A probabilidade de eu tirar até as 4 primeiras combinações é de {100*prob3:.2f}%"

### A probabilidade da área central: prob3 - prob1

In [None]:
# as 2 barras centrais
prob = prob3 - prob1
f"A probabilidade de eu tirar CCCKK ou CCKKK (bin 2 ou 3) é de {100*prob:.2f}%"

### Distribuição de Poisson - eventos raros

Função de probabilidade massa (FPM ou PMF):

![Poisson](../figure/poisson_dist_equation.png)

### Equação da Distribuição de Poisson

 - lambda ($\lambda$) é o valor esperado E[X]
 - k é o número de eventos

#### Exemplo: Acidentes numa avenida

  - lambda: num acidentes por mês = 3
  - k - qual a probabilidade se tivermos k acidentes?

#### Repare que quando lambda cresce ($\lambda$ = 10, p.ex.) distribuição se parece com uma binomial

<br>

![Poisson](../figure/poisson_distribution.png)

In [None]:
k = np.arange(0, 15)
k

In [None]:
# lambda --> modelo onde 'ocorrer' é muito raro
#    medir 3 acidentes por mes
lamb = 3
k = np.arange(0, 15)

# lista de pmfs
pmf = np.exp(-lamb) * lamb**k / np.array([math.factorial(i) for i in k])

plt.figure(figsize=(7,4))
plt.stem(k, pmf)
plt.xlabel("k")
plt.ylabel("P(X = k) ~ poisson")
plt.title(f"Distribuição de Poisson (λ = {lamb})")
plt.ylim( (0, 0.25))
plt.xlim( (0, 15) )
plt.show()

### Qual a probabilidade de acontecerem 0 ou 1 acidentes?

P(X≤1)=PMF(0)+PMF(1)

In [None]:
from scipy.stats import poisson

lamb = 3

prob = poisson.pmf(0, lamb) + poisson.pmf(1, lamb)
f"A probabilidade de acontecer até 1 acidente (0 ou 1) é de {100*prob:.2f}% dado que λ = {lamb} - acidentes médios esperados"

### Também posso usar a cumulativa

In [None]:
# cumulativa até 1 = de 0 a 1
prob = poisson.cdf(1, lamb)

f"A probabilidade de acontecer até 1 acidente (0 ou 1) é de {100*prob:.2f}% dado que λ = {lamb} - acidentes médios esperados"

### Vamos entender a Função Distribuição Cumulativa (FDC ou CDF)

In [None]:
# de 0 a 10 acidentes
k_list = np.arange(0, 11)

# CDF values
# gera 10 probabilidades ~  similar a um loop
cdf_list = poisson.cdf(k_list, lamb)

# plot
plt.figure(figsize=(7,4))
plt.step(k_list, cdf_list, where="post")
plt.scatter(k_list, cdf_list)

plt.xlabel("k (número de acidentes)")
plt.ylabel("P(X ≤ k)")
plt.title("Função Cumulativa de Poisson para λ = 3")
plt.ylim(0, 1)
plt.grid(True)

## Distribuição multinomial
  - multinomial: p(cor dos olhos), trânsito: vazio, livre, médio, congestionado, parado

![binomial distribution](../figure/multinomial_distribution.jpg)

In [None]:
from scipy.stats import multinomial

In [None]:
pVazio = 0.01
pPouco = 0.10
pMedio = 0.4
pConge = 0.44
pParad = 0.05

pVazio + pPouco + pMedio + pConge + pParad

In [None]:
## numero de dias verificados pela Cia de Transito
n = 10

In [None]:
rv = multinomial(n, [pVazio, pPouco, pMedio, pConge, pParad])

In [None]:
# qual a probabilidade e 5 dias vazios e 5 dias Baixo
rv.pmf([5, 5, 0, 0, 0])

In [None]:
# qual a probabilidade e 0 dias vazios, 1 dia Baixo, 4 dias Medio, 5 dia Congestionados, 0 dia parado
rv.pmf([0, 1, 4, 5, 0])

In [None]:
# qual a probabilidade e 0 dias vazios, 1 dia Baixo, 4 dias Medio, 4 dia Congestionados, 1 dia parado
rv.pmf([0, 1, 4, 4, 1])