# Distribuições Discretas

Vamos medir eventos discretos (por exemplo, Verdadeiro/Falso, A/B/C, Cachorro/Gato/Pássaro, etc.) usando distribuições discretas. Eventos discretos são eventos categóricos que são números naturais ou inteiros contáveis, e não valores de ponto flutuante.

Vamos começar com a distribuição discreta, sem dúvida a mais simples, e usá-la para apresentar distribuições em geral.

## Distribuição de Bernoulli

Digamos que eu esteja tentando fabricar um MP3 player para natação. Mas, para funcionar, ele obviamente precisa ser à prova d'água. Minha engenheira afirma que o protótipo atual deve funcionar 90% das vezes. Quando peço que ela esclareça, ela diz que cada unidade construída tem 90% de chance de funcionar corretamente e manter a água longe.

img

Se lhe pedissem para mostrar isso em um gráfico de barras simples, a porcentagem de tocadores de MP3 que funcionam e não funcionam, usaríamos uma **Distribuição de Bernoulli**. Isso incluiria duas barras, com valores de x $0$ e $1$ para resultados que funcionam e não funcionam, e valores de y $0,1$ e $0,9$, respectivamente.

Abaixo, usamos a função `pmf` da distribuição `de Bernoulli` para mostrar as probabilidades de Falso (0) e Verdadeiro (1), respectivamente. PMF significa "função de massa de probabilidade", que gera a probabilidade para cada resultado de evento.

In [None]:
from scipy.stats import bernoulli
import numpy as np 

# Define a probabilidade de sucesso (pense em "1" ou "cara" no cara ou coroa)
p = 0.9

# Cria um objeto de distribuição de Bernoulli
bd = bernoulli(p)

# Gera valores x
x = np.array([0, 1])

# Calcula a função de massa de probabilidade (PMF)
pmf = bd.pmf(x)
print(pmf) # [0.1 0.9]

Não é de se surpreender que ambos os resultados (*0* ou *1*, *Verdadeiro* ou *Falso*, *funcionando* ou *não funcionando*) somem $ 1.0 $. Isso é o que forma uma **distribuição de probabilidade**, onde todos os resultados somam 1.0.

Para visualizar isso, vamos colocar em um gráfico de barras.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import bernoulli

# Define a probabilidade de sucesso (pense em "1" ou "cara" no cara ou coroa)
p = 0.9

# Cria um objeto de distribuição de Bernoulli
bd = bernoulli(p)

# Gera valores x
x = np.array([0, 1])

# Calcula a função de massa de probabilidade (PMF)
pmf = bd.pmf(x)
print(pmf) # [0.1 0.9]

# Plota o PMF
plt.bar(x, pmf,  label='Bernoulli PMF')

# Define as marcas de escala no eixo x
plt.xticks([0, 1])

# Define o título e os rótulos
plt.title('Bernoulli Distribution')
plt.xlabel('Outcome (0 or 1)')
plt.ylabel('Probability')

# Mostra o gráfico
plt.legend(loc='best', frameon=False)
plt.show()

Esperamos que a distribuição de Bernoulli seja direta. Ela apenas mostra as probabilidades de o evento ocorrer ou não em um gráfico de barras.

## Distribuição Binomial

img

A seguir, vamos falar sobre a **distribuição binomial**, que mede, a partir de *n* tentativas, qual é a probabilidade de se ver *k* sucessos/eventos, dada uma probabilidade *p*? Digamos que queremos saber a probabilidade de, com uma taxa de sucesso de 90%, vermos 8 tocadores de MP3 funcionando em 10. Podemos fazer isso usando a distribuição binomial. Abaixo, declaramos uma distribuição binomial no SciPy e especificamos os valores `k`, `n` e `x`, sendo que o último será 8, por meio da função `pmf()`.

In [None]:
from scipy.stats import binom

# Define o número de tentativas e a probabilidade de sucesso
n = 10
p = 0.9

# Calcula a função de massa de probabilidade (PMF)
y = binom.pmf(8, n, p)

print("Qual é a probabilidade de 8 dispositivos em 10 funcionarem?")
print(y) # 0.1937102445

Portanto, há uma probabilidade de 19,37% de vermos 8 dispositivos funcionando de um total de 10. Que tal analisarmos todos os resultados possíveis em um gráfico de barras? Onde vemos, para 10 tentativas, qual é a probabilidade de $ k $ dispositivos funcionando de 0 a 10?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# Define o número de tentativas e a probabilidade de sucesso
n = 10
p = 0.9

# Gera valores x para o gráfico
x = np.arange(0, n + 1)

# Calcula a função de massa de probabilidade (PMF)
pmf = binom.pmf(x, n, p)

# Plota o PMF
plt.plot(x, pmf, 'bo', ms=8, label='Binomial PMF')
plt.vlines(x, 0, pmf, colors='b', lw=5, alpha=0.5)

# Define o título e os rótulos
plt.title('Binomial Distribution')
plt.xlabel('Number of successes')
plt.ylabel('Probability')

# Mostra o gráfico
plt.legend(loc='best', frameon=False)
plt.show()


Podemos observar aqui que as probabilidades de todos os resultados somam 1,0, mas a maior parte está à direita, de k = 6 a 10. As probabilidades de obter 5 dispositivos bem-sucedidos ou menos são muito improváveis, visto que se aproximam de 0. Podemos usar isso para avaliar razoavelmente o quão realista é a taxa de sucesso subjacente $ p $, dado um resultado de $ 10 $ testes resultando em $ 8 $ de sucesso, $ 7 $ de sucesso e assim por diante.

Se o engenheiro industrial afirma que o protótipo tem uma taxa de sucesso de 90%, e você realiza 10 testes e obtém 8 sucessos, isso não significa necessariamente que o engenheiro estava errado. Sempre há uma margem de variação, assim como uma moeda honesta pode ter 4/10 caras ou 6/10 caras, mas a questão é: qual a probabilidade desse resultado, dada essa taxa de sucesso?

## Distribuição Multinomial

A **distribuição multinomial** é semelhante à distribuição binomial, mas permite mais categorias do que apenas resultados binários como Verdadeiro/Falso ou Sucesso/Falha.

Digamos que um grupo piloto testou o MP3 player de natação e recebeu uma breve pesquisa. Com base na experiência, eles podem responder à pergunta "Como foi sua experiência com o MP3 player de natação?" e ​​podem responder *Bom*, *Regular* e *Ruim*.

Em nossa pesquisa, acreditamos que 60% dos usuários responderão *Bom*, 30% responderão *Regular* e 10% responderão *Ruim*.

$ P(\text{Bom}) = .6 $ 

$ P(\text{Regular}) = .3 $

$ P(\text{Ruim}) = .1 $ 

Como podemos generalizar essas informações de forma que possamos prever a probabilidade de cada categoria ocorrer em $ n $ testes? É aqui que entra a distribuição multinomial. Abaixo, usando o SciPy, criamos uma distribuição multinomial com 10 tentativas, ou $ n = 10 $. Também passamos essas três probabilidades para esses três eventos.

Na mesma ordem das probabilidades fornecidas, podemos chamar a função `pmf()` para verificar a probabilidade de obter esses resultados específicos do evento em 10 tentativas. É muito importante que esses números somem 10, pois definimos $ n = 10 $.

In [None]:
from scipy.stats import multinomial

md = multinomial(n=10,p=[.6, .3, .1])

print("Qual é a probabilidade de 6 bons, 3 razoáveis ​​e 1 ruim?")
print(md.pmf([6,3,1]))

print("\nQual é a probabilidade de 7 bons, 2 razoáveis ​​e 1 ruim?")
print(md.pmf([7,2,1]))

print("\nQual é a probabilidade de 7 bons, 1 razoável e 2 ruins?")
print(md.pmf([7,1,2]))

Como esperado, resultados mais próximos das probabilidades de 0.6, 0.3 e 0.1 são mais prováveis. Quanto mais você se afasta dessas proporções, menor a probabilidade de ocorrência.

In [None]:
from scipy.stats import binom

# Defina o número de tentativas e a probabilidade de sucesso
n = ?
p = ?

# Calcular a função de massa de probabilidade (PMF)
y = binom.pmf(?, ?, ?)

print("Qual é a probabilidade de 7 caras em 8 lançamentos de moeda?")
print(y) 

## Distribuição de Poisson

Uma **distribuição de Poisson** é uma distribuição discreta que mede a probabilidade de quantas vezes * k * um evento provavelmente ocorrerá em um determinado período de tempo. O parâmetro $ \lambda $ é o número médio de eventos que ocorrerão nesse período.

Digamos que eu queira prever o tempo entre cada visualização de um determinado vídeo do YouTube. É claro que as tendências em um vídeo podem mudar em um determinado momento (por exemplo, uma celebridade compartilha o vídeo no Twitter ou o YouTube muda seu algoritmo), mas digamos que atualmente o vídeo tenha uma média de 5 visualizações a cada minuto. Isso tornaria `5` meu parâmetro lambda. Se eu quiser medir a probabilidade de cada contagem de visualizações (entre 0 e 10) em um minuto, posso usar uma distribuição de Poisson para fazer isso.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

# Define o parâmetro de Poisson lambda
lambda_p = 5

# Cria uma matriz numpy para o eixo x
x = np.arange(0, 11, 1)

# Calcula os valores da função de massa de probabilidade de Poisson (PMF) para os valores lambda e x fornecidos
y = poisson.pmf(x, mu=lambda_p)

# Cria um gráfico de barras dos valores de PMF
plt.bar(x, y, align='center')

# Define o título e os rótulos
plt.title('Poisson Distribution')
plt.xlabel('Number of Views')
plt.ylabel('Probability')

# Mostra o gráfico
plt.show()

Olhando para cima, podemos ver que todos os resultados somam 1, tornando-se novamente uma distribuição de probabilidade. Há uma probabilidade maior de obter uma contagem de visualizações próxima a 5, pois é onde a maior parte da massa de probabilidade gravita, e menos provável em torno de 0 e 10 visualizações.

## Exercício

Você suspeita que seu amigo não está usando uma moeda honesta em um jogo de futebol. Você pegou a moeda e a jogou 8 vezes, e ela deu cara 7 vezes. Qual é a probabilidade de uma moeda honesta com probabilidade de 0,5 de cara resultar em 7 caras em 8 lançamentos de moeda?

Complete o código abaixo (substituindo os pontos de interrogação "?") para obter a resposta.

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

Como mostrado no código abaixo, há uma probabilidade de 0,03 de obter 7 caras em 8 lançamentos de moeda, se a moeda for honesta. Portanto, podemos suspeitar muito de que esta moeda seja injusta, dada a sua improvável probabilidade. Se a lançarmos mais vezes, podemos usar isso para reduzir ainda mais a probabilidade.

In [None]:
from scipy.stats import binom

# Defina o número de tentativas e a probabilidade de sucesso
n = 8
p = 0.5

# Calcular a função de massa de probabilidade (PMF)
y = binom.pmf(7, n, p)

print("Qual é a probabilidade de 7 caras em 8 lançamentos de moeda?")
print(y) # 0.031249999999999976