# Distribuições Contínuas

Distribuições contínuas são distribuições de probabilidade que lidam com valores contínuos (por exemplo, decimais, valores de ponto flutuante) em vez de valores discretos (valores binários, inteiros, números naturais). A mais famosa é a distribuição normal, comumente encontrada na natureza e na estatística. Também usaremos a distribuição exponencial e a distribuição beta para descobrir mais duas utilidades úteis.

## Distribuição Normal

A **distribuição normal** é uma curva simétrica em forma de sino que aparece em muitos fenômenos naturais e científicos. Mesmo para dados que não seguem a distribuição normal, ela ainda se generaliza para uma distribuição normal devido ao teorema do limite central, sobre o qual também falaremos brevemente.

Digamos que esperamos que um laptop tenha 12 horas de duração da bateria com um desvio padrão de 1 hora. O desvio padrão define o quão "espalhada" é a curva em forma de sino. Quanto menor o desvio padrão, mais consistente esperamos que seja a duração da bateria.

Abaixo, usamos o matplotlib para plotar a **função de densidade de probabilidade (PDF)** da distribuição normal, que é a curva em forma de sino que mostra a probabilidade que esperamos de cada valor (em horas).

In [None]:
from scipy.stats import norm
import numpy as np 
import matplotlib.pyplot as plt

# define média e desvio padrão
mean = 12
std = 1

# captura de intervalo de eixo ± 3 desvios padrão em torno da média
x_range = np.arange(mean-std*3, mean+std*3, .01) 

# plota o PDF normal
plt.plot(x_range, norm.pdf(x_range, mean, std)) # curva de sino
plt.show()

A fórmula da função densidade de probabilidade (PDF) para uma distribuição normal é definida como...

$ \Large f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $ 

onde $ \mu $ é a média, $ \sigma $ é o desvio padrão, $ x $ é a variável de entrada e $ f(x) $ é a verossimilhança de saída.

**Existem algumas propriedades importantes em torno da distribuição normal.**

* Ela é simétrica em direção ao centro.
* No topo da curva em sino, a maior verossimilhança está na média.
* A "dispersão" das caudas é definida pelo desvio padrão.
* As caudas se aproximam sempre do eixo x, mas nunca o alcançam.
* A área sob toda a curva, como qualquer distribuição de probabilidade, é 1.0.

Procurar um valor específico de probabilidade *y* para um determinado valor *x* não é produtivo. Em vez disso, usamos intervalos de *x* e capturamos áreas para esse intervalo, o que nos dá uma probabilidade. Por exemplo, **qual é a probabilidade de obter entre 10 e 14 horas de bateria com uma determinada carga**? Calculamos a área/probabilidade para esse intervalo conforme ilustrado abaixo.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

# define média e desvio padrão
mean = 12
std = 1

# limites inferior e superior da área
lower_x, upper_x = -3*std+mean, 3*std+mean 
lower_area_x, upper_area_x = 10, 14 

# captura de intervalo de eixo ± 3 desvios padrão em torno da média
x = np.arange(lower_x, upper_x, .01) 
y = norm.pdf(x, mean, std)

# plota o PDF normal 
plt.plot(x, y) # bell curve 

# Calcula a área sombreada sob a curva
area_sombreada = norm.cdf(upper_area_x, mean, std) - norm.cdf(lower_area_x, mean, std)

# plota a distribuição normal e a área sombreada
intervalo_de_área_x = (x >= lower_area_x) & (x <= upper_area_x)
plt.fill_between(x[intervalo_de_área_x], y[intervalo_de_área_x], 0, alpha=0.5, color='red')
plt.xlabel('Valor')
plt.ylabel('Densidade de probabilidade')
plt.title('Distribuição normal com média = {} e desvio padrão = {}'.format(mean, std))
plt.text(11.4, 0.1, 'Area = {:.2f}'.format(area_sombreada))
plt.show()

A área é de $ 0.95 $ para esse intervalo, então há 95% de probabilidade de uma carga de bateria durar entre 10 e 14 horas. Deixando o código matplotlib de lado, podemos calcular isso usando a **função de densidade cumulativa (CDF)**, que captura a área de menos infinito até um determinado valor de x. Podemos calcular a área até 14 e, em seguida, subtrair a área até 10.

In [None]:
from scipy.stats import norm

mean, std = 12, 1

# Calcula a área sombreada sob a curva
area_sombreada = norm.cdf(14, mean, std) - norm.cdf(10, mean, std)

print(area_sombreada) # 0.9544997361036416

Se quiser ver a aparência da função de densidade cumulativa, você pode plotá-la usando o matplotlib. Observe que se trata de uma curva em forma de S que atinge $ .5 $ na média e se estabiliza perto de $ 1.0 $ à medida que você avança na extremidade direita do PDF.

In [None]:
# plota PDF e CDF lado a lado
plt.plot(x, norm.pdf(x, mean, std), color="blue") # função de densidade de probabilidade
plt.plot(x, norm.cdf(x, mean, std), color="red") # função de densidade cumulativa
plt.show()

Há muitas aplicações interessantes para a distribuição normal de uma perspectiva estatística, desde o teorema do limite central até testes de hipóteses, que são abordados em [outro curso da Anaconda](https://learning.anaconda.cloud/statistics-and-hypothesis-testing). Mas vamos manter o foco na probabilidade. Podemos inverter a função de densidade cumulativa para criar a **função de ponto percentual (PPF)**, que nos permite procurar um valor de x que capture uma determinada área (da cauda esquerda até esse valor de x).

In [None]:
p = np.arange(0, 1, .01) 
plt.plot(p, norm.ppf(p, mean, std), color="red") # função de ponto percentual 
plt.show()

Por exemplo, qual valor de x me dá 80% da área à esquerda? Isso pode ser respondido usando o FPP.

In [None]:
norm.ppf(.8, mean, std) # 12.841621233572914

Para complementar, sabemos agora que $ 12,841621233572914 $ nos dá $ 0.8 $ da área à esquerda. Portanto, esperamos que 80% das cargas da bateria durem $ 12.84 $ horas ou menos.

In [None]:
intervalo_de_área_x = (x <= 12.841621233572914)
plt.plot(x, norm.pdf(x, mean, std), color="blue") # função de densidade de probabilidade 
plt.fill_between(x[intervalo_de_área_x], y[intervalo_de_área_x], 0, alpha=0.5, color='red')
plt.text(11.4, 0.1, 'Area = {:.2f}'.format(.8))
plt.show()

## Distribuição Exponencial

Outra distribuição contínua útil é a **distribuição exponencial**, frequentemente usada para modelar quanto tempo decorre entre eventos, dada uma duração média. A fórmula para a função de densidade de probabilidade de uma distribuição exponencial é...

$ \Large f(x) = \lambda e^{-\lambda x} $ 

onde $ \lambda $ é o número médio de eventos que ocorrem em um período definido. Digamos que lançamos um vídeo no YouTube e esperamos que ele tenha, em média, 2 visualizações a cada minuto. Quanto tempo podemos esperar entre cada visualização? É isso que a distribuição exponencial nos ajuda a responder.

Vamos plotar usando SciPy, como mostrado abaixo. Observe que precisamos inserir a taxa lambda por meio do argumento `scale` como $ \frac{1}{\lambda} $. 

In [None]:
from scipy.stats import expon 

lambda_rate = 2 # média de visualizações por minuto

x = np.arange(.01, 3, .01)
y = expon.pdf(x, scale = 1/lambda_rate)

plt.plot(x, y)
plt.show()

Agora, vamos perguntar: qual é a probabilidade de que, após uma determinada visualização, a próxima visualização ocorra após 1 a 2 minutos? Queremos encontrar a área sombreada abaixo.

In [None]:
lower_area_x, upper_area_x = 1, 2
intervalo_de_área_x = (x >= lower_area_x) & (x <= upper_area_x)

plt.plot(x, expon.pdf(x, scale = 1/lambda_rate))
plt.fill_between(x[intervalo_de_área_x], y[intervalo_de_área_x], 0, alpha=0.5, color='red')
plt.show()

Assim como fizemos com a distribuição normal, podemos usar a função de densidade cumulativa (CDF) para calcular a área até 2 e, então, subtrair toda a área até 1. Isso retornaria uma área/probabilidade de `.117`.

In [None]:
expon.cdf(2, scale = 1/lambda_rate) - expon.cdf(1, scale = 1/lambda_rate)

Portanto, há uma probabilidade de 11,7% de que a próxima visualização ocorra após 1 a 2 minutos.

## Distribuição Beta

Aqui está mais uma distribuição contínua útil. A **distribuição beta** mede as probabilidades das probabilidades. Se isso soa muito meta, não se preocupe. Vamos retornar a um problema que abordamos na seção anterior.

Lembre-se de que na última seção usamos a distribuição binomial para medir, de *n* tentativas, qual é a probabilidade de ver *k* sucessos/eventos dada uma probabilidade *p*? Queríamos saber qual seria a probabilidade, com uma taxa de sucesso de 90%, de vermos 8 tocadores de MP3 de natação funcionando em 10. Consulte o gráfico abaixo para ativar sua memória.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# Define o número de tentativas e a probabilidade de sucesso
n = 10
p = 0.9

# Gera valores x para o gráfico
x = np.arange(0, n + 1)

# Calcula a função de massa de probabilidade (PMF)
pmf = binom.pmf(x, n, p)

# Plota o PMF
plt.bar(x, pmf, align='center')

# Define o título e os rótulos
plt.title('Binomial Distribution')
plt.xlabel('Number of successes')
plt.ylabel('Probability')

# Mostra o gráfico
plt.show()

Mas e se invertêssemos a questão? Em vez de perguntar *qual a probabilidade de 8/10 sucessos, dada uma taxa de sucesso subjacente de 90%*, vamos perguntar *qual a probabilidade de cada probabilidade de sucesso (de 0,0 a 1,0) dada 8/10 sucessos?* É exatamente isso que a distribuição beta faz.

Vamos plotar a distribuição beta abaixo, com 8 sucessos e 2 falhas como nossos parâmetros alfa/beta.

In [None]:
from scipy.stats import beta 

a, b = 8, 2 # sucessos, fracassos

x = np.arange(0, 1.01, .01)
y = beta.pdf(x, a, b)

plt.plot(x, y)
plt.show()

Observe como o eixo x reflete as probabilidades subjacentes de sucesso entre $ 0.0 $ e $ 1.0 $. O eixo y reflete a probabilidade dessa probabilidade de sucesso, considerando que tivemos 8 em cada 10 sucessos. Como em todas as distribuições contínuas, calculamos as probabilidades usando as áreas sob a curva.

Por exemplo, considerando 8 em cada 10 sucessos, qual é a probabilidade de a taxa subjacente de sucesso estar entre $ 0.6 $ e $ 0.9 $? Vamos primeiro visualizar essa área de interesse abaixo.

In [None]:
lower_area_x, upper_area_x = .6, .9
intervalo_de_área_x = (x >= lower_area_x) & (x <= upper_area_x)

plt.plot(x, beta.pdf(x, a, b))
plt.fill_between(x[intervalo_de_área_x], y[intervalo_de_área_x], 0, alpha=.5,  color='red')
plt.show()

Podemos então responder a isso, mais uma vez, com a função de densidade cumulativa, capturando a área até $ 0.9 $ e depois subtraindo a área até $ 0.6 $.

In [None]:
beta.cdf(.9, a, b) - beta.cdf(.6, a, b)

Isso nos dá uma área de $ 0.704 $, então há uma probabilidade de 70,4% de que a taxa subjacente de mp3 players funcionando esteja entre $ .6 $ e $ 0.8 $.

## Exercício

img

Você está tentando construir uma distribuição normal de quantos gramas de grãos compõem uma xícara ideal de café de 473 ml (16 oz). Após entrevistar centenas de baristas, você determinou que a média é de 33 gramas com desvio padrão de 1,5 grama.

Qual é a probabilidade de a xícara "ideal" de 473 ml (16 oz) de café estar entre 31 e 35 gramas? Complete o código abaixo para encontrar a resposta.

In [None]:
from scipy.stats import norm

mean, std = 33, 1.5

p = norm.cdf(?,?,?) - ? 

print(p)

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

A probabilidade de o número ideal de gramas para uma xícara de café de 473 ml estar entre 31 e 35 é de 0,8175. Você pode calcular isso usando a função de densidade cumulativa (CDF) da distribuição normal. Calcule a área até 35 e, em seguida, subtraia a área até 31.

In [None]:
from scipy.stats import norm

mean, std = 33, 1.5

p = norm.cdf(35,mean,std) - norm.cdf(31,mean,std)

print(p)