# Distribuições de Probabilidade

## 1. Introdução

Neste tópico, serão abordados alguns conceitos primordiais como variável aleatória e seus tipos, definição de alguns tipos de distribuições e suas respectivas aplicações em casos onde deve-se levantar as probabilidades de eventos descritos por estas funções.

<br>
<hr>
<br>

## 2. Tipos de Variáveis Aleatórias

Uma __variável aleatória__ é uma variável cujo valor depende de fatores não determinísticos, ou melhor dizendo __probabilísticos__. Detalhando um pouco mais sobre as variáveis aleatórias, existem dois tipos mais comuns de variáveis aleatórias que podem ser aplicadas, sendo elas:

- __Discreta:__ são as variáveis aleatórias que a distribuição de probabilidade assume apenas valores enumeráveis;

- __Contínua:__ são as variáveis aleatórias que a distribuição de probabilidade assume valores contínuos dentro de um intervalo pré-determinado.

Para entender profundamente os conceitos de cada um dos tipos de variáveis aleatórias, deve-se definir as propriedades de distribuições de probabilidade para cada um dos casos.


<img src='https://s3-sa-east-1.amazonaws.com/lcpi/e941b06a-08e6-4029-b7b8-f577757c3715.png' width="400">

<br>
<hr>
<br>

## 3. Distribuições de Probabilidade

Uma **distribuição de probabilidade** é uma função que descreve o comportamento aleatório de um fenômeno dependente do acaso. A distribuição de probabilidade pode **modelar incertezas** e descrever fenômenos físicos, biológicos, econômicos, entre outros.

A representação matemática para a distribuição de probabilidade é feita utilizando o que chama-se de __função de probabilidade__ (caso discreto) __função de densidade de probabilidade__ (caso contínuo). Para cada um dos tipos de variáveis aleatórias, tem-se uma definição de densidade de probabilidade, conforme descritos a seguir:

- __Discretas:__ Para o caso das variáveis aleatórias discretas a definição matemática para a função de probabilidade (também chamada de _função massa de probabilidade_), pode ser dada da seguinte forma: <img src="https://i.upmath.me/svg/%20F(X)%20%3D%20P(X%20%3D%20x)%20" alt=" F(X) = P(X = x) " />

Ou seja, para o caso discreto, a variável aleatória é uma função que assume um valor real para cada elemento do espaço amostral. Partindo das definições gerais para probabilidade, os resultados a seguir são sempre válidos:

<br>
 
<center><img src="https://i.upmath.me/svg/%200%20%5Cleq%20P(X%20%3D%20x)%20%5Cleq%201%20" alt=" 0 \leq P(X = x) \leq 1 " /></center>

<br><br>

<center><img src="https://i.upmath.me/svg/%20P(X%20%3D%20x)%20%5Cgeq%200%20" alt=" P(X = x) \geq 0 " /></center>

<br><br>

<center><img src="https://i.upmath.me/svg/%20%5Csum_%7Bi%3D1%7D%5E%7B%5Cinfty%7D%20P(X%20%3D%20x_%7Bi%7D)%20%3D%201%20" alt=" \sum_{i=1}^{\infty} P(X = x_{i}) = 1 " /></center>

<br><br>


<center><img src="https://i.upmath.me/svg/%20P(a%20%5Cleq%20X%20%5Cleq%20b)%20%3D%20%5Csum_%7Bx%20%3D%20a%7D%5E%7Bx%20%3D%20b%7D%20P(X%20%3D%20x)" alt=" P(a \leq X \leq b) = \sum_{x = a}^{x = b} P(X = x)" /></center>

<br>


- __Contínuas:__ Para o caso das variáveis aleatórias contínuas a definição matemática para a probabilidade, <img src="https://i.upmath.me/svg/P" alt="P" />, utilizando a função de densidade de probabilidade <img src="https://i.upmath.me/svg/p" alt="p" />, pode ser dada da seguinte forma: <img src="https://i.upmath.me/svg/%20P(X)%20%3D%20%5Cint%20p(x)%20%5C%2Cdx%20" alt=" P(X) = \int p(x) \,dx " />

Da mesma forma que para o caso discreto, define-se algumas relações conhecidas para o caso das variáveis aleatórias contínuas:

<center><img src="https://i.upmath.me/svg/%20p(x)%20%5Cgeq%200%2C%20%5Cforall%20x%20%5Cin%20%5Cmathbb%7BR%7D" alt=" p(x) \geq 0, \forall x \in \mathbb{R}" /></center>

<br><br>

<center><img src="https://i.upmath.me/svg/%20%5Cint_%7B-%5Cinfty%7D%5E%7B%5Cinfty%7D%20p(x)%20%5C%2Cdx%20%3D%201%20" alt=" \int_{-\infty}^{\infty} p(x) \,dx = 1 " /></center>

<br><br>

<center><img src="https://i.upmath.me/svg/%20P(a%20%5Cleq%20X%20%5Cleq%20b)%20%3D%20%5Cint_%7Ba%7D%5E%7Bb%7D%20p(x)%20%5C%2Cdx" alt=" P(a \leq X \leq b) = \int_{a}^{b} p(x) \,dx" /></center>

<br>

Uma outra forma de interpretarmos a probabilidade de uma dada distribuição entre o intervalo <img src="https://i.upmath.me/svg/a" alt="a" /> e <img src="https://i.upmath.me/svg/b" alt="b" />, seria como a área abaixo ao gráfico da função de densidade de probabilidade:

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/6f2021b5-e5d5-48a9-bb17-7aaea4721dc2.png" width=400>

Fonte : [Thomas Haslwanter](https://work.thaslwanter.at/Stats/html/_images/PDF.png)

<br>
<hr>
<br>

### 3.1. Valor Esperado (Esperança) e Variância

Assim como no caso da Estatística Descritiva, no casos de modelos probabilísticos também existem parâmetros de posição e variabilidade utilizados para caracterizar uma distribuição de probabilidade:

- __Valor Esperado (Esperança):__ O valor esperado seria o produto da variável aleatória <img src="https://i.upmath.me/svg/x" alt="x" /> e sua respectiva probabilidade, funcionando como se fosse uma média ponderada para as probabilidades. O cálculo do valor esperado é definido da seguinte forma:

__Caso Discreto:__  <img src="https://i.upmath.me/svg/%20E%5BX%5D%20%3D%20%5Csum_%7Bi%7D%5E%7Bn%7D%20x_%7Bi%7DP(X%20%3D%20x_%7Bi%7D)%20" alt=" E[X] = \sum_{i}^{n} x_{i}P(X = x_{i}) " />


__Caso Contínuo:__  <img src="https://i.upmath.me/svg/%20E%5BX%5D%20%3D%20%5Cint_%7B-%5Cinfty%7D%5E%7B%5Cinfty%7D%20xp(x)%20dx%20" alt=" E[X] = \int_{-\infty}^{\infty} xp(x) dx " />

<br>

- __Variância:__ A variância é o valor que mede a variabilidade, ou seja o quão dispersas estão as probabilidades em relação ao valor esperado. A variância é definida da seguinte forma:

<br>

<img align="center" src="https://i.upmath.me/svg/%20V%5BX%5D%20%3D%20%5Csigma%5E%7B2%7D%20%3D%20E%5B(X%20-%20E%5BX%5D)%5E2%5D%20%3D%20E%5BX%5E2%5D%20-%20E%5BX%5D%5E2" alt=" V[X] = \sigma^{2} = E[(X - E[X])^2] = E[X^2] - E[X]^2" />

<br>

Onde, <img src="https://i.upmath.me/svg/%20E%5BX%5E2%5D%20%3D%20%5Csum_%7Bi%7D%5E%7Bn%7D%20x_%7Bi%7D%5E2P(X%20%3D%20x_%7Bi%7D)" alt=" E[X^2] = \sum_{i}^{n} x_{i}^2P(X = x_{i})" /> e analogamente para o caso contínuo <img src="https://i.upmath.me/svg/%20E%5BX%5E2%5D%20%3D%20%5Cint_%7B-%5Cinfty%7D%5E%7B%5Cinfty%7D%20x%5E2p(x)%20dx" alt=" E[X^2] = \int_{-\infty}^{\infty} x^2p(x) dx" />.

<br>

__Exemplo de aplicação - Caso Discreto__: Seja a variável aleatória X com distribuição abaixo, calcule <img src="https://i.upmath.me/svg/E%5BX%5D" alt="E[X]" /> e <img src="https://i.upmath.me/svg/V%5BX%5D" alt="V[X]" />:
 
- P(X = 1) = 0.3
- P(X = 2) = 0.4
- P(X = 3) = 0.2 
- P(X = 4) = 0.1

<br>

No trecho de código abaixo exemplifica uma forma de ser implementado a resolução do exercício acima usando o _Python_:

<br>

````python
import numpy as np

# Vetor de eventos
X = [1, 2, 3, 4, 5, 6]

# Vetor de probabilidades
P = [0.1666, 0.1666, 0.1666, 0.1666, 0.1666, 0.1666]

# Cálculo do Valor esperado
esp = np.dot(X, P)

# Mostra o valor esperado
print("Valor esperado: ", np.round(esp, 2))

# Cálculo da variância
var = np.round(np.dot(np.power(X, 2), P) - np.power(esp, 2), 2)

# Mostra a variância
print("Variância:      ", var)
````
<br><br>

__Exemplo de Aplicação - Caso Contínuo:__ A variável X tem função de densidade de probabilidade dada por:

- <img src="https://i.upmath.me/svg/f(x)%20%3D%20%5Cfrac%7Bx%5E2%7D%7B3%7D" alt="f(x) = \frac{x^2}{3}" />, se <img src="https://i.upmath.me/svg/%20-1%20%5Cleq%20x%20%5Cleq%202" alt=" -1 \leq x \leq 2" />, caso contrário seria 0.

<br>

Para o caso contínuo, precisa-se realizar o cálculo de uma integral, onde será utilizado uma função própria da biblioteca _SciPy_:

<br>

````python
# Carrega a função quad para aproximar o valor da integral
from scipy.integrate import quad
````

A função _quad_ irá aproximar o valor da integral ao valor calculado teórico, com uma margem de erro bem pequena. A implementação da resolução em código _Python_ encontra-se a seguir:

````python
# Função para a equação do valor esperado
def funcao_vlr_esperado(x):
    return x*(x*x)/3

# Cálculo da integral e o erro a partir da função anterior
esp, erro1 = quad(funcao_vlr_esperado, -1, 2)

# Print do valor esperado
print("Valor Esperado: ", esp)
print("Erro da Integral: ", erro1)

# Função para a equação do valor esperado x^2 a partir da função anterior
def funcao_variancia(x):
    return (x*x)*(x*x)/3

# Integral de x^2
esp_x2, erro2 = quad(funcao_variancia, -1, 2)

# Cálculo da variância
var = esp_x2 - esp*esp

# Print da variância
print("Variância:      ", var)
print("Erro da Integral: ", erro2)
````

<br>
<hr>
<br>

## 4. Principais Distribuições

Existem algumas distribuições largamente utilizadas para o levantamento de probabilidade de eventos, sendo as principais delas descritas nos tópicos a seguir.

<br><br>

### 4.1 Distribuição de Bernoulli

A distribuição de Bernoulli  é uma distribuição discreta para um espaço amostral "(0, 1)", baseando a probabilidade em __sucessos__ e __falhas__, onde a probabilidade de sucesso de um evento ("k = 1") é igual a "p" e a probabilidade de falha ("k = 0") seria o valor complementar "1 - p". A função que descreve a distribuição de Bernoulli pode ser definida como:

<br>

<img align="center" src="https://i.upmath.me/svg/%20P(X%20%3D%20k)%20%3D%20p%5E%7Bk%7D(1-p)%5E%7B(1-k)%7D%20" alt=" P(X = k) = p^{k}(1-p)^{(1-k)} " />

<br>
Os valores para o valor esperado e a variância para a distribuição de Bernoulli são respectivamente:

- __Valor Esperado:__ <img src="https://i.upmath.me/svg/%20E%5BX%5D%20%3D%20p%20" alt=" E[X] = p " />;

- __Variância:__ <img src="https://i.upmath.me/svg/%20V%5BX%5D%20%3D%20p(1-p)" alt=" V[X] = p(1-p)" />.

<br>

Mas no caso da distribuição de Bernoulli, trata-se apenas para um evento isolado, como por exemplo o lançamento de uma moeda. Quando o problema envolve eventos __com repetições__, utiliza-se o caso geral da distribuição de Bernoulli que seria uma __Distribuição Binomial.__

<br>
<hr>
<br>

### 4.2 Distribuição Binomial

Seja a variável aleatória baseado em <img src="https://i.upmath.me/svg/n" alt="n" /> repetições de Bernoulli, temos que a definição da distribuição binomial é dada por:

<img align="center" src="https://i.upmath.me/svg/%20P(X%20%3D%20k)%20%3D%20%5Cbinom%7Bn%7D%7Bk%7Dp%5E%7Bk%7D(1-p)%5E%7B(n-k)%7D%20%3D%20%5Cfrac%7Bn!%7D%7Bk!(n%20-%20k)!%7Dp%5E%7Bk%7D(1-p)%5E%7B(n-k)%7D" alt=" P(X = k) = \binom{n}{k}p^{k}(1-p)^{(n-k)} = \frac{n!}{k!(n - k)!}p^{k}(1-p)^{(n-k)}" />

<br><br>
Os valores para o valor esperado e a variância para a distribuição binomial são respectivamente:

- __Valor Esperado:__ <img src="https://i.upmath.me/svg/%20E%5BX%5D%20%3D%20np%20" alt=" E[X] = np " />;

- __Variância:__ <img src="https://i.upmath.me/svg/%20V%5BX%5D%20%3D%20np(1-p)" alt=" V[X] = np(1-p)" />.

<br>

__Exemplo de Aplicação__: Qual a probabilidade de um jogador ganhar na megasena com uma aposta simples de 6 números?

__Exemplo de Aplicação__: Em uma caixa há 8 bolas brancas e 4 pretas. Retira-se 5 bolas com reposição. Calcule a probabilidade de que:

__A)__ saiam duas bolas brancas:

<br>

    
__B)__ saiam pelo menos 3 pretas:

Para este exemplo, como é buscado a probabilidade de pelo menos 3 bolas pretas para 5 lançamentos, pode ocorrer também os eventos 4 e 5 bolas pretas. 

<br>
<hr>
<br>

### 4.3 Distribuição Poisson

Uma variável aleatória tem distribuição de Poisson quando podemos descrever um evento em relação a uma taxa/contagem de ocorrência, normalmente chamada de <img src="https://i.upmath.me/svg/%20%5Cmu%20" alt=" \mu " />, sendo <img src="https://i.upmath.me/svg/%20%5Cmu%20%3E%200" alt=" \mu &gt; 0" />. Dessa forma a equação para a distribuição de Poisson será definida como:

<img align="center" src="https://i.upmath.me/svg/%20P(X%20%3D%20k)%20%3D%20%5Cfrac%7Be%5E%7B-%5Cmu%7D%5Cmu%5E%7Bk%7D%7D%7Bk!%7D%20" alt=" P(X = k) = \frac{e^{-\mu}\mu^{k}}{k!} " />

<br>
<hr>
<br>

__Exemplo de Aplicação__: Em uma central telefônica chegam 300 ligações por hora. Sabendo que segue uma distribuição de Poisson, qual é a probabilidade de que:
   
__A)__ Em um minuto não ocorra ligações?


__B)__ Ocorra pelo menos 4 ligações?

### 4.4 Distribuição Exponencial

Uma variável aleatória contínua tem uma distribuição exponencial quando queremos avaliar o tempo decorrido entre dois eventos consecutivos, diferente do Poisson que avalia de acordo com uma contagem de ocorrências em um espaço de tempo. A função densidade de probabilidade que descreve a distribuição exponencial pode ser descrita como:

<img align="center" src="https://i.upmath.me/svg/%20f(x)%20%3D%20%5Calpha%20e%5E%7B-%5Calpha%20x%7D%2C%20x%20%5Cgeq%200%20" alt=" f(x) = \alpha e^{-\alpha x}, x \geq 0 " />

No caso para <img src="https://i.upmath.me/svg/x%20%3C%200" alt="x &lt; 0" />, a probabilidade de <img src="https://i.upmath.me/svg/f(x)%20%3D%200" alt="f(x) = 0" />

<br>

__Exemplo de Aplicação__: O intervalo de tempo, em minutos, entre emissões consecutivas de uma fonte radioativa é uma variável aleatória contínua que segue uma distribuição exponencial com parâmetro <img src="https://i.upmath.me/svg/%5Calpha%20%3D%200.2" alt="\alpha = 0.2" />. Qual a probabilidade de que ocorra uma emissão em um intervalo inferior a 2 minutos?
<br>
<hr>
<br>

### 4.5 Distribuição Uniforme

A distribuição uniforme é uma distribuição bem simples e não possui parâmetros, a única diferença é que só vai haver probabilidade para um determinado evento "x", se "x ∈ [a, b]". Dessa forma a equação de densidade de probabilidade para a distribuição uniforme é dado por:

<img align="center" src="https://i.upmath.me/svg/%20f(x)%20%3D%20%5Cfrac%7B1%7D%7Bb%20-%20a%7D%2C%20a%20%5Cleq%20x%20%5Cleq%20b%20" alt=" f(x) = \frac{1}{b - a}, a \leq x \leq b " />

E para o caso de <img src="https://i.upmath.me/svg/x%20%5Cnotin%20%5Ba%2C%20b%5D" alt="x \notin [a, b]" />, a função de densidade será <img src="https://i.upmath.me/svg/f(x)%20%3D%200" alt="f(x) = 0" />

<br>
Os valores para o valor esperado e a variância para a distribuição uniforme serão respectivamente:

- __Valor Esperado:__ <img src="https://i.upmath.me/svg/%20E%5BX%5D%20%3D%20%5Cfrac%7Ba%20%2B%20b%7D%7B2%7D%20" alt=" E[X] = \frac{a + b}{2} " />;

- __Variância:__ <img src="https://i.upmath.me/svg/%20V%5BX%5D%20%3D%20%5Cfrac%7B(b%20-%20a)%5E2%7D%7B12%7D" alt=" V[X] = \frac{(b - a)^2}{12}" />.

<br>
<hr>
<br>

Suponha que a duração de chamadas telefônicas em minutos em uma determinada rede de telefonia móvel é modelada por uma variável aleatória contínua X com distribuição uniforme no intervalo [5, 15] minutos, ou seja, X ~ U(5, 15). Você recebeu uma amostra de 100 chamadas realizadas nesta rede. Calcule a probabilidade de que uma chamada selecionada aleatoriamente dure:

    A) Menos de 10 minutos.

    B) Entre 8 e 12 minutos.

    C) Mais de 14 minutos.

    D) Exatamente 11 minutos.

### **Materiais Complementares**

Documentação do [SciPy](https://docs.scipy.org/doc/);

Artigo [_5 Probability distribution you should know as a data scientist_](https://medium.com/towards-data-science/5-probability-distribution-you-should-know-as-a-data-scientist-f8abc9522af0) escrito por Harsh Maheshwari;

<br><br>

### **Referências**

Pedro A. Morettin, Wilton O. Bussab, Estatística Básica, 8ª edição

Peter Bruce, Andrew Bruce & Peter Gedeck, Practical Statistics for Data Scientists, 50+ Essential Concepts Using R and Python, 2ª edition

Ron Larson & Betsy Farber, Estatística Aplicada, 6ª edição.

<br><br> 