# Modelos probabilísticos discretos

**Referência de Leitura:**

1. Magalhães e Lima (7ª. Edição): Seções 3.2 e 3.3
2. Montgomery (6.a Ed.). Estatística Aplicada e Probabilidade Para Engenheiros. Cap. 3 seções 3.6 e 3.9

**Hoje:**

1.	Descrever modelos discretos quanto aos resultados teóricos.

2.	Explicar a utilização de modelos probabilísticos no contexto da literatura estatística.

3.	Contrastar resultados teóricos e empíricos.

4.	Fechamento do conteúdo.

**Próxima aula:**

1. Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Capítulo 6 - Seção 6.1.

In [None]:
%matplotlib inline
import itertools # importante para gerar todos os resultados possíveis!
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy import stats # importa apenas as funções de estatísticas da biblioteca SciPy.

___
# Distribuição binomial: teoria

É responsável por modelar uma variável $Y$ definida pelo número de sucessos em $n$ tentativas de um experimento de Bernoulli cuja probabilidade de sucesso é dada por $p$.

Por exemplo, 

* se lançar uma moeda viciada com probabilidade $p$ de dar cara é um experimento de Bernoulli, então 
* contar quantas caras dessa moeda deram em $n$ lançamentos é um experimento binomial.

Assim, dizemos que 

<font color='red'>$$Y \sim Bin(n,p)$$</font>

e lê-se: 

<font color='red'><center>$Y$ segue uma distribuição binomial com $n$ tentativas e $p$ como probabilidade de sucesso.</center></font>

Muita atenção aqui: **não basta dizer que é Binomial, tem que especificar os parâmetros da distribuição!** Ou seja, não existe $Y \sim Bin$, e sim $Y \sim Bin(n, p)$.

A função de probabilidade nesse caso é dada por:

$$P(Y=y) = \left(
\begin{array}{c}
n \\
y 
\end{array}\right) p^y (1-p)^{(n-y)}$$

Para um experimento ter as probabilidade dos números de sucessos modeladas por uma distribuição Binomial, o mesmo precisa ter as seguintes propriedades:

* é uma contagem de $n$ repetições (ou tentativas ou ensaios) idênticas;

* cada repetição tem apenas 2 resultados possíveis: um é denominado sucesso e o outro, fracasso;

* a probabilidade de sucesso para cada ensaio é denominada $p$ e será constante em cada repetição. Então, a probabilidade de fracasso $(1-p)$ também não varia de tentativa para tentativa;

* As tentativas são independentes.

### Distribuição binomial em Python

A biblioteca SciPy está cheia de funções para nos ajudar a trabalhar com variáveis aleatórias! https://en.wikipedia.org/wiki/SciPy

Algumas funções úteis para desenvolver seu código: http://docs.scipy.org/doc/scipy-0.16.1/reference/generated/scipy.stats.binom.html

* $P(Y=y)$: `prob = stats.binom.pmf(y, n, p)`

* $P(Y\leq y)$: `prob = stats.binom.cdf(y, n, p)`

* $E(Y)$ e $Var(Y)$: `m, v = stats.binom.stats(n, p, moments='mv')`

___
### <font color='blue'>Problema 1</font>

**Este exercício irá explorar a construção de árvore de probabilidades com eventos e construção da distribuição de probabilidades de uma variável aleatória discreta. Ainda, irá explorar o modelo  de distribuição probabilística Binomial**

Um resistor de 100K Ohms comprado na Santa Efigênia tem probabilidade de falha de $5\%$, segundo um fabricante ruim.

Ainda, por suposição, admita que os resistores falhem de forma independente entre si.

Um aluno de engenharia compra um pacote contendo $n$ resistores.

1. Assuma $n=3$ e faça os itens a seguir.

    1. Monte o espaço amostral que combine todos os resultados possíveis de Falha e não Falha desses $n$ resistores. Ainda, calcule a probabilidade de cada resultado do espaço amostral acontecer.

    2. Se $Y$ representa o número de resistores que falham em um pacotinho com $n$ resistores, então construa a distribuição de probabilidades de $Y$.

    3. Calcule a média e o desvio padrão de $Y$. Interprete os resultados.

    4. Utilizando o modelo probabilístico da distribuição Binomial, encontre a distribuição de probabilidades de cada possível valor de $Y$. Calcule também $E(Y)$ e $Var(Y)$. Compare com as distribuições de probabilidades obtidas nos itens anteriores e discuta porque esses valores são iguais ou diferentes!
   
2. Assuma $n=7$ e repita os itens A) a D) anteriores. No caso de $n=7$ ou maiores quantidades de resistores em um pacotinho, qual a viabilidade de construir a distribuição de probabilidades do número de resistores com defeitos quando $n$ não é pequeno seguindo os itens de A) a C)?
    


In [None]:
# Item 1.
n = 3

# Item 2.
# n = 7

# Nos dois itens, a probabilidade de sucesso individual é a mesma. 
# Note que "sucesso" em nosso experimento significa... falha no resistor! Nada de errado com isso, apenas soa estranho
# mas tudo bem!
p = 0.05

___
**Item 1:**

**Resolvendo o item A**

Vamos começar listando todas as possibilidades de "sucesso" (resistor falhou) e "fracasso" (resistor funcionou).

In [None]:
possibilidades = ['F', 'Fc']  # 'F': falhou, 'Fc': não falhou.
eventos = itertools.product(possibilidades, repeat=n)
espaco_amostral = list(eventos)  # Coisas de Python...

In [None]:
for item in espaco_amostral:
    print(item)

**Atividade[1]:** 

Agora é com você: para cada evento simples no espaço amostral, calcule sua probabilidade. Você deve construir um dicionário onde a chave é um evento e o valor é sua probabilidade. Chame esse dicionário de `prob_eventos`.

In [None]:
prob_eventos = {}

for evento in espaco_amostral:
    # Calcule a probabilidade do evento simples.
    # Insira seu código aqui:

    
    
    # Fim do seu código, vamos guardar a probabilidade no dicionário.
    prob_eventos[evento] = prob

Se você seguiu as instruções acima, o código a seguir deverá listar os eventos e suas probabilidades.

In [None]:
print('Distribuição de probabilidades de cada resultado do espaço amostral:')
for evento, prob in prob_eventos.items():
    print('{0} com probabilidade {1:.5f}'.format(evento, prob))

**Resolvendo o item B**

Relembre que nossa variável aleatória é a CONTAGEM de falhas. Portanto, temos que determinar a contagem de falhas em cada evento simples, e juntar todas as probabilidades de mesma contagem - reveja a explicação do professor.

**Atividade[2]:** 

Construa a distribuição de probabilidades na forma de um dicionário onde a chave é a contagem de falhas, e o valor é a probabilidade desta contagem de falhas. Use o resultado do item A.

Dica: com listas você pode usar o método `count()` para saber quantas vezes um certo valor ocorre. Por exemplo:
```
minha_lista = ['A', 'B', 'B', 'A', 'A', 'A']
print(minha_lista.count('B')  # Imprime 2.
```

In [None]:
Y = {}
for evento, prob in prob_eventos.items():
    # Seu código vem aqui:


Se você fez o que foi pedido, o código abaixo deve listar os valores da variável aleatória $Y$ (ou seja, as possíveis contagens de falha) e suas respectivas probabilidades:

In [None]:
print("Distribuição de probabilidades da variável aleatória Y:")        
for y, prob_y in Y.items():
    print('{0} falhas com probabilidade {1:.5f}'.format(y, prob_y))

Ficou meio dificil de ver, vamos fazer o gráfico de barras dessa distribuição:

In [None]:
Y_s = pd.Series(Y).sort_index()

plt.figure()
Y_s.plot(kind='bar')
plt.title('Distribuição de probabilidade de Y')
plt.xlabel('$y$')
plt.ylabel('$P(Y = y)$')
plt.show();

**Resolvendo o item C**

Lembre-se que a média de uma variável aleatória discreta é dada por

$$
\mu = E[X] = \sum_{\text{todos os } x_i} x_i P(X = x_i)
$$

e que a variância é dada por 

$$
\sigma^2 = E[(X - \mu)^2] = \sum_{\text{todos os } x_i} (x_i - \mu)^2 P(X = x_i)
$$

Lembre-se que na aula passada também vimos uma maneira alternativa para calcular a variância: 
$$Var(X) = E(X^2) - E(X)^2.$$ 

Então, use a maneira que julgar mais rápida e adequada para você chegar na variância da variável aleatória $X$.

**Atividade[3]:** 

Agora é com você: calcule a média e a variância de $Y$.

In [None]:
# Fase 1: cálculo da média.
m = 0.0
for y, prob_y in Y.items():
    # Insira seu código aqui:
    
# Fase 2: cálculo da variância.
v = 0.0
for y, prob_y in Y.items():
    # Insira seu código aqui:
    
print('Média: {0:.5f}'.format(m))
print('Variância: {0:.5f}'.format(v))
print('Desvio padrão: {0:.5f}'.format(np.sqrt(v)))

**Resolvendo o item D**

Esse nosso jeito de calcular as probabilidades da variável aleatória $Y$ é apenas um exercício para que possamos entender bem o que é um experimento binomial. Para calcular os valores da distribuição binomial na prática já existe uma fórmula, como visto em aula.

No Python, podemos calcular diretamente os valores da distribuição binomial usando `stats.binom.pmf`. Suponha que $X \sim Bin(n,p)$ e queremos calcular $P(X = x)$ no Python, basta usar:

`prob = stats.binom.pmf(x, n, p)`

**Atividade[4]:** 

Usando esse novo conhecimento, calcule a distribuição de Y do nosso problema, novamente na forma de um dicionário onde a chave é a contagem de falhas e o valor é a probabilidade desta contagem.

In [None]:
Y = {}

# Insira seu código aqui: desta vez nem o 'for' a gente vai dar!


Se você fez tudo como indicado, o código a seguir imprimirá a distribuição de probabilidade de Y:

In [None]:
print("Distribuição de probabilidades da variável aleatória Y:")        
for y, prob_y in Y.items():
    print('{0} falhas com probabilidade {1:.5f}'.format(y, prob_y))

Para obter a média e a variância de uma variável $Y \sim Bin(n, p)$ use `stats.binom.stats(n, p, moments='mv')`

**Atividade[5]**: faça você mesmo!

**Atividade[6]:** 

Compare os resultados da Atividade[2] com da Atividade [4]. 

Compare os resultados da Atividade[3] com da Atividade [5]. 

Veja se deu certo!

**Resp.:**

___
**Item 2:**

Agora volte lá para o item A e troque $n$ para $n=7$. Teste tudo de novo e veja o que acontece!

**Atividade[7]:** Pense (**NÃO TESTE**) o que aconteceria se $n=100$:

* Será que conseguiríamos testar todas as possibilidades no `itertools.product`?

* E simplesmente usar as fórmulas da distribuição, será que daria certo?

# Distribuição de Poisson

## Teoria

É a distribuição que modela experimentos onde a taxa de ocorrências de algum acontecimento é definida por intervalo de tempo, ou de comprimento, área, etc.

Por exemplo:

* Dado o número médio de clientes que entram na loja por hora, qual a probabilidade de que 10 clientes chegaram na última hora?

* Dado o número médio de buracos por quilômetro na estrada, qual a probabilidade de que o próximo quilômetro tenha 5 ou mais buracos?


Um experimento de Poisson é aquele onde temos uma taxa média de ocorrência de um fenômeno por intervalo (de tempo, de espaço, de volume, etc). Por exemplo: uma linha de produção de peças automotivas onde podemos estudar a taxa média de falhas por dia.

Em um experimento de Poisson, a variável aleatória de interesse é a contagem de eventos em um intervalo. Por exemplo: quantas falhas ocorrem em uma linha de produção em um dia? Quantos buracos existem na estrada em 1 km? Quantas vezes algum vulcão entra em erupção na Terra em um período de mil anos?

Para que um experimento seja considerado Poisson devemos ter as seguintes condições:

<table>
<tr>
<th>Condição</th>
<th>Exemplo 1</th>
<th>Exemplo 2</th>
<th>Exemplo 3</th>
</tr>
<tr>
<td>
Probabilidade de uma ocorrência é a mesma para dois intervalos quaisquer de igual tamanho.
</td>
<td>
A chance de falhas numa linha de produção é a mesma hoje e amanhã.
</td>
<td>
O número médio de buracos numa estrada ruim é o mesmo em qualquer intervalo de mesmo comprimento (por exemplo, 1 km).
</td>
<td>
O número médio de erupções vulcânicas por período de mil anos é o mesmo na era atual e na idade da pedra.
</td>
</tr>
<tr>
<td>
A ocorrência ou não num dado intervalo é independente da ocorrência ou não em outro intervalo.
</td>
<td>
O número de falhas hoje não impacta o número de falhas amanhã.
</td>
<td>
O número de buracos no km 23 não impacta o número de buracos no km 42.
</td>
<td>
O número de erupções vulcânicas nos últimos mil anos não influencia o número de erupções nos próximos mil anos.
</td>
</table>

Representamos matemáticamente que uma variável aleatória $X$ é distribuída segundo uma distribuição de Poisson de parâmetro $\lambda$ com a expressão:

$$X \sim Poisson(\lambda)$$

Lembre-se que uma variável aleatória é definida por duas coisas:

- Os possíveis valores da variável aleatória;

- A probabilidade de cada valor.

Em uma variável aleatória $X \sim Poisson(\lambda)$ os possíveis valores de $X$ são os números naturais (0, 1, 2, ...), e a probabilidade de cada valor possível é dada pela função de probabilidade (ou *probability mass function*):

$$P(X = x) = \frac{e^{-\lambda} \lambda^{x}}{x!}$$

A média e variância de uma variável Poisson são $\mu_{X} = \lambda$ e $\sigma^2_{X} = \lambda$ também!

Por exemplo, se em um servidor web chegam em média 10 requisições por minuto, qual a probabilidade de que cheguem exatamente 13 requisições? Calculando:

$$P(X = 13) = \frac{e^{-10} 10^{13}}{13!} = 7.291\%$$




**Observação:** Explore os comandos de `stats.poisson`. <sup>[http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html]</sup> 

Dica: na hora de desenvolver seu código Python, lembre-se de que a palavra `lambda` não pode ser usada como nome de variável, pois é uma palavra reservada da linguagem Python!

___
### <font color='blue'>Problema 2</font>

**Esse exercício irá explorar modelos de distribuição de Poisson.**

Uma fábrica produz determinado veículo. O gerente de vendas fechou um negócio que implica na produção de pelo menos 110 unidades nos próximos dois meses. Para isso, será construída uma nova linha de montagem com capacidade para produzir em média 50 veículos por mês (considere meses de 30 dias). A linha funcionará ininterruptamente. Além disso, apenas um veículo é produzido por vez. Considere que um modelo Poisson seja adequado para a quantidade de veículos produzidos.
   1. Qual a probabilidade da produção ser igual a 100 veículos nos próximos dois meses?
   2. Qual a probabilidade da produção ser de pelo menos 100 veículos nos próximos dois meses?
   3. Qual a probabilidade da produção ser entre 100 e 110 veículos nos próximos dois meses?
   4. Se forem produzidos de pelo menos 100 veículos nos próximo dois meses, qual a probabilidade do gerente cumprir a meta negociada?
   5. Caso a meta seja cumprida, o lucro será da ordem de $250$ mil, caso não seja, o lucro cai para $200$ mil. Qual é o lucro esperado e seu desvio-padrão?

**Item 1**

**Atividade:** Vamos pensar um pouco: se a taxa média de produção de veículos em um mês é de 50 veículos, qual a taxa média de produção de veículos *por período de dois meses*?

In [None]:
# esp = # Insira seu resultado da esperança aqui. Valor da taxa

In [None]:
esp = 100

Agora podemos responder o item 1.

**Atividade:** Use a fórmula da função de probabilidade de Poisson para calcular a probabilidade desejada.

In [None]:
from math import exp, factorial

# Insira seu código aqui.


**Atividade:** Compare com o resultado obtido usando `stats.poisson.pmf`

In [None]:
# Insira seu código aqui.


**Item 2**

Para responder o item 2 precisamos da função de probabilidade acumulada. Queremos saber quanto vale $P(Y \ge 100)$. Basta observar que 

$$
\begin{align}
P(Y \ge 100) & = 1 - P(Y \lt 100) \\
             & = 1 - P(Y \le 99)
\end{align}
$$

Podemos calcular $P(Y \le 99)$ usando `stats.poisson.cdf`.

**Atividade:** Faça você mesmo!

In [None]:
# Insira seu código aqui.


**Item 3**

Vamos pensar um pouco no item 3: queremos calcular $P(100 \le Y \le 110)$. Como proceder? Lembre-se da fórmula da probabilidade da união de conjuntos:

$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$

Com isso podemos calcular o que queremos aqui:

**Atividade:** Complete a fórmula abaixo segundo a fórmula da união de conjuntos:

$$P(Y \le 110) = P(Y \le 99) + \cdots$$

**Atividade:** Calcule $P(100 \le Y \le 110)$ usando `stats.poisson.cdf`.

In [None]:
#item 3
#P(100<=Y<=110)=P(Y<=110)-P(Y<100)=P(Y<=110)-P(Y<=99)
print('P(100<=Y<=110)=', "%1.5f "%(stats.poisson.cdf(110,esp)-stats.poisson.cdf(99,esp)))

**Item 4**

No item 4, a chave para resolver o exercício é traduzir a pergunta em termos matemáticos. A pergunta:

- "Se forem produzidos de pelo menos 100 veículos nos próximo dois meses, qual a probabilidade do gerente cumprir a meta negociada?"

- é equivalente a "Dado que 100 veículos ou mais são produzidos com certeza, qual a probabilidade de que 110 ou mais veículos sejam produzidos?"

- ou então "Qual a probabilidade de que 110 ou mais veículos sejam produzidos dado que 100 veículos ou mais certamente são produzidos?"

**Atividade:** Traduza a pergunta em uma expressão matemática.

**Atividade:** Use a fórmula da probabilidade condicional para expandir a expressão da pergunta.

**Atividade:** Use `stats.poisson.cdf` para calcular a resposta.

In [None]:
#item 4
# Insira seu código aqui.


**Item 5**

Finalmente, para o item 5, vamos pensar: qual o experimento em questão agora? Qual a variável aleatória sobre a qual queremos saber a média?

**Atividade**: Faça você mesmo!

In [None]:
#item 5
#Y~ Poisson(100) 100 de media a cada dois meses
p = stats.poisson.cdf(109,100)

#L: lucro 
# Insira seu código aqui.
