 ___
# Atividade: Modelos probabilísticos discretos
___

## Aula 12

**Referência de Leitura:**
1. Magalhães e Lima (7ª. Edição): Seções 3.2 e 3.3

**Hoje:**
1.	Descrever modelos discretos quanto aos resultados teóricos.
2.	Explicar a utilização de modelos probabilísticos no contexto da literatura estatística.
3.	Contrastar resultados teóricos e empíricos.
4.	Fechamento do conteúdo.

**Próxima aula:**
1. Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Capítulo 6 - Seção 6.1.

___

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import math
from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.
import itertools #importante para gerar todos os resultados possíveis!!


___
## <font color='blue'>Exercício 1</font>

### <font color='red'>**Publicar no github até dia 10/04 INDIVIDUAL **</font>


#### Este exercício irá explorar  construção de árvore de probabilidades com eventos e construção da distribuição de probabilidades de uma variável aleatória discreta. Ainda, irá explorar o modelo de distribuição probabilística Binomial

Um resistor de 100K Ohms comprado na Santa Efigênia tem probabilidade de falha de 5%, segundo um fabricante ruim.

Ainda, por suposição, admita que os resistores falhem de forma independente entre si.

Um aluno de engenharia compra um pacote contendo $n$ resistores.

1. Assuma $n=3$ e faça os itens a seguir.
  1. Monte o espaço amostral que combine todos os resultados possíveis de Falha e não Falha desses $n$ resistores. Ainda, calcule a probabilidade de cada resultado do espaço amostral acontecer.
  2. Se $Y$ representa o número de resistores que falham em um pacotinho com $n$ resistores, então construa a distribuição de probabilidades de $Y$.
  3. Calcule a média e o desvio padrão de $Y$. Interprete os resultados.
  4. Utilizando o modelo probabilístico da distribuição Binomial, encontre a distribuição de probabilidades de cada possível valor de $Y$. Calcule também $E(Y)$ e $Var(Y)$. Compare com as distribuições de probabilidades obtidas nos itens anteriores e discuta porque esses valores são iguais ou diferentes!
   
2. Assuma $n=7$ e repita os itens A) a D) anteriores. No caso de $n=7$ ou maiores quantidades de resistores em um pacotinho, qual a viabilidade de construir a distribuição de probabilidades do número de resistores com defeitos quando $n$ não é pequeno seguindo os itens de A) a C)?
 
3. Com $n=100$, por exemplo, é extremamente inviável a construção de árvore de probabilidades até mesmo utilizando a poderosa ferramenta Python. 
  1. No caso assuma $n=100$ e repita o item 1.D) anterior. 
  2. Ainda, calcule a probabilidade de, em um pacote com 100 resistores, pelo menos a metade deles apresentarem falha?


A seguir, um resumo sobre o modelo teórico Binomial!    
> 

> **DISTRIBUIÇÃO BINOMIAL - TEORIA:**

> É responsável por modelar uma variável $Y$ definida pelo Número de sucessos em $n$ tentativas, cuja probabilidade de sucesso é dada por $p$. Assim, dizemos que $Y$~$Bin(n,p)$ e lê-se: $Y$ segue uma distribuição binomial com $n$ tentativas e $p$ como probabilidade de sucesso. 

> A função de probabilidade nesse caso é dada por:
$P(Y=y)=\left(
\begin{array}{c}
    n \\
    y
\end{array}\right) p^y (1-p)^{(n-y)}$

> Para um experimento ter as probabilidade dos números de sucessos modeladas por uma distribuição Binomial, o mesmo precisa ter as seguintes propriedades:
* é uma contagem de $n$ repetições (ou tentativas ou ensaios) idênticas;
* cada repetição tem apenas 2 resultados possíveis: um é denominado sucesso e o outro, fracasso;
* a probabilidade de sucesso para cada ensaio é denominada $p$ e será constante em cada repetição. Então, a probabilidade de fracasso $(1-p)$ também não varia de tentativa para tentativa;
* As tentativas são independentes.


> **DISTRIBUIÇÃO BINOMIAL - PYTHON:** <sup> [https://en.wikipedia.org/wiki/SciPy]

> Algumas funções úteis para desenvolver seu código: <sup> [http://docs.scipy.org/doc/scipy-0.16.1/reference/generated/scipy.stats.binom.html]
* $P(Y=y)$: `stats.binom.pmf(y, n, p)`
* $P(Y\leq y)$: `stats.binom.cdf(y, n, p)`
* $E(Y)$ e $Var(Y)$: `stats.binom.stats(n, p, moments='mv')`



In [2]:
#item 1
n=3
#item 2
#n=7

In [3]:
import itertools #importante para gerar todos os resultados possíveis!!

In [4]:
possibilidades = ["S", "F"]

In [5]:
prob = {"S": 0.95, "F":0.05}

In [6]:
arranjos = itertools.product(possibilidades, repeat=n)
espaco_amostral = list(arranjos)

In [7]:
espaco_amostral

[('S', 'S', 'S'),
 ('S', 'S', 'F'),
 ('S', 'F', 'S'),
 ('S', 'F', 'F'),
 ('F', 'S', 'S'),
 ('F', 'S', 'F'),
 ('F', 'F', 'S'),
 ('F', 'F', 'F')]

In [8]:
prob_linhas = []

for res in espaco_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)
    print("Probabilidade de ",res," é igual a ","%3.5f"%p)

Probabilidade de  ('S', 'S', 'S')  é igual a  0.85737
Probabilidade de  ('S', 'S', 'F')  é igual a  0.04512
Probabilidade de  ('S', 'F', 'S')  é igual a  0.04512
Probabilidade de  ('S', 'F', 'F')  é igual a  0.00238
Probabilidade de  ('F', 'S', 'S')  é igual a  0.04512
Probabilidade de  ('F', 'S', 'F')  é igual a  0.00238
Probabilidade de  ('F', 'F', 'S')  é igual a  0.00238
Probabilidade de  ('F', 'F', 'F')  é igual a  0.00013


In [9]:
"%3.5f"%sum(prob_linhas)

'1.00000'

In [10]:
# Dicionário para acumular a variável aleatória. 
valores_Y = {}

In [11]:
for i in range(len(espaco_amostral)):
    y = espaco_amostral[i].count("F")
    # Checar antes se a chave está no dicionário
    if y in valores_Y:
        valores_Y[y] += prob_linhas[i]
    else:
        valores_Y[y] = prob_linhas[i]
        

In [12]:
print("Distribuição de probabilidades da variável aleatória $Y$ - falhas")
print('')
for y in valores_Y:
    print("Falhas: ", y, " Probabilidade", "%6.5f "%valores_Y[y])

Distribuição de probabilidades da variável aleatória $Y$ - falhas

Falhas:  0  Probabilidade 0.85737 
Falhas:  1  Probabilidade 0.13537 
Falhas:  2  Probabilidade 0.00713 
Falhas:  3  Probabilidade 0.00013 


In [13]:
media= (0*0.85737)+0.13537*1+0.00713*2+0.00013
media

0.14975999999999998

In [14]:
var=0.85737*(0-media)**2+0.13537*(1-media)**2+0.00713*(2-media)**2+0.00013*(3-media)**2


In [15]:
DP=math.sqrt(var)
DP

0.37756332872777776

In [16]:
valores_C = {}
for i in range(len(espaco_amostral)):
    c = espaco_amostral[i].count("F")
    # Checar antes se a chave está no dicionário
    if c in valores_C:
        valores_C[c] += prob_linhas[i]
    else:
        valores_C[c] = prob_linhas[i]
    
    

In [17]:
print("Distribuição de probabilidades da variável aleatória $X$ - comissão")
print('')
for c in valores_C:
    print("Falha: ", c, " Probabilidade", "%6.5f "%valores_C[c])

Distribuição de probabilidades da variável aleatória $X$ - comissão

Falha:  0  Probabilidade 0.85737 
Falha:  1  Probabilidade 0.13537 
Falha:  2  Probabilidade 0.00713 
Falha:  3  Probabilidade 0.00013 


In [18]:
n=7
possibilidades = ["S", "F"]
prob = {"S": 0.95, "F":0.05}
arranjos = itertools.product(possibilidades, repeat=n)
espaco_amostral = list(arranjos)
prob_linhas = []

for res in espaco_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)
    print("Probabilidade de ",res," é igual a ","%3.5f"%p)

Probabilidade de  ('S', 'S', 'S', 'S', 'S', 'S', 'S')  é igual a  0.69834
Probabilidade de  ('S', 'S', 'S', 'S', 'S', 'S', 'F')  é igual a  0.03675
Probabilidade de  ('S', 'S', 'S', 'S', 'S', 'F', 'S')  é igual a  0.03675
Probabilidade de  ('S', 'S', 'S', 'S', 'S', 'F', 'F')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'S', 'F', 'S', 'S')  é igual a  0.03675
Probabilidade de  ('S', 'S', 'S', 'S', 'F', 'S', 'F')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'S', 'F', 'F', 'S')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'S', 'F', 'F', 'F')  é igual a  0.00010
Probabilidade de  ('S', 'S', 'S', 'F', 'S', 'S', 'S')  é igual a  0.03675
Probabilidade de  ('S', 'S', 'S', 'F', 'S', 'S', 'F')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'F', 'S', 'F', 'S')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'F', 'S', 'F', 'F')  é igual a  0.00010
Probabilidade de  ('S', 'S', 'S', 'F', 'F', 'S', 'S')  é igual a  0.00193
Probabilidade de  ('S', 'S', 'S', 'F',

In [19]:
"%3.5f"%sum(prob_linhas)
valores_Y = {}
for i in range(len(espaco_amostral)):
    y = espaco_amostral[i].count("F")
    # Checar antes se a chave está no dicionário
    if y in valores_Y:
        valores_Y[y] += prob_linhas[i]
    else:
        valores_Y[y] = prob_linhas[i]
        

In [20]:
print("Distribuição de probabilidades da variável aleatória $Y$ - falhas")
print('')
for y in valores_Y:
    print("Falhas: ", y, " Probabilidade", "%6.5f "%valores_Y[y])

Distribuição de probabilidades da variável aleatória $Y$ - falhas

Falhas:  0  Probabilidade 0.69834 
Falhas:  1  Probabilidade 0.25728 
Falhas:  2  Probabilidade 0.04062 
Falhas:  3  Probabilidade 0.00356 
Falhas:  4  Probabilidade 0.00019 
Falhas:  5  Probabilidade 0.00001 
Falhas:  6  Probabilidade 0.00000 
Falhas:  7  Probabilidade 0.00000 


In [40]:
media= (0*0.85737)+0.13537*1+0.00713*2+0.00013*3
media

0.15002

In [41]:
var=0.85737*(0-media)**2+0.13537*(1-media)**2+0.00713*(2-media)**2+0.00013*(3-media)**2
DP=math.sqrt(var)
DP

0.37756323920636126

In [42]:
# DP=math.sqrt(var)
# DP

In [43]:
valores_C = {}
for i in range(len(espaco_amostral)):
    c = espaco_amostral[i].count("F")
    # Checar antes se a chave está no dicionário
    if c in valores_C:
        valores_C[c] += prob_linhas[i]
    else:
        valores_C[c] = prob_linhas[i]
valores_C   
    

{0: 0.6983372960937497,
 1: 0.25728216171874996,
 2: 0.04062349921874999,
 3: 0.0035634648437499984,
 4: 0.00018755078124999995,
 5: 5.922656250000004e-06,
 6: 1.0390625000000004e-07,
 7: 7.812500000000004e-10}

In [44]:
print("Distribuição de probabilidades da variável aleatória $X$ - comissão")
print('')
for c in valores_C:
    print("Falha: ", c, " Probabilidade", "%6.5f "%valores_C[c])

Distribuição de probabilidades da variável aleatória $X$ - comissão

Falha:  0  Probabilidade 0.69834 
Falha:  1  Probabilidade 0.25728 
Falha:  2  Probabilidade 0.04062 
Falha:  3  Probabilidade 0.00356 
Falha:  4  Probabilidade 0.00019 
Falha:  5  Probabilidade 0.00001 
Falha:  6  Probabilidade 0.00000 
Falha:  7  Probabilidade 0.00000 


In [45]:
media=0
var=0
for y in valores_Y:
    media+=(y*valores_Y[y])
for y in valores_Y:
    var+=((y-media)**2)*valores_Y[y]
dp=math.sqrt(var)
print("média: ",media)
print("desvio padrão: ",dp)

média:  0.35
desvio padrão:  0.5766281297335397


In [46]:
print("Probabilidades:")
for i in range(8):
    print(stats.binom.pmf(i, 7, 0.05))
print("")
print("Média e variância")
stats.binom.stats(7, 0.05, moments='mv')

Probabilidades:
0.698337296094
0.257282161719
0.0406234992188
0.00356346484375
0.00018755078125
5.92265625e-06
1.0390625e-07
7.8125e-10

Média e variância


(array(0.35000000000000003), array(0.3325))

In [47]:
print("Probabilidades:")
for i in range(101):
    print(stats.binom.pmf(i, 100, 0.05))

Probabilidades:
0.00592052922033
0.031160680107
0.0811817718578
0.139575677931
0.17814264157
0.18001782727
0.150014856059
0.106025537365
0.0648708879929
0.034901296464
0.0167158840959
0.00719822760112
0.00280983445833
0.00100107462483
0.000327419144212
9.88001628147e-05
2.76250455238e-05
7.18422236534e-06
1.74353934597e-06
3.96039408227e-07
8.44189264904e-08
1.69261005495e-08
3.19895201772e-09
5.70979994009e-10
9.64154814446e-11
1.54264770311e-11
2.34207647234e-12
3.37843389772e-13
4.63582094988e-14
6.05769706699e-15
7.54555248695e-16
8.96754964494e-17
1.01769889063e-17
1.10372447468e-18
1.14472971832e-19
1.13612272796e-20
1.07964879119e-21
9.82895058836e-23
8.57650813112e-24
7.17602569675e-25
5.75970483555e-26
4.43622965511e-27
3.27991916857e-28
2.32846158846e-29
1.58758744667e-30
1.03982335689e-31
6.54351082709e-33
3.95688224706e-34
2.29950393744e-35
1.28436310147e-36
6.89500191315e-38
3.55779252484e-39
1.7644922441e-40
8.410687956e-42
3.8528492586e-43
1.6959910612e-44
7.17289452575e

In [48]:
print("Média e variância")
stats.binom.stats(100, 0.05, moments='mv')
    

Média e variância


(array(5.0), array(4.75))

In [57]:
soma=0
for i in range(101):
    if i > 49:
        soma+=stats.binom.pmf(i, 100, 0.05)
print("Probabilidade de pelo menos 50 resistores falharem")
print(soma)

Probabilidade de pelo menos 50 resistores falharem
7.26930745611e-38


In [61]:
c=1-stats.binom.cdf(49,100,0.05)
c

1.1102230246251565e-16