 ___
# Atividade: Modelos probabilísticos discretos
___

## Aula 12

**Referência de Leitura:**
1. Magalhães e Lima (7ª. Edição): Seções 3.2 e 3.3

**Hoje:**
1.	Descrever modelos discretos quanto aos resultados teóricos.
2.	Explicar a utilização de modelos probabilísticos no contexto da literatura estatística.
3.	Contrastar resultados teóricos e empíricos.
4.	Fechamento do conteúdo.

**Próxima aula:**
1. Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Capítulo 6 - Seção 6.1.

___

In [147]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import math
from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.
import itertools #importante para gerar todos os resultados possíveis!!


___
## <font color='blue'>Exercício 1</font>

### <font color='red'>**Publicar no github até dia 10/04 INDIVIDUAL **</font>


#### Este exercício irá explorar  construção de árvore de probabilidades com eventos e construção da distribuição de probabilidades de uma variável aleatória discreta. Ainda, irá explorar o modelo de distribuição probabilística Binomial

Um resistor de 100K Ohms comprado na Santa Efigênia tem probabilidade de falha de 5%, segundo um fabricante ruim.

Ainda, por suposição, admita que os resistores falhem de forma independente entre si.

Um aluno de engenharia compra um pacote contendo $n$ resistores.

1. Assuma $n=3$ e faça os itens a seguir.
  1. Monte o espaço amostral que combine todos os resultados possíveis de Falha e não Falha desses $n$ resistores. Ainda, calcule a probabilidade de cada resultado do espaço amostral acontecer.
  2. Se $Y$ representa o número de resistores que falham em um pacotinho com $n$ resistores, então construa a distribuição de probabilidades de $Y$.
  3. Calcule a média e o desvio padrão de $Y$. Interprete os resultados.
  4. Utilizando o modelo probabilístico da distribuição Binomial, encontre a distribuição de probabilidades de cada possível valor de $Y$. Calcule também $E(Y)$ e $Var(Y)$. Compare com as distribuições de probabilidades obtidas nos itens anteriores e discuta porque esses valores são iguais ou diferentes!
   
2. Assuma $n=7$ e repita os itens A) a D) anteriores. No caso de $n=7$ ou maiores quantidades de resistores em um pacotinho, qual a viabilidade de construir a distribuição de probabilidades do número de resistores com defeitos quando $n$ não é pequeno seguindo os itens de A) a C)?
 
3. Com $n=100$, por exemplo, é extremamente inviável a construção de árvore de probabilidades até mesmo utilizando a poderosa ferramenta Python. 
  1. No caso assuma $n=100$ e repita o item 1.D) anterior. 
  2. Ainda, calcule a probabilidade de, em um pacote com 100 resistores, pelo menos a metade deles apresentarem falha?


A seguir, um resumo sobre o modelo teórico Binomial!    
> 

> **DISTRIBUIÇÃO BINOMIAL - TEORIA:**

> É responsável por modelar uma variável $Y$ definida pelo Número de sucessos em $n$ tentativas, cuja probabilidade de sucesso é dada por $p$. Assim, dizemos que $Y$~$Bin(n,p)$ e lê-se: $Y$ segue uma distribuição binomial com $n$ tentativas e $p$ como probabilidade de sucesso. 

> A função de probabilidade nesse caso é dada por:
$P(Y=y)=\left(
\begin{array}{c}
    n \\
    y
\end{array}\right) p^y (1-p)^{(n-y)}$

> Para um experimento ter as probabilidade dos números de sucessos modeladas por uma distribuição Binomial, o mesmo precisa ter as seguintes propriedades:
* é uma contagem de $n$ repetições (ou tentativas ou ensaios) idênticas;
* cada repetição tem apenas 2 resultados possíveis: um é denominado sucesso e o outro, fracasso;
* a probabilidade de sucesso para cada ensaio é denominada $p$ e será constante em cada repetição. Então, a probabilidade de fracasso $(1-p)$ também não varia de tentativa para tentativa;
* As tentativas são independentes.


> **DISTRIBUIÇÃO BINOMIAL - PYTHON:** <sup> [https://en.wikipedia.org/wiki/SciPy]

> Algumas funções úteis para desenvolver seu código: <sup> [http://docs.scipy.org/doc/scipy-0.16.1/reference/generated/scipy.stats.binom.html]
* $P(Y=y)$: `stats.binom.pmf(y, n, p)`
* $P(Y\leq y)$: `stats.binom.cdf(y, n, p)`
* $E(Y)$ e $Var(Y)$: `stats.binom.stats(n, p, moments='mv')`



In [148]:
import itertools
possibilidades = ["F", "NF"]#Falha e Não Falha
prob = {"F": 0.05, "NF":0.95}
n = 3

arranjos = itertools.product(possibilidades, repeat=n)
espaco_amostral = list(arranjos)
espaco_amostral

[('F', 'F', 'F'),
 ('F', 'F', 'NF'),
 ('F', 'NF', 'F'),
 ('F', 'NF', 'NF'),
 ('NF', 'F', 'F'),
 ('NF', 'F', 'NF'),
 ('NF', 'NF', 'F'),
 ('NF', 'NF', 'NF')]

In [149]:
prob_linhas = []

for res in espaco_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)
    print("Probabilidade de ",res," é igual a ","%3.5f"%p)

Probabilidade de  ('F', 'F', 'F')  é igual a  0.00013
Probabilidade de  ('F', 'F', 'NF')  é igual a  0.00238
Probabilidade de  ('F', 'NF', 'F')  é igual a  0.00238
Probabilidade de  ('F', 'NF', 'NF')  é igual a  0.04512
Probabilidade de  ('NF', 'F', 'F')  é igual a  0.00238
Probabilidade de  ('NF', 'F', 'NF')  é igual a  0.04512
Probabilidade de  ('NF', 'NF', 'F')  é igual a  0.04512
Probabilidade de  ('NF', 'NF', 'NF')  é igual a  0.85737


In [150]:
n, p = 3, 0.05

In [151]:
L = []
Py = []

for i in range(n+1):
    P = stats.binom.pmf(i, n, p)
    L.append(i)
    L.append(P)
    Py.append(L)

print(Py[-1])

[0, 0.857375, 1, 0.135375, 2, 0.0071250000000000072, 3, 0.000125]


In [152]:
c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        num = i
    if c%2 != 0:
        v = num*i
        l.append(v)
    c +=1
    
Xb = sum(l)
Xb

0.14999999999999999

In [153]:
c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        oo = (i-Xb)**2
    if c%2 != 0:
        v = i*oo
        l.append(v)
        
    c +=1

var = sum(l)
dp = math.sqrt(var)
print("Variancia: ",var)
print("Desvio Padrão: ",dp)

Variancia:  0.1425
Desvio Padrão:  0.3774917217635375


In [154]:
print(stats.binom.stats(n, p, moments='mv'))

M = n * p #media
print("Média: ",M)

c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        oo = (i-M)**2
    if c%2 != 0:
        v = i*oo
        l.append(v)
        
    c +=1

var = sum(l)
dp = math.sqrt(var)
print("Variancia: ",var)
print("Desvio Padrão: ",dp)

(array(0.15000000000000002), array(0.14250000000000002))
Média:  0.15000000000000002
Variancia:  0.1425
Desvio Padrão:  0.3774917217635375


A media de resistores com falhas por pacote é 0.15, como a falha ou não falha são independentes, a media é a probabilidade de falha vezes n, a variancia mostra que a dispersão de relativamente pequena e é igual a calculada anteriormente.

In [155]:
#item 2
n,p=7, 0.005
arranjos = itertools.product(possibilidades, repeat=n)
espaco_amostral = list(arranjos)

prob_linhas = []

for res in espaco_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)
    print("Probabilidade de ",res," é igual a ","%3.5f"%p)

Probabilidade de  ('F', 'F', 'F', 'F', 'F', 'F', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'F', 'F', 'NF')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'F', 'NF', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'F', 'NF', 'NF')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'NF', 'F', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'NF', 'F', 'NF')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'NF', 'NF', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'F', 'NF', 'NF', 'NF')  é igual a  0.00001
Probabilidade de  ('F', 'F', 'F', 'NF', 'F', 'F', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'NF', 'F', 'F', 'NF')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'NF', 'F', 'NF', 'F')  é igual a  0.00000
Probabilidade de  ('F', 'F', 'F', 'NF', 'F', 'NF', 'NF')  é igual a  0.00001
Probabilidade de  ('F', 'F', 'F', 'NF', 'NF', 'F', 'F')  é igual a  0.00000
Probabilidade de

In [156]:
n,p=7, 0.05

In [157]:
L = []
Py = []

for i in range(n+1):
    P = stats.binom.pmf(i, n, p)
    L.append(i)
    L.append(P)
    Py.append(L)

print(Py[-1])

[0, 0.69833729609374995, 1, 0.25728216171875012, 2, 0.040623499218750039, 3, 0.0035634648437500001, 4, 0.00018755078124999986, 5, 5.922656250000019e-06, 6, 1.0390624999999968e-07, 7, 7.8125000000000038e-10]


In [158]:
c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        num = i
    if c%2 != 0:
        v = num*i
        l.append(v)
    c +=1
    
Xb = sum(l)
Xb

0.35000000000000026

In [159]:
c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        oo = (i-Xb)**2
    if c%2 != 0:
        v = i*oo
        l.append(v)
        
    c +=1

var = sum(l)
dp = math.sqrt(var)
print("Variancia: ",var)
print("Desvio Padrão: ",dp)

Variancia:  0.3325
Desvio Padrão:  0.5766281297335399


In [160]:
print(stats.binom.stats(n, p, moments='mv'))

M = n * p #media
print("Média: ",M)

c =0
l = []
for i in Py[-1]:    
    if c%2 == 0:
        oo = (i-M)**2
    if c%2 != 0:
        v = i*oo
        l.append(v)
        
    c +=1

var = sum(l)
dp = math.sqrt(var)
print("Variancia: ",var)
print("Desvio Padrão: ",dp)

(array(0.35000000000000003), array(0.3325))
Média:  0.35000000000000003
Variancia:  0.3325
Desvio Padrão:  0.5766281297335399


Novamente, a média é n vezes p e, porém a Var é maior, mostrando uma maior dispersão em relação ao primeiro pacote, uma vez que existem mais resistores

In [170]:
#3
n = 100
p = 0.05
M = n*p
for i in range(n+1):
    print(i,stats.binom.pmf(i, n, p))


0 0.00592052922033
1 0.031160680107
2 0.0811817718578
3 0.139575677931
4 0.17814264157
5 0.18001782727
6 0.150014856059
7 0.106025537365
8 0.0648708879929
9 0.034901296464
10 0.0167158840959
11 0.00719822760112
12 0.00280983445833
13 0.00100107462483
14 0.000327419144212
15 9.88001628147e-05
16 2.76250455238e-05
17 7.18422236534e-06
18 1.74353934597e-06
19 3.96039408227e-07
20 8.44189264904e-08
21 1.69261005495e-08
22 3.19895201772e-09
23 5.70979994009e-10
24 9.64154814446e-11
25 1.54264770311e-11
26 2.34207647234e-12
27 3.37843389772e-13
28 4.63582094988e-14
29 6.05769706699e-15
30 7.54555248695e-16
31 8.96754964494e-17
32 1.01769889063e-17
33 1.10372447468e-18
34 1.14472971832e-19
35 1.13612272796e-20
36 1.07964879119e-21
37 9.82895058836e-23
38 8.57650813112e-24
39 7.17602569675e-25
40 5.75970483555e-26
41 4.43622965511e-27
42 3.27991916857e-28
43 2.32846158846e-29
44 1.58758744667e-30
45 1.03982335689e-31
46 6.54351082709e-33
47 3.95688224706e-34
48 2.29950393744e-35
49 1.284363101

In [173]:
print(stats.binom.stats(n, p, moments='mv'))
print(M)
print(1-(stats.binom.cdf(n/2, n, p)))

(array(5.0), array(4.75))
5.0
1.11022302463e-16


### EX1 da AULA 12

In [162]:

#a
p = 0.55
n = 10
y = 5
x5 = stats.binom.pmf(y, n, p)
x5

0.23403270759257819

In [163]:
#b
y3 = 1-stats.binom.cdf(3-1, n, p)
y3

0.97260816073867185

In [164]:
#c
y5 = 1-stats.binom.cdf(y-1, n, p)
y5

0.73843729924550816

In [165]:
#d
import math

EVar = stats.binom.stats(n, p, moments='mv')

print("Média: ",EVar[0])
dp = math.sqrt(EVar[0])
print("Desvio Padrão: ",dp)

Média:  5.5
Desvio Padrão:  2.345207879911715
