___
# Atividade: Modelos probabilísticos discretos e Dados
___

## Aula 10

**Referência de Leitura:**
1. Magalhães e Lima (7ª. Edição): Seções 3.2 e 3.3

**Hoje:**
1.	Descrever modelos discretos quanto aos resultados teóricos.
2.	Explicar a utilização de modelos probabilísticos no contexto da literatura estatística.
3.	Contrastar resultados teóricos e empíricos.
4.	Fechamento do conteúdo.

**Próxima aula:**
1. Leitura prévia necessária: Magalhães e Lima (7ª. Edição): Seção 5.1 (pág. 137) e Seção 5.2 (pág. 146).
___

In [242]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import math
import numpy as np

from scipy import stats #importa apenas as funções de estatísticas da biblioteca SciPy.
import itertools #importante para gerar todos os resultados possíveis!!


___
## <font color='blue'>Exercício 1</font>

Um resistor de 100K Ohms comprado na Santa Ifigênia tem probabilidade de falha de 5%, segundo um fabricante ruim.

Ainda, assuma os resistores falham de forma independente entre si.

Um aluno de engenharia compra um pacote contendo $n$ resistores.

1. Assuma $n=3$ e faça os itens a seguir.
  1. Monte o espaço amostral que combine todos os resultados possíveis de Falha e não Falha desses $n$ resistores. Ainda, calcule a probabilidade de cada resultado do espaço amostral acontecer.
  2. Se $Y$ representa o número de resistores que falham em um pacotinho com $n$ resistores, então construa a distribuição de probabilidades de $Y$.
  3. Calcule a média e o desvio padrão de $Y$. Interprete os resultados.
    
2. Assuma $n=7$ e repita os itens A) a C) anteriores. No caso de $n=7$ ou maiores quantidades de resistores em um pacotinho, qual a viabilidade de construir a distribuição de probabilidades do número de resistores com defeitos quando $n$ não é pequeno?
    
3. Encontre a distribuição de probabilidades de cada possível valor de $Y$ utilizando a distribuição Binomial para $n=3$ e $n=7$. Calcule também $E(X)$ e $Var(X)$. Compare com as distribuições de probabilidades obtidas nos itens anteriores e discuta porque esses valores são iguais ou diferentes!
    
> **DISTRIBUIÇÃO BINOMIAL - TEORIA:**

> É responsável por modelar uma variável $Y$ definida pelo Número de sucessos em $n$ tentativas, cuja probabilidade de sucesso é dada por $p$. Assim, dizemos que $Y$~$Bin(n,p)$ e lê-se: $Y$ segue uma distribuição binomial com $n$ tentativas e $p$ como probabilidade de sucesso. 

> A função de probabilidade nesse caso é dada por:
$P(Y=y)=\left(
\begin{array}{c}
    n \\
    y
\end{array}\right) p^y (1-p)^{(n-y)}$

> Para um experimento ter as probabilidade dos números de sucessos modeladas por uma distribuição Binomial, o mesmo precisa ter as seguintes propriedades:
* é uma contagem de $n$ repetições (ou tentativas ou ensaios) idênticas;
* cada repetição tem apenas 2 resultados possíveis: um é denominado sucesso e o outro, fracasso;
* a probabilidade de sucesso para cada ensaio é denominada $p$ e será constante em cada repetição. Então, a probabilidade de fracasso $(1-p)$ também não varia de tentativa para tentativa;
* As tentativas são independentes.


> **DISTRIBUIÇÃO BINOMIAL - PYTHON:** <sup> [https://en.wikipedia.org/wiki/SciPy]

> Algumas funções úteis para desenvolver seu código: <sup> [http://docs.scipy.org/doc/scipy-0.16.1/reference/generated/scipy.stats.binom.html]
* $P(Y=y)$: `stats.binom.pmf(y, n, p)`
* $P(Y\leq y)$: `stats.binom.cdf(y, n, p)`
* $E(X)$ e $Var(X)$: `stats.binom.stats(n, p, moments='mv')`


# Item 1
    

** A) **

In [243]:
n=3
#F=Funcionar N=Não Funcionar
possibilidades = ["F", "N"]
prob = {"F":0.95, "N":0.05}
arranjos = itertools.product(possibilidades, repeat = n)
espaço_amostral = list(arranjos)

In [244]:
print('Espaço amostral:')
espaço_amostral

Espaço amostral:


[('F', 'F', 'F'),
 ('F', 'F', 'N'),
 ('F', 'N', 'F'),
 ('F', 'N', 'N'),
 ('N', 'F', 'F'),
 ('N', 'F', 'N'),
 ('N', 'N', 'F'),
 ('N', 'N', 'N')]

In [245]:
prob_linhas = []

for res in espaço_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)
print('Probabilidade de cada linha acontecer:')
prob_linhas

Probabilidade de cada linha acontecer:


[0.8573749999999999,
 0.045125,
 0.045125,
 0.0023750000000000004,
 0.045125,
 0.0023750000000000004,
 0.0023750000000000004,
 0.00012500000000000003]

In [246]:
valores_X = {}

In [247]:
for i in range(len(espaço_amostral)):
    falhar = espaço_amostral[i].count("N")
    # Checar antes se a chave está no dicionário
    if falhar in valores_X:
        valores_X[falhar] += prob_linhas[i]
    else:
        valores_X[falhar] = prob_linhas[i]
    
    

** B) **

In [248]:
print("Distribuição de probabilidades:")
print()

for k in valores_X:
    print("Para Y = ", k, " a probabilidade é", "%6.5f "%valores_X[k])

Distribuição de probabilidades:

Para Y =  0  a probabilidade é 0.85737 
Para Y =  1  a probabilidade é 0.13537 
Para Y =  2  a probabilidade é 0.00713 
Para Y =  3  a probabilidade é 0.00013 


** C) **

In [249]:
media = 0
for i in valores_X:
    media += i*valores_X[i]

print("Média:")
media

Média:


0.15

In [250]:
variancia = 0
for i in valores_X:
    variancia += ((i - media)**2)*valores_X[i]
desvio_padrao = math.sqrt(variancia)
print("Desvio Padrão:")
desvio_padrao


Desvio Padrão:


0.37749172176353746

# Item 2

In [251]:
n=7
arranjos = itertools.product(possibilidades, repeat = n)
espaço_amostral = list(arranjos)

print('Espaço amostral:')
espaço_amostral

Espaço amostral:


[('F', 'F', 'F', 'F', 'F', 'F', 'F'),
 ('F', 'F', 'F', 'F', 'F', 'F', 'N'),
 ('F', 'F', 'F', 'F', 'F', 'N', 'F'),
 ('F', 'F', 'F', 'F', 'F', 'N', 'N'),
 ('F', 'F', 'F', 'F', 'N', 'F', 'F'),
 ('F', 'F', 'F', 'F', 'N', 'F', 'N'),
 ('F', 'F', 'F', 'F', 'N', 'N', 'F'),
 ('F', 'F', 'F', 'F', 'N', 'N', 'N'),
 ('F', 'F', 'F', 'N', 'F', 'F', 'F'),
 ('F', 'F', 'F', 'N', 'F', 'F', 'N'),
 ('F', 'F', 'F', 'N', 'F', 'N', 'F'),
 ('F', 'F', 'F', 'N', 'F', 'N', 'N'),
 ('F', 'F', 'F', 'N', 'N', 'F', 'F'),
 ('F', 'F', 'F', 'N', 'N', 'F', 'N'),
 ('F', 'F', 'F', 'N', 'N', 'N', 'F'),
 ('F', 'F', 'F', 'N', 'N', 'N', 'N'),
 ('F', 'F', 'N', 'F', 'F', 'F', 'F'),
 ('F', 'F', 'N', 'F', 'F', 'F', 'N'),
 ('F', 'F', 'N', 'F', 'F', 'N', 'F'),
 ('F', 'F', 'N', 'F', 'F', 'N', 'N'),
 ('F', 'F', 'N', 'F', 'N', 'F', 'F'),
 ('F', 'F', 'N', 'F', 'N', 'F', 'N'),
 ('F', 'F', 'N', 'F', 'N', 'N', 'F'),
 ('F', 'F', 'N', 'F', 'N', 'N', 'N'),
 ('F', 'F', 'N', 'N', 'F', 'F', 'F'),
 ('F', 'F', 'N', 'N', 'F', 'F', 'N'),
 ('F', 'F', 

In [252]:
prob_linhas = []

for res in espaço_amostral:
    p = 1.0
    for e in res:
        p*=prob[e]
    prob_linhas.append(p)

print('Probabilidade de cada linha acontecer:')
prob_linhas

Probabilidade de cada linha acontecer:


[0.6983372960937497,
 0.03675459453124999,
 0.03675459453124999,
 0.0019344523437499997,
 0.03675459453125,
 0.0019344523437500002,
 0.0019344523437499997,
 0.00010181328125,
 0.03675459453124999,
 0.0019344523437499997,
 0.0019344523437499997,
 0.00010181328125,
 0.0019344523437499997,
 0.00010181328125,
 0.00010181328125,
 5.358593750000001e-06,
 0.03675459453124999,
 0.0019344523437499997,
 0.0019344523437499997,
 0.00010181328125,
 0.0019344523437499997,
 0.00010181328125,
 0.00010181328125,
 5.358593750000001e-06,
 0.0019344523437499997,
 0.00010181328125,
 0.00010181328125,
 5.358593750000001e-06,
 0.00010181328125,
 5.358593750000001e-06,
 5.35859375e-06,
 2.8203125e-07,
 0.03675459453124999,
 0.0019344523437499997,
 0.0019344523437499997,
 0.00010181328125,
 0.0019344523437499997,
 0.00010181328125,
 0.00010181328125,
 5.358593750000001e-06,
 0.0019344523437499997,
 0.00010181328125,
 0.00010181328125,
 5.358593750000001e-06,
 0.00010181328125,
 5.358593750000001e-06,
 5.358593

In [253]:
valores_X = {}

for i in range(len(espaço_amostral)):
    falhar = espaço_amostral[i].count("N")
    # Checar antes se a chave está no dicionário
    if falhar in valores_X:
        valores_X[falhar] += prob_linhas[i]
    else:
        valores_X[falhar] = prob_linhas[i]

In [254]:
print("Distribuição de probabilidades:")
print()

for k in valores_X:
    print("Para Y = ", k, " a probabilidade é", "%6.9f "%valores_X[k])

Distribuição de probabilidades:

Para Y =  0  a probabilidade é 0.698337296 
Para Y =  1  a probabilidade é 0.257282162 
Para Y =  2  a probabilidade é 0.040623499 
Para Y =  3  a probabilidade é 0.003563465 
Para Y =  4  a probabilidade é 0.000187551 
Para Y =  5  a probabilidade é 0.000005923 
Para Y =  6  a probabilidade é 0.000000104 
Para Y =  7  a probabilidade é 0.000000001 


In [255]:
media = 0
for i in valores_X:
    media += i*valores_X[i]

print('Média:')    
media

Média:


0.35

In [256]:
variancia = 0
for i in valores_X:
    variancia += ((i - media)**2)*valores_X[i]
desvio_padrao = math.sqrt(variancia)

print('Desvio Padrão:')
desvio_padrao

Desvio Padrão:


0.5766281297335397

** Conforme o n vai se tornando maior, a viabilidade de fazer os cálculos dessa maneira fica cada vez menor **

# Item 3

** Para n=3 **

In [257]:
n = 3
def Binomial(n,p):
    for i in range(n+1):
        print("Para Y = ", i, " a probabilidade é", "%6.9f "%stats.binom.pmf(i, n, p))

print('Distribuição de probabilidades:')
print()
Binomial(n,0.05)


Distribuição de probabilidades:

Para Y =  0  a probabilidade é 0.857375000 
Para Y =  1  a probabilidade é 0.135375000 
Para Y =  2  a probabilidade é 0.007125000 
Para Y =  3  a probabilidade é 0.000125000 


In [258]:
print('Média e Variancia:')
stats.binom.stats(n, 0.05, moments='mv')

Média e Variancia:


(array(0.15000000000000002), array(0.14250000000000002))

** Para n=7 **

In [259]:
n = 7

print('Distribuição de probabilidades:')
print()
Binomial(n,0.05)

Distribuição de probabilidades:

Para Y =  0  a probabilidade é 0.698337296 
Para Y =  1  a probabilidade é 0.257282162 
Para Y =  2  a probabilidade é 0.040623499 
Para Y =  3  a probabilidade é 0.003563465 
Para Y =  4  a probabilidade é 0.000187551 
Para Y =  5  a probabilidade é 0.000005923 
Para Y =  6  a probabilidade é 0.000000104 
Para Y =  7  a probabilidade é 0.000000001 


In [260]:
print('Média e Variancia:')
stats.binom.stats(n, 0.05, moments='mv')

Média e Variancia:


(array(0.35000000000000003), array(0.3325))

** Os resultados são iguais porque o meio da distribuição binomial faz a mesma coisa que foi feito nos primeiros exercícios, porém de uma forma bem mais prática, já que ele calcula as probabilidades a partir de apenas 3 informações fornecidas **

___
## <font color='blue'>Exercício 2</font>

Uma fábrica produz determinado veículo. O gerente de vendas fechou um negócio que implica na produção de pelo menos 110 unidades nos próximos dois meses. Para isso, será construída uma nova linha de montagem com capacidade para produzir em média 50 veículos por mês (considere meses de 30 dias). A linha funcionará ininterruptamente. Além disso, apenas um veículo é produzido por vez. Considere que um modelo Poisson seja adequado para a quantidade de veículos produzidos.
   1. Qual a probabilidade  da produção ser igual a 100 veículos nos próximos dois meses?
   2. Qual a probabilidade  da produção ser de pelo menos 100 veículos nos próximos dois meses?
   3. Qual a probabilidade da produção ser entre 100 e 110 veículos nos próximos dois meses?
   4. Se forem produzidos de pelo menos 100 veículos no próximo mês, qual a probabilidade do gerente cumprir a meta negociada?
   5. Caso o prazo seja cumprido, o lucro será da ordem de $250$ mil, caso não seja, o lucro cai para $200$ mil. Qual é o lucro esperado e seu desvio-padrão?

**Observação:** Explore os comandos de `stats.poisson`. <sup>[http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html]


# Item 1

In [261]:
print('A probabilidade é de',stats.poisson.pmf(100,100))

A probabilidade é de 0.0398609968091


# Item 2

In [262]:
n = 100
probabilidade = 0
for i in range(n):
    probabilidade += stats.poisson.pmf(i,100)
print('A probabilidade é de',1-probabilidade)

A probabilidade é de 0.513298798279


# Item 3

In [263]:
n = range(100,111,1)
probabilidade = 0
for i in n:
    probabilidade += stats.poisson.pmf(i,100)
print('A probabilidade é de',probabilidade)


A probabilidade é de 0.366161449837


# Item 4

In [264]:
n = 100
probabilidade = 0
for i in range(n):
    probabilidade += stats.poisson.pmf(i,100)
A = 1-probabilidade

n2 = 110
probabilidade2 = 0
for i in range(n2):
    probabilidade2 += stats.poisson.pmf(i,100)
B = 1 - probabilidade2
print(stats.poisson.pmf(110,100))

0.0234225494658


___
## <font color='blue'>Exercício 3</font> 
### <font color='red'>**Check para dia 13/09 em DUPLA **</font>

Esse exercício irá explorar uma modelagem de dados reais.

> **Confira alguns itens obrigatórios verificados durante a vistoria do Detran**

> *Todos os veículos, novos ou velhos, precisam passar por uma vistoria todos os anos. (...) O motorista precisa estar atento a alguns itens obrigatórios. Tudo deve funcionar perfeitamente, apresentar bom estado de conservação e estar dentro do prazo de validade.*

> <sup>Fonte: http://extra.globo.com/noticias/brasil/transito-seguro/confira-alguns-itens-obrigatorios-verificados-durante-vistoria-do-detran-10190355.html</sup>

Essa matéria lista 14 itens que são inspecionados pelo Detran, dentre os quais têm-se: extintor de incêndio deve estar dentro do prazo de validade; pneus devem estar em bom estado de conservação; buzina deve funcionar perfeitamente; e cintos de segurança para todos os ocupantes do carro. Se, no final das contas, todos os 14 itens estiverem funcionando perfeitamente, o motorista irá feliz para casa assegurado de que seu carro está sem problemas com a vistoria.

1. A base de dados `Carros.txt` apresenta, para cada um dos três mil carros de passeio vistoriados, duas informações: tipo de carro (1: Popular e 2: Não Popular) e quantidade de itens vistoriados em não conformidade (que pode variar de 0 a 14). 
    1. Considerando todos os carros, analise a quantidade de itens vistoriados em não conformidade. Pela tabela de frequências relativas, calcule a média e variância dessa quantidade. Interprete-os.
    2. Assuma que a variável *Quantidade de itens em não conformidade* possa ser ajustada pelo modelo Binomial com parâmetros $n=14$ e $p=0,10$. Interprete esses parâmetros para o problema em questão e, ainda, discuta se as propriedades da distribuição Binomial estão satisfeitas para o problema aqui me questão.
    
    **Independente da sua resposta anterior, considere que a distribuição binomial seja adequada para modelar a variável de interesse nos próximos itens!**
    3. Utilizando o método `stats.binom.pmf`, obtenha a probabilidade de cada uma das quantidades de itens em não conformidade quando $n=14$ e $p=0,10$. Calcule o valor esperado e a variância da quantidade de itens em não conformidade utilizando o método `stats.binom.stats` e via resultado da Tabela 4.4 do Magalhães e Lima (pág. 125).
    4. Compare as probabilidades teóricas com as frequências relativas observadas nos dados. Para isso, tem-se, por exemplo, as duas opções abaixo para comparar se os resultados empíricos se encaixam com o modelo teórico proposto. 
        - A primeira opção gráfica contrasta a frequência relativa e a probabilidade teórica para uma determinada quantidade de itens em não conformidade! Vide Figura 3.4 do livro Magalhães e Lima (pág. 87). Ou seja, essa opção contrasta a frequência relativa em um valor de $y$ e a probabilidade pontual $P(Y=y)$.
        - A segunda contrasta a frequência relativa acumulada com a probabilidade acumulada até determinada quantidade de itens em não conformidade. Ou seja, compara a frequência relativa acumulada até $y$ com a probabilidade acumulada $P(Y\leq y)$.
    Construa os gráficos de acordo com as duas opções e refine sua conclusão quanto ao uso do modelo teórico para ajustar a variável em questão!
    5. Na prática, qual a necessidade de um modelo probabilístico já que se têm os dados observados?
    6. Considerando apenas os carros populares, o modelo Binomial com parâmetros $n=14$ e $p=0,10$ é adequado para ajustar a variável Quantidade de itens em não conformidade? Se sim, justifique; caso não, sugira novos valores para os parâmetros da distribuição ajuste aos dados.

In [265]:
import os
print('Esperamos trabalhar no diretório')
print(os.getcwd())
carros = pd.read_table('Carros.txt', sep=' ')

Esperamos trabalhar no diretório
C:\Users\Yago\Desktop\Faculdade\2 Semestre\Ciencia dos dados\Aula 10


# Item A

In [266]:
carros.describe()

Unnamed: 0,Tipo,Quantidade
count,3000.0,3000.0
mean,1.4,1.371333
std,0.48998,1.256969
min,1.0,0.0
25%,1.0,0.0
50%,1.0,1.0
75%,2.0,2.0
max,2.0,8.0


In [267]:
ut1 = carros.Quantidade.value_counts(True)
ut1 = dict(ut1)
ut1


{0: 0.28799999999999998,
 1: 0.31666666666666665,
 2: 0.22133333333333333,
 3: 0.10833333333333334,
 4: 0.046333333333333331,
 5: 0.015666666666666666,
 6: 0.0026666666666666666,
 7: 0.00066666666666666664,
 8: 0.00033333333333333332}

In [268]:


var = 0 

for k in ut1:
    var+=((k-carros.Quantidade.mean())**2)*ut1[k]

print('A média é',carros.Quantidade.mean(),'e a variancia é',var)



A média é 1.3713333333333333 e a variancia é 1.57944488889


Pela media e a variância, é possível concluir que não há muitos items em não conformidade. 

# Item B

Está satisfeita pois se trata de uma variável discreta.

# Item C

In [269]:
Binomial(14,0.1)

Para Y =  0  a probabilidade é 0.228767925 
Para Y =  1  a probabilidade é 0.355861216 
Para Y =  2  a probabilidade é 0.257010878 
Para Y =  3  a probabilidade é 0.114227057 
Para Y =  4  a probabilidade é 0.034902712 
Para Y =  5  a probabilidade é 0.007756158 
Para Y =  6  a probabilidade é 0.001292693 
Para Y =  7  a probabilidade é 0.000164151 
Para Y =  8  a probabilidade é 0.000015959 
Para Y =  9  a probabilidade é 0.000001182 
Para Y =  10  a probabilidade é 0.000000066 
Para Y =  11  a probabilidade é 0.000000003 
Para Y =  12  a probabilidade é 0.000000000 
Para Y =  13  a probabilidade é 0.000000000 
Para Y =  14  a probabilidade é 0.000000000 


In [270]:
print('Média e Variancia:')
stats.binom.stats(14,0.1,moments = 'mv')

Média e Variancia:


(array(1.4000000000000001), array(1.2600000000000002))

** Apesar de próxima, a distribuição Binomial não foi exata pois a probabilidade não representa o mundo real, mas sim uma projeção do que seria. **

# Item D

In [271]:
Binomial = []
for i in range(0,15,1):
    Binomial.append(stats.binom.pmf(i, 14, 0.1).round(decimals=5))
    
ut2 = carros.Quantidade.value_counts(True).reindex([0,1,2,3,4,5,6,7,8,9,10,11,12,13,14])   

Freq_relativa = []
for i in ut2:
    Freq_relativa.append(i.round(decimals=5))

    
DataFrame = pd.DataFrame(Freq_relativa,Binomial)
    

print('Tabela que compara a frequência relativa (coluna 1) e o modelo probabilistico (coluna 2)')
DataFrame

Tabela que compara a frequência relativa (coluna 1) e o modelo probabilistico (coluna 2)


Unnamed: 0,0
0.22877,0.288
0.35586,0.31667
0.25701,0.22133
0.11423,0.10833
0.0349,0.04633
0.00776,0.01567
0.00129,0.00267
0.00016,0.00067
2e-05,0.00033
0.0,


# Item E

** O modelo probabilístico é criado a fins de validar os dados antes analisados. Caso não haja dados para a análise, os modelos probabilísticos são úteis para projeções e previsões da realidade. **

# Item F

In [272]:
ut3 = carros.Quantidade[carros.Tipo==1].value_counts(True).reindex([0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]) 
ut3

Freq_relativa2 = []
for i in ut3:
    Freq_relativa2.append(i.round(decimals=5))

DataFrame2 = pd.DataFrame(Freq_relativa2,Binomial)
    

print('Tabela que compara a frequência relativa dos carros populares (coluna 1) e o modelo probabilistico (coluna 2)')
DataFrame2

Tabela que compara a frequência relativa dos carros populares (coluna 1) e o modelo probabilistico (coluna 2)


Unnamed: 0,0
0.22877,0.14944
0.35586,0.28389
0.25701,0.295
0.11423,0.16667
0.0349,0.07278
0.00776,0.02611
0.00129,0.00444
0.00016,0.00111
2e-05,0.00056
0.0,


In [273]:
Binomial2 = []
for i in range(0,15,1):
    Binomial2.append(stats.binom.pmf(i, 14, 0.13).round(decimals=5))

DataFrame3 = pd.DataFrame(Freq_relativa2,Binomial2)
    

print('Tabela que compara a frequência relativa dos carros populares (coluna 1) e o modelo probabilistico (coluna 2)')
DataFrame3 

Tabela que compara a frequência relativa dos carros populares (coluna 1) e o modelo probabilistico (coluna 2)


Unnamed: 0,0
0.14232,0.14944
0.29773,0.28389
0.28917,0.295
0.17284,0.16667
0.07102,0.07278
0.02123,0.02611
0.00476,0.00444
0.00081,0.00111
0.00011,0.00056
1e-05,
