# Aula 02 - Princípio da Contagem e Probabilidade
---

## Objetivos

O objetivo desta aula é introduzir a ideia de probabilidade, conceitos de variáveis aleatórias, probabilidade condicional e independencia.


## Bibliotecas usadas

- pandas;
- numpy;
- sklearn;
- matplotlib;
- random;


In [21]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import random
import statistics as st
from collections import defaultdict

# Probabilidade: combinação e permutação 

## Princípio Básico da Contagem

É o princípio utilizado para encontrar o número de possibilidades para um evento constituído de $n$ etapas. Para isso, as etapas devem ser sucessivas e independentes. Se a primeira etapa do evento possui $x$ possibilidades e a segunda etapa é constituída de $y$ possibilidades, então existem $x \times y$ possibilidades. Portanto, o princípio fundamental da contagem é **a multiplicação das opções dadas para determinar o total de possibilidades**.

<center><img src="../images/permutacao.png" width="40%" style="background-color: #eee; padding: 30px; border-radius: 20px; margin: 30px 0" /></center>  

### Exemplos

- $Ex_1$.: O grêmio da faculdade é formado por 3 calouros, 4 estudantes do segundo ano, 5 estudantes do terceiro ano e 2 formandos. Quantos subcomitês podemos formar? (supondo que estes estarão sentados em ordem no comitê)

- $Ex_2$.: De quantos modos distintos eu posso ir a uma festa, se tenho: 5 camisas, 3 calças e dois pares de sapatos?

- $Ex_3$.: Quantas diferentes placas de automóvel com  caracteres são possíveis se os 3 primeiros campos forem ocupados por letras e os 4 campos finais por números?

- $Ex_4$.: No exemplo anterior quantas placas de automóvel seriam possíveis se a repetição entre letras ou número fosse proibida?

- $Ex_5$.: Uma sala possui 3 portas. De quantas maneiras a sala pode **estar aberta**?

- $Ex_5$.: A Sra. Jones possui dez livros que pretende colocar em sua prateleira. Destes, quatro são de matemática, três são de química, dois são de história e um é um livro de línguas. A Sra. Jones deseja arranjá-los de forma que todos os livros que tratam do mesmo assunto permaneçam juntos na prateleira. Quantos diferentes arranjos são possíveis?

## Permutação
---

Nesta seção, discutiremos grupos de objetos exclusivos nos quais **a ordem é importante**.

### Definição de permutação

Considerando uma sequência ordenada qualquer com um número "n" de elementos distintos, qualquer outra sequência formada pelos mesmos “n” elementos reordenados é chamada de permutação.
    
### Permutação simples:

**Um arranjo de objetos sem repetição, onde a ordem é importante.**
    
    
Matematicamente, temos:
    
$$ P_n = n\cdot (n-1)\cdot (n-2)\cdot (n-3) ... \, 3 \cdot 2 \cdot 1 = n! $$
    
    
- $Ex_1$.: Uma turma de teoria de probabilidade é formada por 6 homens e 4 mulheres. Aplica-se uma prova e os estudantes são classificados de acordo com seu desempenho. Suponha que nenhum tenha tirado a mesma nota. Se os homens forem classificados apenas entre si e as mulheres apenas entre si, quantas diferentes classificações são possíveis?

- $Ex_2$.: Cinco amigos querem sentar em um sofá para tirar uma foto. De quantas formas diferentes eles podem aparecer na foto, a depender da posição em que eles se acomodem no sofá?


### Permutação com repetição:

**Vamos agora determinar o número de permutações de um conjunto de n objetos quando não for possível distinguir certos objetos de outros.**
      
**Exemplos**

1. Quantos diferentes arranjos de letras podem ser formados a partir das letras AAB?
2. Quantos diferentes arranjos de letras podem ser formados a partir da palavra MAPA?

*Respostas*

1. $P_{3}^{2} = \frac{3!}{2!} = \frac{6}{2} = 3$
2. $P_{4}^{2} = \frac{4!}{2!} = \frac{24}{2} = 12$

**Outro Exemplo**: Um torneio de xadrez tem 10 competidores, dos quais 4 são russos, 3 estadunidenses, 2 ingleses e 1 brasileiro. Se o resultado listar apenas a nacionalidade são possiveis quantos resultados diferentes?
      
*Fórmula:*
     $$P_{n}^{r,s,\dots} = \frac{n!}{r!s!\dots} $$


In [None]:
## defina as funções 

def fatorial(n):


    
def permutacao_sem_repeticao(n):

    


In [20]:
def factorial(n):
    if n==1:
        return n
    else:
        return n * factorial(n-1)
    

In [21]:
factorial(5)

120

In [22]:
def permutacao_sem_repeticao(n):
    return factorial(n)

In [23]:
permutacao_sem_repeticao(5)

120

## Arranjo
---

Arranjos são agrupamentos formados com $p$ elementos de um conjunto de $n$ elementos. Arranjos são como permutações, trocas de posição entre os elementos. Mas no caso dos arranjos, são escolhidos $p$ elementos para ocupar as posições ordenadas. Os arranjos são um caso particular de permutações, já que $p \leq n$.

- $Ex_1$.: Cinco amigos querem sentar em um sofá para tirar uma foto. De quantas formas diferentes eles podem aparecer na foto, considerando um sofá de 3 lugares, a depender da posição em que eles se acomodem no sofá?

- $Ex_2$.: Você tem um site no qual os usuários podem se registrar. Eles precisam fornecer uma senha que precise ter exatamente 8 caracteres e os caracteres não podem ser repetidos. Primeiro, precisamos determinar quantos caracteres e dígitos existem no alfabeto inglês:

    - o número de letras: 26
    - o número de dígitos: 10


Matematicamente, temos:

$$A_{n}^{p} = \frac{n!}{(n - p)!}$$

In [24]:
def arranjo(n,p):
    return factorial(n) / factorial(n-p)

In [25]:
arranjo(5, 3)

60.0

## Combinação 
---

<center><img src="../images/Combination.png" width="30%" style="background-color: #eee; padding: 30px; border-radius: 20px; margin: 30px 0" /></center>  

Na combinação simples, **a ordem dos elementos no agrupamento não interfere**. São arranjos que se diferenciam somente pela natureza de seus elementos. Portanto, se temos um conjunto A formado por n elementos tomados p a p, qualquer subconjunto de A formado por p elementos será uma combinação.

**Exemplo:** Quando temos 5 itens (A, B, C, D, E), quantos grupos de 3 conseguimos selecionar? Pense no caso que quando for selecionado ABC, ACB, BAC, BCA, CAB, CBA temos o mesmo grupo sendo contado 6 vezes.
    
Podemos pensar em:
    
$$5 * 4 * 3$$

mas, como a permutação é limitada por r  dividimos pela quantidade de vezes que um elemento se repete:
    
$$\frac{5 * 4 * 3}{3 * 2 * 1}$$

Matematicamente, temos:

$$C_{n}^{k} = \frac{n!}{k! \cdot (n - k)!}$$

In [None]:
def combinacao(n,r):
    

## Ferramentas do python

In [26]:
from math import factorial
from itertools import permutations

perm = permutations('ABCDEF')

qtd = 0

for i in perm:
    for idx in range(len(i)):
        if (i[idx] == 'B'):
            if ('A' in i[:idx]):
                qtd += 1
print(qtd)

360


In [32]:
perm = permutations('ABCDE', 3)
for p in perm:
    print(p)

('A', 'B', 'C')
('A', 'B', 'D')
('A', 'B', 'E')
('A', 'C', 'B')
('A', 'C', 'D')
('A', 'C', 'E')
('A', 'D', 'B')
('A', 'D', 'C')
('A', 'D', 'E')
('A', 'E', 'B')
('A', 'E', 'C')
('A', 'E', 'D')
('B', 'A', 'C')
('B', 'A', 'D')
('B', 'A', 'E')
('B', 'C', 'A')
('B', 'C', 'D')
('B', 'C', 'E')
('B', 'D', 'A')
('B', 'D', 'C')
('B', 'D', 'E')
('B', 'E', 'A')
('B', 'E', 'C')
('B', 'E', 'D')
('C', 'A', 'B')
('C', 'A', 'D')
('C', 'A', 'E')
('C', 'B', 'A')
('C', 'B', 'D')
('C', 'B', 'E')
('C', 'D', 'A')
('C', 'D', 'B')
('C', 'D', 'E')
('C', 'E', 'A')
('C', 'E', 'B')
('C', 'E', 'D')
('D', 'A', 'B')
('D', 'A', 'C')
('D', 'A', 'E')
('D', 'B', 'A')
('D', 'B', 'C')
('D', 'B', 'E')
('D', 'C', 'A')
('D', 'C', 'B')
('D', 'C', 'E')
('D', 'E', 'A')
('D', 'E', 'B')
('D', 'E', 'C')
('E', 'A', 'B')
('E', 'A', 'C')
('E', 'A', 'D')
('E', 'B', 'A')
('E', 'B', 'C')
('E', 'B', 'D')
('E', 'C', 'A')
('E', 'C', 'B')
('E', 'C', 'D')
('E', 'D', 'A')
('E', 'D', 'B')
('E', 'D', 'C')


In [36]:


factorial(6)

720

In [18]:
factorial(5) * 2

240

In [30]:
perm = permutations('HHHMMM')

lista = []

for p in perm:
    if p not in lista:
        lista.append(p)
        
print(len(lista))

20


In [32]:
factorial(7) / (factorial(2) * factorial(2))

1260.0

In [33]:
7 * 6 * 5 * 4 * 3

2520

In [34]:
from scipy.special import comb

In [46]:
comb(8, 5)

56.0

# Probabilidade: conceitos introdutórios 

## Espaço amostral

**definição**: Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de um certo fenômeno aleatório. Ele é muitas vezes representado pela letra grega $\Omega$. Os subconjuntos de $\Omega$ são denominados eventos e representados pelas letras latinas maiúsculas $A, B, \dots$ . O conjunto vazio é denotado por $\emptyset$.

A união de dois eventos A e B, denotado por $A \cup B$ representa a ocorrência de pelo menos um dos eventos A ou B. A intersecção do evento A com B, denotado por $A \cap B$ é a ocorrência simultanea de A e B 

Dois eventos A e B são disjuntos ou mutualmente exclusivos quando não têm elemento em comum. Isto é, $A \cap B$ =  $\emptyset$.


<center><img src="../images/conjuntos.png" width="300" height="350" /></center>

Caso dois eventos sejam disjuntos, mas a sua união seja igual à todo o Espaço Amostral, significa que eles são complementares. Ou seja, eles são os únicos eventos possíveis de ocorrer. Matematicamente, se $A \cap B = \emptyset$ e $A \cup B = \Omega$, então os eventos são complementares. O complementar de A será representado por $A^{c}$. Nesse caso, então, $A^{c} = B$ e $B^{c} = A$.


**Definição 2.1: Probabilidade**

Podemos definir então uma função `P(.)` denominada probabilidade se satisfaz as seguintes condições:
    
1. A probabilidade de um evento é sempre um número entre 0 e 1. Ou seja, $0 \leq P(A) \leq 1$.


2. A Probabilidade de ocorrer algo dentro do Espaço Amostral é 1. Ou seja, $ P(\Omega) = 1$.

3. A Probabilidade de ocorrer a união de todos os Pontos Amostrais é igual à soma da Probabilidade de ocorrer cada um dos Pontos Amostrais. Ou seja:

$$
    \sum_{w\in \Omega} P{(w)} = P\left(\bigcup_{w\in \Omega} \{w\}\right)
$$


## Como definir a probabilidade dos elementos do espaço amostral?

A primeira parte consiste na atribuição de probabilidades. Por exemplo, baseando-se em características teóricas da realização do fenômeno. Por exemplo, ao lançarmos um dado, temos o espaço amostral $\omega={1,2,3,4,5,6}$.Admitindo que o dado foi construído de forma homogênea e com medidas rigorosamente simétricas , não temos nenhuma razão para privilegiar essa ou aquela face. Assim consideramos $p(1)=p(2)=p(3)\dots$

**Exemplos:** 

1. Lançamos uma moeda duas vezes, se C indicar cara e K indicar coroa, então, temos um espaço amostral:
    
$$\Omega=[CC,CK,KC,KK]$$


> Se designarmos por A o evento que consiste na obtenção de face iguais nos dois lançamentos, então: 

$$ P(A) = P(CC) + P(KK) = \frac{1}{4} + \frac{1}{4} = \frac{2}{4} = 0.5 $$ 

2. Uma Fábrica produz um determinado artigo. Da linha de produção são retirados 3 artigos, e cada um é classificado como bom (B), ou defeituoso (D). Um espaço amostral do experimento é:
    
$$ \Omega = [BBB,BBD,BDB,DBB,DDB,DBD,BDD,DDD] $$


> Se designarmos por A o evento que consiste em obter dois artigos defeituosos:

$$ P(A) = P(DDB) + P(DBD) + P(BDD) = \frac{1}{8} + \frac{1}{8} + \frac{1}{8} = \frac{3}{8} = 0.375 $$ 

3. Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de queimar. Um espaço amostral conveniente será:
    
$$ \Omega = [t], \quad \textrm{em que}, t \geq 0 $$


In [63]:
from scipy.special import comb, perm
import numpy as np

from itertools import permutations, combinations, combinations_with_replacement, product

In [101]:
# espaço amostral para duas moedas: product
permutacoes = product(['K', 'C'], repeat=2)

for i in permutacoes:
    print(i)

('K', 'K')
('K', 'C')
('C', 'K')
('C', 'C')


In [100]:
# espaço amostral para três produtos: product
permutacoes = product(['B', 'D'], repeat=3)

for i in permutacoes:
    print(i)

('B', 'B', 'B')
('B', 'B', 'D')
('B', 'D', 'B')
('B', 'D', 'D')
('D', 'B', 'B')
('D', 'B', 'D')
('D', 'D', 'B')
('D', 'D', 'D')


In [102]:
# espaço amostral para dois dados: product
permutacoes = product('123456', repeat=2)

for i in permutacoes:
    print(i)

('1', '1')
('1', '2')
('1', '3')
('1', '4')
('1', '5')
('1', '6')
('2', '1')
('2', '2')
('2', '3')
('2', '4')
('2', '5')
('2', '6')
('3', '1')
('3', '2')
('3', '3')
('3', '4')
('3', '5')
('3', '6')
('4', '1')
('4', '2')
('4', '3')
('4', '4')
('4', '5')
('4', '6')
('5', '1')
('5', '2')
('5', '3')
('5', '4')
('5', '5')
('5', '6')
('6', '1')
('6', '2')
('6', '3')
('6', '4')
('6', '5')
('6', '6')


## Propriedades da União e Intersecção
---

Vamos supor a tabela abaixo  para idades

| idade | $n_{i}$ | $F_{i}$ | $f_{ac}$ |
|-------|---------|---------|----------|
| 17    | 9       |         |          |
| 18    | 22      |         |          |
| 19    | 7       |         |          |
| 20    | 4       |         |          |
| 21    | 3       |         |          |
| 22    | 0       |         |          |
| 23    | 2       |         |          |
| 24    | 1       |         |          |
| 25    | 2       |         |          |
|-------|---------|---------|----------|
| total |   n=50  |    1    |          |
|-------|---------|---------|----------|

Qual nosso espaço amostral ? 

quais são as probabilidades associadas ?

P(17) ? 

### Probabilidade de união de eventos

A probabilidade de união de eventos é calculada através da regra da adição de probabilidades apresentada abaixo :

$$ P(A \cup B) = P(A) + P(B) - P ( A \cap B) $$

Temos também a definição de que um evento pode ser definido pela não ocorrência dele, ou seja, $$A^{c}$$ é a não ocorrência de A. Logo,

$$P(A) = 1 - P(A^{c})$$


Se isso é correto, então: $P(A) + P(A^{c}) = 1$.

Podemos visualizar por:

$$P (A \cup A^{c}) = P(A) + P(A^{c}) - P(A\cap A^{c}) $$

$$P (A \cup A^{c}) = 1 $$

# Probabilidade condicional e Independência
---

![venn](../images/venn.gif)


Para eventos dependentes, o cálculo da Probabilidade muda. Vamos estabelecer que:

$P(A|B)$ -> Probabilidade condicional de A dado B, ou seja, probabilidade do evento A ocorrer, dado que ocorreu o evento B

$P(A \cap B)$ -> Como já vimos, é a probabilidade dos dois eventos ocorrerem


Para eventos dependentes, Temos a seguinte função:

$$P(A|B)= \frac{P(A\cap B)}{P(B)}$$



$$ P(A|B) = \frac{\frac{A \cap B}{\omega}}{\frac{B}{\omega}}$$



E algumas vezes, passamos P(B) para o outro lado da igualdade, e a equação fica assim:

$$P(A\cap B) = P(A|B) × P(B)$$

## Exemplos

$Ex_1$.: Uma moeda é lançada duas vezes, sucessivamente. Qual é a probabilidade de tirarmos cara no segundo lançamento, sabendo que foi obtido coroa no primeiro?

$Ex_2$.: De uma urna com 4 bolas brancas e 6 bolas pretas, retiram-se 2 bolas, sucessivamente, e sem reposição. Qual é a probabilidade de:

1. Ambas serem brancas?
2. A segunda ser branca?
3. A 1ª ser branca, sabendo que a 2ª é branca?

## Eventos independentes 

Quanto a ocorrência de um evento não intefere na ocorrência do outro, e vice-versa. Em outras palavras, quando a probabilidade de ocorrência de um evento A, não alterar a probabilidade de ocorrência de um evento B, e vice-versa.

In [131]:
permutacoes = permutations('BBBBPP', r=2)

total = []
count = 0


for i in permutacoes:
    print(i)
    total.append(i)
    if i[0]=='B' and i[1] =='B': count = count+1
    

print(len(total), count)

('B', 'B')
('B', 'B')
('B', 'B')
('B', 'P')
('B', 'P')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'P')
('B', 'P')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'P')
('B', 'P')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'P')
('B', 'P')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'P')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'P')
30 12


In [129]:
permutacoes = permutations('BBBBPP', r=2)

total = []
count = 0

for i in permutacoes:
    if i[1]=='B':
        print(i)
        total.append(i)
        if i[0]=='B': count = count+1
    

print(len(total), count)

('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('B', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
('P', 'B')
20 12




### Exemplo

**Abaixo está um código para criar dados falsos sobre a quantidade de coisas que as pessoas compram, de acordo com a faixa etária**.

Ele gera 100.000 "pessoas" aleatórias e as atribui aleatoriamente como tendo entre 20, 30, 40, 50, 60 ou 70 anos.

Em seguida, atribui uma menor probabilidade de os jovens comprarem coisas.

No final, temos dois dicionários Python:

- "totais" contém o número total de pessoas em cada faixa etária. 
- "compras" contém o número total de itens comprados por pessoas em cada faixa etária. 
- O total geral de compras é total de compras. 
- número total de pessoas é 100.000.

Vamos executá-lo e dar uma olhada:

In [104]:
from numpy import random
random.seed(0)

totals = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
compras = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
total_compras = 0
for _ in range(100000):
    Decada_ano = random.choice([20, 30, 40, 50, 60, 70])
    Probabilidade_compra = float(Decada_ano) / 100.0 ## por exemplo quem nasceu na decada 20/100
    totals[Decada_ano] += 1
    if (random.random() < Probabilidade_compra):
        total_compras += 1
        compras[Decada_ano] += 1

In [105]:
totals

{20: 16576, 30: 16619, 40: 16632, 50: 16805, 60: 16664, 70: 16704}

In [106]:
compras

{20: 3392, 30: 4974, 40: 6670, 50: 8319, 60: 9944, 70: 11713}

In [107]:
total_compras

45012

    Primeiro vamos calcular P (C | I), onde C é "compra" e I é "você está na casa dos 30 anos". A probabilidade de alguém na casa dos 30 anos comprar alguma coisa é apenas a porcentagem de quantas pessoas de 30 anos compraram alguma coisa:

In [109]:
P_CI = float(compras[30]) / float(totals[30])
print('P(compras | 30s): ' + str(P_CI))

P(compras | 30s): 0.29929598652145134


In [111]:
P_I = float(totals[30]) / 100000.0
print("P(30's): " +  str(P_I))

P(30's): 0.16619


    Podemos calcular tambem a probabilidade de comprar alguma coisa:

In [112]:
P_C = float(total_compras) / 100000.0
print("P(total_compras):" + str(P_C))

P(total_compras):0.45012


    Se C e I fossem independentes, esperaríamos que P (C | I) fosse aproximadamente o mesmo que P (C). Mas eles não são; P_C é 0,45 e P (C | I) é 0,3. Então, isso nos diz que C e I são dependentes (o que sabemos que são neste exemplo).

    O que é P (I) P (F)?

In [113]:
print("P(30's)P(total_compras)" + str(P_I * P_C))

P(30's)P(total_compras)0.07480544280000001


In [114]:
print("P(30's, compras)" + str(float(compras[30]) / 100000.0))

P(30's, compras)0.04974


     P (C, I) é diferente de P (C | I). 

     P (C, I) seria a probabilidade de você estar na casa dos 30 anos e comprar algo (comparado com a poluação total).

# Teorema de Bayes
O **Teorema de Bayes** é um conceito importantíssimo da probabilidade e uma das ferramentas mais importantes de serem aprendidas para um Cientista de Dados. Este já foi usado em diversas aplicações reais, como por exemplo a classificação de um email como spam ou não. O Teorema de Bayes é uma forma de calcular probabilidades condicionais de forma reversa.

Vamos considerar o clássico exemplo para explicar o teorema. Temos uma determinada doença A, e um teste T utilizado para detectar esta doença. O teste não é 100% confiável, indicando pessoas que não tem a doença como doentes (falsos positivos) e não detectando a doença em pessoas que a possuem (falsos negativos), como ilustra a figura abaixo: 


<center><img src="../images/bayes_teste.jpg" width="80%" /></center>


Consideremos que 1% das pessoas possui esta doença e, logo, 99% das pessoas não a possui. O teste detecta a doença em pessoas efetivamente doentes 90% das vezes e, consequentemente, não detecta a doença em pessoas doentes em 10% dos casos. Em pessoas não doentes, o teste detecta a doença (erradamente) `em 5% dos casos` e não detecta em 95% dos casos. Podemos resumir desta forma:

|                | Pessoa Doente | Pessoa Não Doente |
|----------------|---------------|-------------------|
| Teste positivo | 90 %          | 5 %               |
| Teste Negativo | 10 %          | 95 %              |

Agora, vamos supor que você fez o teste e o resultado deu positivo. Como devemos interpretar este resultado? Obviamente, existe uma chance de você possuir a doença e uma chance de não possuir. A chance de você ter a doença e o teste detecta-la (verdadeiro positivo) é igual a chance de você ter a doença multiplicado pela chance do teste ter dado positivo corretamente. Analogamente, a chance de você não ter a doença e o teste detecta-la mesmo assim (falso positivo) é igual a chance de você não ter a doença multiplicado pela chance do teste ter dado positivo incorretamente, e assim por diante, para todos os resultados. Atualizamos então a tabela, que fica assim:

|                | Pessoa Doente                            | Pessoa Não Doente                               |
|----------------|------------------------------------------|-------------------------------------------------|
| Teste positivo | Prob Doente e teste pos: 1% × 90% = 0,9% | Prob Não Doente e teste pos: 99% × 5% = 4,95%   |
| Teste Negativo | Prob Doente e teste neg: 1% × 10% = 0,1% | Prob Não Doente e teste neg: 99% × 95% = 94,05% |

Estas então são nossas probabilidades para cada evento. Note que, se somadas, o resultado é 1, ou 100%. Mas agora temos uma dúvida. Se nosso teste deu positivo, qual a chance de termos a doença? Considerando o cálculo básico de probabilidade, temos que a chance de ter a doença é igual à chance do evento desejado dividido por todas as possibilidades. O evento desejado é um positivo verdadeiro, ou seja, teste positivo e a pessoa com doença. Para este caso, a probabilidade é de 0,9%. O total de possibilidades com relação ao teste positivo seria a soma da probabilidade de “Doente e teste pos” (verdadeiro positivo) com “Não Doente e teste pos” (falso positivo), que resultará em 0,9% + 4,95%, igual a 5,85%. Fazendo toda a conta então, nossa chance de ter a doença se temos um teste positivo é de 0,9%/5,85% = 0.1538, ou 15,38%. É uma chance bem mais baixa do que imaginamos apenas ao olhar para o problema e para a suposta precisão do teste.

## Formulação matemática

* P(D|A) = Probabilidade de ter a doença dado um teste positivo (este é a probabilidade que desejamos saber)

* P(D) = Probabilidade da pessoa ter a doença = 1%

* P(A|D) = Probabilidade de um teste positivo se a pessoa tem a doença = 0,9% (

* P(A|¬D) = Probabilidade de um teste positivo se a pessoa não tem a doença = 4,95%

    **O Teorema de bayes diz que :**
    
    
$$ P(D|A) = \frac{P(A|D) * P(D)}{P(A|D) * P(D)  + P(A|nao D) * P(nao D)}    $$

In [1]:
# A probabilidade de uma pessoa ter certa doença A é de 1%
# consequentemente, a probabilidade de não ter a doença é de 99%

probabilidade_doenca = 0.01
probabilidade_nao_doenca = 1 - probabilidade_doenca

# Um teste T para detectar a doença não é 100% confiável, detectando
# a doença em pessoas não doentes e não detectando em pessoas doentes

# O teste detecta a doença em pessoas doentes em 90% dos casos
# e não detecta a doença em pessoas doentes em 10% dos casos

prob_teste_pos_e_doenca = 0.9
prob_teste_neg_e_doenca = 0.1

# O teste detecta a doença em pessoas não doentes em 5% dos casos
# e não detecta a doença em pessoas não doentes em 95% dos casos

prob_teste_pos_e_nao_doenca = 0.05
prob_teste_neg_e_nao_doenca = 0.95


# Verdadeiro positivo: chance de ter a doença e o teste dar positivo
prob_verdadeiro_positivo = probabilidade_doenca * prob_teste_pos_e_doenca


# Verdadeiro negativo: chance de não ter a doença e o teste dar negativo
prob_verdadeiro_negativo = probabilidade_nao_doenca * prob_teste_neg_e_nao_doenca

# Falso positivo: chance de não ter a doença e o teste dar positivo
prob_falso_positivo = probabilidade_nao_doenca * prob_teste_pos_e_nao_doenca

# Falso negativo: chance de ter a doença e o teste dar negativo
prob_falso_negativo = probabilidade_doenca * prob_teste_neg_e_doenca


# Fizemos o teste e o resultado foi positivo. Qual a chance de eu ter a doença?
# Teorema de Bayes: P(D|A) = (P(A|D) * P(D)) / (P(A|D) * P(D) + P(A|¬D) * P(¬D))



## Exemplo

Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A fábrica I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o restante vem da fábrica III. Cada uma das fábricas, no entanto, produz uma proporção de produtos que não atendem aos padrões estabelecidos pelas normas internacionais. Tais produtos são considerados "defeituosos" e correspondem a 1%, 2% e 1,5%, respectivamente, dos totais produzidos por fábrica.

No centro de distribuição, é feito o controle de qualidade da produção combinada das fábricas.

1. Qual é a probabilidade de encontrar um produto defeituoso durante a inspeção de qualidade?
2. Se durante a inspeção encontrarmos um produto defeituoso, qual é a probabilidade de que ele tenha sido produzino na Fábrica II?