# Teorema de Bayes

**Exercícios:** Enviar para o email filipe.furlan@letscode.com.br até **2021/08/09** o notebook (`matematica_firtsname_lastname_05_teorema_de_bayes.ipynb`) com a resolução dos exercicios abaixo.

Quando dois eventos são dependentes, temos que a probabilidade do evento A ocorrer, sabendo que o evento B ocorreu é dada por

$$P(A|B)= \frac{P(A\cap B)}{P(B)}, $$

que pode ser reescrita como

\begin{equation}
P(A\cap B) = P(A|B) × P(B). \label{pab}\tag{1}
\end{equation}

Da mesma forma, podemos calcular a probabilidade do evento B ocorrer, dada a ocorrência de A com a expressão

\begin{equation}
P(B \cap A) = P(B|A) × P(A). \label{pba}\tag{2}
\end{equation}

Igualando as Eqs. (\ref{pab}) e (\ref{pba}), encontramos a expressão matemática do teorema de Bayes

\begin{equation}
P(A|B) = \frac{P(B|A) × P(A)}{P(B)}, \label{bayes}
\end{equation}

que descreve a probabilidade de um evento, baseado em um conhecimento *a priori* que pode estar relacionado ao evento. Os termos dessa expressão são definidos como:

- $P(A)$ e $P(B)$ são as probabilidades a priori de $A$ e $B$;
- $P(A\mid B)$ é a probabilidade a posteriori (probabilidade condicionada) de $A$ condicional a $B$;
- $P(B\mid A)$ é a probabilidade a posteriori (probabilidade condicionada) de $B$ condicional a $A$.

## Exemplo: Teste de drogas

\*encontrado [aqui](https://pt.wikipedia.org/wiki/Teorema_de_Bayes)

Seja um teste de drogas 99% sensível e 99% específico. Isto é, o teste produzirá 99% de resultados verdadeiros positivos para usuários de drogas e 99% de resultados verdadeiros negativos para não-usuários de drogas. Suponha que 0,5% das pessoas são usuárias de drogas. 

1. Se um indivíduo selecionado aleatoriamente testar positivo, qual a probabilidade de ele ser usuário de drogas? Isto é, qual a probabilidade de não se cometer um falso positivo?

2. Caso o resultado não seja satisfatório, como melhorá-lo?

### Teste

|                | Usuário       | Não Usuário       |
|----------------|---------------|-------------------|
| Teste positivo | 99 %          |  1 %              |
| Teste Negativo |  1 %          | 99 %              |

### Na prática

   <center><img src="../images/Bayes_theorem_drugs_example_tree.png" width="60%" /></center>

### Resolvendo

**1. Se um indivíduo selecionado aleatoriamente testar positivo, qual a probabilidade de ele ser usuário de drogas? Isto é, qual a probabilidade de não se cometer um falso positivo?**


Teorema de Bayes: $P(A|B) = \frac{P(B|A) × P(A)}{P(B)}$

A = U  
B = +

$P(U|+) = \frac{P(+|U) × P(U)}{P(+)}$

Do diagrama, temos que $P(+|U) × P(U) = 0,5\% x 99\% = 0,495\%$. 

Ainda no diagrama e usando a expressão da prob. condicional, temos que

$P(+) = P(+ \cap U) + P(+ \cap \bar{U}) = P(+|U)P(U) + P(+|\bar{U})P(\bar{U}) = 0.495\% + 0.995\%$

In [1]:
P_pos_u = 0.495

P_pos_nu = 0.995

P_u_pos = P_pos_u / (P_pos_u + P_pos_nu)

P_u_pos * 100

33.22147651006711

**2. Caso o resultado não seja satisfatório, como melhorá-lo?**

    A. Aumentando a especificidade:
    
    B. Aumentando a sensibilidade:

In [2]:
# especificidade: VP
VP = 0.99

# sensibilidade: FP
FP = 0.01

P_pos_u  = 0.005 * VP
P_pos_nu = 0.995 * FP

P_u_pos = P_pos_u / (P_pos_u + P_pos_nu)

P_u_pos * 100

33.22147651006711

In [3]:
# A. Aumentando a especificidade

# o teste identifica todos os usuários

# especificidade: VP
VP = 1

# sensibilidade: FP
FP = 0.01

P_pos_u  = 0.005 * VP
P_pos_nu = 0.995 * FP

P_u_pos = P_pos_u / (P_pos_u + P_pos_nu)

P_u_pos * 100

33.44481605351171

In [4]:
# B. Aumentando a sensibilidade

# o teste identifica todos os usuários

# especificidade: VP
VP = 0.99

# sensibilidade: FP
FP = 0.005

P_pos_u  = 0.005 * VP
P_pos_nu = 0.995 * FP

P_u_pos = P_pos_u / (P_pos_u + P_pos_nu)

P_u_pos * 100

49.874055415617136

## Exercício: Teste para doenças

Consideremos que 1% das pessoas possui esta doença e, logo, 99% das pessoas não a possui. O teste detecta a doença em pessoas efetivamente doentes 90% das vezes e, consequentemente, não detecta a doença em pessoas doentes em 10% dos casos. Em pessoas não doentes, o teste detecta a doença (erradamente) `em 5% dos casos` e não detecta em 95% dos casos.

1. Agora, vamos supor que você fez o teste e o resultado deu positivo. Como devemos interpretar este resultado?
1. Como melhorar esse resultado?

### Teste


|                | Pessoa Doente | Pessoa Não Doente |
|----------------|---------------|-------------------|
| Teste positivo | 90 %          | 5 %               |
| Teste Negativo | 10 %          | 95 %              |

### Na prática

In [5]:
pDoente = 0.01
pNDoente = 0.99

tPosDoente = 0.9
tPosNDoente = 0.05

tNegDoente = 0.1
tNegNDoente = 0.95

pDoente_tPos = pDoente * tPosDoente
pDoente_tNeg = pDoente * tNegDoente

pNDoente_tPos = pNDoente * tPosNDoente
pNDoente_tNeg = pNDoente * tNegNDoente

### Resolvendo


$P(D|+) = \frac{P(+|D) × P(D)}{P(+)}$

$P(+) = P(+|D) × P(D) + P(+|ND) × P(ND)$

Onde:
- P(D|+): probabilidade de estar doente, dado que o teste deu positivo.
- P(+|D): probabilidade de o teste dar positivo em uma pessoa que está doente (informação sabida *a priori*).
- P(+): Probabilidade do teste dar positivo.
- P(D): Probabilidade da pessoa estar doente (na população geral).
- P(ND): Probabilidade da pessão não estar doente (na população em geral).

In [6]:
#p_positivo = pDoente_tPosDoente + pNDoente_tPosNDoente
#p_doente_positivo = (pDoente_tPosDoente*pDoente)/p_positivo
p_doente_positivo = pDoente_tPos/(pDoente_tPos + pNDoente_tPos)
print(f'1) Probabilidade de eu de fato estar doente: {p_doente_positivo*100}%')

1) Probabilidade de eu de fato estar doente: 15.384615384615385%


In [7]:
# especificidade: VP
VP = 0.95

# sensibilidade: FP
FP = 0.05

tPosDoente = VP
tPosNDoente = FP

In [8]:
# Aumentando a especificidade
# especificidade: VP
VP = 1

tPosDoente = VP

pDoente_tPos = pDoente * tPosDoente

pNDoente_tPos = pNDoente * tPosNDoente

p_doente_positivo = pDoente_tPos/(pDoente_tPos + pNDoente_tPos)
print(f'Probabilidade de eu de fato estar doente: {p_doente_positivo*100}%\nPouquíssima melhoria')

Probabilidade de eu de fato estar doente: 16.806722689075627%
Pouquíssima melhoria


In [9]:
# Aumentando a sensibilidade
# sensibilidade: FP
FP = 0.005
VP = 0.95

tPosDoente = VP
tPosNDoente = FP

pDoente_tPos = pDoente * tPosDoente

pNDoente_tPos = pNDoente * tPosNDoente

p_doente_positivo = pDoente_tPos/(pDoente_tPos + pNDoente_tPos)
print(f'Probabilidade de eu de fato estar doente: {p_doente_positivo*100}%\nGrande melhoria')

Probabilidade de eu de fato estar doente: 65.7439446366782%
Grande melhoria


2) Para melhorarmos o resultado, temos que aumentar a sensibilidade do teste.

## Exercício: Controle de qualidade

Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A fábrica I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o restante vem da fábrica III. Cada uma das fábricas, no entanto, produz uma proporção de produtos que não atendem aos padrões estabelecidos pelas normas internacionais. Tais produtos são considerados "defeituosos" e correspondem a 1%, 2% e 1,5%, respectivamente, dos totais produzidos por fábrica.

No centro de distribuição, é feito o controle de qualidade da produção combinada das fábricas.

1. Qual é a probabilidade de encontrar um produto defeituoso durante a inspeção de qualidade?
2. Se durante a inspeção encontrarmos um produto defeituoso, qual é a probabilidade de que ele tenha sido produzino na Fábrica II?

In [10]:
import pandas as pd
tabela = pd.DataFrame(data=[['99%', '98%', '98,5%'], ['1%', '2%', '1,5%']], index=['Sem defeito', 'Com defeito'], columns=['Fábrica 1', 'Fábrica 2', 'Fábrica 3'])
tabela

Unnamed: 0,Fábrica 1,Fábrica 2,Fábrica 3
Sem defeito,99%,98%,"98,5%"
Com defeito,1%,2%,"1,5%"


In [11]:
d_f1 = 0.01
d_f2 = 0.02
d_f3 = 0.015
f1 = 0.3
f2 = 0.45
f3 = 1 - f1 - f2
p_d_f1 = d_f1*f1
p_d_f2 = d_f2*f2
p_d_f3 = d_f3*f3
p_defeito = p_d_f1+p_d_f2+p_d_f3
print(f'Prob. de encontrar um defeito na fábrica 1: {p_d_f1*100}%')
print(f'Prob. de encontrar um defeito na fábrica 2: {p_d_f2*100}%')
print(f'Prob. de encontrar um defeito na fábrica 3: {p_d_f3*100}%')
print(f'Prob. de encontrar um defeito: {p_defeito*100}%')

Prob. de encontrar um defeito na fábrica 1: 0.3%
Prob. de encontrar um defeito na fábrica 2: 0.9000000000000001%
Prob. de encontrar um defeito na fábrica 3: 0.3749999999999999%
Prob. de encontrar um defeito: 1.575%


In [12]:
p_f2_d = (d_f2*f2)/p_defeito
print(f'Prob. do defeito ser da Fábrica 2: {p_f2_d*100}%')

Prob. do defeito ser da Fábrica 2: 57.14285714285715%
