# 2. Princípio da Contagem e Probabilidade I
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" height="40px" style="position: absolute; top: 12px; right: 20px;" />

### Objetivos

O objetivo desta aula é introduzir a ideia de probabilidade, conceitos de variáveis aleatórias, probabilidade condicional e independência de eventos.

# Probabilidade com combinação e permutação 

## Princípio Básico da Contagem

É o princípio utilizado para encontrar o número de possibilidades para um evento constituído de $n$ etapas. Para isso, as etapas devem ser sucessivas e independentes. Se a primeira etapa do evento possui $x$ possibilidades e a segunda etapa é constituída de $y$ possibilidades, então existem $x \times y$ possibilidades. Portanto, o princípio fundamental da contagem é **a multiplicação das opções dadas para determinar o total de possibilidades**.

<center><img src="images/permutacao.png" width="40%" style="background-color: #eee; padding: 30px; border-radius: 20px; margin: 30px 0" /></center>  

### Exemplos

- $Ex_1$.: O grêmio da faculdade é formado por 3 calouros, 4 estudantes do segundo ano, 5 estudantes do terceiro ano e 2 formandos. Quantos subcomitês podemos formar? (supondo que estes estarão sentados em ordem no comitê)

- $Ex_2$.: De quantos modos distintos eu posso ir a uma festa, se tenho: 5 camisas, 3 calças e dois pares de sapatos?

- $Ex_3$.: Quantas diferentes placas de automóvel com  caracteres são possíveis se os 3 primeiros campos forem ocupados por letras e os 4 campos finais por números?

- $Ex_4$.: No exemplo anterior quantas placas de automóvel seriam possíveis se a repetição entre letras ou número fosse proibida?

- $Ex_5$.: Uma sala possui 3 portas. De quantas maneiras a sala pode **estar aberta**?

- $Ex_6$.: A Sra. Jones possui dez livros que pretende colocar em sua prateleira. Destes, quatro são de matemática, três são de química, dois são de história e um é um livro de línguas. A Sra. Jones deseja arranjá-los de forma que todos os livros que tratam do mesmo assunto permaneçam juntos na prateleira. Quantos diferentes arranjos são possíveis?

In [2]:
26**3 * 10**4

175760000

In [3]:
26**4 * 10**3

456976000

In [4]:
from math import factorial

In [5]:
factorial(4) * factorial(4) * factorial(3) * 2 * 1

6912

## 1. Permutação
---

Nesta seção, discutiremos grupos de objetos exclusivos nos quais **a ordem é importante**.

### 1.1 Definição de permutação

Considerando uma sequência ordenada qualquer com um número "n" de elementos distintos, qualquer outra sequência formada pelos mesmos “n” elementos reordenados é chamada de permutação.
    
### 1.2. Permutação simples:

**Um arranjo de objetos sem repetição, onde a ordem é importante.**

    
Matematicamente, temos:
    
$$ P_n = n\cdot (n-1)\cdot (n-2)\cdot (n-3) ... \, 3 \cdot 2 \cdot 1 = n! $$
    
    
- $Ex_1$.: Uma turma de teoria de probabilidade é formada por 6 homens e 4 mulheres. Aplica-se uma prova e os estudantes são classificados de acordo com seu desempenho. Suponha que nenhum tenha tirado a mesma nota. Se os homens forem classificados apenas entre si e as mulheres apenas entre si, quantas diferentes classificações são possíveis?

- $Ex_2$.: Cinco amigos querem sentar em um sofá para tirar uma foto. De quantas formas diferentes eles podem aparecer na foto, a depender da posição em que eles se acomodem no sofá?


### 1.3. Permutação com repetição:

**Vamos agora determinar o número de permutações de um conjunto de n objetos quando não for possível distinguir certos objetos de outros.**
      
**Exemplos**

1. Quantos diferentes arranjos de letras podem ser formados a partir das letras AAB?
2. Quantos diferentes arranjos de letras podem ser formados a partir da palavra MAPA?

*Respostas*

1. $P_{3}^{2} = \frac{3!}{2!} = \frac{6}{2} = 3$
2. $P_{4}^{2} = \frac{4!}{2!} = \frac{24}{2} = 12$

**Outro Exemplo**: Um torneio de xadrez tem 10 competidores, dos quais 4 são russos, 3 estadunidenses, 2 ingleses e 1 brasileiro. Se o resultado listar apenas a nacionalidade são possiveis quantos resultados diferentes?
      
*Fórmula:*
     $$P_{n}^{r,s,\dots} = \frac{n!}{r!s!\dots} $$


In [6]:
# Exemplo 01
factorial(6) * factorial(4)

17280

In [7]:
factorial(10)

3628800

In [8]:
# Exemplo 02
factorial(5)

120

In [10]:
factorial(10) / (factorial(4) * factorial(3) * factorial(2))

12600.0

In [11]:
# Utilizando o permutations para resolver exemplo de permutação com repetição
from itertools import permutations

In [15]:
for perm in permutations('123'):
    print(perm)

('1', '2', '3')
('1', '3', '2')
('2', '1', '3')
('2', '3', '1')
('3', '1', '2')
('3', '2', '1')


In [16]:
for perm in permutations([1, 2, 3]):
    print(perm)

(1, 2, 3)
(1, 3, 2)
(2, 1, 3)
(2, 3, 1)
(3, 1, 2)
(3, 2, 1)


In [17]:
for perm in permutations('AAB'):
    print(perm)

('A', 'A', 'B')
('A', 'B', 'A')
('A', 'A', 'B')
('A', 'B', 'A')
('B', 'A', 'A')
('B', 'A', 'A')


In [18]:
from scipy.special import perm

In [None]:
perm()

## 2. Arranjo
---

Arranjos são agrupamentos formados com $p$ elementos de um conjunto de $n$ elementos. Arranjos são como permutações, trocas de posição entre os elementos. Mas no caso dos arranjos, são escolhidos $p$ elementos para ocupar as posições ordenadas. Os arranjos são um caso particular de permutações, já que $p \leq n$.

- $Ex_1$.: Cinco amigos querem sentar em um sofá para tirar uma foto. De quantas formas diferentes eles podem aparecer na foto, considerando um sofá de 3 lugares, a depender da posição em que eles se acomodem no sofá?

- $Ex_2$.: Você tem um site no qual os usuários podem se registrar. Eles precisam fornecer uma senha que precise ter exatamente 8 caracteres e os caracteres não podem ser repetidos. Primeiro, precisamos determinar quantos caracteres e dígitos existem no alfabeto inglês:

    - o número de letras: 26
    - o número de dígitos: 10


Matematicamente, temos:

$$A_{n}^{p} = \frac{n!}{(n - p)!}$$

In [19]:
5 * 4 * 3

60

In [20]:
factorial(5) / factorial(5 - 3)

60.0

In [21]:
36 * 35 * 34 * 33 * 32 * 31 * 30 * 29

1220096908800

In [22]:
factorial(36) / factorial(36 - 8)

1220096908800.0

In [23]:
perm(36, 8)

1220096908800.0

In [24]:
perm(5, 5)

120.0

## 3. Combinação 
---

<center><img src="images/Combination.png" width="30%" style="background-color: #eee; padding: 30px; border-radius: 20px; margin: 30px 0" /></center>  

Na combinação simples, **a ordem dos elementos no agrupamento não interfere**. São arranjos que se diferenciam somente pela natureza de seus elementos. Portanto, se temos um conjunto A formado por n elementos tomados p a p, qualquer subconjunto de A formado por p elementos será uma combinação, por exemplo quando temos 5 itens (A, B, C, D, E), quantos grupos de 3 conseguimos selecionar? Pense no caso que quando for selecionado ABC, ACB, BAC, BCA, CAB, CBA temos o mesmo grupo sendo contado 6 vezes.
    
Podemos pensar em:
    
$$5 * 4 * 3$$

mas, como a permutação é limitada por r e dividir pela quantidade de vezes que um elemento se repete:
    
$$\frac{5 * 4 * 3}{3 * 2 * 1}$$

In [30]:
# itertools
from itertools import combinations, combinations_with_replacement

In [26]:
for comb in combinations(['Pessoa1', 'Pessoa2', 'Pessoa3'], 2):
    print(comb)

('Pessoa1', 'Pessoa2')
('Pessoa1', 'Pessoa3')
('Pessoa2', 'Pessoa3')


In [27]:
for comb in combinations(range(3), 2):
    print(comb)

(0, 1)
(0, 2)
(1, 2)


In [35]:
for comb in combinations_with_replacement(['Pessoa1', 'Pessoa2', 'Pessoa3'], 2):
    print(comb)

('Pessoa1', 'Pessoa1')
('Pessoa1', 'Pessoa2')
('Pessoa1', 'Pessoa3')
('Pessoa2', 'Pessoa2')
('Pessoa2', 'Pessoa3')
('Pessoa3', 'Pessoa3')


In [32]:
# Scipy
from scipy.special import comb

In [34]:
comb(3, 2, exact=True)

3

Matematicamente, temos:

$$C_{n}^{k} = \frac{n!}{k! \cdot (n - k)!}$$

<center><img src="images/line-png-16827.png" width="500" height="450" /></center>

## Exercícios

**1. Existem quantos arranjos lineares diferentes das letras A, B, C, D, E, F para os quais A e B estão uma do lado da outra.**

**2. João, Juliano, Jonas e Jackes formaram uma banda com quatro instrumentos. Se cada um é capaz de tocar todos instrumentos, quantas diferentes combinações é possivel se realizar?**

**3. Por muitos anos, os códigos telefônicos de área nos EUA e no Canadá eram formados por uma sequência de 3 algarismos. O primeiro algarismo era um inteiro entre 2 e 9, o segundo algarismo era entre 0 e 1, e o terceiro digito era um inteiro entre 1 e 9. Quantos códigos da área eram possíveis? Quantos códigos de área começando com um 4 eram possíveis?**

**4. De quantas maneiras diferentes 3 garotos e 3 garotas podem sentar-se em fila?**

**5. Um comitê de 7 pessoas, formado por 2 petistas, 2 democratas e 3 peemedebistas devem ser escolhidos de um grupo de 5 petistas, 6 democratas, e 4 peemedebistas. Quantas configurações diferentes podemos ter para o comitê?**

**6. Um torneio de xadrez tem dez competidores, dos quais quatro são russos, três são dos Estados Unidos, dois são da Grã-Bretanha e um é do Brasil. Se o resultado do torneio listar apenas a nacionalidade dos jogadores em sua ordem de colocação, quantos resultados serão possíveis?**

**7. Quantos arranjos diferentes podem ser feitos a partir de:**

    a) sorte
    b) mississipi
    c) arranjo

**8. Uma pessoa tem 8 amigos dos quais 5 serão convidados para uma festa.**

    a) Quantas escolhas existem se dois dos amigos estiverem brigados e por esse motivo não puderem comparecer?
    b) Quantas escolhas existem se dois amigos puderem ir apenas se forem juntos?
    
**9. De um grupo de cinco mulheres e sete homens, quantos comitês diferentes formados por duas mulheres e três homens podem ser formados? E se dois dos
homens estiverem brigados e se recusarem a trabalhar juntos?**


<center><img src="images/line-png-16827.png" width="500" height="450" /></center>

In [25]:
# Questão 5
from scipy.special import comb

In [26]:
comb(5, 2) * comb(6, 2) * comb(4, 3)

600.0

In [29]:
# Questão 6
from math import factorial

In [30]:
factorial(10) / (factorial(4)* factorial(3) * factorial(2) * 1)

12600.0

In [31]:
# Questão 7
from itertools import permutations

In [None]:
palavras = ['sorte', 'mississipi', 'arranjo']

for palavra in palavras:
    # Um set para guardar cada permutação de cada uma das palavras
    permutacoes_distintas = set() # Estrutura de dados que não permite repetições
    
    for perm in permutations(palavra):
        permutacoes_distintas.add(perm)
    
    print(permutacoes_distintas)
    print(len(permutacoes_distintas), '\n')

In [42]:
permutations('AB')

<itertools.permutations at 0x7fd751a8bc70>

#### Questão 07, letra b

> mississipi

$$
    P_{10}^{4, 4} = \frac{10!}{4!\times4!}
$$


In [41]:
factorial(10) / (factorial(4) * factorial(4))

6300.0

## 2. Probabilidade: conceitos introdutórios 

### 2.1 Espaço amostral

**Definição**: Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de um certo fenômeno aleatório. Ele é muitas vezes representado pela letra grega $\Omega$. Os subconjuntos de $\Omega$ são denominados eventos e representados pelas letras latinas maiúsculas $A, B, \dots$ . O conjunto vazio é denotado por $\emptyset$.

A união de dois eventos A e B, denotado por $A \cup B$ representa a ocorrência de pelo menos um dos eventos A ou B. A intersecção do evento A com B, denotado por $A \cap B$ é a ocorrência simultanea de A e B 

Dois eventos A e B são disjuntos ou mutualmente exclusivos quando não têm elemento em comum. Isto é, $A \cap B$ =  $\emptyset$.


Caso dois eventos sejam disjuntos, mas a sua união seja igual à todo o Espaço Amostral, significa que eles são complementares. Ou seja, eles são os únicos eventos possíveis de ocorrer. Matematicamente, se $A \cap B = \emptyset$ e $A \cup B = \Omega$, então os eventos são complementares. O complementar de A será representado por $A^{c}$. Nesse caso, então, $A^{c} = B$ e $B^{c} = A$.

<center><img src="images/conjuntos.png" width="300" height="350" /></center>

**Definição 2.1: Probabilidade**

Podemos definir então uma função P(.) denominada probabilidade se satisfaz as seguintes condições:
    
1. A probabilidade de um evento é sempre um número entre 0 e 1. Ou seja, $0 \leq P(A) \leq 1$.


2. A Probabilidade de ocorrer algo dentro do Espaço Amostral é 1. Ou seja, $ P(\Omega) = 1$.

3. A Probabilidade de ocorrer a união de todos os Pontos Amostrais é igual à soma da Probabilidade de ocorrer cada um dos Pontos Amostrais. Ou seja:

$$
    \sum_{w\in \Omega} P{(w)} = P\left(\bigcup_{w\in \Omega} \{w\}\right)
$$


#### 2.2 **Como definir probabilidade aos elementos do espaço amostral?**

A primeira consiste na atribuição de probabilidades. Por exemplo, baseando-se em características teóricas da realização do fenômeno. Por exemplo, ao lançarmos um dado, temos o espaço amostral $\omega={1,2,3,4,5,6}$.Admitindo que o dado foi construído de forma homogênea e com medidas rigorosamente simétricas , não temos nenhuma razão para privilegiar essa ou aquela face. Assim consideramos $p(1)=p(2)=p(3)\dots$

**Exemplos:** 

1. Lançamos uma moeda duas vezes, se C indicar cara e K indicar coroa, então, temos um espaço amostral:
    
$$\Omega=[CC,CK,KC,KK]$$


> Se designarmos por A o evento que consiste na obtenção de face iguais nos dois lançamentos, então: 

$$ P(A) = P(CC) + P(KK) = \frac{1}{4} + \frac{1}{4} = \frac{2}{4} = 0.5 $$ 

2. Uma Fábrica produz um determinado artigo. Da linha de produção são retirados 3 artigos, e cada um é classificado como bom (B), ou defeituoso (D). Um espaço amostral do experimento é:
    
$$ \Omega = [BBB,BBD,BDB,DBB,DDB,DBD,BDD,DDD] $$


> Se designarmos por A o evento que consiste em obter dois artigos defeituosos:

$$ P(A) = P(DDB) + P(DBD) + P(BDD) = \frac{1}{8} + \frac{1}{8} + \frac{1}{8} = \frac{3}{8} = 0.375 $$ 

1.3 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de queimar. Um espaço amostral conveniente será:
    
$$ \Omega = [t], \quad \textrm{em que}, t \geq 0 $$


<center><img src="images/line-png-16827.png" width="500" height="450" /></center>


<center><img src="https://selecao.letscode.com.br/favicon.png" width="150" height="150" /></center>

## Exercícios
**1. Lance um dados até que a face 5 apareça pela primeira vez. Enumere os possíveis resultados.**

**2. Uma urna contém 10 bolas azuis, 10 bolas vermelhas,com dimensões rigorosamente iguais. Três (3) bolas são selecionadas ao acaso com reposição e as cores são anotadas.**

**3. Uma moeda é lançada, consecutivamente, até o aparecimento da primeira cara.**

**4. Dois dados são lançados, simultâneamente, e estamos interessados na soma das faces obtidas.**

**4. Três jogadores $A < B < C$ disputam um torneio de tênis. Inicialmente, A joga com B e o vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha 2 vez em seguida ou quando são disputadas, ao todo, quatro partidas. Quais são os resultados possíveis do torneio?**

**5. Em uma entrevista telefônica com 250 assinantes, anota-se o número se o proprietário tem ou não tem uma máquina de lavar roupa.**

**6. De um grupo de 5 pessoas (A, B, C, D, E) são sorteadas 2 pessoas, uma após a outra, com reposição; e anota-se a configuração formada.**

**7. Uma moeda e um dado são lançados. Dê o espaço amostral do experimento.**

**8. Escolhe-se ao acaso um número natural, de 1 a 20. Qual a probabilidade de que o número escolhido seja par?**

**9. Em um jogo há duas urnas com dez bolas de mesmo tamanho em cada urna. A tabela a seguir indica as quantidades de bolas de cada cor em cada urna.**

Cor | Urna 1 | Urna 2
----|--------|------
Amarela	|4	|0
Azul	|3	|1
Branca	|2	|2
Verde	|1	|3
Vermelha	|0	|4

Uma jogada consiste em:

1º) o jogador apresenta um palpite sobre a cor da bola que será retirada por ele da urna 2  
2º) ele retira, aleatoriamente, uma bola da urna 1 e a coloca na urna 2, misturando-a com as que lá estão  
3º) em seguida ele retira, também aleatoriamente, uma bola da urna 2  
4º) se a cor da última bola retirada for a mesma do palpite inicial, ele ganha o jogo  

Qual cor deve ser escolhida pelo jogador para que ele tenha a maior probabilidade de ganhar?

a) Azul  
b) Amarela  
c) Branca  
d) Verde  
e) **Vermelha**

<center><img src="images/line-png-16827.png" width="500" height="450" /></center>

In [None]:
Omega = {não 5, não 5, 5}

In [44]:
import pandas as pd

In [45]:
df = pd.read_csv('https://s3-sa-east-1.amazonaws.com/lcpi/5729687e-ae14-4978-8cd7-7ef18277813d.csv')

In [47]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [49]:
df.Survived.value_counts(True)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

## Propriedades da União e Intersecção
---

Vamos supor a tabela abaixo  para idades

| idade | $n_{i}$ | $F_{i}$ | $f_{ac}$ |
|-------|---------|---------|----------|
| 17    | 9       |         |          |
| 18    | 22      |         |          |
| 19    | 7       |         |          |
| 20    | 4       |         |          |
| 21    | 3       |         |          |
| 22    | 0       |         |          |
| 23    | 2       |         |          |
| 24    | 1       |         |          |
| 25    | 2       |         |          |
|-------|---------|---------|----------|
| total |   n=50  |    1    |          |
|-------|---------|---------|----------|

Qual nosso espaço amostral ? 

quais são as probabilidades associadas ?

P(17) ? 

#### **Probabilidade de união de eventos**

A probabilidade de união de eventos é calculada através da regra da adição de probabilidades apresentada abaixo :

$$ P(A \cup B) = P(A) + P(B) - P ( A \cap B) $$

Temos também a definição de que um evento pode ser definido pela não ocorrência dele, ou seja, $$A^{c}$$ é a não ocorrência de A. Logo,

$$P(A) = 1 - P(A^{c})$$


Se isso é correto, então: $P(A) + P(A^{c}) = 1$.

Podemos visualizar por:

$$P (A \cup A^{c}) = P(A) + P(A^{c}) - P(A\cap A^{c}) $$

## Probabilidade condicional e Independência
---

![venn](images/venn.gif)


Para eventos dependentes, o cálculo da Probabilidade muda. Vamos estabelecer que:

$P(A|B)$ -> Probabilidade condicional de A dado B, ou seja, probabilidade do evento A ocorrer, dado que ocorreu o evento B

$P(A \cap B)$ -> Como já vimos, é a probabilidade dos dois eventos ocorrerem


Para eventos dependentes, Temos a seguinte função:

$$P(A|B)= \frac{P(A\cap B)}{P(B)}$$



$$ P(A|B) = \frac{\frac{A \cap B}{\omega}}{\frac{B}{\omega}}$$



E algumas vezes, passamos P(B) para o outro lado da igualdade, e a equação fica assim:

$$P(A\cap B) = P(A|B) × P(B)$$

### Exemplos

$Ex_1$.: Uma moeda é lançada duas vezes, sucessivamente. Qual é a probabilidade de tirarmos cara no segundo lançamento, sabendo que foi obtido coroa no primeiro?

$Ex_2$.: De uma com 4 bolas brancas e 6 bolas pretas, retiram-se 2 bolas, sucessivamente, e sem reposição. Qual é a probabilidade de:

1. Ambas serem brancas?
2. A segunda ser branca?
3. A 2ª ser branca, sabendo que a 1ª é branca?

#### Exercício

Em um blog de variedades, músicas, mantras e informações diversas, foram postados “Contos de Halloween”. Após a leitura, os visitantes poderiam opinar, assinalando suas reações em: “Divertido”, “Assustador” ou “Chato”. Ao final de uma semana, o blog registrou que 500 visitantes distintos acessaram esta postagem.

O gráfico a seguir apresenta o resultado da enquete.

![](https://static.todamateria.com.br/upload/en/em/enem_1_2_3.jpg)

O administrador do blog irá sortear um livro entre os visitantes que opinaram na postagem “Contos de Halloween”.

Sabendo que nenhum visitante votou mais de uma vez, a probabilidade de uma pessoa escolhida ao acaso entre as que opinaram ter assinalado que o conto “Contos de Halloween” é “Chato” é mais aproximada por:

a) 0,09    
b) 0,12   
c) 0,14  
d) 0,15  
e) 0,18  

### Eventos independentes 

Quanto a ocorrência de um evento não intefere na ocorrência do outro, e vice-versa. Em outras palavras, quando a probabilidade de ocorrência de um evento A, não alterar a probabilidade de ocorrência de um evento B, e vice-versa.

<center><img src="images/line-png-16827.png" width="500" height="450" /></center>

## Teorema de Bayes
O **Teorema de Bayes** é um conceito importantíssimo da probabilidade e uma das ferramentas mais importantes de serem aprendidas para um Cientista de Dados. Este já foi usado em diversas aplicações reais, como por exemplo a classificação de um email como spam ou não. O Teorema de Bayes é uma forma de calcular probabilidades condicionais de forma reversa.

Vamos considerar o clássico exemplo para explicar o teorema. Temos uma determinada doença A, e um teste T utilizado para detectar esta doença. O teste não é 100% confiável, indicando pessoas que não tem a doença como doentes (falsos positivos) e não detectando a doença em pessoas que a possuem (falsos negativos), como ilustra a figura abaixo: 


<center><img src="images/bayes_teste.jpg" width="80%" /></center>


Consideremos que 1% das pessoas possui esta doença e, logo, 99% das pessoas não a possui. O teste detecta a doença em pessoas efetivamente doentes 90% das vezes e, consequentemente, não detecta a doença em pessoas doentes em 10% dos casos. Em pessoas não doentes, o teste detecta a doença (erradamente) `em 5% dos casos` e não detecta em 95% dos casos. Podemos resumir desta forma:

|                | Pessoa Doente | Pessoa Não Doente |
|----------------|---------------|-------------------|
| Teste positivo | 90 %          | 5 %               |
| Teste Negativo | 10 %          | 95 %              |

Agora, vamos supor que você fez o teste e o resultado deu positivo. Como devemos interpretar este resultado? Obviamente, existe uma chance de você possuir a doença e uma chance de não possuir. A chance de você ter a doença e o teste detecta-la (verdadeiro positivo) é igual a chance de você ter a doença multiplicado pela chance do teste ter dado positivo corretamente. Analogamente, a chance de você não ter a doença e o teste detecta-la mesmo assim (falso positivo) é igual a chance de você não ter a doença multiplicado pela chance do teste ter dado positivo incorretamente, e assim por diante, para todos os resultados. Atualizamos então a tabela, que fica assim:

|                | Pessoa Doente                            | Pessoa Não Doente                               |
|----------------|------------------------------------------|-------------------------------------------------|
| Teste positivo | Prob Doente e teste pos: 1% × 90% = 0,9% | Prob Não Doente e teste pos: 99% × 5% = 4,95%   |
| Teste Negativo | Prob Doente e teste neg: 1% × 10% = 0,1% | Prob Não Doente e teste neg: 99% × 95% = 94,05% |

Estas então são nossas probabilidades para cada evento. Note que, se somadas, o resultado é 1, ou 100%. Mas agora temos uma dúvida. Se nosso teste deu positivo, qual a chance de termos a doença? Considerando o cálculo básico de probabilidade, temos que a chance de ter a doença é igual à chance do evento desejado dividido por todas as possibilidades. O evento desejado é um positivo verdadeiro, ou seja, teste positivo e a pessoa com doença. Para este caso, a probabilidade é de 0,9%. O total de possibilidades com relação ao teste positivo seria a soma da probabilidade de “Doente e teste pos” (verdadeiro positivo) com “Não Doente e teste pos” (falso positivo), que resultará em 0,9% + 4,95%, igual a 5,85%. Fazendo toda a conta então, nossa chance de ter a doença se temos um teste positivo é de 0,9%/5,85% = 0.1538, ou 15,38%. É uma chance bem mais baixa do que imaginamos apenas ao olhar para o problema e para a suposta precisão do teste.

### Considerando o seguinte:

* P(D|A) = Probabilidade de ter a doença dado um teste positivo (este é a probabilidade que desejamos saber)

* P(D) = Probabilidade da pessoa ter a doença = 1%

* P(A|D) = Probabilidade de um teste positivo se a pessoa tem a doença = 0,9% (

* P(A|¬D) = Probabilidade de um teste positivo se a pessoa não tem a doença = 4,95%

    **O Teorema de bayes diz que :**
    
    
$$ P(D|A) = \frac{P(A|D) * P(D)}{P(A|D) * P(D)  + P(A|nao D) * P(nao D)}    $$

In [5]:
# A probabilidade de uma pessoa ter certa doença A é de 1%
# consequentemente, a probabilidade de não ter a doença é de 99%

probabilidade_doenca = 0.01
probabilidade_nao_doenca = 1 - probabilidade_doenca

# Um teste T para detectar a doença não é 100% confiável, detectando
# a doença em pessoas não doentes e não detectando em pessoas doentes

# O teste detecta a doença em pessoas doentes em 90% dos casos
# e não detecta a doença em pessoas doentes em 10% dos casos

prob_teste_pos_e_doenca = 0.9
prob_teste_neg_e_doenca = 0.1

# O teste detecta a doença em pessoas não doentes em 5% dos casos
# e não detecta a doença em pessoas não doentes em 95% dos casos

prob_teste_pos_e_nao_doenca = 0.05
prob_teste_neg_e_nao_doenca = 0.95


# Verdadeiro positivo: chance de ter a doença e o teste dar positivo
prob_verdadeiro_positivo = probabilidade_doenca * prob_teste_pos_e_doenca


# Verdadeiro negativo: chance de não ter a doença e o teste dar negativo
prob_verdadeiro_negativo = probabilidade_nao_doenca * prob_teste_neg_e_nao_doenca

# Falso positivo: chance de não ter a doença e o teste dar positivo
prob_falso_positivo = probabilidade_nao_doenca * prob_teste_pos_e_nao_doenca

# Falso negativo: chance de ter a doença e o teste dar negativo
prob_falso_negativo = probabilidade_doenca * prob_teste_neg_e_doenca


# Fizemos o teste e o resultado foi positivo. Qual a chance de eu ter a doença?
# Teorema de Bayes: P(D|A) = (P(A|D) * P(D)) / (P(A|D) * P(D) + P(A|¬D) * P(¬D))



### Exemplos

1. Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A fábrica I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o restante vem da fábrica III. Cada uma das fábricas, no entanto, produz uma proporção de produtos que não atendem aos padrões estabelecidos pelas normas internacionais. Tais produtos são considerados "defeituosos" e correspondem a 1%, 2% e 1,5%, respectivamente, dos totais produzidos por fábrica.

    No centro de distribuição, é feito o controle de qualidade da produção combinada das fábricas.

    a. Qual é a probabilidade de encontrar um produto defeituoso durante a inspeção de qualidade?  
    b. Se durante a inspeção encontrarmos um produto defeituoso, qual é a probabilidade de que ele tenha sido produzido na Fábrica II?
    
2. Vamos utilizar o dataset do Titanic para calcular a probabilidade de uma pessoa ter sobrevivido, dado que é do sexo masculino.

In [4]:
import pandas as pd
import numpy as np

In [5]:
df = pd.read_csv('https://s3-sa-east-1.amazonaws.com/lcpi/5729687e-ae14-4978-8cd7-7ef18277813d.csv')

In [6]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
df.shape

(891, 12)

### Definição de eventos

- S: ter sobrevivido
- M: ser do sexo masculino

$$
P(S|M) = \, ?
$$

### Equação do Teorema de Bayes

$$ P(S|M) = \frac{P(M|S) \times P(S)}{P(M|S) \times P(S)  + P(M|\bar S) \times P(\bar S)}    $$

In [18]:
# 𝑃(𝑀|𝑆) = 0.318713
df.query('Survived == 1')['Sex'].value_counts(normalize=True)

p_masculino_sobreviveu = 0.318713

In [19]:
# P(S) = 0.383838
df.Survived.value_counts(True)

p_sobreviveu = 0.383838

In [20]:
# 𝑃(𝑀|𝑆') = 0.852459
df.query('Survived == 0')['Sex'].value_counts(normalize=True)

p_masculino_nao_sobreviveu = 0.852459

In [21]:
# 𝑃(𝑆') = 0.616162
df.Survived.value_counts(True)

p_nao_sobreviveu = 1 - p_sobreviveu

In [22]:
p_sobreviver_masculino = (p_masculino_sobreviveu * p_sobreviveu) / ((p_masculino_sobreviveu * p_sobreviveu) + (p_masculino_nao_sobreviveu * p_nao_sobreviveu))

In [23]:
p_sobreviver_masculino

0.1889076833772687

In [24]:
# Forma direta
df.query('Sex == "male"')['Survived'].value_counts(True)

0    0.811092
1    0.188908
Name: Survived, dtype: float64