# Exercícios - Probabilidade

### Questão 1

Um teste para COVID-19 possui uma taxa de 5% de falso positivo e 1% de falso negativo, ou seja, em 5% dos não-infectados acusa como infectados, e em 1% dos infectados acusa como não infectados. Sabendo que atualmente 1% da população está infectada, calcule a probabilidade de um paciente cujo teste apontou positivo estar realmente infectado.

### Resolução:

Temos uma determinada doença C, e um teste T utilizado para detectar esta doença. 

O teste não é 100% confiável, indicando pessoas que **não têm a doença como doentes (falsos positivos)** e **não detectando a doença em pessoas que a possuem (falsos negativos)**

> Consideremos que 1% das pessoas possui a doença: $P(C) = 0.01$

> Logo, 99% das pessoas não a possui: $P(¬C) = 0.99$

Os Falsos positivos são 5%, ou seja 5% dos testes positivos na verdade não estâo com a doença. Já o caso dos falsos negativos são 1%, ou seja 1% dos testes negativos na verdade a pessoa está realmente doente. Vamos ver esse resumo na matriz de confusão abaixo:


|                | Pessoa Doente | Pessoa Não Doente |
|----------------|---------------|-------------------|
| Teste positivo | 99 %          | 5 %               |
| Teste Negativo |  1 %          | 95 %              |


Agora, a chance de você **ter a doença e o teste detecta-la (verdadeiro positivo)** é igual **a chance de você ter a doença multiplicado pela chance do teste ter dado positivo corretamente**;

Analogamente, a chance de você **não ter a doença e o teste detecta-la mesmo assim (falso positivo)** é igual **a chance de você não ter a doença multiplicado pela chance do teste ter dado positivo incorretamente**;

E assim por diante, para todos os resultados. Atualizamos então a tabela, que fica assim:

|                | Pessoa Doente                            | Pessoa Não Doente                               |
|----------------|------------------------------------------|-------------------------------------------------|
| **Teste positivo** | Prob Doente e teste pos: 1% × 99% = 0,99% | Prob Não Doente e teste pos: 99% × 5% = 4,95%   |
| **Teste Negativo** | Prob Doente e teste neg: 1% × 1% = 0,01% | Prob Não Doente e teste neg: 99% × 95% = 94,05% |


Considerando o cálculo básico de probabilidade, temos que a chance de ter a doença é igual à **chance do evento desejado dividido por todas as possibilidades**. 

O evento desejado é um positivo verdadeiro, ou seja, **teste positivo e a pessoa com doença**.

O **total de possibilidades com relação ao teste positivo** seria a **soma da probabilidade de “doente e teste pos”** (verdadeiro positivo) com **“não doente e teste pos” (falso positivo)**, que resultará em 0,99% + 4,95%, igual a 5,94%.

Fazendo toda a conta, nossa chance de ter a doença se temos um teste positivo é de **0,99%/5,94% = 0.1667**, ou **16,67%**.

## 

### Questão 2

A probabilidade de dado honesto é conhecido e igual a $1/6$, mas quando vamos testar isso com um dado físico, não necessariamente vai cair uma vez cada face do dado (se eu lançar ele 6 vezes). A ideia é que conforme fazermos vários testes a tendência é que a probabilidade de cada face irá convergir pro valor esperado. 

Vamos testar este conceito utilizando da programação seguintes os itens abaixo:]

__A)__ Desenvolva uma função que receba um valor n, onde n é a quantidade de elementos e o objetivo da função é retorna uma _Series_ com n elementos sendo esses elementos números variando de 1 e 6;

__B)__ Teste a função para n igual a 10, 100, 1.000, 10.000 e 100.000 casos e para cada um deles calcule a proporção de vezes que aparece cada número;

__DIca.:__ utilize a função do _Pandas_ `.value_counts`

__C)__ O que podermos dizer sobre a afirmação do enunciado, a tendência é que as probabilidades irâo convergir para $1/6$?

### Resolução:

__A)__ Desenvolva uma função que receba um valor n, onde n é a quantidade de elementos e o objetivo da função é retorna uma _Series_ com n elementos sendo esses elementos números variando de 1 e 6;

Primeiramente vamos importar as bibliotecas necessárias:

In [1]:
# Import das Libs
import random
import pandas as pd

In [2]:
# Cria uma função que gera aleatoriamente n elementos entre 1 e 6
def gera_faces(n):
    # Cria uma lista vazia
    list_numbers = []
    
    # Loop entre 0 e n-ésimo elemento
    for i in range (0, n):
        # Usando o random.randint gera um número aleatório entre 1 e 6
        number = random.randint(1, 6)
        
        # Salva o número gerado em uma lista
        list_numbers.append(number)

    # a saída convertemos a lista em uma Series do Pandas
    return pd.Series(list_numbers)

__B)__ Teste a função para n igual a 10, 100, 1.000, 10.000 e 100.000 casos e para cada um deles calcule a proporção de vezes que aparece cada número;

In [3]:
# Calculo da Probabilidade teórica de uma face do dado honesto em porcentagem
P = (1/6)*100

# PRint da Probabilidade
print(P)

16.666666666666664


In [4]:
# Ensaio 1 - 10 elementos
# Gera 10 números aleatórios
serie10 = gera_faces(10)

# Print da Serie
serie10

0    5
1    6
2    1
3    4
4    2
5    2
6    5
7    6
8    4
9    6
dtype: int64

In [5]:
# Calcula a frequência em porcentagem para essa serie
serie10.value_counts(normalize = True)*100

6    30.0
5    20.0
4    20.0
2    20.0
1    10.0
dtype: float64

In [6]:
# Ensaio 2 - 100 elementos
# Gera 100 números aleatórios
serie100 = gera_faces(100)

# Print da Serie
serie100

0     4
1     2
2     6
3     2
4     5
     ..
95    1
96    5
97    4
98    3
99    1
Length: 100, dtype: int64

In [7]:
# Calcula a frequência em porcentagem para essa serie
serie100.value_counts(normalize = True)*100

5    24.0
2    18.0
6    17.0
4    16.0
1    13.0
3    12.0
dtype: float64

In [8]:
# Ensaio 3 - 1000 elementos
# Gera 1000 números aleatórios
serie1k = gera_faces(1000)

# Print da Serie
serie1k

0      6
1      6
2      2
3      1
4      3
      ..
995    2
996    5
997    3
998    4
999    2
Length: 1000, dtype: int64

In [9]:
# Calcula a frequência em porcentagem para essa serie
serie1k.value_counts(normalize = True)*100

3    18.2
6    16.7
4    16.7
1    16.5
2    16.2
5    15.7
dtype: float64

In [10]:
# Ensaio 4 - 10000 elementos
# Gera 10000 números aleatórios
serie10k = gera_faces(10000)

# Print da Serie
serie10k

0       2
1       1
2       6
3       2
4       3
       ..
9995    1
9996    6
9997    3
9998    4
9999    4
Length: 10000, dtype: int64

In [11]:
# Calcula a frequência em porcentagem para essa serie
serie10k.value_counts(normalize = True)*100

4    17.93
6    16.53
2    16.51
1    16.47
5    16.46
3    16.10
dtype: float64

In [12]:
# Ensaio 5 - 100000 elementos
# Gera 100000 números aleatórios
serie100k = gera_faces(100000)

# Print da Serie
serie100k

0        5
1        6
2        6
3        6
4        5
        ..
99995    4
99996    2
99997    3
99998    6
99999    3
Length: 100000, dtype: int64

In [13]:
# Calcula a frequência em porcentagem para essa serie
serie100k.value_counts(normalize = True)*100

3    16.897
5    16.811
2    16.629
4    16.594
6    16.558
1    16.511
dtype: float64

__C)__ O que podermos dizer sobre a afirmação do enunciado, a tendência é que as probabilidades irâo convergir para $1/6$?

Com o exercício conseguimos observar que, quando utilizamos uma amostra pequena fica realmente dificil descrever o evento de probabilidade de um dado honesta, mas conforme aumentamos o número de observações, realmente o percentual de saída para cada uma das faces converge para $1/6$.

## 

### Questão 3

Na casa de Luiza e Rafael tem um pote de balas de diferentes cores. Certo dia a mamãe deles contou quantas balas tinha de cada uma das cores:

- 14 balas azuis;
- 22 balas vermelhas;
- 17 balas amarelas.

A mamãe deles deixou que cada um pegasse 3 balas começando pela Luiza e depois o Rafael. Dado isso resolva os item abaixo:

__A)__ Qual a probabilidade da Luiza pegar uma bala de cada na ordem da contagem e o Rafael pegar 2 azuis e uma vermelha, dado que é um evento sem reposição?

__B)__ Luiza decidiu ficar só com a bala amarela e devolveu as demais para o pote antes que o Rafael pegasse suas balas. Como que ficaria a probabilidade para o Rafael agora?

### Resolução:

__A)__ Qual a probabilidade da Luiza pegar uma bala de cada e o Rafael pegar 2 azuis e uma vermelha, dado que é um evento sem reposição?

Primeiramente vamos definir quantas balas tem no pote:

In [14]:
balas_azuis = 14
balas_vermelhas = 22 
balas_amarelas = 17

In [15]:
total_balas = balas_azuis + balas_vermelhas + balas_amarelas

print(total_balas)

53


Vamos começar pela probabilidade da Luiza:

In [16]:
# Evento 1 - Pegou uma bala azul
# P(L1) = balas azuis / total = 14/53
L1 = balas_azuis/total_balas

print(L1)

0.2641509433962264


In [17]:
# Evento 2 - Pegou uma bala vermelha
# P(L2) = balas vermelhas / (total - 1) = 22/52 = 11/26, pois não teve reposição
L2 = balas_vermelhas/(total_balas - 1)

print(L2)

0.4230769230769231


In [18]:
# Evento 3 - Pegou uma bala amarela
# P(L3) = balas amarelas / (total - 2) = 17/51 = 1/3, pois não teve reposição
L3 = balas_amarelas/(total_balas - 2)

print(L3)

0.3333333333333333


In [20]:
import numpy as np

# Probabilidade Final para a Luiza
# Vai ser o produto dos 3 eventos = P(Luiza) = (14/53)*(11/26)*(1/3) = 77/2.067
P_Luiza = np.round(L1*L2*L3*100, 2)

# PRint da probabilidade
print('A probabilidade para as balas da Luiza é {}%'.format(P_Luiza))

A probabilidade para as balas da Luiza é 3.73%


Calculando a probabilidade agora para as balas do Rafael:

In [21]:
# Evento 1 - Pegou uma bala azul
# P(R1) = balas azuis -1 / total -3 = 13/50, pois não teve reposição
R1 = (balas_azuis-1)/(total_balas-3)

print(R1)

0.26


In [22]:
# Evento 2 - Pegou outra bala azul
# P(R2) = balas azuis -2 / total -4 = 12/49, pois não teve reposição
R2 = (balas_azuis-2)/(total_balas-4)

print(R2)

0.24489795918367346


In [23]:
# Evento 3 - Pegou uma bala vermelha
# P(R3) = balas vermelhas - 1 / (total - 5) = 21/48 = 7/16, pois não teve reposição
R3 = (balas_vermelhas - 1)/(total_balas - 5)

print(R3)

0.4375


In [24]:
# Probabilidade Final para o Rafael
# Vai ser o produto dos 3 eventos = P(Rafael) = (13/50)*(12/49)*(7/16) = 273/9.800
P_Rafael = np.round(R1*R2*R3*100, 2)

# PRint da probabilidade
print('A probabilidade para as balas da Rafael é {}%'.format(P_Rafael))

A probabilidade para as balas da Rafael é 2.79%


__B)__ Luiza decidiu ficar só com a bala amarela e devolveu as demais para o pote antes que o Rafael pegasse suas balas. Como que ficaria a probabilidade para o Rafael agora?

Vamos calcular a nova probabilidade para as balas do Rafael:

In [25]:
# Evento 1 - Pegou uma bala azul
# P(R1n) = balas azuis / (total - 1) = 14/52 = 7/26, pois não teve reposição
R1n = (balas_azuis)/(total_balas-1)

print(R1n)

0.2692307692307692


In [26]:
# Evento 2 - Pegou outra bala azul
# P(R2n) = balas azuis-1 / total-2 = 13/51, pois não teve reposição
R2n = (balas_azuis-1)/(total_balas-2)

print(R2n)

0.2549019607843137


In [27]:
# Evento 3 - Pegou uma bala vermelha
# P(R3n) = balas vermelhas / (total - 3) = 22/50 = 11/25, pois não teve reposição
R3n = (balas_vermelhas)/(total_balas - 3)

print(R3n)

0.44


In [28]:
# Probabilidade Final para o Rafael
# Vai ser o produto dos 3 eventos = P(Rafael) = (7/26)*(13/51)*(11/25) = 1.001/33.150
P_Rafael_n = np.round(R1n*R2n*R3n*100, 2)

# PRint da probabilidade
print('A nova probabilidade para as balas da Rafael é {}%'.format(P_Rafael_n))

A nova probabilidade para as balas da Rafael é 3.02%


## 

### Questão 4

Um programa de computador gera uma pontuação aleatória para cada usuário, sendo que:

- Em 1/2 dos casos, gera 0.5;
- Em 1/4 dos casos, gera 0.25;
- Em 1/8 dos casos, gera 0.125.

E essa lógica segue assim por diante. Resolva os itens a seguir:

__A)__ Calcule o __valor esperado__ utilizando apenas os 3 primeiros casos;

__B)__ Faça um _loop_ para calcular o __valor esperado__ para 100 casos e avalie se só com os 3 primeiros casos temos uma boa aproximação ou não.

### Resolução:

__A)__ Calcule o __valor esperado__ utilizando apenas os 3 primeiros casos;

Sabendo que o cálculo do valor esperado é da forma $\sum_{i=1}^{k} x_i P(x_i)$, temos que para os 3 primeiros casos:

In [29]:
# Cálculo do valor esperado
esp = (1/2)*(0.5) + (1/4)*(0.25) + (1/8)*(0.125)

# Mostra o valor
print(esp)

0.328125


__B)__ Faça um _loop_ para calcular o __valor esperado__ para 100 casos e avalie se só com os 3 primeiros casos temos uma boa aproximação ou não.

In [30]:
# Import do NumPy
import numpy as np

Vamos criar um _loop_ para avaliar o __valor esperado__ para 100 casos:

In [55]:
# Número de casos
n = 100

# Valor esperado inicial
esp_loop = 0

# Loop para percorre a soma até o n=ésimo valor
for i in range(n):
    prob = (1/(2**(i+1)))*(1/(2**(i+1))) # a probabilidade tem o mesmo valor do número aleatório
    # soma no valor esperado
    esp_loop += prob
    
    
# Mostra o valor esperado
print(esp_loop)

0.3333333333333333


In [32]:
# Comparação dos valores esperados
esp/esp_loop

0.984375

Os 3 primeiros casos já representam 98% do valor esperado, sendo assim uma boa aproximação do resultado dessa aplicação.

## 

### Questão 5

Em um programa de auditório, havia 3 portas (A, B, C), dentro da qual uma continha um prêmio. O participante escolheu a porta A e antes de abrir a porta o apresentador abriu a porta C, na qual não havia nada. O participante aumentará a probabilidade de acertar a porta caso mude a escolha dele da porta A para a B?

### Resolução:

A probabilidade do prêmio estar em uma das portas é:

$$ P(A) = P(B) = P(C) = 1/3 $$

Vamos, utilizar o Teorema de Bayes para resolver esse problema:
<br><br>

$$ P(premio = A | abriu = C) = \frac{P(abriu = C | premio = A)P(A) }{P(abriu = C | premio = A)P(A) + P(abriu = C | premio = B)P(B) + P(abriu = C | premio = C)P(C) }    $$
<br><br>

Vamos ver o que são cada uma das probabilidades condicionais, dado que eu escolhi a porta A e a primeira porta aberta foi a C:

- A probabilidade do prêmio agora está na porta A será $1/2$, pois o prêmio ou vai estar na porta A ou B. Dessa forma:
<br><br>
$$ P(abriu = C | premio = A) = 1/2 $$
<br>

- Agora imagine que o prêmio não possa estar na porta A, ou seja sobrou apenas a porta B e C. Dado que ele abriu a porta C, a probabilidade do prêmio estar na porta B é 1, pois o apresentador não vai abrir a porta do prêmio de primeira e ele também não vai abrir a porta que você escolheu. Portanto:
<br><br>
$$ P(abriu = C | premio = B) = 1 $$
<br>

- Por fim, a porta C não tem probabilidade nenhuma de conter o prêmio pois já foi aberta. Assim temos que:
<br><br>
$$ P(abriu = C | premio = C) = 0 $$
<br><br>
Agora basta aplicar as probabilidades calculadas acima na dedução do Teorema de Bayes para o exercício das portas:
<br><br>
$$ P(premio = A | abriu = C) = \frac{(1/2)(1/3)}{(1/2)(1/3) + (1)(1/3) + (0)(1/3)} = 1/3    $$
<br><br>

O que acontece então se trocarmos de para a porta B?:
<br><br>
$$ P(premio = B | abriu = C) = 1 - P(premio = A | abriu = C) = 1 - 1/3 = 2/3    $$

A probabilidade de acertarmos a porta se trocar será $2/3$, ou seja dobramos a probabilidade de acertar!