## Introdução a Probabilidade

### Bibliotecas

In [24]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Introdução

A probabilidade é um ramo da matemática responsável por modelar eventos não-determinísticos, por exemplo, a probabilidade de obter uma determinada face após o lançamento de uma moeda ou a quantidade de produtos defeituosos em um lote de uma fábrica. 

#### Definições:

- Conjunto: representa uma coleção de elementos e dizemos que $a \in A$ quando $a$ for elemento  do conjunto A, por exemplo, dado o conjunto A = {1, 2, 3, 4}, podemos dizer que $5 \notin A$. As operações elementares feitas com conjuntos são o de inclusão, união, intersecção e complemento que serão demonstradas brevemente abaixo: 

In [558]:
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}

# União soma ambos os conjuntos
A | B

{1, 2, 3, 4, 5, 6, 7, 8}

In [560]:
# Intersecção nos da os valores em comum em ambos os conjuntos
A & B

{4, 5}

In [562]:
# Pertencimento nos diz se um elemento faz parte do conjunto
1 in A

True

In [564]:
C = {2, 3}

# Inclusão podemos verificar se o conjunto está contido em outro
C <= A

True

- Espaço amostral $(\Omega)$: Representa todos os possíveis valores que um dado **experimento** pode assumir. Por exemplo, um moeda pode assumir os valores cara (K) e coroa (C).

- Evento: são os possíveis valores ou combinações obtidos de um dado experimento, por exemplo, ao lançar um moeda duas vezes eu posso obter KK, KC, CK e CC. 

- Frequência relativa ($f_A$): Dado um conjunto de experimentos obtém-se *n* eventos e calcula-se a frequência de um dado evento frente a quantidade total de experimentos realizados, por exemplo, ao lançar um moeda 4 vezes posso obter as faces K, C, C, K onde a face K tem uma frequência relativa de 2/4 = 0,5. A $f_A$ sempre será um número entre 0 e 1 e uma das hipóteses subjacentes é que há uma convergência em probabilidade quando o número de experimentos tende ao infinito. 

In [620]:
# Segue abaixo exemplo de uma simulação de 10000 lançamentos aleatórios de uma moeda

face = ['K','C']
moeda = pd.DataFrame({'face': [np.random.choice(face) for n in np.arange(1,1001)]})

moeda.value_counts()/len(moeda)

face
K       0.51
C       0.49
Name: count, dtype: float64

In [622]:
# Podemos confirmar que a soma das frequências relativas da simulação anterior é igual a 1
np.sum(moeda.value_counts()/len(moeda))

1.0

#### Noções Fundamentais:  

Sabemos que uma moeda não viciada tem igual chance de obter K ou C em um experimento qualquer, entretanto se fizermos 10 lançamentos de uma moeda não há nenhuma garantia de obtermos uma igual número de K e C. A forma de sabermos a probabilidade de obter um determinado valor sem recorrer a experimentação parte das propriedades abaixo desde que assuma-se uma convergência em probabilidade. 

1. $\mathrm{0 \leq P(A) \geq 1}$
2. $\mathrm{P(S) = 1}$
3. $\mathrm{P (A \ \cup \ B) = P(A) + P(B)}$ se forem eventos mutualmente excludentes.

### Espaços Amostrais Finitos

A probabilidade de obter cara (K) no lançamento de uma moeda é igual a:

$
\mathrm{P (K)} = \frac{1}{2} = 0.5
$

A probabilidade de obter cara (K) ou coroa (C) pode ser expresso como uma soma de probabilidades:

$
\mathrm{P (K \ \cup \ C)} = \frac{1}{2} \ + \ \frac{1}{2} = 1
$

A soma de probabilidades de um experimento associadas a um dado espaço amostral $(\Omega)$ deve ser sempre igual a 1: 

$
P(S) = \sum_{n}^{i=1}p_i=1
$

A probabilidade de ao lançar um moeda e obter um valor diferente de cara (K) é igual a: 

$
\mathrm{P (K^c)} = 1 - \mathrm{P (K)} = 0.5
$

A probabilidade de eventos subsequentes, por exemplo, lançar uma moeda e obter cara (K) duas vezes, pode ser calculado como: 

$
\mathrm{P (K \mid K)} = \frac{1}{2} . \frac{1}{2} = 0.5 \ . \ 0.5 = 0.25
$

In [635]:
# Abaixo verificamos que a frequência de K é próximo de 0.5
K_freq = moeda.value_counts()['K']/len(moeda)
K_freq

0.51

In [638]:
# Abaixo vemos que a frequência de C é igual a 1 menos a frequência de K 
C_freq = 1 - moeda.value_counts()['K']/len(moeda)
print(round(C_freq,4))

0.49


In [640]:
# Abaixo simulamos dois lançamentos subquentes de moedas com substituição e a frequência de KK foi aproximadamente 0.25
evento = pd.DataFrame({'evento_1':[]*1000,
                      'evento_2':[]*1000})

for n in range(1000):
    amostra = moeda['face'].sample(2, replace=True, random_state=n).reset_index(drop=True)
    amostra = pd.DataFrame({'evento_1': [amostra[0]], 'evento_2': [amostra[1]]})
    evento=pd.concat([evento, amostra], ignore_index=True)

f_KK = evento[(evento['evento_1']=='K') & (evento['evento_2']=='K')].value_counts()/len(evento)
print("A frequência relativa de KK foi de:", f_KK.iloc[0]*100, '%')

A frequência relativa de KK foi de: 24.7 %


### Eventos Dependentes

A probabilidade condicional calcula a probabilidade de um evento (A) condicionado a outro evento (B), é representado matematicamente por $\mathrm{P (A \mid B)}$. Um exemplo é no poker, onde cada combinação de cartas tem uma probabilidade e as cartas que você recebeu afeta as possíveis combinações de cartas na mão do adversário. Abaixo simulei duas fábricas (A e B) que produziram 1000 itens com os status (defeituoso e perfeito):

In [658]:
# Simulação de itens defeituosos
fabrica = ['A','B']
status = ['defeituoso','perfeito']

itens = pd.DataFrame({'fabrica': [np.random.choice(item, p=[0.6, 0.4]) for n in np.arange(1,1001)],
                      'status': [np.random.choice(status, p=[0.05, 0.95]) for n in np.arange(1,1001)]})

itens.head()

Unnamed: 0,fabrica,status
0,B,perfeito
1,A,perfeito
2,B,perfeito
3,A,perfeito
4,A,perfeito


In [660]:
# Ao escolher aleatoriamente um item, a probabilidade de ser da fabrica A é de 59.7%
itens['fabrica'].value_counts()/len(itens)

fabrica
A    0.597
B    0.403
Name: count, dtype: float64

In [662]:
# Ao escolher um item aleatoriamente, a probabilidade de ser defeituoso é de 4.1%
itens['status'].value_counts()/len(itens)

status
perfeito      0.959
defeituoso    0.041
Name: count, dtype: float64

In [677]:
# A fábrica A reúne 2.5% dos itens defeituoso
itens.groupby('fabrica')['status'].value_counts()/len(itens)

fabrica  status    
A        perfeito      0.572
         defeituoso    0.025
B        perfeito      0.387
         defeituoso    0.016
Name: count, dtype: float64

In [666]:
# Após remover 100 itens, a probabilidade de tirar um item defeituoso passa a ser de 3.8%
itens.drop(range(0, 100))['status'].value_counts()/len(itens)

status
perfeito      0.862
defeituoso    0.038
Name: count, dtype: float64

### Teorema de Bayes

Com base no exemplo anterior, poderiamos fazer a seguinte pergunta: dado que retiramos um item e constatou-se que ele era defeituoso, qual a probabilidade de ser um item produzido pela fábrica A? Podemos resolver isto por meio da fórmula do Teorema de Bayes:

$$
\mathrm{P (A \mid B)} = \frac{ \mathrm{P (A \mid B)} \cdot \mathrm{P (A)} }{ \sum_{j=1}^{k} \mathrm{P (A \mid B)} \cdot \mathrm{P (B)}}
$$

In [681]:
p_A = 0.597
p_B = 0.403
p_defA = 0.025
p_defB = 0.016

# Probabilidade de ser da fábrica A, dado que é defeituoso é de 70%
p_Adef = (p_defA * p_A) / (p_defA * p_A + p_defB * p_B)
p_Adef

0.6983109530716324

### Eventos Independentes

Nos casos anteriores vimos situações onde a probabilidade de um dado evento depende do evento anterior, agora veremos situações onde os eventos são independentes. Duas probabilidade só são independentes se respeitarem a propriedade abaixo: 

$$
\mathrm{P (A \cap B_i)} = \mathrm{P (A)} \cdot \mathrm{P(B)}
$$

Podemos pensar no caso do lançamento de uma moeda não-viciada, a probabilidade de obter K após o lançamento independe do resultado obtido anteriormente. Podemos também dizer que:

$$
\mathrm{P (K \mid C)} = \mathrm{P (K)}
$$

Lê-se, a probabilidade de K dado C é igual a probabilidade de K.

In [708]:
# Podemos ver abaixo que dado C, a probabilidade de K é proximo de 50% como esperado
evento[evento['evento_1']=='C']['evento_2'].value_counts()/len(evento[evento['evento_1']=='C'])

evento_2
K    0.506383
C    0.493617
Name: count, dtype: float64

## Bibliografia

Probabilidade, Aplicações à Estatística, Paul L. Meyer