# Probabilidade

![](https://i1.wp.com/resumos.mesalva.com/wp-content/uploads/2019/06/4-41.jpg?resize=299%2C144&ssl=1)

Essa equação resulta em um valor em um número entre 0 e 1 e essa probabilidade representa as chances de ocorrência de um ou mais resultados a cada ocorrência do evento. Porém, é importante lembrar que geralmente no mundo real não registramos os exatos valores calculados, afinal, o evento é aleatório, a probabilidade determina o que geralmente tende a acontecer, ou seja, ela é uma aproximação.

# Evento de Probabilidade Usando Python
Criaremos um programa que quando executado nos apresenta a quantidade de números pares obtidos em 10.000 lançamentos de dado.

Para isso, usaremos a função **random.choice()** da biblioteca do Python **numpy** que é capaz de escolher, aleatoriamente, entre valores de uma array, por isso, vamos precisar importar a biblioteca numpy no início do nosso programa.

In [1]:
import numpy as np

In [2]:
# Definiremos nosso espaço amostral como uma lista de todos os valores de um dado
espaco_amostral = [1,2,3,4,5,6]

# Definiremos nossos casos favoráveis como uma lista valores pares de um dado
favoraveis = [2,4,6]

# Definiremos nosso contador de lançamentos com resultados pares
resultados_pares = 0

# Definiremos nosso número de lançamentos, iremos usar 10000 no nosso exemplo
# Usamos letra maiúscula para representar que estamos criando uma constante
NUM_LANCAMENTOS = 10000

In [3]:
# Agora escreveremos nosso iterador com nossos lançamentos
for i in range (NUM_LANCAMENTOS):
    # np.random.choice escolhe um dos valores no espaço amostral, ou seja, algum valor entre (1,2,3,4,5,6)
    x = np.random.choice(espaco_amostral)
    """O comando x in favoráveis checa se o valor escolhido
    está na nossa lista de favoráveis, ou seja, se é 2, 4 ou 6
    """
    if(x in favoraveis):
        resultados_pares += 1

In [4]:
# Definição da probabilidade
probabilidade_par  = resultados_pares/NUM_LANCAMENTOS

# Impressão do resultado obtido
print("{0: d} dos resultados é par, isto é, obtemos uma probabilidade de aproximadamente {1:.2f}".format(resultados_pares,
                                                                                                         probabilidade_par))

 5016 dos resultados é par, isto é, obtemos uma probabilidade de aproximadamente 0.50


# Exemplo pratico
No curso de Sistema de Informação temos 54 alunos, sendo 9 mulheres e 45 homens. Escolhendo uma pessoa aleatoriamente, qual a probabilidade de escolher um homem ou uma mulher?

![](http://www.sakurai.dev.br/images/posts/2019-06-23-revisao-estatistica-probabilidade-python-01.png)

Portanto, a chance de escolher ao acaso um homem é de 84% e de escolher uma mulher e de 17%.

# Eventos dependentes e independentes

Os eventos independentes são eventos nos quais saber o resultado de um deles não nos dá qualquer informação sobre o possível resultado do segundo. O rolar de um dado não nos dirá nada sobre o resultado do rolar do segundo dado.

Analogamente, eventos dependentes são eventos nos quais o resultado de um nos dá mais informações sobre a probabilidade do outro. Neste caso, o rolar de um dado nos dá informações se queremos saber a probabilidade, por exemplo, de rolar 6 em dois dados.

Para eventos independentes, a probabilidade de dois eventos acontecerem é igual a probabilidade de um multiplicada pela probabilidade do outro. Desta forma, se a probabilidade de rolar um determinado valor no dado é de 1/6, a probabilidade de rolar dois 6 seguidos é calculada da seguinte forma:

Sendo P(A) a probabilidade do evento A, P(B) a probabilidade do evento B e P(A,B) a probabilidade de ocorrerem os eventos A e B:

`P(A,B) = P(A) × P(B)`

In [5]:
probability_of_6 = 1/6
# Probabilidade de rolar dois 6 em dois dados
print(probability_of_6 * probability_of_6)

0.027777777777777776


# Evento Complementar
Eventos complementares são um conceito simples. Um evento complementar a um evento A é aquele que engloba todos os resultados que não atendem ao evento A. Novamente utilizando o rolar do dado como exemplo, se um evento A indica a probabilidade deste dado rolar um número menor ou igual a 2, que seria de 2/6, seu evento complementar seria a probabilidade do dado rolar um número maior que 2, ou 4/6. O cálculo da probabilidade de um evento complementar é bem simples, bastando subtrair de 1 a probabilidade do evento A

# Eventos Mutuamente Exclusivos
Eventos mutuamente exclusivos ocorrem quando entre dois eventos, apenas um pode acontecer. Ao jogar uma moeda, ela tem que resultar em cara ou coroa. Os dois não podem acontecer simultaneamente. Em um dado, o número rolado tem que ser par ou ímpar. Nenhum número atende as duas condições simultaneamente.

Para dois eventos mutualmente exclusivos A e B, P(A,B), ou seja, a probabilidade que os dois ocorram, é igual a zero. Entretanto, podemos calcular a probabilidade de P(A ou B), que para estes tipos de eventos, será igual a P(A) + P(B). Para o caso dos dados, por exemplo, P(A ou B) será igual a 1, pois o número rolado necessariamente será par um ímpar. Para outro exemplo, em um baralho, consideremos a probabilidade de uma carta ser um valete (P(A)), igual a 4/52, ou 1/13, e a probabilidade dela ser um Ás (P(B)), também 1/13. Estas duas probabilidades dão-se por termos 4 de cada uma destas cartas em um baralho de 52 cartas. São eventos mutualmente exclusivos, pois uma carta não pode ser os dois. Desta forma, P(A,B) é igual a zero. Entretanto, a probabilidade dela ser um Valete ou um Ás (P(A ou B)) será igual à soma de P(A) e P(B), totalizando 1/13 + 1/13 = 2/13.

# Probabilidade Condicional
Para eventos dependentes, o cálculo da Probabilidade muda. Vamos estabelecer que:

P(A|B) -> Probabilidade condicional de A dado B, ou seja, probabilidade do evento A ocorrer, dado que ocorreu o evento B
P(A,B) -> Como já vimos, é a probabilidade dos dois eventos ocorrerem
P(A) e P(B) -> Também, como já vimos, é a probabilidade de cada evento acontecer
Para eventos dependentes, o cálculo é o seguinte:

`P(A|B) = P(A,B)/P(B)`

E algumas vezes, passamos P(B) para o outro lado da igualdade, e a equação fica assim:

`P(A,B) = P(A|B) × P(B)`

Vejamos um exemplo e um pouco de código. Consideremos um dado. Seja o primeiro evento tirar um número ímpar e o segundo tirar um 5 ou 6 no dado. Vamos calcular a probabilidade de A dado B.

`P(A|B) = ?? P(A) = 3/6 P(B) = 2/6 P(A,B) = 2/6 × 3/6 = 0,16666 ou 16,66%, ou ainda 1/6 - Este resultado equivale a nossa única possibilidade, que é o número 5. P(A|B) = (1/6)/(2/6)`

Vejamos o código para chegar na resposta final:

In [6]:
# Probabilidade do evento A: dado ser ímpar
probabilidade_impar = 3/6
# Probabilidade do evento B: dado ser 5 ou 6
probabilidade_5_ou_6 = 2/6
# Probabilidade dos dois eventos
probabilidade_ambos = probabilidade_impar * probabilidade_5_ou_6
print(probabilidade_ambos)


# Probabilidade de A dado B igual a P(A,B) / P(B)
probabilidade_a_dado_b = probabilidade_ambos / probabilidade_5_ou_6
print(probabilidade_a_dado_b)



0.16666666666666666
0.5


# Teorema de Bayes
O Teorema de Bayes é um conceito importantíssimo da probabilidade e uma das ferramentas mais importantes de serem aprendidas para um Cientista de Dados. Este já foi usado em diversas aplicações reais, como por exemplo a classificação de um email como spam ou não. O Teorema de Bayes é uma forma calcular probabilidades condicionais de forma reversa.

Vamos considerar o clássico exemplo para explicar o teorema. Temos uma determinada doença A, e um teste T utilizado para detectar esta doença. O teste não é 100% confiável, indicando pessoas que não tem a doença como doentes (falsos positivos) e não detectando a doença em pessoas que a possuem (falsos negativos). Consideremos que 1% das pessoas possui esta doença e, logo, 99% das pessoas não a possui. O teste detecta a doença em pessoas efetivamente doentes 90% das vezes e, consequentemente, não detecta a doença em pessoas doentes em 10% dos casos. Em pessoas não doentes, o teste detecta a doença (erradamente) em 5% dos casos e não detecta em 95% dos casos. Podemos resumir desta forma:

In [15]:
index = ['Teste positivo', 'Teste negativo']
valores={'Pessoa Doente':['90%', '10%'],'Pessoa não doente':['5%','95%'] }
import pandas as pd
pd.DataFrame(valores, index=index)


Unnamed: 0,Pessoa Doente,Pessoa não doente
Teste positivo,90%,5%
Teste negativo,10%,95%


Agora, vamos supor que você fez o teste e o resultado deu positivo. Como devemos interpretar este resultado? Obviamente, existe uma chance de você possuir a doença e uma chance de não possuir. A chance de você ter a doença e o teste detecta-la (verdadeiro positivo) é igual a chance de você ter a doença multiplicado pela chance do teste ter dado positivo corretamente. Analogamente, a chance de você não ter a doença e o teste detecta-la mesmo assim (falso positivo) é igual a chance de você não ter a doença multiplicado pela chance do teste ter dado positivo incorretamente, e assim por diante, para todos os resultados. Atualizamos então a tabela, que fica assim:

In [16]:
index = ['Teste positivo', 'Teste negativo']
valores={'Pessoa Doente':['Prob Doente e teste pos: 1% × 90% = 0,9%', 'Prob Doente e teste neg: 1% × 10% = 0,1%'],
         'Pessoa não doente':['Prob Não Doente e teste pos: 99% × 5% = 4,95%','Prob Não Doente e teste neg: 99% × 95% = 94,05%'] }
pd.DataFrame(valores, index=index)

Unnamed: 0,Pessoa Doente,Pessoa não doente
Teste positivo,"Prob Doente e teste pos: 1% × 90% = 0,9%","Prob Não Doente e teste pos: 99% × 5% = 4,95%"
Teste negativo,"Prob Doente e teste neg: 1% × 10% = 0,1%","Prob Não Doente e teste neg: 99% × 95% = 94,05%"


Estas então são nossas probabilidades para cada evento. Note que, se somadas, o resultado é 1, ou 100%. Mas agora temos uma dúvida. Se nosso teste deu positivo, qual a chance de termos a doença? Considerando o cálculo básico de probabilidade, temos que a chance de ter a doença é igual à chance do evento desejado dividido por todas as possibilidades. O evento desejado é um positivo verdadeiro, ou seja, teste positivo e a pessoa com doença. Para este caso, a probabilidade é de 0,9%. O total de possibilidades com relação ao teste positivo seria a soma da probabilidade de “Doente e teste pos” (verdadeiro positivo) com “Não Doente e teste pos” (falso positivo), que resultará em 0,9% + 4,95%, igual a 5,85%. Fazendo toda a conta então, nossa chance de ter a doença se temos um teste positivo é de 0,9%/5,85% = 0.1538, ou 15,38%. É uma chance bem mais baixa do que imaginamos apenas ao olhar para o problema e para a suposta precisão do teste.

Considerando o seguinte:

`P(D|A) = Probabilidade de ter a doença dado um teste positivo` (este é a probabilidade que desejamos saber) 

`P(D) = Probabilidade da pessoa ter a doença = 1%` 

`P(A|D) = Probabilidade de um teste positivo se a pessoa tem a doença = 0,9%`

`( P(A|¬D) = Probabilidade de um teste positivo se a pessoa não tem a doença = 4,95%`

`P(¬D) = Probabilidade da pessoa não ter a doença = 99%`

O Teorema de Bayes diz que:

![](https://felipegalvao.com.br/static/540e914816e1c14751b4141ea0ab2790/4c04a/bayes_theorem.png)

Vamos ver um pouco de código para fazer estas contas e comprovar nosso resultado que chegamos ali em cima (15,38%):

In [18]:
# A probabilidade de uma pessoa ter certa doença A é de 1%
# consequentemente, a probabilidade de não ter a doença é de 99%
probabilidade_doenca = 0.01
probabilidade_nao_doenca = 1 - probabilidade_doenca

# Um teste T para detectar a doença não é 100% confiável, detectando
# a doença em pessoas não doentes e não detectando em pessoas doentes

# O teste detecta a doença em pessoas doentes em 90% dos casos
# e não detecta a doença em pessoas doentes em 10% dos casos
prob_teste_pos_e_doenca = 0.9
prob_teste_neg_e_doenca = 0.1

# O teste detecta a doença em pessoas não doentes em 5% dos casos
# e não detecta a doença em pessoas não doentes em 95% dos casos
prob_teste_pos_e_nao_doenca = 0.05
prob_teste_neg_e_nao_doenca = 0.95

# Verdadeiro positivo: chance de ter a doença e o teste dar positivo
prob_verdadeiro_positivo = probabilidade_doenca * prob_teste_pos_e_doenca
# Verdadeiro negativo: chance de não ter a doença e o teste dar negativo
prob_verdadeiro_negativo = probabilidade_nao_doenca * prob_teste_neg_e_nao_doenca
# Falso positivo: chance de não ter a doença e o teste dar positivo
prob_falso_positivo = probabilidade_nao_doenca * prob_teste_pos_e_nao_doenca
# Falso negativo: chance de ter a doença e o teste dar negativo
prob_falso_negativo = probabilidade_doenca * prob_teste_neg_e_doenca

# Fizemos o teste e o resultado foi positivo. Qual a chance de eu ter a doença?
# Teorema de Bayes: P(D|A) = (P(A|D) * P(D)) / (P(A|D) * P(D) + P(A|¬D) * P(¬D))
# P(D|A) = Probabilidade de doença dado um teste positivo. É o que desejamos calcular
# P(A|D) = Probabilidade do teste ser positivo se você tem a doença -> 90%
# P(D) = Probabilidade de ter a doença -> 1%
# P(A|¬D) = Probabilidade do teste ser positivo e você não ter a doença -> 5%
# P(¬D) = Probabilidade de não ter a doença -> 99%
# Simplificar as variáveis para que a equação não fique muito extensa
P_A_D = prob_teste_pos_e_doenca
P_D = probabilidade_doenca
P_A_ND = prob_teste_pos_e_nao_doenca
P_ND = probabilidade_nao_doenca
prob_doente_dado_positivo = (P_A_D * P_D) / (P_A_D * P_D + P_A_ND * P_ND)
print(prob_doente_dado_positivo)

0.15384615384615385
