## PROBABILIDADE

> Utilizo como referência nesse estudo, o livro de  Fonseca e Martins **Curso de Estatística** - 6° Edição (p.15 - 29, 63 - 83) e o de Joel Grus (p.72-75)

Estudar probabilidade geralmente é um saco porque nos perdemos fácil nos milhares de exemplos e de explicações não muito claras. Nessa seção, vou tentar aplicar a probabilidade teórica com alguns exemplos de programação. óbvio que não vai ficar fácil 100% de primeira, mas a ideia é que você sempre busque estudar estes conceitos de vez em quando.<br><br> Na prática, não resolvemos toda a matemática aplicada na mão (até porque existe um monte de biblioteca para fazer os cálculos), contudo, entender a parte mais massante é fundamental para se tornar um cientista de dados de verdade, afinal, estatística e probabilidade andam juntas e não é só de gráfico que vivemos.

## ESPAÇO AMOSTRAL

**DEFINIÇÃO**: Para cada experimento aleatório **E**, define-se *Espaço Amostral* **S** o conjunto de todos os possíveis resultados deste experimento.

In [1]:
#E = jogar um dado e observar o numero da face de cima, entao temos o seguinte
#um dado com 6 lados, que pode ser em python uma lista por exemplo

dados = [1,2,3,4,5,6]

#Ou então, jogar duas moeda e observar o resultado. Uma moeda tem dois lados e a
#cada jogada, qualquer lado pode sair. Podemos usar uma lista de tuplas por exemplo
moedas = [("cara","coroa"),("cara","coroa"),("cara","coroa")]

## EVENTO

**DEFINIÇÃO**: conjunto de resultados do experimento, o que em termos de conjuntos seria um subconjunto de **S**. Em particular temos que:

>$S\spaceé\space um\space evento\space certo$<br>
$\varnothing \spaceé\space o\space chamado\space evento\space impossível$


Uma coisa importante a saber são as chamadas operações de conjuntos. Matematicamente você pode ver isso quando estiver estudando sobre séries temporais, o que exige um dominio avançado em estatística (claro que programando fica mais fácil, mas se não entender a ideia por trás, não vai conseguir bons resultados). Sendo assim, temos:

* $A \cup B \to$  é o evento que ocorre se A **ou** B ocorre ou ambos ocorrem;
* $A \cap B \to$  é o evento que ocorre se A **ou** B ocorrem ;
*$\overline{A} \to$ é o evento que ocorre se A não ocorre.

Temos ainda a questão dos mutuamente não exclusivos, onde:
* $A \cap B = \varnothing$ em que dois eventos A e B são denominados mutuamente exclusivos se ele não puderem ocorrer simultaneamente.

Como por exemplo, jogar dados e em um grupo terem os casos par e no outro grupo os casos impares. Acontece que a ocorrência de um número par e impar não pode ser verificada como decorrência da mesma experiência.

Por fim, **Fonseca e Martins (2011, p.18)** define probabilidade assim:

![image.png](attachment:image.png)

Temos ainda os principais teoremas, mas não vou me aprofundar tanto nessa parte. É importante saber de cabo a rabo? não, só os conhecendo já é o suficiente. Vou listar então alguns:

* Se $\varnothing$ é o conjunto vazio, então P($\varnothing$) = 0
* Se $\overline{A}$ é o complemento do evento A, então P($ \overline{A}$) =1 - P(A)
* Se A $\subseteq$ B, então P(A) $\le$ P(B)
* Teorema da soma: Se A e B são dois eventos quaisquer, então;
$P (A \cup B) = P(A) + P(B) - P(A \cap B)$

Explicando de maneira bruta os items:
* No primeiro, se o conjunto é vazio, supomoso que vamos fazer a união de P(A) com o conjunto vazio. Como o conjunto **é vazio**, sua presença não faz a mínima diferença na adição ou mesmo subtração, logo, sendo zero.
* No caso da negação de A é bem simples. Pensa aí, você tem a 70% de quebrar um osso ao longo da vida (supomos), qual a probabilidade de você não quebrar então? 30%. Ok, mas o que diabos é aquele 1 alí? simples, na probabilidade, como mostra o item I na definição, vamos de 0 até 1, certo? pois bem, aplicando a porcentagem (logo.... 100), apenas multiplicamos os valores por 100 para entender melhor
* No caso de A está contido em B é só você entender que A é um subconjunto de B. Ele pode até ser menor ou igual a B, mas maior que ele, jamais né.
* E no ultimo, no caso da união, basta você pensar no seguinte exemplo: A(1,2,3) e B(3,4,5). Para que possamos realizar a união deles, removemos suas intersecções ou as coisas que eles tem em comum, no nosso caso, o valor 3.

## PROBABILIDADES FINITAS DOS ESPAÇOS AMOSTRAIS FINITOS

Não vou negar que esta parte é um pouco confusa em relação a definição. Pra tentar contornar isso, vou primeiro aplicar o exemplo e depois aplicamos a parte teórica.

**Exemplo**: Três cavalos, A,B e C estão em uma corrida: A tem duas vezes mais probabilidade de ganhar que B, e B tem duas vezes mais probabilidade de ganhar que C. Sendo assim, quais as probabilidades de vitória de cada um? ou seja, P(A), P(B) e P(C).

Pra resolver isso, vamos primeiro analisar um pouquinho. Dado que não temos números exatos denominados na questão, teremos que generalizar e aplicar um valor $x$ para ser o valor de probabilidade de cada caso. Assim sendo:
* Definimos  P(C) = $x$;
* Como o enunciado diz que B tem **duas vezes** mais chances de ganhar do que C, definimos P(B) = $2X$;
* Como o enunciado diz que A tem **duas vezes** mais chances de ganhar do que B, definimos P(A) = $2(2x)$ = $4x$

Agora, podemos entender um pouquinho a parte teórica. Acontece que, dados um *espaço amostral finito* $S = \big\{ a_1,a_2,a_3 ... a_n \big\}$, vamos considerar o evento formado por um resultado simples A = {$a_i$}.

A cada evento simples {$a_i$} associamos um número {$p_i$} denominado probabilidade de {$a_i$} satisfazendo as seguintes condições:
* I) $p_i \ge 0\space\space    i = 1,2,3....n$
* II) $p_1 + p_2 + p_3 + ... + p_n = 1$

A probabilidade P(A) de cada evento composto (mais de um elemento) é definida pela soma das probabilidades dos pontos de A.

Se analisarmos agora nosso exemplo, vemos que temos um espaço amostral finito S do qual cada elemento é A,B,C e a cada um desses elementos temos um $p_i$ que calculam probabilidades e que somados são iguais a 1.

Sendo assim, fazendo pelo item II, temos:

\begin{equation}
x + 2x + 4x = 1\\
\color{red}7x = 1\\
x =\frac{ \color{red}1}{ \color{red}7}
\end{equation}

Calculando P(A) temos que :
\begin{equation}
    P(A) = 4P\\
    P(A) = 4\times\frac{1}{7}\\
    P(A) = \frac{4}{7}
\end{equation}

Para P(B) temos:
\begin{equation}
    P(B) = 2P\\
    P(B) = 2\times\frac{1}{7}\\
    P(B) = \frac{2}{7}
\end{equation}

e para P(C):
\begin{equation}
    P(C) = \frac{1}{7}
\end{equation}

agora uma perguntinha extra. E quais seriam as probabilidades de B **ou** C ganhar? curioso não? pois bem, aplicando a soma de proabilidades que vimos na parte de EVENTOS, temos :

\begin{equation}
    P(A \cup B) = P(A) + P(B) \space A \cap B = \varnothing\\
\end{equation}

Aplicando ao nosso caso:

\begin{equation}
    P(B \cup C) = P(B) + P(C)\\
    P(B \cup C) = \frac{2}{7} + \frac{1}{7}\\
    \color{blue}P(\color{blue}B \cup \color{blue}C) = \frac{\color{blue}3}{\color{blue}7}   
\end{equation}

**Recomendação**: Clique no link para ver outras explicações a respeito do tema: [link](http://grupoevolucao.com.br/livro/Matematica3/probabilidade_de_um_evento_em_um_espao_amostral_finito.html)

## ESPAÇOS AMOSTRAIS FINITOS EQUIPROVAVEIS

Quando se associa a cada ponto amostral a mesma probabilidade, o espaço amostral chama-se equiprovável ou uniforme. Em particular, se S contém n pontos, então a probabilidade de cada ponto será 1/n.
Fica muito mais fácil de entender se levarmos essa ideia em mente:
>P(A) = n° de vezes em que o evento A pode ocorrer/ n° de vezes em que o Espaço Amostral S ocorre

ou

> P(A) = NUMERO DE CASOS PROVAVEIS/ NUMERO TOTAL DE CASOS 

#### Cara ou Coroa

Podemos tentar um exemplo em python, por exemplo. Deixo como recomendação de leitura o post do [dataquest](https://www.dataquest.io/blog/basic-statistics-in-python-probability/) sobre o assunto. Usaremos o exemplo de cara e coroa.

In [2]:
import random
def cara_ou_coroa(n:int):
    rodadas = 0
    cara = 0
    coroa = 0
    while(rodadas < n):
        valor_moeda = random.choice(['CARA','COROA'])
        rodadas+=1
        if(valor_moeda == 'CARA'):
            cara+=1
        else:
            coroa+=1
    
    print(f"A possibilidade de caras foi:{(cara/rodadas)*100 :.2f} %")
    print(f"A possibilidade de coroas foi:{(coroa/rodadas)*100 :.2f} %")    

In [3]:
#testando com 10 rodadas - os resultados irão variar a cada impressão
cara_ou_coroa(10)

A possibilidade de caras foi:60.00 %
A possibilidade de coroas foi:40.00 %


In [4]:
#testando com 100 rodadas - os resultados irão variar a cada impressão
cara_ou_coroa(100)

A possibilidade de caras foi:52.00 %
A possibilidade de coroas foi:48.00 %


O que nosso código faz é basicamente inicializar a quantidade de rodadas e de cara e coroas com zero, depois sortear as palavras cara ou coroa. Se a palavra for cara, adicionamos 1 para a variavel cara, o mesmo vale também para coroa. No fim, assim como a demonstrado acima, dividimos a quantidade de casos para cara e coroa pelo o número de casos totais de rodadas.

#### Exemplo com baralhos

Seja:
* P(A): cara de ouros
* P(B): a carta é uma figura

Observação, em um baralho de 52 cartas, 13 são de ouro, 12 de figuras. Assim sendo, temos

In [5]:
print(f"P'('A')' = {13/52}")
print(f"P'('B')' = {12/52}")

P'('A')' = 0.25
P'('B')' = 0.23076923076923078


Como os autores do livro apontam, o cálculo da probabilidade de um evento se reduz a um probelma de contagem. É aí que conhecimentos voltados a **ANÁLISE COMBINATÓRIA** fazem toda a diferença na contagem de número de casos favoráveis e total de casos.

Uma imagem para não confundir muito as fórmulas existentes.

**observação**: Não tratarei da análise combinatória a fundo aqui, podendo ver em um outro notebook mais tarde. Apenas demonstrarei um exemplo do livro.

<img  src="https://sto-static.s3.amazonaws.com/images/lesson-summary/c6f92bdf593ab9eb45ca720ed7cfad8c05c5167e4c4a94102bcfe4009cd01aae.png?versionId=hfcNzWl.Wr0rVd4.5iaErj8e67QpQnC9">

Uma perguntinha para entender como funcionam as coisas:

Quantas comissões de 3 pessoas podem ser formadas com um único grupo de 10 pessoas?

Para isso, teríamos de aplicar a seguinte equação:

\begin{equation}
C_{10,3} = 	{10 \choose 3} = \frac{10!}{3!\big(10-3\big)!}
\end{equation}

In [6]:
##função de fatorial

def fatorial(n):
    val = 0;
    if(n==0):
        val = 1
        return val
        #jamais esqueça que fatorial de 0 é 1, 
        #muito menos diga que nao existe (isso ja me ocorreu e nunca fui perdoado, mesmo só tendo esquecido)
    else:
        for i in range(1,n):
            val = i*n
            n = val
        return val

In [7]:
resultado = (fatorial(10)/(fatorial(3)*fatorial(10-3)))

In [8]:
print(f"O número de comissões que podem ser formadas é de {resultado}")

O número de comissões que podem ser formadas é de 120.0


Uma observação que posso deixar é que essa função de fatorial poderia ficar muito menor. Aplicando a recursividade, podemos econominzar muitas linhas de código. É o ideial? em muitos casos não, principalmente quando estamos aprendendo algo novo, mas deixarei essa opção aqui abaixo. Você pode entrar no [link](https://www.geeksforgeeks.org/python-program-for-factorial-of-a-number/) do geeks for geeks e ver as mais diferentes formas de fazer a mesma coisa.

In [9]:
def fatorial_recursiva(n):
    return 1 if(n==0 or n==1) else n*fatorial_recursiva(n-1)   

In [10]:
fatorial_recursiva(5)

120

## Probabilidade Condicional


Seguindo com os estudos, continaremos a utilizar os conceitos do livro de estatística para explicar essa parte do que o livro do Joel Grus, pois o livro apresenta mais explicações teóricas que podem ajudar mais a compreender os conceitos.Sendo assim, vamos ver agora a chamada probabilidade condicional. Afinal o que vem a ser isso?
Vamos supor que desejamos saber a probabilidade de em um lançamento de dados, sair o valor 3. Sabemos a probabilidade seria 1/6. Mas qual seria a probabilidade de sair números ímpares? como um dado contém 3 números ímpares, a  probabilidade é de 1/3. Talvez não tenha ficado tão claro mas existe uma condicionalidade de uma probabilidade ocorrer.

conforme é apresentado no livro:
> dada a informa~]ao da ocorrência de um evento, teremos a redução do espaço-amostral; no exemplo S={1,2,3,4,5,6} foi reduzido para S* = {1,3,5} e é neste espaço-amostral reduziddo que se avalia a probabilidade do evento.

por **definição** temos:
> Dado dois eventos A e B, denota-se P(A|B) a probabilidade condicionada do evento A, quando B tiver ocorrido, por:

<img src="https://blogdoenem.com.br/apostilas/MDIII_Matematica_jorge-web-resources/image/7708.png">

com P(B) diferente de zero, pois B já ocorreu.

Por serem condicionadas, há uma questão de dependência a ser levada em conta. Tome cuidado com isso. Dependendo do caso, pode ou não, exister uma dependência.

Vejamos um exemplo:

> Frequentemente assumimos, com alguma justificativa, que a paternidade leva a responsabilidade. Pessoas que passam anos atuando de maneira descuidadosa e irracional de alguma forma parecem se tornar em pessoas diferentes uma vez que elas se tornam pais, mudando muitos dos seus antigos padrões habituais. Suponha que uma estação de rádio tenha amostrado 100 pessoas, 20 das quais tinham crianças. Eles observaram que 30 dessas pessoas usavam cinto de segurança, e que 15 daquelas pessoas tinham crianças. A tabela abaixo ilustra os resultados.

In [29]:
#vou fazer com a bilblioteca de manipulação de dados mas só pra ficar bonito 
import pandas as pd

df = pd.DataFrame(data=[["Com crianças",15,5,20],
                        ["Sem crianças",15,65,80],
                        ["Total",30,70,100]],
                        columns=['Paternidade','Usam Cinto','Não Usam Cinto','total'])
df = df.set_index('Paternidade')
df

Unnamed: 0_level_0,Usam Cinto,Não Usam Cinto,total
Paternidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Com crianças,15,5,20
Sem crianças,15,65,80
Total,30,70,100


Dado a tabela então, vamos resolver algumas questões:
* A probabilidade de uma pessoa amostrada aleatoriamente usar cinto de segurança

In [35]:
p_a = 30 #amostra de pessoas que usam cinto (veja que ele fala pessoa amostrada aleatoriamente)
p_b = 100 # total de pessoas

p_usar_cinto = p_a/p_b
print(f"A probabilidade de uma pessoa amostrada aleatoriamente usar cinto de segurança: {(p_usar_cinto*100):.0f} %")

A probabilidade de uma pessoa amostrada aleatoriamente usar cinto de segurança: 30 %


* A probabilidade de uma pessoa ter criança e usar cinto de segurança 

In [36]:
p_a = 15
p_b = 100 #veja a pergunta - isso pode ser um pouquinho confuso, normal - ter uma criança E usar cinto

p_usar_cinto = p_a/p_b
print(f"A probabilidade de uma pessoa ter criança e usar cinto de segurança: {(p_usar_cinto*100):.0f} %")

A probabilidade de uma pessoa ter criança e usar cinto de segurança: 15 %


* A probabilidade de uma pessoa usar cinto de segurança dado que tem criança

In [37]:
p_a = 15  # valor para => usar cinto e ter criança
p_b = 20 # valor para => ter criança

#ou seja, tem criança mas pode usar ou nao cinto. Queremos descobrir a probabilidade de usar cinto nesse caso

p_usar_cinto = p_a/p_b
print(f"A probabilidade de uma pessoa usar cinto de segurança dado que tem criança: {(p_usar_cinto*100):.0f} %")

A probabilidade de uma pessoa usar cinto de segurança dado que tem criança: 75 %


Um grupo de pesquisa coletou os dados anual
de acidentes rodoviários com relação às condições de seguimento e não seguindo as regras de trânsito de uma área propensa a acidentes. Eles estão interessados em calcular a probabilidade de acidente, uma vez que uma pessoa seguiu as regras de trânsito. A tabela dos dados é dada da seguinte forma

In [39]:
df = pd.DataFrame(data=[['acidente',50,500],
                       ['Sem Acidente',2000,5000]],
                        columns=['condição','Siga a regra de tráfego','Não segue a Regra de Trânsito'])
df = df.set_index('condição')
df

Unnamed: 0_level_0,Siga a regra de tráfego,Não segue a Regra de Trânsito
condição,Unnamed: 1_level_1,Unnamed: 2_level_1
acidente,50,500
Sem Acidente,2000,5000


Nossa equação para essa questão é:

P(ACIDENTE | PESSOA QUE SEGUE AS REGRAS DE TRANSITO) = P(ACIDENTE E SEGUIR REGRAS)/P(SEGUIR REGRAS)

In [40]:
pessoa_segue_as_regras_e_acidente = 50
segue_as_regras = 50 + 2000

probabilidade = pessoa_segue_as_regras_e_acidente/  segue_as_regras
print(probabilidade)

0.024390243902439025


## TEOREMA DO PRODUTO
>A probabilidade da ocorrência simultânea de dois eventos, Ae B, do mesmo espaço-amostra, é igual ao  produto da probabilidade de um deles pela probabilidade condicional do outro, dado o primeiro.

<img src="https://image2.slideserve.com/5142258/slide3-l.jpg">

Um exemplo do livro curso de estatística do Fonseca e Martins para esse tema é:
>Em um lote de 12 peças, 4 são defeituosas, 2 peças são retiradas uma após a outra sem qualquer reposição. Qual a probabilidade de que ambas sejam boas?

* A = {a primeira peça é boa}
* B = { a segunda peça é boa}


In [42]:
#como 4 peças foram retiradas, nos sobram 8 possibilidade de peças boas
#para um total de 12 peças
p_a = 8/12

#como retiramos uma peça boa, nos sobra 7 peças boas de um total de 11 peças
#uma vez que retiramos uma peça.
p_b = 7/11

produto = p_a*p_b
print(produto) # ou 14/33

0.4242424242424242


## INDEPENDÊNCIA ESTATÍSTICA

>Um evento A é considerado independente de outro evento B se a probabilidade de A é igual a probabilidade condicional de A dado B, isto é, se **P(A) = P(A|B)**, sendo que o mesmo vale para B. Assim sendo, no teorema do produto, se A e B são independentes, então  ficaremos com o seguinte **P(A ∩ B) = P(A) X P(B)**

Um exemplo que pode ilustrar isso é:
>Em um lote de 10 peças, 4 são defeituosas, 2 peças são retiradas uma após a outra com reposição. Qual a probabilidade de que ambas sejam boas?

* A = { A primeira peça é boa}
* B = { A segunda peça é boa}

Note que as peças são colocadas novamente  no lote. Isso significa que a quantidade de peças boas é a mesma e podemos até mesmo pegar a mesma peça boa duas vezes. Logo as probabilidade são independentes.

In [43]:
p_a = 6/10
p_b = 6/10

probabilidade_independente = p_a * p_b
print(probabilidade_independente)

0.36


## TEOREMA DE BAYES

Joel Grus em seu livro diz que:
> Um dos melhores amigos do cientista de dados é o teorema de Bayes, o qual é uma maneira de reverter as probabilidades condicionais \[...\] Esse teorema é usado com frequência para demonstrar porque os cientistas de dados são mais espertos que os médicos \[...\].

Um dos melhores (se não o melhor) exemplos do teoremas de bayes é o que envolve a situação de você fazer um exame e o teste dar positivo, mas a probabilidade de você realmente ter ser baixa. Confuso? vamos analisar isso então, mas antes, veja a fórmula que aplicamos nesse teorema.

<img src="https://lh3.googleusercontent.com/proxy/i0xROqdy4VPohSajx9-t9-IySJpNt9SQ_Mi1toJW-Np1IxgBmx_C7hrfIVy5eHKEKX3GLXe3SxCRwU2yfLHGI1r5a8kVAShNdm6PM0_cr4litKarH2TQGlKMpjS90cXaltyShL3r2YEinIDFEQ">

Mas você também pode ver ela assim:

<img src="https://maestrovirtuale.com/wp-content/uploads/2019/10/Imagen-7-e1526119689654.png">

Já aproveito para deixar algumas recomendações de leitura e de vídeo sobre o tema porque é realmente algo enriquecedor:
* [Teorema de Bayes: explicação, aplicações, exercícios](https://maestrovirtuale.com/teorema-de-bayes-explicacao-aplicacoes-exercicios/)
* [Introduction to Conditional Probability and Bayes theorem in R for data science professionals](https://www.analyticsvidhya.com/blog/2017/03/conditional-probability-bayes-theorem/)
* [Entenda o Teorema de Bayes \(ótima explicação!\)](https://www.youtube.com/watch?v=I643PqSrETM&ab_channel=Did%C3%A1ticaTech)
* [Teorema de Bayes pode ajudar a entender seu comportamento?](https://www.youtube.com/watch?v=P9EMIy0v8A4&ab_channel=Nerdologia)
