<img src = "https://www.estudopratico.com.br/wp-content/uploads/2014/06/probabilidade-calcular-e1586431045913-1200x675.jpg" width="50%">

# Probabilidade

Probabilidade é a área da matemática que estuda **eventos aleatórios**, cujos resultados são **probabilísticos** ou **estocásticos**.

Existem poucos sistemas na natureza que são de fato inerentemente aleatórias e não-determinísticas. No entanto, uma descrição determinística pode ser muito complicada, de modo que **se torna conveniente** tratar o sistema como um sistema estocástico.

Ex.: lançamento de moeda, lançamento de dados, etc.

O objetivo da estatística é similar: analisar dados ou criar modelos que **generalizem relações** que não podem ser determinadas diretamente uma vez que não temos acesso à população. Neste sentido, há muita probabilidade envolvida em estatística, e é por isso que vamos olhar para os principais conceitos de probabilidade.

## Variável aleatória

Uma **variável aleatória** é uma variável cujo valor depende de fatores **não-deterministícos**, isto é, **probabilísticos**. 

**Exemplo**: resultado do lançamento de um ou mais dados.

<img src = "https://bookdown.org/daniel_flores_agreda/Prob1-GSEM-UNIGE/img/fun/EC_Latin.png" width = "40%"></img>

## Espaço amostral

Chamamos de **espaço amostral** o conjunto de **todos os resultados possíveis de um certo fenômeno aleatório** (<font color = red> elementar e indivisível do experimento</font>), ou seja, **os valores possíveis que a variável aleatória de interesse pode assumir**. Representamos o espaço amostral pela letra grega $\Omega$. 

Os subconjuntos de $\Omega$ são denominados **eventos** e representados pelas letras latinas maiúsculas A, B, etc. 

**Exemplo**: o espaço amostral dos resultados do lançamento de um dado é:

$$ \Omega = \{1, 2, 3, 4, 5, 6\} $$

Alguns eventos possíveis são:

- Evento A = {3} : o resultado do lançamento do dado foi 3;
- Evento B = {5} : o resultado do lançamento do dado foi 5.

**Exemplo 2**: considere o lançamento de uma moeda:

<img src="https://www.vertica.com/wp-content/uploads/2019/07/Coin_Flip_183981489-2160.jpg" width=300>

- Se lançarmos uma única moeda:
    - A variável aleatória será **o resultado do lançamento da moeda**
    - Portanto, o espaço amostral é: $$ \Omega = \{ K, C \} $$
        
- Se retirarmos uma carta do baralho:
    - A variável aleatória será **o resultado do valor e naipe da carta**
    - Portanto, o espaço amostral é: $$ \Omega = \{ 2\clubsuit, 2\diamondsuit, 2\spadesuit, 2\heartsuit, 3\clubsuit, 3\diamondsuit, 3\spadesuit, 3\heartsuit, ... \}$$
   
- Se lançarmos uma moeda e cair cara, lançamos um dado apenas com números pares, caso coroa outro dado apenas com números ímpares:
    - A variável aleatória será **o resultado do par de lançamentos de moeda e dados**
    - Portanto, o espaço amostral é: $$ \Omega = \{ (K, 2), (K, 4), (K, 6), (C, 1), (C, 3), (C, 5) \} $$

## Definição Clássica ou Frequêntista de Probabilidade (Jerônimo Cardano; 1501 - 1576)
Podemos definir a probabilidade de um evento aleatório A ocorrer como:

$$P(A) = \dfrac{\#A}{\#\Omega}$$

em que $\#A$ é a cardinalidade do evento $A$, ou seja, a quantidade de vezes que ele pode ocorrer dentro do espaço amostral; ou ainda, a quantidade de "casos favoráveis" em relação aos casos possíveis.

Dessa maneira temos que:
- $P(\Omega) = 1$
- $P(\emptyset) = 0$
- $0 \leq P(A) \leq 1$
- $P(A^c) = 1 - P(A)$

**EX.:**
- Qual a probabilidade de ao retirarmos aleatóriamente uma carta de um baralho (sem coringas), termos uma figura?
    - Quem é o espaço amostral?
    - Quem é o evento A?
    - Qual é a probabilidade?
    

    - Seja $\Omega$ o espaço amostral tal que:
        $$\Omega : \{ 2\clubsuit, 2\diamondsuit, 2\spadesuit, 2\heartsuit, 3\clubsuit, 3\diamondsuit, 3\spadesuit, 3\heartsuit, ... \}$$
    
    - Seja A: Retirarmos uma figura de um baralho sem coringas  
    
        $$ A: \{Dama\clubsuit, Dama\diamondsuit, Dama\spadesuit, Dama\heartsuit,\newline 
        Valete\clubsuit, Valete\diamondsuit, Valete\spadesuit, Valete\heartsuit,\newline
        Rei\clubsuit, Rei\diamondsuit, Rei\spadesuit, Rei\heartsuit\}$$
        
    - $P(A) = \dfrac{12}{52}$


- Qual a probabilidade de sortearmos pontos aleatórios dentro de um circulo unitário e eles caírem a uma distância menor do que 0.5 com relação ao centro?

    - Seja A: O Conjunto de pontos tal que $x^2 + y^2 <= 0.5^2$
    - Seja $\Omega$ o espaço amostral tal que $\Omega : x^2 + y^2 <= 1$
    - $P(A) = \dfrac{(0.25\pi)}{\pi} = 0.25$


## Definição axiomática - 1933
A defini clássica funciona muito bem para eventos finitos e discretos porém baseia-se no conceito de que os resultados são equiprováveis, ou seja, o mesmo peso de acontecer. Contudo podemos sanar esses problemas e generalizar a definição de probabilidade usando os **axiomas de Kolmogorov**.

De forma que, dado um evento aleatório A, um número real $P(A)$ é uma probabilidade se e somente se respeita os seguintes axiomas:
- Axioma 1: $P(A) >= 0$
- Axioma 2: $P(\Omega) = 1$
- Axioma 3: Se $A_1, A_2, ... \in \mathbb{A}$ são disjuntos, então:
    $$P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_ i)$$
 

A partir dessa definição podemos, por exemplo, verificar se a função

$$ f(x) = \dfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}$$

é ou não uma função de probabilidade.

## Propriedades importantes

### Diagrama de Venn e Espaço de Probabilidade

<img src = "https://d3rw207pwvlq3a.cloudfront.net/attachments/000/123/316/original/image.png?1596464245" width = "50%"></img>

<img src = "https://efofexnews.files.wordpress.com/2016/02/gfbdbfba.png" width = "50%"></img>


### Eventos Disjuntos ou Mutuamente Excludentes
Dois eventos são disjuntos se $A \cap B = \emptyset$ e portanto $P(A \cap B) = 0$

**Ex.:**

- Probabilidade de cair cara e cora simultâneamente
- Probabilidade de um cliente contratar um produto e dar Churn no mesmo momento
- Probabilidade de um jogador de fotebol jogar para dois times ao mesmo tempo



### União de eventos
Dados dois eventos $A$ e $B$, o cálculo da união desses eventos é determianda da seguinte forma:
    
$$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$



### Exs Práticos
**Ex. Netflix:**
A Netflix vai recomendar dois filmes pra você e ela sabe que:

- A probabilidade de você gostar do primeiro filme é de 0.5
- A probabilidade de você gostar do segundo filme é de 0.4
- A probabilidade de você gostar de ambos os filmes é de 0.3

Agora, qual é a probabilidade de você gostar de ao menos um dos dois filmes?


Sejam os eventos

- A: Gostar do primeiro filme
- B: Gostar do segundo filme

$$P(A\cup B) = P(A) + P(B) - P(A \cap B) = 0.5 + 0.4 - 0.3 = 0.6$$



Portanto, qual é a probabilidade da netflix sugerir dois filmes e você não gostar de nenhum?

Seja

C: Não gostar de nenhum filme

$$P(C) = P((A \cup B)^c) = 1 - P(A\cup B) = 1 - 0.6 = 0.4$$


### Eventos Independentes

Dois eventos são independentes se e somente se $P(A \cap B) = P(A)*P(B)$

ou seja a probabilidade de um evento ocorrer não tem nenhum tipo de impacto dada a probabilidade do outro evento acontecer.


## Probabilidade Condicional

<img src = "https://bookdown.org/daniel_flores_agreda/Prob1-GSEM-UNIGE/img/fun/probconditionnelle2.png" width = "40%"></img>

Probabilidade condicional é um dos conceitos mais importantes da teoria de probabilidades, pois frequentemente se quer calcular seu valor quando se tem alguma informação parcial a respeito do resultado de um experimento aleatório.

Além disso, mesmo quando não se tem essa informação parcial, as probabilidades condicionais muitas vezes são utilizadas para computar mais facilmente valores de probabilidades que se tem interesse.

Mais importante do que isso o conceito por traz de probabilidades condicionais é de que nós conseguimos atualizar a nossa medida de incerteza a partir do momento que conhecemos uma informação nova.

**Ex.:** Qual a probabilidade de ao se jogar dois dados simultaneamente, que a soma deles seja 5? e se jogamos o segundo só depois de termos o resultado do primeiro? Muda alguma coisa?

Seja

A: O valor do lancamento do primeiro dado (não viesado)
B: O valor do lancamento do segundo dado (não viesado)

Logo o nosso espaço amostral S é dado pela tabela abaixo:

<img src = "https://bookdown.org/daniel_flores_agreda/Prob1-GSEM-UNIGE/img/03_axioms/c2.png" width = "50%"></img>

$$P(A + B = 5) = \dfrac{\#\text{Casos favoráveis}}{\#\text{Casos possíveis}} = \dfrac{4}{36} = \dfrac{1}{9}$$


Agora suponha que jogamos um dado de cada vez e que no primeiro lançamento caiu 2. Então temos um novo espaço amostral reduzido.

<img src = "https://bookdown.org/daniel_flores_agreda/Prob1-GSEM-UNIGE/img/03_axioms/c4.png" width = "50%"></img>

$$P(A + B = 5| A = 2) = \dfrac{\#\text{Casos favoráveis}}{\#\text{Casos possíveis}} = \dfrac{1}{6}$$


### Usando tabela de dupla entrada

||Não foi primeira opção|Foi primeira opção|Total|
|---|---|---|---|
|Ciência da Computação|3|32|35|
|Engenharia Civil|4|7|11|
|Engenharia de Produção|11|47|58
|Engenharia de Software|11|29|40
|Engenharia Mecânica|7|58|65
|Total|36|173|209

- Qual a probabilidade desse aluno ser do curso de Engenharia de Produção, tendo ou não sendo sua primeira escolha?

$$P(EP) = \dfrac{58}{209} \approx 0.28$$

- Qual a probabilidade desse aluno ser do curso de Engenharia de Produção e esta ter sido sua primeira escolha no ENEM?

$$P(EP \cap \text{Primeira Escolha}) = \dfrac{47}{209} \approx 0.22$$

- Dado que o estudante seja do curso de Engenharia de Produção, qual a probabilidade do curso ter sido sua primeira escolha?

$$P(\text{Primeira Escolha}|EP) = \dfrac{47}{58} \approx 0.81$$


Por definição temos que a **probabilidade de A ocorrer, dado que B ocoreu** é dada por:

$$P(A|B) = \dfrac{P(A \cap B)}{P(B)}$$

Por conveniência se $P(B) = 0$ dizemos que $P(A|B) = P(A)$, ou seja, são eventos independentes

# Voltamos as 20:40

# Exemplos famosos
## Aniversário
- Qual é a probabilidade de ao menos duas pessoas dessa turma de $n$ alunos fazerem aniversário no mesmo dia?

Seja o evento 

$A$: ao menos duas pessoas fazerem aniversário no mesmo dia

Logo

$A^c$: nenhuma pessoa fazer aniversário no mesmo dia

Por simplicidade vamos supor um valor de n = 40.

$$P(A^c) = \dfrac{\#\text{Casos favoráveis para a pessoa 1}}{\#\text{Casos possíveis}} * \dfrac{\#\text{Casos favoráveis para a pessoa 2}}{\#\text{Casos possíveis}} ... \newline \dfrac{365}{365} * \dfrac{364}{365} * \dfrac{363}{365} ... * \dfrac{326}{365} = \left(\dfrac{1}{365}\right)^{40} * \dfrac{365!}{325!} \approx 0.109$$

Como $P(A) = 1 - P(A^c)$ então $P(A) \approx 1 - 0.109 \approx 0.891$

Em termos gerais para um $n$ qualquer podemos escrever:

$$\left(\dfrac{1}{365}\right)^{n} * \dfrac{365!}{(365 - n)!}$$

<!---
import math

n = 20

1 - ((1/365)**n)*(math.factorial(365)/math.factorial(365 - n))
--->


## O caso de Sally Clark

**Contexto:** Uma mãe solo, com trabalho e não fumante, que teve dois filhos recém nascidos, sofre com a perda de ambos os bebês para o que é chamado de SIDS (Síndrome de morte súbita infantil) e é julgada por homicídio culposo pela morte dos filhos. Por conta da ausência de provas contra e a favor do crime, chamaram um especialista para determinar o quão provável seria que duas crianças morresem de SIDS, e o especialista utilizou o seguinte racional:

Sejam os eventos

- A: O primeiro bebê morrer de SIDS
- B: O segundo bebê morrer de SIDS

Portanto

$$P(A \cap B) = P(A)*P(B) = \dfrac{1}{8500}\dfrac{1}{8500} \approx \dfrac{1}{73\text{milhões}}$$

Sendo esse um evento quase impossível, o que a levou a ser condenada e passar 3 anos presa até conseguir recorrer e ser libertada.


**3 Erros Principais:**

- Os valores de $P(A)$ e $P(B)$ estavam inflados, o mais correto seria o valor de 1 em cada 3mil. 
- É fácil supor que os eventos não são independentes pois pode haver fatores ambientais e/ou genéticos e portanto, dado que o primeiro filho teve SIDS, ela deveria ser considerada grupo de risco, pois a probabilidade de um segundo filho ter SIDS seria alta. O que foi constatado entre 5 e 10 vezes mais provável em estudos futuros.
- Mesmo que o valor de 1 em cada 73 milhões fosse a probabilidade correta, deveria-se também ter se calculado a probabilidade de uma mãe solo, com emprego e não fumante, cometer 2 assassinatos de seus próprios filhos e facilmente se perceberia que, apesar de ser improvável que duas crianças tivessem óbito por SIDS, é ainda menos provavel que ela tenha cometido o duplo homicídio culposo. Na verdade entre 4.5 e 9 vezes menos provável. ([Prosecutor's fallacy](https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy))

TED Peter Donnelly: https://www.youtube.com/watch?v=kLmzxmRcUTo


## Teorema de Bayes

O **Teorema de Bayes** é um conceito importantíssimo da probabilidade e uma das ferramentas mais importantes de serem aprendidas para um Cientista de Dados, pois é a base de uma área com muitas aplicações práticas chamada [inferência bayesiana](https://en.wikipedia.org/wiki/Bayesian_inference).

Por este motivo é necessário entendê-lo e podemos fazer isso de 3 formas:

- Como plugar valores e utilizar a fórmula
- O porque a fórmula funciona
- Porque utilizamos


**O valor de uma fómula dessas é que nos permite quantificar e sistêmatizar a idéia de atualização de crenças.** O que permite ciêntistas a validarem se novas informações valída ou invalída os seus modelos. Ciêntistas de dados usam nos modelos de Machine Learning para definir explicitamente e numericamente a crença de uma máquina numa hipótese.

Vamos considerar o clássico exemplo para explicar o teorema. 

Temos uma determinada doença C, e um teste T utilizado para detectar esta doença. 

O teste não é 100% confiável, indicando pessoas que **não têm a doença como doentes (falsos positivos)** e **não detectando a doença em pessoas que a possuem (falsos negativos)**

> Consideremos que 1% das pessoas possui a doença: $P(C) = 0.01$

> Logo, 99% das pessoas não a possui: $P(¬C) = 0.99$

O teste detecta a doença em pessoas efetivamente doentes 90% das vezes e, consequentemente, não detecta a doença em pessoas doentes em 10% dos casos. 

Em pessoas não doentes, o teste detecta a doença (erradamente) em 5% dos casos e não detecta em 95% dos casos. Podemos resumir desta forma:

|                | Pessoa Doente | Pessoa Não Doente |
|----------------|---------------|-------------------|
| Teste positivo | 90 %          | 5 %               |
| Teste Negativo | 10 %          | 95 %              |

A tabela acima é chamada de **matriz de confusão**, indicando fora da diagonal os caos confusos (errados), e na diagonal os casos corretos

<img src="https://miro.medium.com/max/2102/1*fxiTNIgOyvAombPJx5KGeA.png" width=300>


#### Em equações, temos:

* P(C|+) = Probabilidade de ter a doença dado um teste positivo (este é a probabilidade que desejamos saber)

* P(C) = Probabilidade da pessoa ter a doença = 1%

* P(+|C) = Probabilidade de um teste positivo se a pessoa tem a doença = 90% 

* P(+|¬C) = Probabilidade de um teste positivo se a pessoa não tem a doença = 5%

    **O Teorema de bayes diz que :**
    
$$ P(C|+) = \dfrac{P(+|C) \ P(C)}{P(+|C) \ P(C)  + P(+|¬ C) \ P(¬ C)}    $$

Formas equivalentes:

- $ P(C|+) = \dfrac{P(+|C) \ P(C)}{P(+)} $

- $ P(C|+) = \dfrac{P(C \cap +)}{P(+)}  = \dfrac{P(C \cap +)}{P(C \cap +) + P(¬C \cap +)}$

#### De forma equivalente:
A probabilidade de **ter a doença e o teste detecta-la (verdadeiro positivo)** é igual **a probabilidade de você ter a doença multiplicado pela probabilidade do teste ter dado positivo corretamente**;

$$P(A|B) = \dfrac{P(A \cap B)}{P(B)}$$

Analogamente, a chance de você **não ter a doença e o teste detecta-la mesmo assim (falso positivo)** é igual **a probabilidade de você não ter a doença multiplicado pela probabilidade do teste ter dado positivo incorretamente**;

E assim por diante, para todos os resultados. Atualizamos então a tabela, que fica assim:

|                | Pessoa Doente                            | Pessoa Não Doente                               | Soma
|----------------|------------------------------------------|-------------------------------------------------|-------|
| **Teste positivo** | Prob Doente e teste pos: 1% × 90% = 0,9% | Prob Não Doente e teste pos: 99% × 5% = 4,95%   | 5,85%
| **Teste Negativo** | Prob Doente e teste neg: 1% × 10% = 0,1% | Prob Não Doente e teste neg: 99% × 95% = 94,05% | 94,15%
| **Soma** | 1% | 99% | 100%

Estas então são nossas probabilidades para cada evento. Note que, se somadas, o resultado é 1, ou 100%. 

Agora, vamos supor que você fez o teste e o **resultado deu positivo**. 

Como devemos interpretar este resultado? Qual a chance de você de fato ter a doença? 

Considerando o cálculo básico de probabilidade, temos que a chance de ter a doença é igual à **chance do evento desejado dividido por todas as possibilidades**. 

O evento desejado é um positivo verdadeiro, ou seja, **teste positivo e a pessoa com doença**. Para este caso, a probabilidade é de 0,9% (olhe na tabela!) 

O **total de possibilidades com relação ao teste positivo** seria a **soma da probabilidade de “doente e teste pos”** (verdadeiro positivo) com **“não doente e teste pos” (falso positivo)**, que resultará em 0,9% + 4,95%, igual a 5,85%.

Fazendo toda a conta, nossa chance de ter a doença se temos um teste positivo é de **0,9%/5,85% = 0.1538**, ou **15,38%**. 

É uma chance bem mais baixa do que imaginamos apenas ao olhar para o problema e para a suposta precisão do teste!


### 🏎 O Problema de Monty Hall 🐐

[Cena - Quebrando a Banca](https://youtu.be/DSbtIa8NM5E)


Vamos expandir para ficar evidente:

<img src = "https://www.statisticshowto.com/wp-content/uploads/2014/12/monty-hall-problem-100-doors.png" width = "25%"></img>

<img src = "https://www.statisticshowto.com/wp-content/uploads/2014/12/monty-hall-problem-100-doors-2.png" width = "25%"></img>

🖌 hora de desenhar 👨‍🎨

<img src = "https://qph.fs.quoracdn.net/main-qimg-7bc6bc567a79d8976796805553659f20-lq" width = "40%"></img>


<!---
![Screen Shot 2021-12-04 at 21.52.46.png](attachment:d7308b43-0a15-4333-a2dc-018c59204d6d.png)
--->

# Dicas de Conteúdo
- Probabilidade: Um curso em nível intermediário - Barry R. James

<img src = "https://images-na.ssl-images-amazon.com/images/I/51KYhZOv0hL._SX346_BO1,204,203,200_.jpg" width = "25%"></img>

- Análise Combinatória e Probabilidade - Augusto C. Morgado et al

<img src = "https://images-na.ssl-images-amazon.com/images/I/41JyE5dynlL._SX343_BO1,204,203,200_.jpg" width = "25%"></img>

- O Andar do Bêbado

<img src = "https://m.media-amazon.com/images/I/51VDFxYjh3L.jpg" width = "25%"></img>
                                                                          
- O Poder da Matemática, como nunca estar errado

<img src = "https://images-americanas.b2w.io/produtos/imagens/127159158/127159166_1SZ.jpg" width = "25%"></img>

- Weapons of Math Destruction

<img src = "https://m.media-amazon.com/images/I/51V3piRZY4L.jpg" width = "25%"></img>

TED: https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end/transcript

- Privacidade Hackeada

<img src = "https://br.web.img3.acsta.net/pictures/19/07/16/09/30/5358083.jpg" width = "25%"></img>

- Coded Bias

<img src = "https://assets.whatsnewonnetflix.com/external_assets/sggkh+%5B%5Blxx*9*8782*8781_8_muochl_mvg%5Bwmn%5Bzkr%5Be3%5BC805vQhtDYWV7zJyzMwnXCTFK*B%5BZZZZYy0uuVpDVpnsXmOXR7l%5Dao6Tda2xxF%5D7xo5d32DRfkHluRw8fgfBCdUFxRNg2cr*whggE%5DEuto23nFwO8f5fZBzFAoB.jpg" width = "30%"></img>

- Moneyball

<img src = "https://upload.wikimedia.org/wikipedia/pt/thumb/d/dd/MoneyballPôster.jpg/235px-MoneyballPôster.jpg" width = "25%"></img>

- 21: Quebrando a banca

<img src = "https://upload.wikimedia.org/wikipedia/pt/5/5b/Twenty_one_poster.jpg" width = "25%"></img>

- Rain Man

<img src = "https://br.web.img3.acsta.net/medias/nmedia/18/87/18/19/19872843.jpg" width = "25%"></img>


