# Probabilidade e introdução ao aprendizado de máquina
Você pode progredir muito se conhecer algumas áreas básicas da notação matemática e alguns truques para trabalhar com a descrição de métodos de aprendizado de máquina em artigos e livros.

Neste tutorial, você descobrirá os fundamentos da notação matemática que pode encontrar ao ler as descrições das técnicas de aprendizado de máquina e algumas noções de probabilidade essenciais para aprendizado de máquina.

Ao final desta unidade você estará apto a:

- Aprender a notação matemática necessária para ciência de dados
- Revisar conceitos de probabilidade
- Entender e utilizar conceitos de distribuições de probabilidade

# Notação matemática para aprendizado de máquina
Você não pode evitar a notação matemática ao ler as artigos ou descrições de métodos de aprendizado de máquina.

Muitas vezes, basta um termo ou fragmento de notação para atrapalhar completamente a compreensão de todo um procedimento. Isso pode ser extremamente frustante, especificamente para iniciantes em ciência de dados ou aprendizado de máquina.

Pode te ajudar muito conhecer algumas áreas básicas de notação matemática. Neste [link](https://nthu-datalab.github.io/ml/slides/Notation.pdf) você pode encontrar um arquivo contendo notações sobre números e arrays, conjuntos e grafos, indexação, funções, calculo, algebra linear, probabilidade e teoria da informação. Confira também o [glossário de notação matemática da Wikipedia.](https://en.wikipedia.org/wiki/Glossary_of_mathematical_symbols)

Probabilidade
Probabilidade é o ramo da matemática que estuda as descrições quantitativas de fenômenos que envolvem incerteza.

Existem dois tipos de fenômenos (ou experimentos), aleatórios e determinísticos. Um experimento é aleatório se, ao ser repetido nas mesmas condições, é impossível prever antecipadamente o seu resultado. Em contrapartida, um experimento é determinístico se, quando repetido mantendo as mesmas condições, conduz ao mesmo resultado.

Prever o resultado de um experimento determinístico é simples, já que o seu resultado sempre vai ser o mesmo quando mantidas as mesmas condições. Todavia, como não se consegue prever o resultado de um experimento aleatório, torna-se necessária a criação de um modelo que possa ser usado para prevermos a possibilidade de ocorrência de determinados fatos. Este tipo de modelo é chamado modelo probabilístico.

Para se criar um modelo probabilístico são necessários dois passos. O primeiro passo é descrever os possíveis resultados do fenômeno ou experiência de interesse. O segundo passo é descrever nossas crenças sobre a probabilidade dos diferentes resultados possíveis, especificando uma lei de probabilidade.

Uma probabilidade nada mais é do que a relação entre o número de casos favoráveis ao acontecimento (evento) e o número total de casos possíveis, supondo todos os casos igualmente possíveis. Falaremos sobre isso mais tarde.

Vamos iniciar com a descrição dos possíveis resultados de um experimento. O experimento pode ser o lançamento de uma moeda, o lançamento de cinco moedas simultaneamente, o lançamento de um dado, etc.

# Probabilidade
Probabilidade é o ramo da matemática que estuda as descrições quantitativas de fenômenos que envolvem incerteza.

Existem dois tipos de fenômenos (ou experimentos), aleatórios e determinísticos. Um experimento é aleatório se, ao ser repetido nas mesmas condições, é impossível prever antecipadamente o seu resultado. Em contrapartida, um experimento é determinístico se, quando repetido mantendo as mesmas condições, conduz ao mesmo resultado.

Prever o resultado de um experimento determinístico é simples, já que o seu resultado sempre vai ser o mesmo quando mantidas as mesmas condições. Todavia, como não se consegue prever o resultado de um experimento aleatório, torna-se necessária a criação de um modelo que possa ser usado para prevermos a possibilidade de ocorrência de determinados fatos. Este tipo de modelo é chamado modelo probabilístico.

Para se criar um modelo probabilístico são necessários dois passos. O primeiro passo é descrever os possíveis resultados do fenômeno ou experiência de interesse. O segundo passo é descrever nossas crenças sobre a probabilidade dos diferentes resultados possíveis, especificando uma lei de probabilidade.

Uma probabilidade nada mais é do que a relação entre o número de casos favoráveis ao acontecimento (evento) e o número total de casos possíveis, supondo todos os casos igualmente possíveis. Falaremos sobre isso mais tarde.

Vamos iniciar com a descrição dos possíveis resultados de um experimento. O experimento pode ser o lançamento de uma moeda, o lançamento de cinco moedas simultaneamente, o lançamento de um dado, etc.

## Espaço amostral
Lançamento de uma moeda.
Qualquer que seja o experimento, ele terá um número possível de resultados. Esta lista ou ainda melhor conjunto de resultados é o que chamamos de espaço amostral. O espaço amostral, normalmente denotado por Ω, tem elementos que devem ser:

- mutuamente exclusivos e
- colectivamente exaustivos.
Para explicar o que significa dizer que os elementos são mutuamente exclusivos, considere dois resultados a e b de um experimento. Ao fim do experimento, se o evento a ocorreu, o evento b não pode ter ocorrido (e vice versa). No final do experimento, só pode haver um dos resultados que aconteceu. Um exemplo simples é o resultado do lançamento de um dado de seis faces. Se o resultado do lançamento for o número 1, nenhuma das outras possibilidades pode ter ocorrido. Dessa forma, o resultado do lançamento de um dado de seis faces não pode resultar na tupla (1, 4), pois, existe somente uma possibilidade para cada face.

Ser coletivamente exaustivo significa dizer que todos os elementos do conjunto Ω exaurem todas as possibilidades. Retomando o exemplo anterior, significa dizer que o espaço amostral de um lançamento de um dado onesto de seis lados não pode ser Ω={2,4,6}, já que existem seis possibilidades diferentes. O espaço amostral pra este experimento é na verdade Ω={1,2,3,4,5,6}. 

De maneira um pouco formal:

Denominamos espaço amostral o conjunto de todos os resultados possíveis de um experimento aleatório, e o denotamos por ΩΩ. Os elementos do conjunto ΩΩ devem exaurir todas as possibilidades de resultados do evento em questão e, além disso, devem ser multuamente exclusivos.
 

Para finalizar, imagine o lançamento de duas moedas. o seu espaço amostral seria:

Ω={(cara,cara),(cara,coroa),(coroa,cara),(coroa,coroa)}

Agora considere os seguintes conjuntos:

A={cara e chove lá fora,cara e não chove lá fora,coroa}

e

B={cara e chove lá fora,coroa e não chove lá fora,coroa}

Qual dos dois conjuntos A e B pode ser considerado como espaço amostral de um experimento?

Para responder a essa pergunta, lembre-se que um espaço amostral deve ter seus elementos multuamente exclusivos e colectivamente exaustivos.

No conjunto A, os elementos são mutuamente exclusivos e coletivamente exaustivos e, portanto, um espaço amostral legítimo. Para o conjunto B, se o resultado for "coroa e não chove lá foracoroa e não chove lá fora", o resultado "coroa" também terá ocorrido. Portanto, os elementos não são mutuamente exclusivos e não são um espaço amostral legítimo.

## Axiomas de probabilidade
Depois de descobrir o espaço amostral, nos resta especificar quais resultados são mais prováveis de ocorrer e quais são menos prováveis. Faremos isso atribuindo probabilidades aos diferentes eventos. Em teoria das probabilidades, um evento é um conjunto de resultados (um subconjunto A⊂Ω) ao qual é associado um valor de probabilidade.

Probabilidade é a relação entre o número de casos favoráveis ao evento e o número total de casos possíveis, supondo todos os casos igualmente possíveis. Formalmente, a definição clássica de probabilidade de Cardano (1663), De Moivre (1718) e Laplace (1812) diz

Seja Ω finito, não-vazio, e suponhamos que cada subconjunto elementar de Ω é igualmente provável. Então, para qualquer A⊂Ω, definimos a probabilida de de A como



Partindo da definição anterior, Kolmogorov criou a seguinte definição axiomática¹:

Uma probabilidade é uma função P(⋅) a valores reais definida em uma classe F de eventos de um espaço amostral Ω, que satisfaz as seguintes



Como consequências a estes axiomas, temos que



Todas estas consequências são explicadas no apêndice.

Para entender melhor o conceito de probabilidade, iremos considerar um exemplo.

Exemplo #1: O primeiro exemplo se trata do lançamento de dois dados honestos de seis faces.

lançamento dois dados
 

O resultado deste experimento é uma tupla com o valor de cada dado. Podemos expressar cada um dos possíveis resultados desse experimento usando a seguinte tabela:

1	2	3	4	5	6
1	(1,1)	(1,2)	(1,3)	(1,4)	(1,5)	(1,6)
2	(2,1)	(2,2)	(2,3)	(2,4)	(2,5)	(2,6)
3	(3,1)	(3,2)	(3,3)	(3,4)	(3,5)	(3,6)
4	(4,1)	(4,2)	(4,3)	(4,4)	(4,5)	(4,6)
5	(5,1)	(5,2)	(5,3)	(5,4)	(5,5)	(5,6)
6	(6,1)	(6,2)	(6,3)	(6,4)	(6,5)	(6,6)
onde cada célula representa um resultado possível do experimento.

Dados os seguintes eventos,

A: soma dos resultados dos dois lançamentos ser igual a 4,
B: o maior entre os dois resultados é igual a 3,
C: sair o par (3,3).
Calcule as probabilidades P(A), P(B) e P(C).

No nosso exemplo, cada subconjunto elementar de Ω é equivalente a uma célula da tabela. Como os dados são honestos, os subconjuntos elementares são equiprováveis. Dessa forma, para calcular tais probabilidades, usaremos a definição anterior.

Primeiro definiremos os casos que satisfazem os eventos A e B, que são



Desse modo, 𝑃(𝐴) e 𝑃(𝐵)podem ser calculados usando



Note que o evento C é um subconjunto elementar de Ω. Para calcular probabilidades desse tipo, basta dividir 11 pelo número total de casos possíveis. Fácil, não?

Agora, como calcular a probabilidade da ocorrência do evento A ou do evento C? isto é, P(A U C).

Como os eventos A e C são disjuntos (A∩C=∅), podemos usar o axioma da aditividade para dizer que



E para calcular a probabilidade da ocorrência do evento A ou do evento B? isto é, P(A∪B).

Para que possamos utilizar o axioma da aditividade, os conjuntos em questão tem de ser disjuntos, o que não é o caso, pois A∩B≠∅. Por sua vez, como pode ser visto na imagem abaixo, os conjuntos A∪B=A+B−(A∩B).



Dessa forma, utilizando a fórmula da probabilidade, temos:



Como já obtivemos os valores de P(A) e P(B), só nos resta calcular P(A∩B). O que é fácil, pois como A∩B={(1,3),(3,1)}, usando



## Probabilidade condicional
Probabilidades condicionais são probabilidades associadas a modelos revisados, adquiridos através de informação adicional sobre o resultado anterior do experimento aleatório estudado.

Para entender melhor, vamos a um exemplo.

Exemplo: Suponha que um cientísta esteja criando um novo método mais barato e rápido para o diagnóstico para diabetes. Para testar a eficiência do seu exame, ele realizou uma pesquisa envolvendo 1000 pacientes. Todos estes pacientes passaram antes por uma bateria de exames mais complexos e caros que avaliaram quais tinham e quais não tinham diabetes. Dentre os 1000 pacientes, 80 tiveram o diagnóstico de diabetes comprovado.

O cientísta então examinou todos os pacientes utilizando seu método. Dos 1000 pacientes examinados, 100 resultaram positivo e 900 negativo. Além disso, dos 100 diagnosticados com diabetes, apenas 70 realmente tinham a doença.



Suponha agora que o método proposto pelo cientísta foi aprovado para ser utilizado comercialmente. Além disso, suponha que você quer saber se tem diabetes utilizando ele. Você fez o exame e ele deu positivo. Qual a probabilidade de que você realmente esteja com diabetes?

Note, que neste exemplo, já se sabe da ocorrência de um evento: o resultado do exame foi positivo. O que se deseja saber é qual a probabilidade do exame estar realmente correto. Para isto, consideremos o seguintes eventos:

A: o paciente ter diabetes;
B: o resultado do exame dar positivo.
O diagrama de Venn que exemplifica os dados do enunciado é:



Os valores numéticos dizem respeito a cardinalidade da região. Ou seja:



Gostariamos então de calcular a probabilidade de 𝐴, sabendo que o evento𝐵já ocorreu. Estetipo de probabilidade é o que chamamos deprobabilidade condicional, em que já sabemos da ocorrência de outro evento anterior -- em nosso caso, o evento 𝐵 já ocorreu.

A notação para este tipo de probabilidade também é diferente. Usaremos um | paradenotar a ocorrência de um evento anterior. Assim, 𝑃(𝐴|𝐵) lê-se "probabilidade de 𝐴, dado 𝐵", significando que o evento 𝐵 já ocorreu. Além disso, o cômputo dessa probabilidade diz respeitoa um espaço amostral modificado, contendo apenas ossubconjuntos elementares pertencentes a 𝐵 e a interseção com o conjunto 𝐴, do qual estamos interessados.



Dessa maneira, a probabilidade de A, dado B pode ser calculada como



Ou seja, dado que o resultado do seu exame é positivo, você tem 70% de chances de realmente ter a doença.

Como podemos ver anteriormente, o computo de probabilidades condicional podem ser realizados utilizando a equação



Para simplificação, uma vez que esse cômputo envolve cardinalidades, a equação acima pode ser modificada para



Desse modo, podemo calcular a probabilidade de 𝐴, dado 𝐵 usando



Uma definição formal de probabilidade condicional é dada abaixo.

Sejam dois eventos 𝐴, 𝐵 ∈ Ω, se 𝑃(𝐵) > 0, a probabilidade condicional de 𝐴 dado 𝐵 é definida por


definido somente em 𝑃(𝐵) > 0.

## Independência
Outro conceito importante da teoria de probabilidade é o de independência entre doiseventos. Dizemos que dois eventos são independentes, quando o fato de saber que um evento aconteceu, não altera a probabilidade da ocorrência do outro evento.Considere dois eventos 𝐴 e 𝐵.

Os dois eventos são independentes, se



Substituindo a definição de probabilidade condicional do lado direito da equação acima, podemos chegar a seguinte conclusão



Note, que a equação acima é simetrica e está definida mesmo quando as probabilidades 𝑃(𝐴) e 𝑃(𝐵) são nulas. Por este motivo ela é adotada como a definição formal de independência entre eventos.

Dois eventos 𝐴,𝐵 são independentes se



Para complementar o entendimento sobre probabilidade para aprendizado de máquina, confira o vídeo abaixo: