# Probability & Statistics for Machine Learning & Data Science

# Week 1 - Introduction to Probability and Probability Distributions

## What is probability ?

A probabilidade é uma medida numérica que quantifica a chance de um evento ocorrer. Ela descreve a **incerteza** associada a um determinado fenômeno e permite que possamos fazer previsões e tomar decisões com base nessa incerteza. A probabilidade é amplamente utilizada em diversas áreas, incluindo ciência de dados, estatística, matemática, engenharia, economia e muito mais.

Existem diferentes abordagens para definir a probabilidade, sendo duas das mais comuns a abordagem clássica e a abordagem frequentista.

1. Abordagem Clássica: Nesta abordagem, a probabilidade é calculada com base na razão entre o número de eventos favoráveis e o número total de eventos possíveis. Por exemplo, ao lançar um dado justo de seis faces, a probabilidade de obter um número específico, como o número 3, é de 1/6, pois há apenas uma face com esse número e seis faces ao todo.

2. Abordagem Frequentista: Nesta abordagem, a probabilidade é calculada com base na frequência relativa de um evento em um grande número de repetições de um experimento. Por exemplo, se lançarmos uma moeda várias vezes, a probabilidade de obter cara é a proporção de vezes em que obtivemos cara em relação ao número total de lançamentos.

Além disso, a probabilidade pode ser expressa em uma escala de 0 a 1, em que 0 indica impossibilidade absoluta e 1 indica certeza absoluta.

Digamos que, de uma turma de 10 crianças numa escola, você precise escolher algumas para formar um time. Dessas 10, 3 sabem jogar futebol. Qual a probabilidade de a criança escolhida saber jogar futebol ?

<center>$$ P(soccer) = \frac{evento}{espaço amostral} = \frac{3}{10} = 0.3 $$</center>

As 3 crianças que sabem jogar fazem parte da amostra do evento de interesse, e fazem parte da população, a turma de 10 alunos.

Vejamos alguns outros exemplos de aplicação da probabilidade:

1. Lançamento de uma moeda: A probabilidade de obter cara ou coroa em um único lançamento de uma moeda justa é de 1/2 ou 0,5.

2. Evento climático: A probabilidade de chover em um determinado dia pode ser expressa como 0,3, o que indica que há uma chance de 30% de ocorrer chuva nesse dia.

3. Teste médico: Suponha que um teste médico para detectar uma doença tenha uma sensibilidade de 95% e uma especificidade de 90%. Isso significa que a probabilidade de um resultado positivo ser verdadeiro (indicando a presença da doença) é de 95%, enquanto a probabilidade de um resultado negativo ser verdadeiro (indicando a ausência da doença) é de 90%.

Esses são apenas alguns exemplos simples para ilustrar o conceito de probabilidade. À medida que os cenários se tornam mais complexos, técnicas estatísticas mais avançadas, como a teoria das probabilidades, a teoria das distribuições e o cálculo probabilístico, podem ser aplicadas para calcular e interpretar a probabilidade com mais precisão.

O **complemento de um evento** em probabilidade é o evento que consiste em todos os resultados que não pertencem ao evento original. Em outras palavras, é o conjunto de todos os resultados possíveis que não satisfazem a condição do evento original.

O complemento de um evento A é denotado por A' ou complemento de A. A probabilidade do complemento de um evento A é calculada subtraindo-se a probabilidade de A do valor 1 (probabilidade total).

A fórmula para calcular o complemento de um evento A é:
P(A') = 1 - P(A)

Aqui estão alguns exemplos para ilustrar o conceito de complemento de probabilidade:

1. Lançamento de um dado: Considere o evento A de obter um número par em um lançamento justo de um dado de seis faces. Os números pares possíveis são 2, 4 e 6. Portanto, a probabilidade de A é 3/6 = 1/2 (ou 0,5). O complemento de A (evento A') é obter um número ímpar. Os números ímpares possíveis são 1, 3 e 5. Assim, a probabilidade de A' é 3/6 = 1/2 (ou 0,5). Note que a probabilidade de A e A' somam 1, pois são eventos complementares.

2. Lançamento de uma moeda: Suponha o evento A de obter cara em um lançamento justo de uma moeda. A probabilidade de A é 1/2 (ou 0,5). O complemento de A (evento A') é obter coroa. A probabilidade de A' também é 1/2 (ou 0,5), pois a moeda tem apenas dois lados possíveis.

3. Evento climático: Considere o evento A de chover em um determinado dia. A probabilidade de A pode ser 0,3 (ou 30%). O complemento de A (evento A') é não chover, e a probabilidade de A' seria 1 - 0,3 = 0,7 (ou 70%).

Ao trabalhar com probabilidade, o complemento é uma ferramenta útil para calcular a probabilidade de um evento ocorrer quando não temos diretamente sua probabilidade disponível. É importante lembrar que a probabilidade de um evento e seu complemento sempre somam 1, já que um dos dois eventos deve ocorrer necessariamente.

## Sum of Probabilities (Disjoint Events)

A **soma das probabilidades de eventos disjuntos** é um conceito fundamental em probabilidade. Quando temos eventos disjuntos, significa que eles **não podem ocorrer simultaneamente**, ou seja, se um evento acontece, o outro não pode ocorrer ao mesmo tempo. Nesse caso, a probabilidade da união desses eventos é igual à soma das probabilidades individuais de cada evento.

Formalmente, se tivermos eventos disjuntos A e B, a probabilidade da união de A e B é dada por:
$$ P(A ∪ B) = P(A) + P(B) $$

Essa fórmula se estende para mais de dois eventos disjuntos. Se tivermos eventos disjuntos $A1, A2, ..., An$, a probabilidade da união de todos esses eventos é dada por:
$$ P(A1 ∪ A2 ∪ ... ∪ An) = P(A1) + P(A2) + ... + P(An) $$

Aqui estão alguns exemplos para ilustrar o conceito de soma de probabilidades para eventos disjuntos:

1. Lançamento de um dado: Considere o evento A de obter um número par em um lançamento justo de um dado de seis faces, e o evento B de obter um número ímpar. Esses eventos são disjuntos, pois não é possível obter um número que seja simultaneamente par e ímpar. A probabilidade de A é 3/6 = 1/2 (ou 0,5), e a probabilidade de B também é 3/6 = 1/2 (ou 0,5). A probabilidade da união de A e B (obter um número par ou ímpar) é $P(A ∪ B) = P(A) + P(B) = 1/2 + 1/2 = 1$.

2. Eventos climáticos: Suponha que temos três eventos disjuntos: A de chover, B de nevar e C de fazer sol em um determinado dia. Se a probabilidade de A (chover) for 0,3, a probabilidade de B (nevar) for 0,2 e a probabilidade de C (fazer sol) for 0,5, então a probabilidade da união desses eventos (ocorrer chuva, neve ou sol) é $ P(A ∪ B ∪ C) = P(A) + P(B) + P(C) = 0,3 + 0,2 + 0,5 = 1$.

A soma das probabilidades para eventos disjuntos é uma propriedade fundamental que nos permite calcular a probabilidade de ocorrência de pelo menos um desses eventos. É importante ressaltar que essa propriedade se aplica somente a eventos disjuntos, ou seja, eventos que não podem ocorrer simultaneamente. Caso os eventos não sejam disjuntos, é necessário levar em consideração as interseções entre eles para calcular as probabilidades corretamente.

A soma de probabilidades em eventos disjuntos é uma técnica importante em data science e machine learning para calcular a probabilidade de ocorrência de eventos que são mutuamente exclusivos. Essa técnica é útil em várias áreas, incluindo classificação de dados, análise de risco e detecção de anomalias.

Aqui estão alguns exemplos de como a soma de probabilidades em eventos disjuntos é aplicada em data science e machine learning:

1. Classificação binária: Considere um problema de classificação binária em que temos dois eventos disjuntos, como "classe 0" e "classe 1". Ao construir um modelo de machine learning para classificar dados em uma dessas duas classes, a soma das probabilidades previstas para cada classe deve ser igual a 1. Isso ocorre porque a probabilidade total de todas as possíveis classes deve ser de 1. Portanto, ao fazer uma previsão, o modelo atribuirá uma probabilidade para cada classe e, em seguida, a soma dessas probabilidades será normalizada para 1.

2. Análise de risco: Na análise de risco, é comum ter eventos disjuntos que representam diferentes cenários de risco. Por exemplo, em um modelo de crédito, podemos ter eventos disjuntos como "inadimplência" e "pagamento em dia". A probabilidade de ocorrência desses eventos disjuntos pode ser calculada separadamente e, em seguida, utilizada para estimar o risco total associado a um indivíduo ou uma transação.

3. Detecção de anomalias: A detecção de anomalias é um campo em que identificamos eventos que são significativamente diferentes do comportamento normal. Podemos ter eventos disjuntos que representam "comportamento normal" e "anomalias". A soma das probabilidades desses eventos disjuntos pode ser utilizada para determinar a probabilidade total de um ponto de dados ser uma anomalia, permitindo a classificação eficiente de pontos de dados não usuais.

Em resumo, a soma de probabilidades em eventos disjuntos desempenha um papel fundamental em data science e machine learning ao permitir o cálculo da probabilidade total de eventos exclusivos. Isso é essencial para a construção de modelos, a tomada de decisões baseada em risco e a detecção de padrões incomuns nos dados.

## Sum of Probabilities (Joint Events)

A soma de probabilidades em **eventos conjuntos** refere-se à probabilidade da ocorrência de **dois eventos simultaneamente**. Quando temos eventos conjuntos, a probabilidade da união desses eventos é calculada considerando a probabilidade de cada evento individual, levando em conta a **possível interseção** entre eles.

Para dois eventos A e B, a probabilidade da união desses eventos é dada por:
$$ P(A ∪ B) = P(A) + P(B) - P(A ∩ B) $$

Essa fórmula leva em consideração que a probabilidade da interseção entre A e B é contada duas vezes (uma vez em P(A) e outra vez em P(B)). Portanto, subtraímos a probabilidade da interseção para evitar duplicação.

Aqui estão alguns exemplos para ilustrar o conceito de soma de probabilidades em eventos conjuntos:

1. Lançamento de um dado: Considere o evento A de obter um número par e o evento B de obter um número maior que 4 em um lançamento justo de um dado de seis faces. A probabilidade de A é 3/6 = 1/2 (ou 0,5), a probabilidade de B é 2/6 = 1/3 (ou aproximadamente 0,3333). A interseção entre A e B ocorre quando obtemos um número par maior que 4, ou seja, apenas o número 6. Portanto, a probabilidade de A ∩ B é 1/6 (ou aproximadamente 0,1667). A probabilidade da união de A e B é então:
$$ P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,5 + 0,3333 - 0,1667 = 0,6666 $$.

2. Eventos climáticos: Suponha que temos dois eventos: A de chover e B de fazer sol em um determinado dia. Se a probabilidade de A (chover) for 0,3 e a probabilidade de B (fazer sol) for 0,5, e a probabilidade da interseção entre A e B (ocorrer chuva e fazer sol) for 0,1, então a probabilidade da união desses eventos (ocorrer chuva ou fazer sol) é:
$$ P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,3 + 0,5 - 0,1 = 0,7 $$.

A soma de probabilidades em eventos conjuntos nos permite calcular a probabilidade da ocorrência de pelo menos um dos eventos. É importante lembrar que essa propriedade se aplica somente a eventos conjuntos, ou seja, eventos que podem ocorrer simultaneamente. Caso os eventos não sejam conjuntos, a fórmula da soma de probabilidades não pode ser aplicada diretamente, e outros métodos, como a teoria da probabilidade condicional, podem ser necessários para calcular as probabilidades corretamente.

A soma de probabilidades em eventos conjuntos é uma técnica importante em data science e machine learning para calcular a probabilidade de ocorrência de eventos que estão interligados ou relacionados de alguma forma. Essa técnica é amplamente aplicada em várias áreas, como classificação multiclasse, análise de dependência e detecção de padrões complexos.

Aqui estão alguns exemplos de como a soma de probabilidades em eventos conjuntos é utilizada em data science e machine learning:

1. Classificação multiclasse: Em problemas de classificação com mais de duas classes, a soma de probabilidades em eventos conjuntos é usada para atribuir probabilidades às diferentes classes. Cada classe representa um evento conjunto específico, e a probabilidade de um ponto de dados pertencer a cada classe é calculada. Ao fazer uma previsão, o modelo atribui probabilidades a todas as classes e, em seguida, normaliza essas probabilidades para que a soma total seja igual a 1.

2. Análise de dependência: A soma de probabilidades em eventos conjuntos é útil para analisar a dependência entre variáveis em um conjunto de dados. Por exemplo, ao analisar a relação entre duas variáveis, como "idade" e "renda", podemos calcular a probabilidade conjunta de diferentes combinações de valores dessas variáveis. Essa análise de dependência ajuda a identificar associações ou relações significativas entre as variáveis e é usada em várias técnicas, como tabelas de contingência e coeficientes de correlação.

3. Detecção de padrões complexos: Em alguns casos, é necessário identificar padrões complexos que envolvem a ocorrência simultânea de vários eventos. A soma de probabilidades em eventos conjuntos é usada para calcular a probabilidade de ocorrência desses padrões complexos. Por exemplo, em uma análise de séries temporais, podemos estar interessados na probabilidade de um conjunto específico de eventos ocorrer em um determinado período de tempo. A soma das probabilidades desses eventos conjuntos ajuda a quantificar a probabilidade total do padrão ocorrer.

Em resumo, a soma de probabilidades em eventos conjuntos desempenha um papel fundamental em data science e machine learning, permitindo calcular a probabilidade de ocorrência de eventos relacionados ou interdependentes. Essa técnica é amplamente utilizada na classificação multiclasse, análise de dependência e detecção de padrões complexos, fornecendo informações valiosas para a tomada de decisões e a compreensão dos dados.

## Independence

A **independência** é um conceito fundamental em probabilidade e estatística que descreve a **relação entre dois eventos**. Dois eventos são considerados independentes se a ocorrência (ou não ocorrência) de um evento não afeta a probabilidade do outro evento ocorrer.

Em outras palavras, se A e B são eventos independentes, a probabilidade de ambos ocorrerem é igual ao produto das probabilidades individuais de cada evento. Matematicamente, isso pode ser expresso como:

$$ P(A ∩ B) = P(A) * P(B) $$

Aqui estão alguns exemplos para ilustrar o conceito de independência:

1. Lançamento de uma moeda e lançamento de um dado: Considere os eventos A de obter cara em um lançamento justo de uma moeda e B de obter um número par em um lançamento justo de um dado de seis faces. Esses eventos são independentes, pois o resultado do lançamento da moeda não tem influência no resultado do lançamento do dado e vice-versa. A probabilidade de obter cara é 1/2, e a probabilidade de obter um número par no dado é 3/6 = 1/2. A probabilidade de ocorrer cara e um número par ao mesmo tempo é P(A ∩ B) = P(A) * P(B) = 1/2 * 1/2 = 1/4. 


2. Utilizando novamente o exemplo da moeda, qual é a probabilidade de cair cara **cinco vezes** ? Dado que são eventos independentes e que cada probabilidade é de 1/2, podemos estender a **regra do produto** para:

$$ P(H) = (\frac{1}{2})^{5} = \frac{1}{32}$$

Seguindo o mesmo exemplo, qual a probabilidade de ao jogar um dado, obter 10 números seis ?

$$ P(10-6) = (\frac{1}{6})^{10} = 1.6538171687920194e-08$$

3. Evento climático: Suponha que tenhamos dois eventos: A de chover em um determinado dia e B de fazer sol no mesmo dia. Se a probabilidade de A (chover) for 0,3 e a probabilidade de B (fazer sol) for 0,7, e supondo que esses eventos sejam independentes, a probabilidade de ocorrer chuva e fazer sol no mesmo dia é:
$$ P(A ∩ B) = P(A) * P(B) = 0,3 * 0,7 = 0,21 $$

A independência entre eventos é uma suposição importante em muitos modelos probabilísticos e estatísticos. No entanto, é essencial ter cuidado ao assumir a independência, pois nem sempre é uma suposição válida. Em alguns casos, a dependência entre eventos pode ser significativa e afetar os resultados de uma análise estatística. Portanto, é importante avaliar a independência dos eventos com base no contexto específico e nos dados disponíveis antes de fazer suposições sobre a independência.

## Rules

A regra do produto e a regra da soma são duas regras fundamentais em probabilidade que nos permitem calcular a probabilidade de eventos compostos. Aqui está um resumo de cada uma delas:

Regra do Produto:
A regra do produto é usada para calcular a probabilidade de dois **eventos independentes ocorrerem simultaneamente**. Se A e B são eventos independentes, a probabilidade de ambos ocorrerem é igual ao produto das probabilidades individuais de cada evento:
$$ P(A ∩ B) = P(A) * P(B)$$

Essa regra é aplicável quando a ocorrência de um evento **não afeta** a probabilidade do outro evento ocorrer.

Regra da Soma:
A regra da soma é usada para calcular a probabilidade da **união de dois eventos (ou mais) ocorrerem**. Sejam A e B dois eventos quaisquer, a probabilidade de pelo menos um deles ocorrer é dada pela soma das probabilidades individuais dos eventos, subtraindo a probabilidade da interseção entre eles para evitar duplicação:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Essa regra leva em consideração a possibilidade de existir uma **interseção entre os eventos**, que deve ser corretamente contabilizada para evitar a duplicação da probabilidade.

Essas regras são amplamente utilizadas em probabilidade e estatística para calcular a probabilidade de eventos compostos e são fundamentais para análises probabilísticas mais complexas. É importante ter em mente que essas regras são válidas apenas em determinadas condições, como a independência entre eventos para a regra do produto e a disjunção ou interseção adequada entre eventos para a regra da soma.

## Birthday Problem

O "problema do aniversário" (ou "birthday problem") é um famoso problema probabilístico que envolve a probabilidade de duas pessoas em um grupo compartilharem o mesmo dia de aniversário. O problema é surpreendente, pois a intuição inicial pode levar a estimativas incorretas da probabilidade.

Para entender o problema do aniversário com 30 pessoas, vamos considerar o seguinte cenário:

Suponha que tenhamos um grupo de 30 pessoas. Queremos calcular a probabilidade de pelo menos duas pessoas nesse grupo compartilharem o mesmo dia de aniversário.

Para resolver esse problema, podemos usar a **regra da soma** e o conceito de **complemento de probabilidade**. Vamos calcular a **probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário** e, em seguida, **subtrair essa probabilidade de 1 (probabilidade total)** para obter a **probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário**.

A probabilidade de uma pessoa ter uma data de aniversário específica é de 1/365 (desconsiderando os anos bissextos). Portanto, a probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário é:

$$ P(NC) = (365/365) * (364/365) * (363/365) * ... * (336/365) $$

Essa probabilidade **P(NC)** ou P(Nenhum Compartilhado) é calculada levando em consideração a **probabilidade condicional** de cada pessoa ter uma data de aniversário diferente das demais.

No início do cálculo, assumimos que a primeira pessoa escolhida tem qualquer uma das 365 datas de aniversário possíveis (probabilidade de 365/365 = 1). Em seguida, queremos calcular a probabilidade de que a segunda pessoa escolhida tenha um aniversário diferente da primeira pessoa. A probabilidade de escolher uma data de aniversário diferente é de 364/365, pois há apenas uma data de aniversário que é igual à da primeira pessoa.

Para a terceira pessoa, queremos que ela tenha um aniversário diferente das duas primeiras. A probabilidade condicional de escolher uma data de aniversário diferente é de 363/365, pois existem apenas duas datas de aniversário que são iguais às das duas primeiras pessoas.

Esse padrão continua para todas as 30 pessoas: a probabilidade condicional de cada pessoa ter um aniversário diferente das pessoas anteriores é calculada dividindo o número de datas de aniversário possíveis que são diferentes das datas já selecionadas pelo número total de datas de aniversário disponíveis.

Assim, multiplicamos as probabilidades condicionais de cada pessoa ter um aniversário diferente das demais para obter a probabilidade de nenhuma das 30 pessoas ter o mesmo aniversário.

Neste exemplo, a expressão $(365/365) * (364/365) * (363/365) * ... * (336/365)$ é usada para calcular essa probabilidade específica para um grupo de 30 pessoas. Cada termo na multiplicação representa a probabilidade condicional de cada pessoa ter um aniversário diferente das pessoas anteriores, dado que elas já escolheram datas de aniversário únicas.

É importante notar que esse cálculo assume que todas as datas de aniversário são igualmente prováveis e que os aniversários são independentes entre as pessoas. Em situações da vida real, essas suposições podem não ser totalmente válidas, mas o problema do aniversário é um exemplo clássico que ilustra as propriedades probabilísticas interessantes e não intuitivas relacionadas à probabilidade de compartilhamento de aniversários em grupos.

Agora, para obter a probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário, subtraímos essa probabilidade de 1:

$$ P(C) = 1 - P(NC) $$

Sendo C "Compartilhado" e NC "Nenhum Compartilhado".

Calculando essas probabilidades usando a fórmula acima, descobrimos que a probabilidade de pelo menos duas pessoas compartilharem o mesmo aniversário em um grupo de 30 pessoas é aproximadamente **0,7063**, ou seja, cerca de **70,63%**.

Essa probabilidade pode parecer surpreendentemente alta, pois intuitivamente esperamos que seja muito menor com apenas 30 pessoas. No entanto, **devido ao grande número de combinações possíveis** de pares de aniversários em um grupo, a probabilidade acaba sendo considerável.

O problema do aniversário demonstra como a probabilidade pode ser contraintuitiva em certas situações e ressalta a importância de usar cálculos probabilísticos corretos para evitar conclusões enganosas.

## Conditional Probability

A probabilidade condicional é uma medida de probabilidade que se baseia em um evento ocorrer, dado que outro evento já ocorreu. Ela descreve a probabilidade de um evento A acontecer, dado que um evento B já ocorreu. A probabilidade condicional é expressa como P(A|B), lida como "a probabilidade de A dado B".

A fórmula para a probabilidade condicional é dada por:

$$ P(A|B) = P(A ∩ B) / P(B) $$

Onde:
- P(A ∩ B) representa a probabilidade da ocorrência conjunta dos eventos A e B, ou seja, a interseção de A e B.
- P(B) é a probabilidade do evento B ocorrer.

A probabilidade condicional nos permite atualizar nossas estimativas de probabilidade com base em informações adicionais. Ela é especialmente útil quando **há dependência entre eventos**.

Aqui estão alguns exemplos para ilustrar a probabilidade condicional:

Exemplo 1: Lançamento de dados
Considere o lançamento de um dado justo. Evento A é obter um número par (2, 4 ou 6), e evento B é obter um número maior que 3 (4 ou 6). A probabilidade de obter um número par (A) dado que o número obtido é maior que 3 (B) é de 2/3, pois dos dois números maiores que 3 (4 e 6), dois são pares.

$$ P(A|B) = P(A ∩ B) / P(B) = (1/6) / (2/6) = 2/3 $$

Exemplo 2: Teste médico
Suponha que um teste médico para uma doença específica tenha uma taxa de precisão de 95%. Evento A é ter a doença e evento B é o resultado do teste ser positivo. A probabilidade de ter a doença (A) dado um resultado positivo no teste (B) depende da taxa de falsos positivos e verdadeiros positivos do teste.

Se a taxa de falsos positivos for de 5%, significa que 5% das pessoas saudáveis terão resultados positivos. Se a prevalência da doença na população for de 1%, podemos calcular a probabilidade condicional usando a fórmula:

$$ P(A|B) = \frac{P(A ∩ B)}{P(B)} = \frac{P(A) * P(B|A)}{[P(A) * P(B|A) + P(A') * P(B|A')]} $$

Onde:
- P(A') é a probabilidade complementar de A, ou seja, a probabilidade de não ter a doença.
- P(B|A) é a probabilidade de um resultado positivo no teste dado que a pessoa tem a doença.
- P(B|A') é a probabilidade de um resultado positivo no teste dado que a pessoa não tem a doença.

Neste exemplo, se substituirmos os valores correspondentes na fórmula, obteremos a probabilidade condicional de ter a doença dado um resultado positivo no teste.

$$ P(A|B) = \frac{(0.01 * 0.95)}{[(0.01 * 0.95) + (0.99 * 0.05)]} $$

$$ P(A|B) = \frac{0.0095}{(0.0095 + 0.0495)} = \frac{0.0095}{0.059} $$

$$ P(A|B) ≈ 0.161 $$


A probabilidade condicional é uma ferramenta poderosa para fazer inferências e tomar decisões com base em informações disponíveis. Ela nos ajuda a atualizar nossas estimativas de probabilidade e levar em consideração eventos prévios para tomar decisões mais informadas.

No exemplo de jogar duas moedas, considere que a primeira moeda foi lançada e deu cara. Agora, queremos determinar a probabilidade de a segunda moeda também dar cara, dado esse resultado da primeira moeda.

Aqui, estamos interessados na probabilidade condicional de obter cara na segunda jogada, dado que a primeira jogada resultou em cara. Vamos denotar o evento A como a primeira moeda dar cara e o evento B como a segunda moeda dar cara.

Podemos usar a fórmula da probabilidade condicional para calcular esse valor:

$$ P(B|A) = P(A ∩ B) / P(A)$$

A probabilidade de A ∩ B representa a probabilidade de ambos os eventos A e B ocorrerem, ou seja, a probabilidade de a primeira e a segunda moedas darem cara. No caso de jogar uma moeda justa, a probabilidade de cara em cada jogada é de 1/2. Portanto, a probabilidade de A ∩ B é (1/2) * (1/2) = 1/4.

A probabilidade de A é a probabilidade de a primeira moeda dar cara, que também é 1/2.

Substituindo esses valores na fórmula, obtemos:

$$P(B|A) = (1/4) / (1/2) = 1/2$$

Isso significa que, dado que a primeira moeda deu cara, a probabilidade de a segunda moeda dar cara é de 1/2.

Em termos práticos, podemos interpretar isso como: se sabemos que a primeira moeda deu cara, não há influência do resultado da primeira jogada no resultado da segunda jogada. Portanto, a probabilidade de obter cara na segunda jogada é a mesma de qualquer outro lançamento de moeda individualmente, ou seja, 1/2.

Esse exemplo ilustra como a probabilidade condicional pode ser usada para atualizar a probabilidade com base em informações prévias. No contexto de data science e machine learning, a probabilidade condicional é aplicada em várias tarefas, como classificação, previsão e tomada de decisões com base em informações condicionais disponíveis.

Dado uma escola com 100 alunos, em que 40% gosta de futebol e 60% não, e que, 80% dos alunos usam chuteira, qual a probabilidade de dado que o aluno gosta de futebol P(S), qual a probabilidade dele usar chuteira ? Podemos visualizar todas as possibildiades na árvore de probabilidade condicional abaixo.

<img src="./imgs/condicional_probability_tree.png">

A probabilidade condicional desempenha um papel importante em data science e machine learning, fornecendo informações úteis para análise, modelagem e tomada de decisões. Aqui estão algumas aplicações do uso de probabilidade condicional nesses campos:

1. Classificação: A probabilidade condicional é amplamente usada em algoritmos de classificação, como o Naive Bayes. Esses algoritmos estimam a probabilidade de um ponto de dados pertencer a uma determinada classe com base em características observadas. A probabilidade condicional é fundamental para calcular essas estimativas, permitindo que o modelo tome decisões de classificação com base em probabilidades condicionais.

2. Recomendação personalizada: Em sistemas de recomendação, a probabilidade condicional é usada para personalizar recomendações com base em preferências anteriores. Por exemplo, em um sistema de recomendação de filmes, a probabilidade condicional pode ser usada para estimar a probabilidade de um usuário gostar de um filme específico com base em filmes que ele já assistiu e classificou anteriormente.

3. Análise de risco e detecção de fraudes: A probabilidade condicional desempenha um papel fundamental na análise de risco e detecção de fraudes. Por exemplo, em seguros, a probabilidade condicional é usada para estimar a probabilidade de um sinistro ocorrer com base em fatores de risco conhecidos. Da mesma forma, na detecção de fraudes, a probabilidade condicional é usada para identificar comportamentos suspeitos com base em padrões anteriores de atividade fraudulenta.

4. Processamento de linguagem natural: Em tarefas de processamento de linguagem natural, a probabilidade condicional é usada para modelar a probabilidade de uma sequência de palavras dada uma sequência de palavras anterior. Isso é utilizado em algoritmos de modelagem de linguagem, tradução automática e correção ortográfica, onde a probabilidade condicional é usada para estimar a probabilidade de uma palavra ocorrer com base no contexto anterior.

5. Redes Bayesianas: As redes Bayesianas são modelos probabilísticos que representam relacionamentos entre variáveis através de um grafo acíclico direcionado. A probabilidade condicional é essencial para construir e inferir em redes Bayesianas, pois as probabilidades condicionais são especificadas para cada variável dada a combinação de valores em suas variáveis pais.

Em resumo, a probabilidade condicional é uma ferramenta essencial em data science e machine learning. Ela permite modelar e calcular a probabilidade de eventos com base em informações contextuais, ajudando na classificação, recomendação personalizada, análise de risco, detecção de fraudes, processamento de linguagem natural e muito mais. A capacidade de calcular probabilidades condicionais permite que os modelos sejam mais precisos e informados na tomada de decisões.

## Bayes Theorem - Intuition

## Bayes Theorem - Mathematical Formula

## Monty Hall Problem

## Bayes Theorem - Spam Exemple

## Bayes Theorem - Prior and Posterior

## Bayes Theorem - The Naive Bayes

## Probability in Machine Learning

## Random Variables

## Probability Distribution

## Binomial Distribution

## Binomial Coefficient

## Bernoulli Distribution

## Probability Density Function

## Culmulative Distribution Function

## Uniform Distribution

## Normal Distribution

## Chi-Squared Distribution

## Sampling from a Distribution

# Week 2 - Describing Probability Distribution with Multiples Variables

## subtitle

## subtitle

## subtitle

## subtitle

## subtitle

## subtitle

## subtitle

# Week 3 - Sampling and Point Estimation 

## subtitle

## subtitle

## subtitle

## subtitle

## subtitle

# Week 4 - Confidence Interval and Hypothesis Testing