## Teorema de Bayes
### O que é o Teorema de Bayes?
O teorema de Bayes fornece um modo de calcular a probabilidade de uma hipótese baseado na probabilidade de outras hipóteses *a priori*. 

### Equação
$$\large P(A|B) = \frac{P(A) \cdot P(B|A)}{P(B)}$$
- $P(A|B)$: probabilidade do evento 'A' ocorrer dado que 'B' ocorreu
- $P(A)$: probabilidade de 'A' ocorrer
- $P(B|A)$: probabilidade do evento 'B' ocorrer dado que 'A' ocorreu
- $P(B)$: probabilidade de 'B' ocorrer <br>

Portanto, o Teorema de Bayes afirma que a probabilidade posterior do evento A (ou seja, a probabilidade do evento A dado que o evento B ocorreu) é igual à probabilidade contrária P(B|A) multiplicada pela probabilidade de A e dividido pela probabilidade de B.

### Exemplo de aplicação do Teorema de Bayes utilizando Scikit-Learn no Python
Vamos utilizar um conjunto de dados que incluem 4 observações sobre um determinado momento do dia (clima - claro, chuvoso ou geada; feriado ou dia útil; período - manhã, horário de almoço ou noite; houve ou não congestionamento) e, a partir desses dados base, tentaremos prever a probabilidade de acontecer um congestionamento utilizando valores fornecidos apenas das 3 condições iniciais. <br>
- Para isso, usaremos a biblioteca 'Scikit-Learn' do Python

In [119]:
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB
import pandas as pd

- Os dados que dispomos são apresentados a seguir:

In [120]:
def getTempo():
    return ['Claro', 'Claro', 'Claro', 'Claro', 'Claro', 'Claro',
            'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso',
            'Geada', 'Geada', 'Geada', 'Geada', 'Geada', 'Geada']

def getDiaSem():
    return ['Útil', 'Útil', 'Útil',
                'Feriado', 'Feriado', 'Feriado',
                'Útil', 'Útil', 'Útil',
                'Feriado', 'Feriado', 'Feriado',
                'Útil', 'Útil', 'Útil',
                'Feriado', 'Feriado', 'Feriado']

def getHorario():
    return ['Manhã', 'Almoço', 'Noite',
                'Manhã', 'Almoço', 'Noite',
                'Manhã', 'Almoço', 'Noite',
                'Manhã', 'Almoço', 'Noite',
                'Manhã', 'Almoço', 'Noite',
                'Manhã', 'Almoço', 'Noite']

def getCongest():
    return ['Sim', 'Não', 'Sim',
               'Não', 'Não', 'Não',
               'Sim', 'Sim', 'Sim',
               'Não', 'Não', 'Não',
               'Sim', 'Sim', 'Sim',
               'Sim', 'Não', 'Sim']
    
Tempo = getTempo()
diaDaSem = getDiaSem()
Horario = getHorario()
Congest = getCongest()

pd.DataFrame(zip(Tempo,diaDaSem,Horario,Congest), columns=['Tempo','Dia da semana','Horário','Congestionamento'])

Unnamed: 0,Tempo,Dia da semana,Horário,Congestionamento
0,Claro,Útil,Manhã,Sim
1,Claro,Útil,Almoço,Não
2,Claro,Útil,Noite,Sim
3,Claro,Feriado,Manhã,Não
4,Claro,Feriado,Almoço,Não
5,Claro,Feriado,Noite,Não
6,Chuvoso,Útil,Manhã,Sim
7,Chuvoso,Útil,Almoço,Sim
8,Chuvoso,Útil,Noite,Sim
9,Chuvoso,Feriado,Manhã,Não


#### Pré-processamento dos dados
- Vamos utilizar o comando 'sklearn.preprocessing.LabelEncoder' para **normalizar** os dados, ou seja, alterar os valores das colunas numéricas no conjunto de dados para uma escala comum, sem distorcer os intervalos de valores ou provocar perda de informações. No exemplo analisado, os valores do tipo texto serão transformados em valores numéricos.
- Ainda, usamos o método 'fit_transform()' para evitar possíveis erros que poderiam ser provocados por valores nulos, inexistentes ou indefinidos no nosso conjunto de dados.
- Organizamos os dados relevantes (**features**) para o nosso exemplo em uma única lista.

In [121]:
labelEncoder = preprocessing.LabelEncoder()

# Normalizando e aplicando o 'fit_transform'
normTempo = labelEncoder.fit_transform(tempo)
normDiaDaSem = labelEncoder.fit_transform(diaDaSem)
normHorario = labelEncoder.fit_transform(horario)
normCongest = labelEncoder.fit_transform(congest)

print("-----------------normalização-----------------")
print(normTempo)
print(normDiaDaSem)
print(normHorario)
print(normCongest)

# Organizando os dados relevantes (features)
features = []
for i in range(len(normTempo)):
    features.append([normTempo[i], normDiaDaSem[i], normHorario[i]])
    
print("-----------------features-----------------")
print(features)

# Aplicando o Método de Bayes
modelo = GaussianNB()

# Treinando o modelo
modelo.fit(features, normCongest)

-----------------normalização-----------------
[1 1 1 1 1 1 0 0 0 0 0 0 2 2 2 2 2 2]
[1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0]
[1 0 2 1 0 2 1 0 2 1 0 2 1 0 2 1 0 2]
[1 0 1 0 0 0 1 1 1 0 0 0 1 1 1 1 0 1]
-----------------features-----------------
[[1, 1, 1], [1, 1, 0], [1, 1, 2], [1, 0, 1], [1, 0, 0], [1, 0, 2], [0, 1, 1], [0, 1, 0], [0, 1, 2], [0, 0, 1], [0, 0, 0], [0, 0, 2], [2, 1, 1], [2, 1, 0], [2, 1, 2], [2, 0, 1], [2, 0, 0], [2, 0, 2]]


GaussianNB()

### Fazendo as predições
- Portanto, para as condiçoes ["Geada", "Útil", "Manhã"] por exemplo, há uma grande probabilidade de ocorrer congestionamento.
- Para as condiçoes ["Claro", "Feriado", "Almoço"], a probabilidade de ocorrer um congestionamento é baixa.

In [122]:
# ["Geada", "Útil", "Manhã"]
print(model.predict([[2, 1, 1]]))
# ["Claro", "Feriado", "Almoço"]
print (model.predict([[1, 0, 0]]))

[1]
[0]


### Aplicações do Teorema de Bayes
- Aprendizado de máquinas, principalmente nas classificações de dados.
- Pode ser utilizado na química para avaliar a densidade de probabilidade da composição química de um sistema em termos das densidades de probabilidade das abundâncias das diferentes espécies químicas.
- Pode ser utilizado para prever a qualidade de água com base na concentração de toxinas e outros poluentes que possam ultrapassamr os limites numéricos do padrão de qualidade da água.
- Em engenharia estrutural, auxiliando o engenheiro a determinar se a estrutura é segura ou não, com base nos valores de reabilidade. 