### Referências
https://www.mathsisfun.com/data/bayes-theorem.htmlhttps://www.mathsisfun.com/data/bayes-theorem.html
https://machinelearningmastery.com/naive-bayes-classifier-scratch-python/ <br>
https://machinelearningmastery.com/bayes-theorem-for-machine-learning/ <br>
https://programmerbackpack.com/naive-bayes-classifier-explained/ <br>
https://programmerbackpack.com/naive-bayes-classifier-tutorial-in-python-and-scikit-learn/ <br>
https://www.datacamp.com/community/tutorials/naive-bayes-scikit-learn

## Teorema de Bayes
### O que é o Teorema de Bayes?
O teorema de Bayes fornece um modo de calcular a probabilidade de uma hipótese baseado na probabilidade de outras hipóteses *a priori*. 

### Equação
$$P(A|B) = \frac{P(A) \cdot P(B|A)}{P(B)}$$
- $P(A|B)$: probabilidade do evento 'A' ocorrer dado que 'B' ocorreu
- $P(A)$: probabilidade de 'A' ocorrer
- $P(B|A)$: probabilidade do evento 'B' ocorrer dado que 'A' ocorreu
- $P(B)$: probabilidade de 'B' ocorrer

In [1]:
# calculate P(A|B) given P(A), P(B|A), P(B|not A)
def bayes_theorem(p_a, p_b_given_a, p_b_given_not_a):
	# calculate P(not A)
	not_a = 1 - p_a
	# calculate P(B)
	p_b = p_b_given_a * p_a + p_b_given_not_a * not_a
	# calculate P(A|B)
	p_a_given_b = (p_b_given_a * p_a) / p_b
	return p_a_given_b
 
# P(A)
p_a = 0.0002
# P(B|A)
p_b_given_a = 0.85
# P(B|not A)
p_b_given_not_a = 0.05
# calculate P(A|B)
result = bayes_theorem(p_a, p_b_given_a, p_b_given_not_a)
# summarize
print('P(A|B) = %.3f%%' % (result * 100))

P(A|B) = 0.339%


### Exemplo de aplicação do Teorema de Bayes utilizando Scikit-Learn no Python
Vamos utilizar um conjunto de dados que incluem 3 observações sobre um determinado momento do dia (clima; feriado ou dia útil; período - manhã, horário de almoço ou noite), e a partir deles, tentaremos prever a probabilidade de acontecer um congestionamento na cidade. <br>
- Para isso, usaremos a biblioteca 'Scikit-Learn' do Python

In [67]:
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB
import pandas as pd

- Os dados que dispomos são apresentados a seguir:

In [62]:
tempo = ['Claro', 'Claro', 'Claro', 'Claro', 'Claro', 'Claro',
        'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Chuvoso',
        'Geada', 'Geada', 'Geada', 'Geada', 'Geada', 'Geada']


diaDaSem = ['Útil', 'Útil', 'Útil',
            'Feriado', 'Feriado', 'Feriado',
            'Útil', 'Útil', 'Útil',
            'Feriado', 'Feriado', 'Feriado',
            'Útil', 'Útil', 'Útil',
            'Feriado', 'Feriado', 'Feriado']

horario = ['Manhã', 'Almoço', 'Noite',
            'Manhã', 'Almoço', 'Noite',
            'Manhã', 'Almoço', 'Noite',
            'Manhã', 'Almoço', 'Noite',
            'Manhã', 'Almoço', 'Noite',
            'Manhã', 'Almoço', 'Noite']

congest = ['Sim', 'Não', 'Sim',
            'Não', 'Não', 'Não',
            'Sim', 'Sim', 'Sim',
            'Não', 'Não', 'Não',
            'Sim', 'Sim', 'Sim',
            'Sim', 'Não', 'Sim']

pd.DataFrame(zip(tempo,diaDaSem,horario,congest), columns=['Tempo','Dia da semana','Horário','Congestionamento'])

Unnamed: 0,Tempo,Dia da semana,Horário,Congestionamento
0,Claro,Útil,Manhã,Sim
1,Claro,Útil,Almoço,Não
2,Claro,Útil,Noite,Sim
3,Claro,Feriado,Manhã,Não
4,Claro,Feriado,Almoço,Não
5,Claro,Feriado,Noite,Não
6,Chuvoso,Útil,Manhã,Sim
7,Chuvoso,Útil,Almoço,Sim
8,Chuvoso,Útil,Noite,Sim
9,Chuvoso,Feriado,Manhã,Não


#### Normalizando os dados
Vamos utilizar o comando 'sklearn.preprocessing.LabelEncoder' para **normalizar** os dados, ou seja, alter os valores das colunas numéricas no conjunto de dados para uma escala comum, sem distorcer os intervalos de valores ou perda de informações.

In [66]:
labelEncoder = preprocessing.LabelEncoder();
print (labelEncoder.fit_transform(tempo))
print(labelEncoder.fit_transform(congest))

[1 1 1 1 1 1 0 0 0 0 0 0 2 2 2 2 2 2]
[1 0 1 0 0 0 1 1 1 0 0 0 1 1 1 1 0 1]


In [10]:
def getWeather():
    return ['Clear', 'Clear', 'Clear', 'Clear', 'Clear', 'Clear',
            'Rainy', 'Rainy', 'Rainy', 'Rainy', 'Rainy', 'Rainy',
            'Snowy', 'Snowy', 'Snowy', 'Snowy', 'Snowy', 'Snowy']

def getTimeOfWeek():
    return ['Workday', 'Workday', 'Workday',
            'Weekend', 'Weekend', 'Weekend',
            'Workday', 'Workday', 'Workday',
            'Weekend', 'Weekend', 'Weekend',
            'Workday', 'Workday', 'Workday',
            'Weekend', 'Weekend', 'Weekend']

def getTimeOfDay():
    return ['Morning', 'Lunch', 'Evening',
            'Morning', 'Lunch', 'Evening',
            'Morning', 'Lunch', 'Evening',
            'Morning', 'Lunch', 'Evening',
            'Morning', 'Lunch', 'Evening',
            'Morning', 'Lunch', 'Evening',
            ]

def getTrafficJam():
    return ['Yes', 'No', 'Yes',
            'No', 'No', 'No',
            'Yes', 'Yes', 'Yes',
            'No', 'No', 'No',
            'Yes', 'Yes', 'Yes',
            'Yes', 'No', 'Yes'
            ]

weather = ['Clear', 'Clear', 'Clear', 'Clear', 'Clear', 'Clear',
            'Rainy', 'Rainy', 'Rainy', 'Rainy', 'Rainy', 'Rainy',
            'Snowy', 'Snowy', 'Snowy', 'Snowy', 'Snowy', 'Snowy']

labelEncoder = preprocessing.LabelEncoder();
print (labelEncoder.fit_transform(weather))
    
trafficJam = ['Yes', 'No', 'Yes',
            'No', 'No', 'No',
            'Yes', 'Yes', 'Yes',
            'No', 'No', 'No',
            'Yes', 'Yes', 'Yes',
            'Yes', 'No', 'Yes'
            ]
print(labelEncoder.fit_transform(trafficJam))

[0 0 0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2]
[1 0 1 0 0 0 1 1 1 0 0 0 1 1 1 1 0 1]


In [3]:
# Get the data
weather = getWeather()
timeOfWeek = getTimeOfWeek()
timeOfDay = getTimeOfDay()
trafficJam = getTrafficJam()

labelEncoder = preprocessing.LabelEncoder()

# Encode the features and the labels
encodedWeather = labelEncoder.fit_transform(weather)
encodedTimeOfWeek = labelEncoder.fit_transform(timeOfWeek)
encodedTimeOfDay = labelEncoder.fit_transform(timeOfDay)
encodedTrafficJam = labelEncoder.fit_transform(trafficJam)

# Build the features
features = []
for i in range(len(encodedWeather)):
    features.append([encodedWeather[i], encodedTimeOfWeek[i], encodedTimeOfDay[i]])

model = GaussianNB()

# Train the model
model.fit(features, encodedTrafficJam)

GaussianNB()

In [5]:
# ["Snowy", "Workday", "Morning"]
print(model.predict([[2, 1, 2]]))
# Prints [1], meaning "Yes"
# ["Clear", "Weekend", "Lunch"]
print (model.predict([[0, 0, 1]]))
# Prints [0], meaning "No"

[1]
[0]


### Aplicações
- O Teorema de Bayes é bastante utilizado em Aprendizado de máquinas, principalmente nas classificações de um conjunto de dados.