# Aprendizado Supervisionado - Naive Bayes

Vamos falar um pouco sobre um algoritmo supervisionado de classificação que é dos mais simples, mas também dos mais utilizados. Estamos falando do algoritmo ```Naive Bayes```. 

Vamos relembrar rapidamente o que é um algoritmo supervisionado de classificação.

Um algoritmo de aprendizado supervisionado é aquele que conta com um conjunto de preditores e variável resposta que são utilizados no treinamento de um modelo, isto é, tem sua utilidade quando os "resultados" estão disponíveis para um dado conjunto de "variáveis explicativas" do problema a ser solucionado. Esses "resultados" são importantes no momento em que o modelo está aprendendo como trabalhar com os dados. E o modelo é de classificação quando seu objetivo é separar os elementos em classes, binárias ou não. 

Pra ficar mais claro essa questão de aprendizado supervisionado e modelo de classificação, imagine o seguinte exemplo: 

```

Suponha que Thiago, um jovem ávido por andar de skate, mora longe da pista de skate que mais gosta. Além disso, a pista  não é coberta. Portanto, nos dias de chuva ele não pode andar. Nos dias nublados, as vezes, fica receoso de chegar ao    skate park e estar chovendo. Entretanto, conseguimos seguir os passos de Thiago por alguns dias para entender um pouco   sobre sua rotina e seus dilemas para andar de skate dadas as condições do tempo na região próxima de sua casa. Os dados  coletados são os seguintes, seguidos do resultado, isto é, se Thiago conseguiu ou não andar de skate naqueles dias:

```
Dia | Vento | Nublado | Sol | Chuva | Resultado
:--:|:-----:|:-------:|:---:|:-----:|----------
1   |sim    |sim      |nao  |sim    |nao andou
2   |nao    |sim      |nao  |nao    |andou
3   |sim    |nao      |sim  |nao    |andou
4   |nao    |sim      |nao  |nao    |andou
5   |sim    |nao      |sim  |nao    |andou
6   |nao    |sim      |nao  |sim    |nao andou
7   |sim    |nao      |nao  |sim    |nao andou
8   |nao    |sim      |nao  |sim    |nao andou
9   |sim    |nao      |sim  |nao    |andou
10  |nao    |nao      |nao  |nao    |andou

O exemplo acima é uma clara situação onde poderíamos empregar um algoritmo de classificação, pois o que queremos é poder responder a pergunta: "Thiago andou ou não de skate em um dado dia?". Para respondermos a essa pergunta temos que avaliar as condições de tempo e informá-las ao nosso modelo, para que este possa treinar (aprender como relacionar as condições do tempo e o resultado, a partir dos dados da tabela acima) e então conseguir responder a novas questões baseado apenas nas características oferecidas como informação. Portanto, a tarefa do modelo é classificar um registro (com as diversas informações sobre tempo) quanto à duas classes: "andou" ou "não andou" de skate.


## Algoritmo Naive Bayes

O algoritmo Naive Bayes é um classificador probabilístico baseado no “Teorema de Bayes”, o qual foi criado por Thomas Bayes (1701 - 1761) para tentar provar a existência de Deus [curiosidade]. A seguir apresentamos a regra de Bayes onde o algoritmo baseia seu funcionamento.

\begin{equation}
    p(b|a) = \frac{p(a,b)}{p(a)}
\end{equation}

que (pela lei da multiplicação de probabilidades) também pode ser escrita como:

\begin{equation}
    p(b|a) = \frac{p(a|b).p(b)}{p(a)}
\end{equation}

Para mais informações sobre o Teorema de Bayes, [clique aqui](https://pt.wikipedia.org/wiki/Teorema_de_Bayes).

É um algoritmo muito utilizado na área de Aprendizado de Máquina para categorizar/classificar textos baseado na frequência das palavras usadas, e assim podendo ser usado para identificar se determinado e-mail é um SPAM ou sobre qual assunto se refere determinado texto, por exemplo.

Por ser muito simples e rápido, possui um desempenho relativamente maior do que outros classificadores. Além disso, o Naive Bayes só precisa de um pequeno número de dados de teste para concluir classificações com uma boa precisão.

A principal característica do algoritmo, e também o motivo de receber “naive” (ingênuo) no nome, é que ele desconsidera completamente a correlação entre as variáveis. Ou seja, se o tempo, no exemplo da tabela acima, é dividido em "sol", "nublado", "chuva" ou "vento", o algoritmo não vai levar em consideração a correlação entre esses fatores, mas vai tratar cada um de forma independente.

Se o problema for classificar um texto ou algo do gênero, o Naive Bayes é uma das melhores alternativas, mas se a correlação entre os fatores for extremamente importante, o Naive Bayes pode falhar na predição da nova informação.

Dessa forma, temos que esse algoritmo é muito útil para "análise de sentimentos", "filtragem de spam", "classificação/filtragem de textos" e além disso, pode ser utilizado para previsões em tempo real, dada sua velocidade e a necessidade de poucos dados para realizar as classificações.

## Determinando probabilidades

Para entender um pouco melhor como funciona o classificador, vamos a um exemplo rápido: Digamos que estamos trabalhando no diagnóstico de uma nova doença, e que fizemos testes em 100 pessoas distintas. Após coletarmos os dados e fazer as primeiras análises, descobrimos que 20 pessoas possuíam a doença (20%) e 80 pessoas estavam saudáveis (80%), sendo que das pessoas que possuíam a doença, 90% receberam Positivo no teste da doença, e 30% das pessoas que não possuíam a doença também receberam o teste positivo.

Listando esses dados de uma forma mais clara, temos:
- 100 pessoas realizaram o teste.
- 20% das pessoas que realizaram o teste possuíam a doença.
- 90% das pessoas que possuíam a doença, receberam positivo no teste.
- 30% das pessoas que não possuíam a doença, receberam positivo no teste.

A pergunta neste caso seria: se uma nova pessoa realizar o teste e receber um resultado positivo, qual a probabilidade de ela possuir a doença?

O algoritmo Naive Bayes consiste em encontrar uma probabilidade a posteriori (possuir a doença, dado que recebeu um resultado positivo), multiplicando a probabilidade a priori (possuir a doença) pela probabilidade de “receber um resultado positivo, dado que tem a doença”.

Devemos também calcular a probabilidade a posteriori da negação (Não possuir a doença, dado que recebeu um resultado Positivo). Ou seja:

- P(doença|positivo) = 20% * 90%
- P(doença|positivo) = 0,2 * 0,9
- P(doença|positivo) = 0,18
- P(não doença|positivo) = 80% * 30%
- P(não doença|positivo) = 0,8 * 0,3
- P(não doença|positivo) = 0,24

Após isso precisamos normalizar os dados, para que a soma das duas probabilidades resulte em 1 (100%). Para isso, dividimos o resultado pela soma das duas probabilidades.

Exemplo:
- P(doença|positivo) = 0,18/(0,18+0,24) = 0,4285
- P(não doença|positivo) = 0,24/(0,18+0,24) = 0,5714

Dessa forma, podemos concluir que se o resultado do teste da nova pessoa for positivo, ela possui aproximadamente 57% de chance de não estar doente. 

## Exemplo

Vamos ver na prática como esse negócio funciona. Para isso, vamos utilizar uma base de dados chamada **Iris**. Trata-se de um conjunto de dados muito conhecido e muito utilizado no aprendizado de modelos de classificação. Este BD se refere às flores Iris. Nele encontramos 150 registros de medidas de largura e comprimento de sépalas e pétalas das flores. Vou importar os dados aqui e mostrar a carinha deles para que fiquemos familiarizados.

In [71]:
from sklearn import datasets
iris = datasets.load_iris()

Abaixo são mostradas as medidas preditoras:

In [72]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

Abaixo é mostrada a variável *target*:

In [75]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Pra ficarmos mais familiarizados com essa base de dados, vamos usar o comando 'shape' para saber quantas linhas e colunas têm esses arquivos.

In [52]:
iris.data.shape, iris.target.shape

((150, 4), (150,))

Podemos observar que temos 150 registros de dados e 4 atributos e como classes temos apenas um vetor de 150 posições relativos a classe de cada instância, ou seja, nossa variável target é um vetor com 150 entradas.

Seguindo com nosso exemplo, vamos dividir nosso conjunto de dados acima em duas partes: uma amostra para treinamento do modelo e outra para o teste do modelo. Para isso, vamos utilizar o método ```train_test_split``` disponível na biblioteca ```scikit-learn``` por meio do módulo ```model_selection```.

In [53]:
X_train, X_test, y_train, y_test = train_test_split (iris.data, iris.target, test_size=0.4, random_state=0)

Observe que estamos dividindo os dados em uma porcentagem de 40% para teste e 60% para treinamento, através do parâmetro test_size. Os dados de treino são armazenados nas variáveis X_train e y_train. Já os dados de teste são armazenados nas variáveis X_test e y_teste.

A seguir continuamos nosso exemplo com a construção de um modelo baseado no algoritmo Naive Bayes, sob o método multinomial. 

Lembre que nossa ideia é criar um modelo que deve aprender como classificar os registros de flores Iris, de acordo com as medidas das folhas em três grupos: setosa, versicolor e virginica.

In [58]:
from sklearn.naive_bayes import GaussianNB

Construção e treinamento do modelo:

In [76]:
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

Fazendo a previsão dos registros da amostra de teste, para posterior comparação com a variável resposta (y_test):

In [60]:
preditos = modelo.predict(X_test)
print(preditos)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 2 0 2 2 0 0 2 2 0 0 2 0 0 1 1 0 2 2 0 2 2 2 0
 2 1 1 2 0 2 0 0 1 2 2 2 2 1 2 1 1 2 2 2 2 1 2]


Por fim, calculando a taxa de acerto do modelo.

In [78]:
dif = preditos - y_test
acertos = [i for i in dif if i == 0]
total_acertos = len(acertos)
total_elementos = len(y_test)
taxa_acertos = total_acertos / total_elementos 
print(taxa_acertos*100) 

88.33333333333333


Conforme observado na célula acima, o modelo que criamos nesta aula teve uma taxa de acerto de 88%. 

Acho que dessa forma chegamos ao nosso objetivo com essa aula: dar uma introdução ao algoritmo Naive Bayes e mostrar algum exemplo de aplicação. 

Para aprofundar no assunto, sugiro muito a página da biblioteca [Scikit-Learn](http://scikit-learn.org/stable/).