# Naive bayes.
É a técnica simples para contruir classificadores: modelos que atribuem rótulos de classea instâncias do problema, representados como vetores de valores de recursos, onde rótulos de classes são extraidos de algum conjunto finito. Não existe um unico algoritmo para treinar tais classificadores, mas uma familia de algoritmos baseados em um principio comum: todos os classificadores Bayes assumem que o valor de um recurso particular é independente do valor de qualquer outro recurso, dada a variável de classe. Como exemplo, uma fruta pode ser considerada maçã se for vermelha, redonda se tiver cerca de 10cm de diâmetro, o classificador Bayes considera cada uma dessas caracteristicas para contrubuir de forma independente para a probabilidade de que esta fruta seja uma maçã independente de possivel correlação entre as caracteristicas de cor, circularidade e diâmetro. Aonde são encontrados casos de naive Bayes:
* Detecção de Span.
* Classificação de usuários.
* Predição de risco de crédito
* Predição de risco a saude.

![img](https://nicolovaligi.com/articles/naive-bayes-tensorflow/tf_iris.png)

## Guassian Naive Bayes.
É lidar com dados continuos, uma suposição típica é que os valores contínuos associados a cada classe são distribuidos de acordo com a distribuição normal, suponha que os dados de treinamentos contenham um atributo continuo x, os dados são primeiros segmentados pela classe $C_k$ e deixe a variância $\sigma$.
$\newline$ Uma abordagem para criar o modelo é assumir que os daods são descritivos por uma distribuição Gaussuana sem covariância (dimensões independentes), esse modelo  pode ser ajustado simplesmente encontrando a média e desvio padrão dos pontos dentro de cada rótulo.

![img](https://iq.opengenus.org/content/images/2020/02/Illustration-of-how-a-Gaussian-Naive-Bayes-GNB-classifier-works-For-each-data-point.png)

$$p(x = v| C_k) = \frac{1}{\sqrt{2\pi \sigma^2_k}} \cdot e^{-\frac{(v-p_k)^2}{2\sigma^2_k}}$$

* É boa para as previsões recursos normamente distribuidos.

## Bernoulli Naive Bayes.
Nesse algoritmo se baseia numa base de dados de acordo com a distribuição multivariada de Bernoulli, que é composta por diversas features, nas quais são valores binários, ou seja, podem assumir dentre dois valores possíveis. Se alguma feature não for composta por valores binários, "BernoulliNB()" vai transformar as features compostas por valores binários dependedo do parâmetro binarize.
$\newline$ Este tipo de classificador pode ser útil quando uma palavra indesejada gostaria de ser detectada ou um tipo específico de palavra gostaria de ser marcado em um determinado documento.

$$P(x_i | y) = P(i|y) x_i + (1-P(i|y))(1-x_i)$$

Se repararmos existe uma penalidade no caso de não ocorrência de feature i.

* É bom para fazer previsões a partir de caracteristicas binárias 

# Prática.

In [11]:
import pandas as pd
import numpy as np
import urllib
import sklearn
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


In [13]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data"
data = urllib.request.urlopen(url)
datas = np.loadtxt(data,delimiter=",")

In [23]:
print(datas[0])

[  0.      0.64    0.64    0.      0.32    0.      0.      0.      0.
   0.      0.      0.64    0.      0.      0.      0.32    0.      1.29
   1.93    0.      0.96    0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.      0.      0.
   0.      0.      0.      0.      0.      0.      0.778   0.      0.
   3.756  61.    278.      1.   ]


In [27]:
X = datas[:,:48]

y = datas[:,-1]

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.33, random_state=17)

In [31]:
GausNB = GaussianNB().fit(X_train, y_train)

y_pred = GausNB.predict(X_test)
print(accuracy_score(y_test, y_pred))

0.8130348913759052


In [33]:
BernNB = BernoulliNB(binarize=True).fit(X_train, y_train)

y_pred = BernNB.predict(X_test)
print(accuracy_score(y_test, y_pred))

0.8558262014483212


In [34]:
BernNB = BernoulliNB(binarize=.1).fit(X_train, y_train)

y_pred = BernNB.predict(X_test)
print(accuracy_score(y_test, y_pred))

0.8953258722843976
