# Naive Bayes

O algoritmo “Naive Bayes” é um classificador probabilístico baseado no “Teorema de Bayes”, o qual foi criado pelo  matemático inglês, e também ministro presibiteriano, Thomas Bayes (1701 - 1761) para tentar provar a existência de Deus.

<img src=thomas_bayes.png>
<center>Thomas Bayes (1701 - 1761)</center>

O algoritmo “Naive Bayes” é um classificador probabilístico muito utilizado em machine learning. Atualmente, tornou popular para categorizar textos baseado na frequência das palavras usadas, e assim pode ser usado para identificar se determinado e-mail é SPAM ou Não-SPAM ou sobre qual assunto se refere com base em seu conteúdo, por exemplo.

Hoje é também utilizado na área de Aprendizado de Máquina (Machine Learning) para categorizar textos com base na frequência das palavras usadas.

Ele recebe o nome de “naive” (ingênuo) porque desconsidera a correlação entre as variáveis (features). Ou seja, se determinada fruta é rotulada como “Limão”, caso ela também seja descrita como “Verde” e “Redonda”, o algoritmo não vai levar em consideração a correlação entre esses fatores. Isso porque trata cada um de forma independente.

Por ser muito simples e rápido, possui um desempenho relativamente maior do que outros classificadores. Além disso, o Naive Bayes só precisa de um pequeno número de dados de teste para concluir classificações com uma boa precisão.

A principal característica do algoritmo, e também o motivo de receber “naive” (ingênuo) no nome, é que ele desconsidera completamente a correlação entre as variáveis (features). Ou seja, se determinada fruta é considerada uma “Maçã” se ela for “Vermelha”, “Redonda” e possui “aproximadamente 10cm de diâmetro”, o algoritmo não vai levar em consideração a correlação entre esses fatores, tratando cada um de forma independente.

## Determinando probabilidades
Para entender um pouco melhor como funciona o classificador, vamos a um exemplo rápido:

Digamos que estamos trabalhando no diagnóstico de uma nova doença, e que fizemos testes em 100 pessoas distintas.

Após coletarmos a análise, descobrimos que 20 pessoas possuíam a doença (20%) e 80 pessoas estavam saudáveis (80%), sendo que das pessoas que possuíam a doença, 90% receberam Positivo no teste da doença, e 30% das pessoas que não possuíam a doença também receberam o teste positivo.

Listando esses dados de uma forma mais clara, temos:

* 100 pessoas realizaram o teste.
* 20% das pessoas que realizaram o teste possuíam a doença.
* 90% das pessoas que possuíam a doença, receberam positivo no teste.
* 30% das pessoas que não possuíam a doença, receberam positivo no teste.

A pergunta neste caso seria: Se uma nova pessoa realizar o teste e receber um resultado positivo, qual a probabilidade de ela possuir a doença?

O algoritmo de Naive Bayes consiste em encontrar uma probabilidade a posteriori (possuir a doença, dado que recebeu um resultado positivo), multiplicando a probabilidade a priori (possuir a doença) pela probabilidade de “receber um resultado positivo, dado que tem a doença”.

Devemos também computar a probabilidade a posteriori da negação (Não possuir a doença, dado que recebeu um resultado Positivo).

Ou seja:

* P(doença|positivo) = 20% * 90%
* P(doença|positivo) = 0,2 * 0,9
* P(doença|positivo) = 0,18
* P(não doença|positivo) = 80% * 30%
* P(não doença|positivo) = 0,8 * 0,3
* P(não doença|positivo) = 0,24

Após isso precisamos normalizar os dados, para que a soma das duas probabilidades resulte 1 (100%).

Para isso, dividimos o resultado pela soma das duas probabilidades.

Exemplo:

* P(doença|positivo) = 0,18/(0,18+0,24) = 0,4285
* P(não doença|positivo) = 0,24/(0,18+0,24) = 0,5714
* 0,4285 + 0,5714 = 0,9999.. ou aproximadamente 1.

A fórmula se apresenta desta maneira:


\begin{equation}
\begin{split}
    P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{split}
\end{equation}


Podemos concluir que se o resultado do teste da nova pessoa for positivo, ela possui aproximadamente 43% (0,4285) de chance de estar doente.

# Implementação em Python

Ao estudar sobre Inteligência Artificial, é inevitável receber algum tipo de contato com a linguagem de programação Python.

O principal motivo são as grandes bibliotecas que tratam e implementam os algoritmos mais usados em Aprendizado de Máquina.

Uma das mais famosas, é a biblioteca Scikit Learn (ou sklearn)https://scikit-learn.org/stable/modules/naive_bayes.html


O Sklearn implementa o Naive Bayes nas formas:

* Gaussian; 
$$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$$

$\mu_y$ é a média de cada recurso por classe

$\sigma_y$ é a variancia de cada recurso por classe

<br><br>

* Multinomial;
$$\hat{\theta}_{yi} = \frac{ N_{yi} + \alpha}{N_y + \alpha n}$$
$$N_{yi} = \sum_{x \in T} x_i$$
$$N_{y} = \sum_{i=1}^{n} N_{yi}$$

<br><br>

* Complement;
$$ \begin{align}\begin{aligned}\hat{\theta}_{ci} = \frac{\alpha_i + \sum_{j:y_j \neq c} d_{ij}}
                         {\alpha + \sum_{j:y_j \neq c} \sum_{k} d_{kj}}\\w_{ci} = \log \hat{\theta}_{ci}\\w_{ci} = \frac{w_{ci}}{\sum_{j} |w_{cj}|}\end{aligned}\end{align} $$
$$\hat{c} = \arg\min_c \sum_{i} t_i w_{ci}$$

<br><br>

* Bernoulli;
$$P(x_i \mid y) = P(i \mid y) x_i + (1 - P(i \mid y)) (1 - x_i)$$

<br><br>

Cada implementação é utilizada para objetivos diferentes.


# Aplicação do Naive Bayes

Se o problema for classificar texto ou algo do gênero, o Naive Bayes é uma das melhores alternativas. Se a correlação entre os fatores forem extremamente importantes, o Naive Bayes pode falhar na predição da nova informação.

Algumas utilidades práticas:

* Previsões em tempo real: Por possuir uma velocidade relativamente alta e precisar apenas de poucos dados para realizar a classificação, o Naive Bayes pode ser utilizado para previsões em tempo real.

* Classificação de textos/Filtragem de spam/Análise de sentimento: Muito utilizado para filtragem de SPAM, Análise de Sentimento nas redes sociais (identificar se o usuário está feliz ou triste ao publicar determinado texto).

* Frequentemente aplicado em processamento de linguagem natural e diagnósticos médicos, o método pode ser usado quando os atributos que descrevem as instâncias forem condicionalmente independentes. Ou seja, o teorema de Bayes trata sobre probabilidade condicional. Isto é, qual a probabilidade de o evento A ocorrer, dado o evento B.


# Conclusão

A resolução de problemas relacionados a texto é muito bem resolvida com a utilização do Naive Bayes. Classificação de textos, filtragem de SPAM e análise de sentimento em redes sociais são algumas das muitas aplicações para o algoritmo.

Além disso, o algoritmo é muito robusto para previsões em tempo real, ainda mais por precisar de poucos dados para realizar a classificação. Entretanto, caso haja necessidade de correlacionar fatores, o Naive Bayes tende a falhar na predição.

# Referências

https://scikit-learn.org/stable/modules/naive_bayes.html


# Algoritmo

In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

%matplotlib inline

In [11]:
# https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html

class GaussianNaiveBayes():
    def __init__(self, priors=None):
        self.priors = priors  # Probabilidades dados anteriores. Se especificado, os anteriores não são ajustados de acordo com os dados.
        self.theta_ = 0.0  # média de cada recurso por classe
        self.sigma_ = 0.0  # variancia de cada recurso por classe

    def fit(self, x, y):
        classes, counts = np.unique(y, return_counts=True)
        self.priors = counts / counts.sum() if self.priors is None else self.priors

        self.theta_ = np.array([np.mean(x[y == c], axis=0) for c in classes])
        self.sigma_ = np.array([np.var(x[y == c], axis=0) for c in classes])
        
    def predict(self, x):
        return np.argmax(self.predict_proba(x), axis=1)

    # efetivamente faz a predição
    def predict_proba(self, x):
        y_pred = []
        for sample in x:
            joint_prob = self.__joint_prob(sample)
            posterior_prob = self.__posterior_prob(joint_prob) # obtém as probabilidades posteriori
            y_pred.append(posterior_prob)
        return np.array(y_pred)

    # cálculo para equação Gaussian
    def __normal_pdf(self, x, mean_c, var_c):
        exponent = ((x - mean_c)**2) / (2 * (var_c**2))
        f = (1.0 / np.sqrt(2.0 * np.pi * (var_c**2))) * np.exp(-exponent) 
        return np.prod(f)

    # chama __normal_pdf passando self.priors, self.theta_, self.sigma_ e concatena as probabilidades
    def __joint_prob(self, x):
        joint_prob = []
        for p, t, s in zip(self.priors, self.theta_, self.sigma_):
            joint_prob.append(p * self.__normal_pdf(x, t, s))
        return joint_prob
    
    def __posterior_prob(self, joint_prob):
        marginal_prob = np.sum(joint_prob)
        return joint_prob / marginal_prob

# Exemplo  Iris - Implementação

In [4]:
iris = load_iris()

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['class'] = iris.target

In [5]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [6]:
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


In [7]:
x = df.drop(labels='class', axis=1).values
y = df['class'].values

print(x.shape, y.shape)

(150, 4) (150,)


# Teste solução própria

In [12]:
clf = GaussianNaiveBayes(priors=[0.1, 0.2, 0.7])
clf.fit(x, y)

print('clf.theta_', clf.theta_)
print('clf.sigma_', clf.sigma_)
print('clf.priors', clf.priors)

clf.theta_ [[5.006 3.428 1.462 0.246]
 [5.936 2.77  4.26  1.326]
 [6.588 2.974 5.552 2.026]]
clf.sigma_ [[0.121764 0.140816 0.029556 0.010884]
 [0.261104 0.0965   0.2164   0.038324]
 [0.396256 0.101924 0.298496 0.073924]]
clf.priors [0.1, 0.2, 0.7]


In [13]:
# Esse é o treinamento que é feito
priors = None
classes, counts = np.unique(y, return_counts=True)
priors = counts / counts.sum() if priors is None else self.priors

theta_ = np.array([np.mean(x[y == c], axis=0) for c in classes]) 
sigma_ = np.array([np.var(x[y == c], axis=0) for c in classes])

print('classe ', classes, 'cont ',counts)
print('dim x ', x.shape, 'dim y ', y.shape)

print('theta_', theta_)

np.array([np.mean(x[y == 0],axis=0)]) # média de cada classe considerando cada uma das colunas


classe  [0 1 2] cont  [50 50 50]
dim x  (150, 4) dim y  (150,)
theta_ [[5.006 3.428 1.462 0.246]
 [5.936 2.77  4.26  1.326]
 [6.588 2.974 5.552 2.026]]


array([[5.006, 3.428, 1.462, 0.246]])

In [18]:
print(clf.predict(x))
print('\nprobabilidade estimada \n', clf.predict_proba(x))

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
 1 1 1 2 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

probabilidade estimada 
 [[1.00000000e+000 5.12626224e-237 2.03026587e-180]
 [1.00000000e+000 4.94944768e-225 1.52284449e-173]
 [1.00000000e+000 6.43667930e-227 2.69241677e-172]
 [1.00000000e+000 3.57544915e-225 1.46009936e-172]
 [1.00000000e+000 4.42624635e-241 4.09726398e-183]
 [1.00000000e+000 1.36227997e-127 6.44726642e-101]
 [1.00000000e+000 8.74522671e-202 5.14246341e-163]
 [1.00000000e+000 1.40948180e-232 1.25271722e-177]
 [1.00000000e+000 4.99799367e-222 4.60301591e-170]
 [1.00000000e+000 9.80460140e-225 5.31802241e-153]
 [1.00000000e+000 1.53490811e-238 3.04904039e-180]
 [1.00000000e+000 2.17958428e-226 1.29041304e-171]
 [1.00000000e+000 7.60101660e-225 2.78468153e-153]
 [1.0

In [16]:
y_pred = clf.predict(x)
print(accuracy_score(y, y_pred))

0.94


# Teste solução sklearn

In [19]:
clf_sk = GaussianNB()
clf_sk.fit(x, y)

print('theta_', clf_sk.theta_)
print('sigma_', clf_sk.sigma_)

theta_ [[5.006 3.428 1.462 0.246]
 [5.936 2.77  4.26  1.326]
 [6.588 2.974 5.552 2.026]]
sigma_ [[0.121764 0.140816 0.029556 0.010884]
 [0.261104 0.0965   0.2164   0.038324]
 [0.396256 0.101924 0.298496 0.073924]]


In [20]:
print(clf_sk.predict(x[::15]))
print(clf_sk.predict_proba(x[::15]))

[0 0 0 0 1 1 1 2 2 2]
[[1.00000000e+000 1.35784265e-018 7.11283512e-026]
 [1.00000000e+000 3.04074398e-017 1.66211400e-023]
 [1.00000000e+000 1.07710163e-016 2.38609460e-024]
 [1.00000000e+000 1.95284044e-016 1.97347120e-024]
 [1.07499306e-041 9.99999765e-001 2.35068227e-007]
 [3.30685495e-094 9.87471082e-001 1.25289184e-002]
 [1.13186560e-082 9.99873680e-001 1.26320322e-004]
 [4.66035479e-273 2.40976995e-010 1.00000000e+000]
 [7.89162997e-222 1.17116897e-008 9.99999988e-001]
 [6.08114349e-254 8.98578646e-011 1.00000000e+000]]


In [21]:
y_pred = clf_sk.predict(x)
print(accuracy_score(y, y_pred))

0.96
