## Naive Bayes

É um algoritmo para problemas de Classificação. Recebe esse nome por ser baseado no teorema da probailidade de Bayes. O algoritimo tem como objetivo calcular a probabilidade de que uma amostra desconhecida pertença à uma das classes possíveis, ou seja, predizer a classe mais provável. Esse tipo de regressão é chamado de classificação estatística pois é baseada totalmente em probabilidade. Considera que o valor de um atributo sobre determinada classe é independente dos damais atributos, o que simplifica os cálculos envolvidos.

O modelo Naive Bayes é um algoritmo de classificação extremamente rápido e simples, adequado para conjuntos de dados de grandes dimensões. O preço pago por essa eficiência é que o modelo geralmente fornece um desempenho de generalização um pouco pior que os classificadores lineares, como LogisticRegression e LinearSVC.

**Possíveis aplicações**  
* Previsões multi-classes
* Classificação de textos/Filtragem de spam/Análise de sentimento
* Previsões em tempo real
* Sistema de Recomendação


**Teorema de Bayes**  
Em teoria da probabilidade o teorema de bayes mostra a relação entre a probabilidade condicional e a sua inversa.

A essência do teorema de Bayes consiste na revisão das probabilidades iniciais (a priori) em relação à evidência amostral. As estimativas revisadas chamam-se probabilidades a posteriori. 

A equação acima se lê da seguinte forma: Probabilidade de um evento A, dado B é igual à Probabilidade de um evento B, dado A, multiplicado pela probabilidade de A, tudo isso sendo dividido pela probabilidade de B.
O teorema, na prática, busca calcular as probabilidades condicionais do evento A, no numerador, dividido pelo total da probabilidade do evento B no denominador.

Pr(A) e Pr(B) são as probabilidades a priori de A e B.
Pr(B|A) e Pr(A|B) são as probabilidades a posteriori de B condicional a A e de A condicional a B
respectivamente.

<img src="figuras/naive-bayes-eq1.png" width="400"/>

**Por que Naive?**  
A tradução aproximada de naive é ingênuo/simples, e usamos esse termo devido à algumas suposições que fazemos para calcular as probabilidades. O termo naive vem do fato de que se assume que cada recurso é independente do resto, ou seja, o valor de um recurso não tem relação com o valor de outro recurso.  

Para facilitar os cálculos, atribuimos características à distribuição dos dados que podem assumir:  

**No Scikit-Learn**
* Gaussian - Assume a distribuição normal. ``from sklearn.naive_bayes import GaussianNB``  
* Multinomial - Usado para contagem de variáveis discretas. ``from sklearn.naive_bayes import MultinomialNB``  
* Bernoulli - Ou binomial, onde possuímos como saída uma classificação binária. ``from sklearn.naive_bayes import BernoulliNB``

O ``MultinomialNB`` leva em consideração o valor médio de cada recurso para cada classe, enquanto o ``GaussianNB`` armazena o valor médio, bem como o desvio padrão de cada recurso para cada classe. O classificador ``BernoulliNB`` conta quantas vezes cada recurso de cada classe não é zero.

O treinamento do modelo é reduzido ao cálculo das probabilidades condicionais envolvidas, que podem ser estimadas pela contagem de frequências de correlações entre valores de recursos e valores de classes.

**Melhorando o poder do Naive Bayes**
* Se os atributos contínuos não têm distribuição normal, devemos usar a transformação ou métodos diferentes para convertê-los em distribuição normal.
* Se o conjunto de dados de teste tem problema de frequência zero, aplique a técnica de suavização “Laplace Correction” para  rever a classe no conjunto de dados de teste.
* Remova variáveis correlacionadas. Os atributos altamente correlacionadas podem levar a um excesso de importância de uma característica, reduzindo a capacidade de generalização do modelo.
* Classificadores Naive Bayes têm opções limitadas para ajuste de parâmetros, tais como como **alfa = 1 para suavização**, fit_prior = [Verdadeiro | Falso] para aprendizagem a partir de probabilidades anteriores. Foque no pré-processamento de dados e seleção de atributos.
* Você pode querer aplicar alguma técnica ensemble como “bagging” e “boosting”, mas na prática esses métodos não ajudariam, pois a finalidade destes métodos é reduzir a variância. Naive Bayes não tem variância para minimizar.

**Vantagens**
* É fácil e rápido para prever o conjunto de dados da classe de teste. Também tem um bom desempenho na previsão de classes múltiplas.
* Quando a suposição de independência prevalece, um classificador Naive Bayes tem melhor desempenho em comparação com outros modelos como regressão logística, e você precisa de menos dados de treinamento.
* O desempenho é bom em caso de variáveis categóricas de entrada em comparação a variáveis numéricas. Para variáveis numéricas, assume-se a distribuição normal (curva de sino, que é uma suposição forte).

**Desvantagens**
* Se a variável categórica tem uma categoria (no conjunto de dados de teste) que não foi observada no conjunto de dados de treinamento, então o modelo irá atribuir uma probabilidade de 0 (zero) e não será capaz de fazer uma previsão. Isso é muitas vezes conhecido como “Zero Frequency”. Para resolver esse problema, podemos usar a técnica de ”suavização” (smoothing). Uma das técnicas mais simples de ”suavização” (smoothing) é a chamada estimativa de Laplace.
* Uma limitação do Naive Bayes é a suposição de preditores independentes. Na vida real, é quase impossível ter um conjunto de indicadores que sejam completamente independentes.  

O modelo GaussianNB é raramente usado por praticantes, enquanto que as outras duas variantes são amplamente usadas para dados de contagem esparsa, como texto. Geralmente, o MultinomialNB tem um desempenho melhor do que o BinaryNB, em particular em conjuntos de dados com um número relativamente grande de recursos diferentes de zero (por exemplo, documentos grandes).

**Para ir além**  
Naive Bayes and Text Classification I - Introduction and Theory  
https://arxiv.org/pdf/1410.5329v3.pdf  

Baye’s Theorem  
http://faculty.washington.edu/tamre/BayesTheorem.pdf  

Total Probability and Bayes’ Theorem  
http://www.personal.soton.ac.uk/jav/soton/HELM/workbooks/workbook_35/35_4_tot_prob_bayes_thm.pdf  

Naïve Bayes  
http://scikit-learn.org/stable/modules/naive_bayes.html  

The Bayesian Algorithm  
https://www.blackwellpublishing.com/content/BPL_Images/Content_store/Sample_chapter/9781405117197/Lancaster_sample%20chapter_Intro%20to%20modern%20Bayesian%20Econometrics.pdf