# Naive Bayes

Naive Bayes é um técnica simples de construção de classificadores. Não é um único algoritmo para treinamento de classificadores, mas uma família de algoritmos baseada num princípio em comum: todos os classificadores Naive Bayes assumem que o valor de um atributo em particular é *independente* do valor dos outros atributos, dada a variável da classe. Isso é o que torna o Naive Bayes *Naive*: ele não considera a dependência entre os atributos. Se pensarmos no caso de classificação textual - onde cada palavra representa um atributo -, por exemplo, a ordem das palavras são importantes para a classificação.

**Vantagens**:
- Requer um baixo número de dados de treinamento para estimar parâmetros do modelo
- Facilmente escalável
- Performance comparável com outros classificadores

**Desvantagens**:
- Pode ser superado por outros classificadores, como árvores de decisão e Random Forests.

## Modelo Probabilístico

Basicamente, o Naive Bayes é um **modelo de probabilidade condicional**: dado uma instância a ser classificada, representada por um vetor $x = (x_1,...,x_n)$ com *n* atributos (varáveis independentes), é calculada a probabilidade:

$$p(C_k | x_1,...,x_n)$$

Ou seja, a probabilidade dessa instância pertencer a cada uma das *k* classes C_k.

Reformulando esse modelo, e aplicando o **Teorema de Bayes**, a probabilidade condicional pode ser escrita como:

$$p(C_k|x) = \frac{p(C_k)p(x|C_k)}{p(x)}$$

Em texto plano, podemos escrever essa equação como segue:

$$posteriori = \frac{priori \times likelihood}{evidence}$$

Na prática, somente nos interessa o numerador dessa fração, já que o denominador não depende de $C$ e os valores dos atributos $F_i$ são dados, logo o denominador é constante. O númerador é equivalente ao modelo de probabilidade conjunta (*joint probability*):

$$p(C_k,x_1,...,x_n)$$

Que pode ser escrita, através da regra da cadeia por aplicações repetidas da definição de probabilidade condicional:

$$
\begin{aligned}p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1},\dots ,x_{n},C_{k})\\&=p(x_{1}\vert x_{2},\dots ,x_{n},C_{k})p(x_{2},\dots ,x_{n},C_{k})\\&=p(x_{1}\vert x_{2},\dots ,x_{n},C_{k})p(x_{2}\vert x_{3},\dots ,x_{n},C_{k})p(x_{3},\dots ,x_{n},C_{k})\\&=\dots \\&=p(x_{1}\vert x_{2},\dots ,x_{n},C_{k})p(x_{2}\vert x_{3},\dots ,x_{n},C_{k})\dots p(x_{n-1}\vert x_{n},C_{k})p(x_{n}\vert C_{k})p(C_{k})\\\end{aligned}
$$

Como o Naive Bayes assume que os atributos são independentes:

$$p(x_i \vert x_{i+1},\dots,x_n,C_k)=p(x_i \vert C_k)$$

Portanto, o modelo de probabilidade conjunta pode ser expresso como:

$$
\begin{aligned}p(C_{k}\vert x_{1},\dots ,x_{n})&\varpropto p(C_{k},x_{1},\dots ,x_{n})\\&\varpropto p(C_{k})\ p(x_{1}\vert C_{k})\ p(x_{2}\vert C_{k})\ p(x_{3}\vert C_{k})\ \cdots \\&\varpropto p(C_{k})\prod _{{i=1}}^{n}p(x_{i}\vert C_{k})\,.\end{aligned}
$$

Pela suposição de independência, a distribuição condicional sobre a variável de classe $C$ é:

$$p(C_{k}\vert x_{1},\dots ,x_{n})=p(C_{k})\prod _{{i=1}}^{n}p(x_{i}\vert C_{k})$$

Logo, o classificador Bayesiano, é a função que atribui a classe $y = C_k$ para algum *k* da seguinte forma:

$$y = \operatorname{argmax}{p(C_k)\prod _{{i=1}}^{n}p(x_{i}\vert C_{k})}$$

Em outras palavras, calculamos a probabilidade de uma instância pertencer a cada classe e atribuímos o label cuja classe tem a maior probabilidade de ser.