## Introdução

- O algoritmo Naive Bayes (Bayes ingênuo) é parte dos chamados *métodos bayesianos*.
- A partir dos dados de entrada, o classificadores baseados em métodos bayesianos usam dados de treino para calcular a probabilidade do resultado pertencer a uma classe.
- Classificadores bayesianos podem ser usados para:

  - Classificação de texto, como detecção de e-mail de spam;
  - Detecção de intrusos ou anomalias em uma rede de computadores;
  - Diagnóstico médico dado um conjunto de sintomas observados.

- Classificadores bayesianos são ideais para problemas que requerem a consideração simultânea de vários atributos.
- Mesmo atributos com efeitos relativamente pequenos podem ter um impacto significativo quando combinados em um modelo bayesiano.


## Terminologia

- Classe $w_i$ (variável aleatória): categorias possíveis que estamos tentando prever.
- Probabilidade **a priori**:
  - Conhecimento prévio sobre o problema
  - Ou seja, conhecimento sobre a aparição de exemplos das classes do problema
- Probabilidade **a posteriori**:
  - Probabilidade de pertencer a uma classe após consideração dos dados de entrada


## Base: Teorema de Bayes

- Supomos que conhecemos a probabilidade de um evento $A$, denotada por $P(A)$.
- Ao obter informações adicionais, podemos ajustar a probabilidade do evento $A$ ocorrer.
  - Denotamos esse ajuste como $P(A|B)$, que representa a probabilidade de $A$ dado que o evento $B$ ocorreu.
- O Teorema de Bayes é fundamental nesse contexto.
  - Ele recalcula as probabilidades de uma instância pertencer a uma classe após a obtenção de novas evidências.


## Base: Teorema de Bayes

- Se $A$ e $B$ dois eventos, podemos caluclar a probabilidade de $A$ dado $B$ uasndo o teorema de Bayes:
$$
  P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}
$$

- $P(A|B)$: probabilidade **a posteriori** (*posterior probability*), probabilidade de $A$ após observar $B$
- $P(A)$: probabildiade **a priori** (*prior probability*), conhecimento inicial sobre $A$
- $P(B|A)$: verossimilhança (*likelihood*)
- $P(B)$: probabilidade marginal (*marginal likelihood*)

## Exemplo 7.1

Calcule a probabilidade de um email ser *spam* a partir da ocorrência do termo "viagra" no texto. A tabela abaixo apresenta os dados.

+------------+-----------+-------+
| $~$        | viagra    | $~$   |
|            +-----+-----+       |
| Frequência | Sim | Não | Total |
+:===========+:===:+:===:+:=====:+
| *spam*     | 4   | 16  | 20    |
+------------+-----+-----+-------+
| não *spam* | 1   | 79  | 80    |
+------------+-----+-----+-------+
| Total      | 5   | 95  | 100   |
+------------+-----+-----+-------+

## O classificador Naive Bayes

- O método é denominado "ingênuo" (*naive*) devido à suposição de que todos os atributos são igualmente importantes e independentes, o que raramente é verdadeiro na prática.
- Exemplo: em emails a a relevância de atributos varia.
  - O remetente tem maior peso que o texto.
  - Algumas palavras não são independentes (ex: "viagra" sugere "prescrição" ou "remédio").

- **Observação:** Embora as suposições do método Naive Bayes não corresponda completamente à realidade, ele ainda assim apresenta um desempenho razoável.
- Naive Bayes frequentemente se destaca como uma escolha razoável para tarefas de aprendizado de classificação, especialmente em conjuntos de dados de treino menores.

## Exemplo 7.2

Vamos extender nosso filtro de spam adicionando mais termos a serem monitorados: "viagra", "dinheiro", "compra" e "descadastrar":

+-----------------+-------------------+--------------------+-------------------+--------------------+--------+
| $~$             | viagra            | dinheiro           | compra            | descadastrar       | $~$    |
+                 +---------+---------+----------+---------+---------+---------+----------+---------+        +
| Verossimilhança | Sim     | Não     | Sim      | Não     | Sim     | Não     | Sim      | Não     | Total   |
+:================+:=======:+:=======:+:========:+:=======:+:=======:+:=======:+:========:+:=======:+:======:+
| *spam*          | 4/20    | 16/20   | 10/20    | 10/20   | 0/20    | 20/20   | 12/20    | 8/20    | 20     |
+-----------------+---------+---------+----------+---------+---------+---------+----------+---------+--------+
| não *spam*      | 1/80    | 79/80   | 14/80    | 66/80   | 8/80    | 71/80   | 23/80    | 57/80   | 80     |
+-----------------+---------+---------+----------+---------+---------+---------+----------+---------+--------+
| Total           | 5/100   | 95/100  | 24/100   | 76/100  | 8/100   | 91/100  | 35/100   | 65/100  | 100    |
+-----------------+---------+---------+----------+---------+---------+---------+----------+---------+--------+


```{latex}
\begin{table}[h]
\centering
\begin{tabular}{|c|c|c|}
\hline
Célula 1 & \multicolumn{2}{c|}{Célula 2-3} \\ \hline
Texto & \multicolumn{2}{c|}{\centering Mesclada} \\ \hline
& Outra célula & Mais \\ \hline
Texto & \multicolumn{2}{c|}{Outra Mesclada} \\ \hline
\end{tabular}
\caption{Exemplo de Tabela com Mesclagem de Colunas}
\end{table}
```



## Vantagens e desvantagens

::: {.callout-note}
## Vantagens

- Simples e efetivo.
- Não faz suposições sobre a distribuição dos dados.
- Fase de treinamento rápida.
:::

::: {.callout-important}
## Desvantagens

- Não produz um modelo, limitando a capacidade de entender como as características se relacionam com a classe.
- Requer a seleção de um $k$ apropriado.
- Fase de treinamento rápida.
- Fase de classificação lenta.
- Características nominais e dados ausentes exigem processamento adicional.
:::

## Encontrando os vizinhos mais próximos

- Para encontrar os vizinhos mais pŕoximos de uma instância é preciso calcular a distância entre as instâncias.
- Tradicionalmente, o algoritmo k-NN usa a **distância euclidiana**.
- Seja $p$ e $q$ duas instâncias com $n$ atritubos. Então a distância euclidiana entre $p$ e $q$ é dada por
$$
  dist(p,q) = \sqrt{(p_1-q_1)^2 +(p_2-q_2)^2 + \cdots + (p_n-q_n)^2}
$$
em que $p_i$ e $q_i$, $i=1,\ldots,n$ representam os atributos associados às instâncias $p$ e $q$, respectivamente.


## Preparando os dados

- **Observação:** antes do cálculo da distância euclidiana devemos normalizar os atributos, pois atributos com valores mais elevados tendem a ter um impacto desproporcional no cálculo de distância.
- Para o k-NN podemos usar a *normalização min-max*:
$$
x_{novo} = \frac{x - min(X)}{max(X)-min(X)}
$$
- ou a transformação *z-score*:
$$
x_{novo} = \frac{x - média(X)}{DesvPad(X)}.
$$

## Preparando os dados

- Se o atributo é do tipo nomial, devemos transformá-lo em uma variável *dummy*. Por exemplo:
$$
  homem = \begin{cases}
    1 & \text{se } x = \text{ homem}\\
    0 & \text{caso contrário}.
  \end{cases}
$$
- Se a variável tem mais de duas categorias, digamos $n$, devem ser criadas $n-1$ variáveis *dummies*.
- Exemplo: se o atributo *temperatura* possui as categorias *quente*, *médio* e *frio*, devem ser criados:

:::: {.columns}
::: {.column width="50%"}
$$
quente = \begin{cases}
  1 & \text{se } x = \text{ quente}\\
  0 & \text{caso contrário}
\end{cases}
$$
:::
::: {.column width="50%"}
$$
médio = \begin{cases}
  1 & \text{se } x = \text{ médio}\\
  0 & \text{caso contrário}
\end{cases}
$$
:::
::::

- Como uma dummy possui apenas os valores 0 e 1, os valores caem na mesma escala da transformação min-max.

## Exemplo 6.1
Considere os dados de treinamento:

Paciente | Idade | Colesterol | Doença cardíaca | Paciente | Idade | Colesterol | Doença cardíaca
:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:
1 | 45 | 297 | FALSO | 6 | 48 | 256 | VERDADEIRO
2 | 41 | 172 | VERDADEIRO | 7 | 49 | 212 | VERDADEIRO
3 | 46 | 202 | VERDADEIRO | 8 | 41 | 289 | VERDADEIRO
4 | 48 | 193 | VERDADEIRO | 9 | 49 | 271 | FALSO
5 | 46 | 243 | FALSO | 10 | 43 | 315 | FALSO

Calcule a distância euclidiana para um novo paciente com 45 anos e colesterol de 225 usando a normalização min-max. Ordende os dados de treino da menor distância para a maior ditância do novo paciente.

# Determinando $k$ apropriado

- A decisão de quantos vizinhos usar para o k-NN determina o quão bem o modelo generalizará dados futuros.
- O equilíbrio entre *overfitting* e *underfitting* aos dados de treinamento é um problema conhecido como o *tradeoff entre viés e variância*.
- Escolher um $k$ pequeno pode tornar o modelo muito sensível à ruído nos dados, levando ao *overfitting*.
- Um valor grande de $k$ pode enviesar o aprendizado, correndo o risco de ignorar padrões pequenos, porém importantes.


# Determinando $k$ apropriado

- O valor escolhido para $k$ deve sempre ser ímpar, para evitar empates na hora de classificar.
- Uma forma de determinar $k$ é testar diversos valores de $k$ com os dados de teste e escolher aquele com melhor performance de classificação.


## Por que o algoritmo k-NN é preguiçoso?

- Algoritmos de classificação baseados em métodos de vizinho mais próximo são considerados algoritmos de aprendizado preguiçoso (*lazy learning*).
- Um aprendiz preguiçoso não está realmente aprendendo nada; ele apenas armazena os dados de treinamento sem qualquer abstração.
- O aprendizado preguiçoso também é conhecido como aprendizado baseado em instâncias ou aprendizado por repetição.


## E a Regressão k-NN?

- Em problemas de regressão, como a variável resposta é numérica, a estimativa é dada pela média dos $k$ vizinhos mais próximos. Duas formas são possíveis:
  - Usar a média aritmética ou
  - Usar a média ponderada pela distância entre as instâncias (preferível).

- A média ponderada pelas distâncias é dada por
$$
  \widehat{y}_i = \frac{\sum\limits_{t=0}^k y_i\, p_i}{\sum\limits_{t=0}^k p_i},
$$

em que:
- $y_i$ é o valor da variável resposta para a instância $i$;
- $p_i$ é o peso dado pelo inverso da distância entre a nova instaância e a instância de treino.

## Escolha de $k$ na Regressão k-NN

- O valor de $k$ é escolhido como aquele que produz menor erro. Algumas métricas que podem ser usadas para quantificar o erro são:

  - Erro médio absoluto (MAE):  $~~~~~MAE(y,\widehat{y}) = \frac{1}{n}\sum\limits_{i=1}^n|y_i-\widehat{y}_i|$
  - Erro quadrático médio (MSE):$~~~~~MSE(y,\widehat{y}) = \frac{1}{n}\sum\limits_{i=1}^n (y_i-\widehat{y}_i)^2$
  - Raiz do erro quadrático médio (RMSE):$~~~~~RMSE(y,\widehat{y}) = \sqrt{\frac{1}{n}\sum\limits_{i=1}^n (y_i-\widehat{y}_i)^2}$

# FIM {style="text-align: center;"}
![](images/giphy.gif){fig-align="center"}