 * B. Scholkopf and A. J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond, 1st ed. London: The MIT Press, 2012. 

### Classificador de Bayes

A partir da equação obtida anteriormente:

\begin{equation}
y=\text{sgn}\left(\frac{1}{m_{+}}\sum_{\left\{ i|y_{i}=+1\right\} }k\left(x,x_{i}\right)-\frac{1}{m_{-}}\sum_{\left\{ i|y_{i}=-1\right\} }k\left(x,x_{i}\right)+b\right)
\end{equation}

Surpreendentemente, apesar da aproximação simples, um caso especial desta equação é um método de classificação bem conhecido. Se:
* $b=0$: a média das classes possuem a mesma distância da origem;
* _k_ pode ser visualizado como uma densidade de probabilidade quando um dos argumentos é fixo, isto é:

\begin{equation}
\int_{\mathcal{X}}k\left(x,x'\right)dx=1
\end{equation}

Nesse caso, toma a forma do chamado classificador de Bayers, separando duas classes. Neste caso, supomos que as classes de padrões foram geradas por uma amostra de duas distribuições de probabilidades que são corretamente estimadas pelos estimadores da  _janela de Parzen_  das densidades das duas classes:

\begin{equation}
p_{+}\left(x\right)=\frac{1}{m_{+}}\sum_{\left\{ i|y_{i}=+1\right\} }k\left(x,x_{i}\right)\quad p_{-}\left(x\right)=\frac{1}{m_{-}}\sum_{\left\{ i|y_{i}=-1\right\} }k\left(x,x_{i}\right)\quad
\end{equation}

## Janela de Parzen

Dado algum ponto $x$, o rótulo é calculado simplesmente checando qual dos dois valores é maior $p_{+}\left(x\right)$ ou $p_{-}\left(x\right)$, isso leva diretamente a nossa equação inicial.

De maneira geral nossa equação é:

\begin{equation}
y=\text{sgn}\left(\alpha\sum_{I=1}k\left(x,x_{i}\right)+b\right)
\end{equation}

* $\alpha_{i}:$ pode ser considerado uma _representação dual_ do vetor normal ao hiperplano.

Ambos os classificadores que vimos são baseados na ideia de que os kerneis estão centralizados nos padrões de treinamento e um ponto de teste é classificado comparando com todos os pontos de treinamento que não tenham um peso zero.

Na representação do _feature space_ , nós estudamos o vetor normal $\overrightarrow{w}$ de decisão dos hiperplanos que pode ser representado como uma combinação linear geral dos padrões de treinamento. Os hiperplanos que dependem somente de um subconjunto de padrões de treinamento são chamados _vetores de suporte_ (" _Support Vectors_ ").

### Hiperplano

Um hiperplano é um sub-espaço vetorial de dimensão $n-1$, sendo o espaço ambiente de dimensão $n$. Se temos um espaço então de $3-dimensões$, um hiperplano é um plano habitual de 2 dimensões.

No nosso exemplo anterior que trabalhamos em um espaço de dimensão 2, então o hiperplano é uma reta.

Lembrando as equações anteriores:

\begin{equation}
y=\text{sgn}\left\langle \overrightarrow{a},\overrightarrow{w}\right\rangle 
\end{equation}

\begin{equation}
y=\text{sgn}\left(\left\langle \overrightarrow{x}|\overrightarrow{c}_{+}\right\rangle -\left\langle \overrightarrow{x}|\overrightarrow{c}_{-}\right\rangle +b\right)
\end{equation}

Onde:
* A equação anterior induz um limite de decisão que tem a forma de um hiperplano.
* $\overrightarrow{a}=\overrightarrow{x}-\overrightarrow{c}\rightarrow$ distância entre $\overrightarrow{x} e \overrightarrow{c}$
* $\overrightarrow{w}=\overrightarrow{c}_{+}-\overrightarrow{c}_{-}\rightarrow$ distância entre as médias dos rótulos de saída.


Então no nosso exempl que nós calculamos:
  * Classe1: $c_{+1}=\left(2,1.8\right)$
  * Classe 2: $c_{-1}=\left(-2,1.8\right)$

Então:

\begin{equation}
b=\frac{1}{2}\left(\left\langle c_{-}|c_{-}\right\rangle -\left\langle c_{+}|c_{+}\right\rangle \right)=0
\end{equation}

Então nosso hiperplano vai ter a forma de:
\begin{equation}
\left\langle \overrightarrow{x}|\overrightarrow{c}_{+}\right\rangle -\left\langle \overrightarrow{x}|\overrightarrow{c}_{-}\right\rangle =0
\end{equation}

\begin{equation}
2x+1.8y-\left(-2x+1.8y\right)=0
\end{equation}

\begin{equation}
\left(2+2\right)x+\left(1.8-1.8\right)y=0
\end{equation}

Então nosso hiperplano é uma reta na forma $x=0$. Isso sifnicia que esse hiperplano separa as duas classes de pontos, isto é, todos os pontos de um lado desta reta vai ser classificado com um ponto, e todos os pontos do outro lado, irá pertencer a outra classe.

### Exemplo em 3D

Para ficar mais claro vamos computar um exemplo em 3D. Primeiro vamos criar os pontos de treinamento, vamos separar eles em reta no plano $X-Y$ dada por $y=x$. 


In [47]:
import numpy as np                       # Biblioteca fom funções matemáticas
import matplotlib.pyplot as plt          # Biblioteca para geração de gráficos
from mpl_toolkits.mplot3d import Axes3D  # Ferramentas para impressão 3D

# Ativamos a interatividade
%matplotlib notebook                     

In [33]:
# Função para gerar dados de treinamento
def dt (n):
    # n - Quantidade dados
    c1=[]   # Lista dos pontos positivos
    c2=[]   # Lista dos pontos negativos

    for i in range(n):  # Vamos gerar n pontos de cada classe   
        (x,y,z)=np.random.randint(low=0, high=100, size=3)     # Geramos um ponto aleatoriamente
        if (x<y):                                              # Se está de um lado da reta
            c1.append(np.array([x,y,z]))
            c2.append(np.array([y,x,z]))                        # Se está do outro
        else:
            c2.append(np.array([x,y,z]))
            c1.append(np.array([y,x,z]))
        
    return (c1,c2)                                             # Retornamos os pontos

# Função para criar o vetor médio da classe
def med (p):
    # p - Array de pontos
    m = np.array([0,0,0])  # Média inicial
    n = len(p)           # Quantidade de pontos
    
    for i in range (n):
        m=m+p[i]
    m=m/n
    return m

In [39]:
(p1,p2) = dt(1000)           # Geramos os pontos de treinamento
c1 = med(p1)                 # Calculamos o vetor médio da classe 1
c2 = med(p2)                 # Calculamos o vetor médio da classe 2

Então com os vetores calculados anteriormente:
* $c_{1}=\left(34.367,66.757,48.707\right)$
* $c_{2}=\left(66.757,34.367,48.707\right)$

Podemos calcular nosso hiperplano, que aqui deve ser um plano. Escrevendo

\begin{equation}
c_{1}=\left(x_{1},y_{1},z_{1}\right)
\end{equation}

Vamos escrever:

\begin{equation}
c_{2}=\left(y_{1},x_{1},z_{1}\right)
\end{equation}

Então nosso deslocamento é:

\begin{equation}
b=\frac{1}{2}\left(\left\langle c_{1}|c_{1}\right\rangle -\left\langle c_{2}|c_{2}\right\rangle \right)
\end{equation}

\begin{equation}
b=\frac{1}{2}\left(\left(x_{1}^{2}+y_{1}^{2}+z_{1}^{2}\right)-\left(y_{1}^{2}+x_{1}^{2}+z_{1}^{2}\right)\right)=0
\end{equation}

E nosso hiperplano é:

\begin{equation}
\left\langle \overrightarrow{x}|\overrightarrow{c}_{2}\right\rangle -\left\langle \overrightarrow{x}|\overrightarrow{c}_{1}\right\rangle =0
\end{equation}

\begin{equation}
\left(xy_{1}+yx_{1}+zz_{1}\right)-\left(xx_{1}+yy_{1}+zz_{1}\right)=0
\end{equation}

\begin{equation}
x\left(y_{1}-x_{1}\right)-y\left(y_{1}-x_{1}\right)=0
\end{equation}

\begin{equation}
32.3x-32.3y=0
\end{equation}

\begin{equation}
x-y=0
\end{equation}

Que é exatamente o plano que supomos anteriormente.

Plotando, então:

Lembrando que em 3D a equação do plano tem a seguinte cara:
\begin{equation}
ax+by+cz+d=0
\end{equation}

Onde $d$ indica o deslocamento do plano da origem. Então:

Ele é obtido fazendo o produto interno  entre o vetor normal ao plano e o vetor entre a origem e um ponto qualquer do plano. E temos que:

\begin{equation}
d=-\left(\overrightarrow{n}\cdot\overrightarrow{p}\right)
\end{equation}

* $\overrightarrow{n}=\left(a,b,c\right)$ é um vetor normal ao plano
* $\overrightarrow{p}=\left(x,y,z\right)$ é um vetor entre a origem e um ponto do plano

Então se quisermos escrever a equação do plano como função de uma das coordenadas podemos escrever:

\begin{equation}
y=-\frac{\left(ax+cz+d\right)}{b}
\end{equation}

Plotando:

In [54]:
fig = plt.figure()                          # Definimos uma figura
ax = fig.add_subplot(111, projection='3d')  # Um plot

# Os pontos da primeira classe:
for x in p1:
    ax.scatter(x[0], x[1], x[2], c='red',s=5)           # Plotamos um ponto
    
# Os pontos da segunda classe:
for x in p2:
    ax.scatter(x[0], x[1], x[2], c='blue',s=5)           # Plotamos um ponto

# Plotamos nosso hiperplano

## As componentes do plano:
a=1
b=-1
c=0
d=0

## criamos uma malha X-Z
X, Z = np.meshgrid(range(100), range(100))

# Calculamos o Y correspondente
Y = -(a*X+c*Z+d)/b

ax.plot_surface(X,Y,Z, color='black')                  # Plotamos o plano

#Rótulos
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

#Plotamos
plt.show()


<IPython.core.display.Javascript object>

### Classificador de bayes