<a href="https://colab.research.google.com/github/davicn/GuideSVM_LIBSVM/blob/master/Introducao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução

SVMs (Support Vector Machines) são uma técnica útil para classificação de dados. Embora o SVM seja considerado mais fácil de usar do que as Redes Neurais, os usuários não familiarizados com ele geralmente obtêm resultados insatisfatórios no início. Aqui nós delineamos uma abordagem de “livro de receitas” que geralmente dá resultados razoáveis.

Observe que este guia não é para pesquisadores de SVM nem garantimos que você obterá a mais alta precisão. Além disso, não pretendemos resolver problemas desafiadores ou difíceis. Nosso objetivo é oferecer aos novatos de SVM uma receita para obter rapidamente resultados aceitáveis.

Embora os usuários não precisem entender a teoria subjacente ao SVM, apresentamos brevemente os fundamentos necessários para explicar nosso procedimento. Uma tarefa de classificação geralmente envolve a separação de dados em conjuntos de treinamento e testes. Cada instância no conjunto de treinamento contém um "valor alvo" (ou seja, os rótulos de classe) e vários "atributos" (ou seja, os recursos ou variáveis observadas). O objetivo do SVM é produzir um modelo (com base nos dados de treinamento) que prevê os valores de destino dos dados de teste, dados somente os atributos de dados de teste.



Dado um conjunto de treinamento de pares de rótulo de instância $(\textbf{x}_i,y_i), i=1, \dots, l$ onde $\textbf{x}_i \epsilon R^n$ e $\textbf{y} \epsilon \left\{1,-1\right\}^l$, à máquina de vetores de suporte (SVM) as máquinas de vetores de suporte (SVM) exigem a solução do seguinte problema de otimização:

$$\frac{1}{2}\textbf{w}^T\textbf{w} +C\sum_{i=1}^l{\xi}_i$$
$$y_i \left( \textbf{w}^T  \phi \left( \textbf{x}_i + b\right)\right) \geq 1-\xi_i$$
$$\xi \geq 0$$

Aqui os vetores de treinamento $\textbf{x}_i$ são mapeados em um espaço dimensional superior (talvez infinito) pela função $\phi$. O SVM encontra um hiperplano de separação linear com a margem máxima neste espaço dimensional superior. $C> 0$ é o parâmetro de penalidade do termo de erro.  Além disso, $K(\textbf{x}_i,\textbf{x}_j) \equiv \phi(\textbf{x}_i)^T \phi(\textbf{x}_j)$ é chamado de função do kernel. Embora os novos núcleos estejam sendo propostos pelos pesquisadores, os iniciantes podem encontrar nos livros de SVM os quatro núcleos básicos:

* Linear: $K(\textbf{x}_i,\textbf{x}_j) =  \textbf{x}_i^T\textbf{x}_j$;
* Polinomial: $K(\textbf{x}_i,\textbf{x}_j) = \gamma(\textbf{x}_i^T\textbf{x}_j + r)^d, \gamma>0;$
* Função de Base Radial (RBF): $K(\textbf{x}_i,\textbf{x}_j) = exp( -\gamma \parallel \textbf{x}_i^T\textbf{x}_j\parallel ^2), \gamma>0;$
* Sigmoial: $K(\textbf{x}_i,\textbf{x}_j) = tanh(\gamma \textbf{x}_i^T\textbf{x}_j+ r)$.

Aqui, $\gamma$, $r$ e $d$ são parâmetros do kernel.

## Exemplos do Mundo Real

A Tabela 1 apresenta alguns exemplos do mundo real. Esses conjuntos de dados são fornecidos por nossos usuários que não conseguiram obter uma precisão razoável no início. Usando o procedimento ilustrado neste guia, nós os ajudamos a obter um melhor desempenho. Detalhes estão no Apêndice A.

Esses conjuntos de dados estão em t http://www.csie.ntu.edu.tw/~cjlin/papers/guide/data/


Tabela 1: Características do problema e comparações de desempenho.

| Aplicações      | Dados de Treino | Dados de Teste | Características | Classes | Precisão de Usuários | Precisão do Nosso Procedimento |
|-----------------|-----------------|----------------|-----------------|---------|-------------------|-----------------------------|
| Astropartículas | 3,089           | 4,000          | 4               | 2       | 75.2%             | 96.9%                       |
| Bioinformática  | 391             | 0              | 20              | 3       | 36%               | 85,2%                       |
| Veículo         | 1,243           | 41             | 21              | 2       | 4,88%             | 87,8%                       |

## Procedimento Proposto

Muitos iniciantes usam o seguinte procedimento:
* Transformar dados para o formato de um pacote SVM
* Tentar alguns kernels e parâmetros aleatoriamente
* Teste

Propomos que os iniciantes experimentem o seguinte procedimento primeiro:
* Transformar dados para o formato de um pacote SVM
* Realizar escalonamento simples nos dados
* Considere o kernel RBF $K(\textbf{x}_i,\textbf{x}_j) = e^{ -\gamma \parallel \textbf{x}_i^T\textbf{x}_j\parallel ^2}$
* Use a validação cruzada para encontrar o melhor parâmetro $C$ e $\gamma$
* Use o melhor parâmetro $C$ e $\gamma$ para treinar todo o conjunto de treinamento (O melhor parâmetro pode ser afetado pelo tamanho do conjunto de dados, mas, na prática, aquele que é obtido da validação cruzada já é adequado para todo o conjunto de treinamento)
* Teste

Discutiremos este procedimento em detalhes nas seções a seguir.