# SVM: Kernel RBF

## O que vamos fazer?
- Gerar um dataset sintético de 2 classes (binário). 
- Pré-processar o dataset.
- Formar um modelo de classificação por SVM sobre o mesmo. 
- Comprovar a sua adequação.
- Otimizar os hiper-parâmetros do nosso modelo por validação cruzada. 
- Avaliar o nosso modelo.

Da mesma forma que tínhamos feito para a classificação de regressão logística usando Scikit-learn, vamos agora usar este quadro para resolver problemas de classificação SVM.

Em concreto, vamos usar o seu classificador SVC com o núcleo RBF (“Radial Basis Function”). O modelo Scikit-learn SVC tem uma série de núcleos disponíveis, e em particular, o núcleo gaussiano não está entre eles. Contudo, este núcleo RBF está intimamente relacionado, uma vez 
que também parte de uma classificação “radial”, e em projetos reais é uma implementação que pode ser mais eficiente e ter melhor desempenho do que o kernel Gaussiano, mais simples.


Por conseguinte, em vez do núcleo gaussiano, vamos usar a RBF. Este kernel para SVM tem 2 parâmetros:

- *C*: O inverso do parâmetro de regularização. Para valores maiores de *C*, será aceite uma margem menor entre classes se a função de decisão classificar melhor os exemplos de formação. Valores mais baixos de *C* irão tentar aumentar a margem entre classes, com uma função de decisão mais simples e, portanto, à custa de uma eventual menor precisão.
- *Gamma*: Define até onde chega a influência de cada exemplo, ou o inverso do raio de influência dos exemplos selecionados pelo modelo como landmarks. Valores mais baixos significarão uma influência que chega mais longe, e valores mais altos significarão uma influência que chega muito menos longe.

Vamos otimizar ambos os parâmetros usando a validação cruzada.

Como referência para este exercício, pode utilizar estas ligações a partir da documentação:
- [SVM: Classification](https://scikit-learn.org/stable/modules/svm.html#classification)
- [skelarn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
- [RBF SVM parameters](https://scikit-learn.org/stable/auto_examples/svm/plot_rbf_parameters.html)
- [SVM: Maximum margin separating hyperplane](https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html)
- [Non-linear SVM](https://scikit-learn.org/stable/auto_examples/svm/plot_svm_nonlinear.html)

In [None]:
# TODO: Importar de todos os módulos necessários para esta célula

## Criar um dataset sintético de classificação binária

Criar um dataset para classificação de 2 classes com [sklearn.datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

Recordar utilizar parâmetros que podemos então modificar para o número de exemplos, características e classes, se queremosque não seja ordenado ou não, um estado inicial aleatório constante, etc;

In [None]:
# TODO: Criar um dataset sintético para classificação binária

## Pré-processar os dados

Pré-processar os dados:
- Reordená-los aleatoriamente. 
- Normalizar.
- Dividir em subsets de formação e test (usar CV por K-fold).

In [None]:
# TODO: Reordenar os dados aleatoriamente

In [None]:
# TODO: Normalizar os dados se necessário

In [None]:
# TODO: Dividi-los em subsets de formação, CV e testes.

## Formar um modelo de classificação por SVM inicial

Para comprovar o funcionamento do nosso classificador SVC antes de o otimizar por validação cruzada, vamos formar um modelo inicial sobre o subset de formação e validá-lo sobre o subset de teste

Recordar usar a função [decision_function_shape](https://scikit-learn.org/stable/modules/svm.html#multi-class-classification)  para usar o esquema “um contra o resto” (“ovr”). 

Usar os valores por defeito de *C* e *gamma* para não influir sobre a sua regularização:

In [None]:
# TODO: Formar um modelo de SVC sem modificar os parâmetros de regularização sobre o subset de formação

In [None]:
# TODO: Avaliar o modelo com o seu score () no subset de teste.

Uma forma muito gráfica para compreender melhor como funcionam as SVMs e de verificar a precisão do seu modelo é representar o híper-plano que agora separa as classes, cuja margem com as classes estamos a tentar maximizar.

Para o representar, recordar que pode seguir o exemplo da [SVM: Maximum margin separating hyperplane](https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html)  e modificar o seu código:

In [None]:
# TODO: Representar graficamente o hiper-plano de separação com a margem de classes

## Otimizar os hiper-parâmetros de regularização por validação cruzada

Agora vamos usar novamente o [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)  para otimizar os nossos hiper-parâmetros *C* e *gamma* por K-fold. 

Queremos otimizar esses parâmetros, 2 de cada vez, e representar os seus possíveis valores de uma forma visual.

Um exemplo muito interessante que referenciávamos é [RBF SVM parameters](https://scikit-learn.org/stable/auto_examples/svm/plot_rbf_parameters.html).

Modificar o seu código para otimizar o nosso modelo no nosso dataset sintéticos utilizando o K-fold para otimizar o *C* e o *gamma*. Pode usar o mesmo intervalo logarítmico de valores para estes hiper-parâmetros propostos no exercício ou modificá-los para encontrar um adequado para o seu dataset sintético.

*Nota*: Recordar que já processamos previamente o dataset seguindo os nossos métodos habituais.

In [None]:
# TODO: Otimizar os hiper-parâmetros de SVC

*Nota*: por vezes é uma boa ideia dividir o código em diferentes células, de modo a poder modificá-las e voltar a executá-las independentemente:

In [None]:
# TODO: Representar os efeitos dos parâmetros

## Avaliar o modelo finalmente sobre o subset de teste
- Mostrar os coeficientes e intercept do melhor modelo. 
- Avaliar o melhor modelo sobre o subset de teste inicial.
- Representar as previsões das classes para verificar os acertos, falhas e a margem entre classes no novo hiper-plano.

Para representar as previsões e o hiper-plano de margem entre classe, pode reutilizar o código com o qual avaliou o modelo inicial:

In [None]:
# TODO: Avaliar o melhor modelo sobre o subset de teste inicial

In [None]:
# TODO: Representar as previsões, comprovar a precisão e a margem entre classes