# SVM: Kernel RBF
M2U5 - Ejercicio 11

## ¿Qué vamos a hacer?
- Generar un dataset sintético de 2 clases (binario)
- Preprocesar el dataset
- Entrenar un modelo de clasificación por SVM sobre el mismo
- Comprobar su idoneidad
- Optimizar los hiper-parámetros de nuestro modelo por validación
- Evaluar nuestro modelo

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
Del mismo modo que habíamos hecho para la clasificación por regresión logística usando Scikit-learn, ahora vamos a usarlo para resolver problemas de clasificación por SVM.

En concreto, vamos a usar su clasificador SVC con el kernel RBF ("Radial Basis Function"). El modelo SVC de Scikit-learn tiene varios kernels disponibles, y el kernel gaussiano en concreto no está entre ellos. Sin embargo, el kernel RBF está muy relacionado con él puesto que también parte de una clasificación "radial", y en proyectos reales puede ser más eficiente y tener más rendimiento que el gaussiano.

Por ello, en lugar del kernel gaussiano usaremos el RBF.

Este kernel de SVM tiene 2 parámetros:
- *C*: La inversa del parámetro de regularización. Para valores mayores de *C*, se aceptará un margen entre clases menor si la función de decisión clasifica mejor los ejemplos de entrenamiento. Valores menores de *C* intentarán incrementar el margen entre clases, con una función de decisión más simple por lo tanto, con la posible desventaja de una menor precisión.
- *Gamma*: Define lo lejos que llega la influencia de cada ejemplo, o la inversa del radio de influencia de los ejemplos seleccionados por el modelo como "landmarks". Valores menores significarán una influencia con mayor alcance y valores mayores una influencia mucho más cercana.

Vamos a optimizar ambos parámetros usando validación cruzada.

Como referencia para este ejercicio puedes usar estos enlaces de la documentación:
- [SVM: Classification](https://scikit-learn.org/stable/modules/svm.html#classification)
- [skelarn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
- [RBF SVM parameters](https://scikit-learn.org/stable/auto_examples/svm/plot_rbf_parameters.html)
- [SVM: Maximum margin separating hyperplane](https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html)
- [Non-linear SVM](https://scikit-learn.org/stable/auto_examples/svm/plot_svm_nonlinear.html)

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

## Crear un dataset sintético de clasificación binaria

Crea un dataset para clasificación de 2 clases con [sklearn.datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

Recuerda usar parámetros que luego podamos modificar como el nº de ejemplos, características y clases, si queremos que esté desordenado o no, un estado aleatorio inicial constante, nº de clústeres, etc.:

In [None]:
# TODO: Crea un dataset sintético para clasificación binaria

## Preprocesar los datos

Preprocesa los datos:
- Reordénalos aleatoriamente.
- Normalízalos.
- Divídelos en subsets de entrenamiento y test (usaremos CV por K-fold).

In [None]:
# TODO: Reordena los datos aleatoriamente

In [None]:
# TODO: Normaliza los datos si es necesario

In [None]:
# TODO: Divídelos en subsets de entrenamiento, CV y test

## Entrena un modelo de clasificación por SVM inicial

Para comprobar el funcionamiento de nuestro clasificador SVC antes de optimizarlo por validación cruzada, vamos a entrenar un modelo inicial sobre el subset de entrenamiento y validarlo sobre el subset de test.

Recuerda usar la función [decision_function_shape](https://scikit-learn.org/stable/modules/svm.html#multi-class-classification) para usar el esquema "uno contra el resto" (OVR).

Usa los valores por defecto de *C* y *gamma* para no influir sobre su regularización:

In [None]:
# TODO: Entrena un modelo de SVC sin modificar los parámetros de regularización sobre el subset de entrenamiento

In [None]:
# TODO: Evalúa el modelo con su model.score() sobre el subset de test

Una forma muy gráfica de comprender mejor cómo trabajan los SVM y comprobar la precisión de tu modelo es representar el hiper-plano que ahora separa las clases, cuyo margen con las clases intentamos maximizar.

Para representarlo, recuerda que puedes seguir el ejemplo de [SVM: Maximum margin separating hyperplane](https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html) y modificar su código:

In [None]:
# TODO: Representa gráficamente el hiper-plano de separación con el margen de clases

## Optimizar los hiper-parámetros de regularización por validación cruzada

Ahora vamos a usar de nuevo [sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) para optimizar nuestros hiper-parámetros *C* y *gamma* por K-fold a la vez en esta ocasión, y representar sus posibles valores de forma visual.

Un ejemplo para ello muy interesante como hemos refernciado es [RBF SVM parameters](https://scikit-learn.org/stable/auto_examples/svm/plot_rbf_parameters.html).

Modifica su código para optimizar nuestro modelo sobre nuestro dataset sintético usando K-fold para optimizar *C* y *gamma*. Puedes usar el mismo rango logarítmico de valores para estos hiper-parámetros o adecuarlo a este dataset.

*Nota*: Recuerda que hemos preprocesado el dataset previamente siguiendo nuestros métodos habituales.

In [None]:
# TODO: Optimiza los hiper-parámetros de SVC

*Nota*: A veces es una buena idea dividir el código en celdas diferentes para poder modificarlas y reejecutarlas independientemente, especialmente cuando lleve tiempo su ejecución:

In [None]:
# TODO: Representa los efectos de los parámetros

## Evaluar el modelo finalmente sobre el subset de test
- Muestra los coeficientes e intercept del mejor modelo.
- Evalúa el mejor modelo sobre el subset de test inicial.
- Representa las predicciones de las clases para comprobar los aciertos, fallos y el margen entre clases en el nuevo hiper-plano.

Para representar las predicciones y el hiper-plano de margen entre clases, puedes volver a usar el código con el que evaluaste el modelo inicial:

In [None]:
# TODO: Evalúa el mejor modelo sobre el subset de test inicial

In [None]:
# TODO: Representa las predicciones, comprueba la precisión y el margen entre clases