# Detección de anomalías: Comparación con clasificación
M4U1 - Ejercicio 2

## ¿Qué vamos a hacer?
- Crear un dataset sintético para detección de anomalías con casos normales y anómalos
- Entrenar 2 modelos de forma semi-supervisada y de clasificación por SVM
- Evaluar ambos modelos y representar gráficamente sus resultados

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
Los métodos de detección de anomalías por la covarianza de la distribución gaussiana y la baja probabilidad de un evento (usado en el ejercicio anterior) y por clasificación son similares, especialmente clasificamos con un SVM de kernel gaussiano, ya que ambos tratan de modelizar una distribución gaussiana sobre los datos.

Sus principales diferencias se aprecian sólo en algunas circunstancias, p. ej.:
- La distribución de los ejemplos normales no es gaussiana/normal o tiene múltiples centroides que no hemos detectado de antemano.
- En un dataset de alta dimensionalidad, determinar la distribución normal de los datos es más difícil.
- La clasificación, al ser un método de aprendizaje supervisado, necesita un porcentaje de datos anómalos superior al del aprendizaje reforzado.

En este ejercicio vamos a combinar ambos métodos, que ya has resuelto en ejercicios anteriores, para analizar sus resultados y diferencias.

Sigue las siguientes instrucciones para resolver el mismo dataset por detección de anomalías con distribución gaussiana y por SVM con kernel gaussiano, copiando celdas de código de ejercicios anteriores cuando sea posible:

In [None]:
# TODO: Usa esta celda para importar todas las librerías necesarias

import time
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

## Creación del dataset original

Vamos a crear un dataset sintético siguiendo los mismos pasos que en el ejercicio de detección de anomalías anterior. Sin embargo, luego crearemos 2 conjuntos de datos diferentes, uno para deteccion de anomalías y otro para clasificación, cada uno con sus 3 subconjuntos de datos de entrenamiento, validación y test, ya que para la detección por covarianza de distribución gaussiana no asignábamos valores anómalos al subset de entrenamiento y para la clasificación por SVM sí lo necesitamos hacer.

Los pasos que vamos a dar son:
1. Crear un dataset de datos normales y otro de anómalos.
1. Preprocesarlos, normalizarlos y reordenarlos aleatoriamente.
1. Crear subsets de entrenamiento, validación y test para resolver por covarianza de distribución gaussiana, sin datos anómalos en el subset de entrenamiento.
1. Crear subsets de entrenamiento, validación y test para resolver por SVM con kernel gaussiano, con datos anómalos distribuidos en todos los subsets.
1. Representar gráficamente los datos de los 2 conjuntos de subsets.

Por tanto, completa las siguientes celdas de código, copiando tu código de ejercicios anteriores siempre que sea posible. Al final debes haber generado, normalizado, dividido y reordenado los ndarray *X_cdg_train, X_cdg_val, X_cdg_test, X_svm_train, X_svm_val, X_svm_test* y sus *Y* correspondientes.

In [None]:
# TODO: Genera dos datasets sintéticos independientes con datos normales y anómalos

m = 1000
n = 2
ratio_anomalos = 0.25    # Porcentaje de datos anómalos vs datos normales, modificable

[...]

In [None]:
# TODO: Normaliza los datos de ambos datasets con los mismos parámetros de normalización

In [None]:
# TODO: Reordena aleatoriamente los 2 datasets

In [None]:
# TODO: Divide el 1er dataset en subsets de entrenamiento, validación y test para covarianza de dist. gaussiana, con datos anómalos sólo en validación y test

In [None]:
# TODO: Divide el 2º dataset en subsets de entrenamiento, validación y test para clasificación por SVM de kernel gaussiano, con datos anómalos distribuidos en todos los subsets

In [None]:
# TODO: Para ambos casos, representa los 3 subsets en una gráfica 2D indicando los datos normales y anómalos

## Resolución por deteccion de anomalías por covarianza de la distribución normal

Para resolver el dataset por covarianza de la distribución normal, sigue los pasos del ejercicio anterior, copiando el código de las celdas correspondientes y usando los subsets adecuados:

In [None]:
# TODO: Modeliza la distribución gaussiana

In [None]:
# TODO: Determina el umbral de probabilidad para detectar casos anómalos

In [None]:
# TODO: Evalúa la precisión final del modelo con su F1-score

## Resolución por clasificación por SVM

Del mismo modo, sigue los pasos de los ejercicios sobre SVM anteriores para clasificar los datos en normales y anómalos por SVM, copiando el código de las celdas correspondientes y usando los subsets adecuados.

Utiliza un kernel RBF con el método de Scikit-learn [OneClassSVM](https://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html) y *ratio_anomalos* como parámetro *nu*. Para regularizar el modelo, optimiza *gamma* con [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html):

In [None]:
# TODO: Entrena un modelo de OneClassSVM y optimiza gamma en el subset de validación

In [None]:
# TODO: Evalúa la precisión final del modelo con su F1-score

## Comparación de los resultados de ambos métodos

Ahora compara ambos métodos, mostrando su F1-score y representando gráficamente sus resultados:

In [None]:
# TODO: Muestra los resultados de la F1-score de ambos modelos

print('F1-score de la covarianza de la distribución gaussiana:')
print()
print('F1-score de la clasificación por SVM:')
print()

Representa los resultados de ambos modelos en sus subsets de test:

In [None]:
# TODO: Representa errores y aciertos junto a la distribución y la línea de contorno del umbral de corte de epsilon
# para la covarianza de la distribución gaussiana

# Asigna z = 1. para acierto y z = 0. para fallo
# Acierto: Y_test == Y_test_pred
z_cdg = [...]

# Representa la gráfica 2D
# Utiliza colores diferentes para aciertos y fallos
[...]

plt.show()

In [None]:
# TODO: Representa errores y aciertos junto a la distribución y la frontera entre clases
# para la clasificación por SVM

# Asigna z = 1. para acierto y z = 0. para fallo
# Acierto: Y_test == Y_test_pred
z_svm = [...]

# Representa la gráfica
# Utiliza colores diferentes para aciertos y fallos
[...]

plt.show()

*¿Qué conclusiones puedes sacar? ¿Qué diferencias hay entre ambos métodos?*