# Detección de anomalías: Comparación con clasificación

## ¿Qué vamos a hacer?

- Crear un dataset sintético para detección de anomalías con casos normales y anómalos.
- Comparar la resolución del dataset con los métodos de detección de anomalías por baja probabilidad y clasificación por SVM.
- Evaluar ambos métodos y representar gráficamente sus resultados.

Los métodos de detección de anomalías por la covarianza de la distribución gaussiana y la baja probabilidad de un evento (el método que hemos usado en el ejercicio anterior) y por clasificación son bastante similares, especialmente si la clasificación la hacemos con el SVM de kernel gaussiano, ya que ambos tratan de modelizar la misma distribución gaussiana sobre los datos.

Sus principales diferencias se aprecian sólo en algunas circunstancias, como p. ej.:
- La distribución de los ejemplos normales no es gaussiana/normal, o tiene múltiples centroides que no hemos detectado de antemano por agrupación, p. ej., y la clasificación no la hacemos por SVM gaussiano.
- En dataset de un número alto de dimensiones, mantener la distribución normal de los datos es más difícil.
- La clasificación, al ser un método de aprendizaje supervisado, puede necesitar un porcentaje de datos anómalos superior al del aprendizaje reforzado.

En este ejercicio vamos a combinar ambos métodos, que ya has resuelto en ejercicios anteriores, para analizar sus resultados y diferencias.

Sigue las siguientes instrucciones para resolver el mismo dataset por covarianza de la distribución gaussiana y por SVM con kernel gaussiano, copiando las celdas de código de ejercicios anteriores siempre que sea posible:

In [None]:
# TODO: Usa esta celda para importar todas las librerías necesarias

import time
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

## Creación del dataset original

Vamos a crear un dataset sintético siguiendo los mismos pasos que en el ejercicio de detección de anomalías anterior. Sin embargo, luego crearemos 2 conjuntos de 3 subconjuntos de datos de entrenamiento, validación y test diferentes, ya que para la detección por covarianza de la distribución gaussiana no asignábamos valores anómalos al subset de entrenamiento y para la clasificación por SVM sí lo necesitamos hacer.

Los pasos que vamos a dar pues serán:
1. Crear un dataset de datos normales y otro de datos anómalos.
1. Normalizar dichos datos.
1. Crear un conjunto de subsets de entrenamiento, validación y test para resolver por covarianza de distribución gaussiana, sin datos anómalos en el subset de entrenamiento.
1. Crear un conjunto de subsets de entrenamiento, validación y test para resolver por SVM con kernel gaussiano, con datos anómalos en todos los subsets.
1. Reordenar los datos aleatoriamente de los 2 conjuntos de subsets.
1. Representar gráficamente los datos de los 2 conjuntos de subsets.

Por tanto, completa las siguientes celdas de código, copiando tu código de ejercicios anteriores siempre que sea posible. Al final debes haber generado, normalizado, dividido y reordenado las matrices *X_cdg_train, X_cdg_cv, X_cdg_test, X_svm_train, X_svm_cv, X_svm_test* y sus *Y* correspondientes.

In [None]:
# TODO: Genera dos datasets sintéticos independientes con datos normales y anómalos

m = 500
n = 2
ratio_anomalos = 0.25    # Porcentaje de datos anómalos vs datos normales, modificable

[...]

In [None]:
# TODO: Normaliza los datos de ambos datasets con los mismos parámetros de normalización

In [None]:
# TODO: Divide los datasets en los subsets de entrenamiento, validación y test para covarianza de dist. gaussiana

In [None]:
# TODO: Divide los datasets en los subsets de entrenamiento, validación y test para clasificación por SVM

In [None]:
# TODO: Reordena aleatoriamente los 2 conjuntos de subsets de entrenamiento, validación y test individualmente

In [None]:
# TODO: Representa los 3 subsets en una gráfica 2D para covarianza de distribución gaussiana y clasificación por SVM

## Resolución por deteccion de anomalías por covarianza de la distribución normal

Para resolver el dataset por covarianza de la distribución normal, sigue los pasos del ejercicio anterior, copiando las celdas correspondientes en las siguientes celdas, y teniendo cuidado de utilizar los subsets adecuados:

In [None]:
# TODO: Modeliza la distribución gaussiana y obtén mu y Sigma

In [None]:
# TODO: Evalúa múltiples valores de epsilon y halla el más óptimo para clasificar datos como normales o anómalos

In [None]:
# TODO: Calcula la F1-score del modelo sobre el subset de test

## Resolución por clasificación por SVM

Del mismo modo, sigue los pasos del ejercicio sobre SVM anterior para clasificar los datos en normales y anómalos por SVM, copiando las celdas correspondientes en las siguientes celdas siempre que sea posible, y teniendo cuidado de utilizar los subsets adecuados.

Utiliza un kernel RBF con la función de Scikit-learn [OneClassSVM](https://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html) y *ratio_anomalos* como parámetro *nu*. Para regularizar el modelo, optimiza *gamma* con [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html):

In [None]:
# TODO: Entrena un modelo de OneClassSVM y optimiza gamma en el subset de validación

In [None]:
# TODO: Calcula la F1-score del modelo sobre el subset de test

## Comparación de los resultados de ambos métodos

Ahora compara ambos métodos, mostrando su F1-score y representando gráficamente sus resultados:

In [None]:
# TODO: Muestra los resultados de la F1-score de ambos modelos

print('F1-score de la covarianza de la distribución gaussiana:')
print()
print('F1-score de la clasificación por SVM:')
print()

Representa los resultados de ambos modelos. Como los subsets de test son diferentes en ambos casos, en esta ocasión calcula los errores y aciertos sobre los datos de los 3 subsets:

In [None]:
# TODO: Representa errores y aciertos junto a la distribución y el corte de epsilon
# para la covarianza de la distribución gaussiana

# Asigna z = 1. para acierto y z = 0. para fallo
# Acierto: Y_test == Y_test_pred
z_cdg = [...]

# Representa la gráfica
# Utiliza colores diferentes para los datos que ha acertado y los que ha fallado
[...]

plt.show()

In [None]:
# TODO: Representa errores y aciertos en el subset de test junto a la distribución y el corte de epsilon
# para la clasificación por SVM

# Asigna z = 1. para acierto y z = 0. para fallo
# Acierto: Y_test == Y_test_pred
z_svm = [...]

# Representa la gráfica
# Utiliza colores diferentes para los datos que ha acertado y los que ha fallado
[...]

plt.show()

*¿Qué conclusiones puedes sacar? ¿Qué diferencias hay entre ambos métodos?*

*BONUS: ¿Se te ocurre cómo modificar los datsets iniciales buscando que ambos métodos obtengan resultados diferentes?*