(comp)=
# Comparación de algoritmos
El rendimiento de los algoritmos utilizados anteriormente no puede ser comparado directamente mediante las ditribuciones de las predicciones para cada variable. Como vimos en la sección anterior, un algoritmo puede parecer ajustar muy bien a los datos en una variable pero no en otra. Además, en general no es evidente cuál algoritmo obtiene una distribución más cercana a la real. Por esto, utilizamos las métricas explicadas en la {numref}`met` para comparar directamente el rendimiento de los algoritmos.

En esta sección se compararán los algoritmos utilizados en la sección anterior, agregando UCluster y GAN-AE. 

Usualmente, del conjunto R&D se obtendrían las métricas de rendimiento con el fin de configurar los modelos para que realicen la mejor clasificación posible. Sin embargo, en el caso de este trabajo, comparamos el rendimiento de los algoritmos al clasificar un subconjunto del conjunto utilizado para entrenamiento y al clasificar el conjunto BB1.

Los resultados presentados en esta sección se obtuvieron utilizando el pipeline de `benchtools`.

(comp-RnD)=
## Conjunto R&D
En la sección anterior, se mostraron las distribuciones predichas de algunas variables utilizando este conjunto con el objetivo de tener una idea general de cómo están clasificando los algoritmos. Las métricas que se mostrarán a continuación están asociadas a esta clasificación.

Es necesario acotar que la clasificación realizada por los algoritmos de las LHCO 2020 para el conjunto R&D no se realiza utilizando exactamente el mismo subconjunto de datos utilizado con los demás algoritmos. Aunque es el mismo conjunto de datos, la distribución de los subconjuntos de entrenamiento y prueba varían para los algoritmos de las olimpiadas de acuerdo al código publicado. Sin embargo, la proporción de datos es la misma para todos los métodos.
### Métricas numéricas
En la {numref}`comp-metricas-num-RnD` se observa una comparación visual de las métricas numéricas: exactitud balanceada, precisión, recuperación y puntaje f1.

In [1]:
from benchtools.src.plotools import image_grid

# Definimos el path de las imagenes
PATH_FIGURES = '../../figuras/'

In [2]:
lista_imagenes = ['../../figuras/comp-balancedacc-RnD.png','../../figuras/comp-precision-RnD.png',
                '../../figuras/comp-recall-RnD.png','../../figuras/comp-f1score-RnD.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-num-RnD', path=PATH_FIGURES, remove=False)

```{figure} ../../figuras/comp-metricas-num-RnD.png
---
width: 80%
name: comp-metricas-num-RnD
---
Diagramas de barras de las métricas numéricas obtenidas utilizando el pipeline de `benchtools` para el conjunto R&D. De izquierda a derecha, en la fila superior: exactitud balanceada y precisión. En la fila inferior: recuperación y puntaje f1.
```
Todos los modelos obtuvieron un puntaje de exactitud balanceada mayor a 70%, lo que se considera alto. Sin embargo, observamos que la precisión y la recuperación varía entre los clasificadores. 

Los calsificadores supervisados MLP, QDA, GB y RFC obtuvieron altos puntajes de precisión pero bajos puntajes de recuperación. Esto significa que los algoritmos clasifican pocos eventos como señal, pero estas clasificaciones son mayormente correctas. 

Por otra parte está el modelos de TensorFlow, que obtuvo un menor puntaje de precisión pero un muy alto puntaje de recuperación. Es decir, clasifica mas eventos como señal, clasificando eventos de fondo incorrectamente, pero logra clasificar la mayoría de los eventos de señal con la etiqueta correcta.

Los modelos no supervisados KMeans, UCluster y GAN-AE son los modelos con menor precisión pero mayor recuperación. Es decir, están etiquetando muchos eventos de fondo incorrectamente como señal, pero entre los eventos etiquetados como señal se encuentra la mayor parte de los eventos de señal real. 

La media armónica de estas dos métricas se observa en el gráfico del puntaje f1, donde en general los modelos supervisados obtuvieron puntajes más altos que los modelos no supervisados.

El mayor puntaje f1 fue obtenido por RFC, que también tiene el mayor puntaje de precisión. A su vez, el mayor puntaje de exactitud balanceada lo obtuvo el clasificador de TensorFlow, que también posee el mayor puntaje de recuperación.

Los menores puntajes fueron obtenidos por UCluster, con la menor precisión y menor puntaje f1, y por MLP, con el menor puntaje de exactitud balanceada y recuperación. 

Un resumen de los valores numéricos obtenidos se encuentra a continuación.

```{table} Métricas numéricas obtenidas con el pipeline de *benchtools* para el conjunto R&D.
:name: comp-metricasnumericas-RnD

| Classifier                    |   Balanced accuracy |   Precision |   F1 score |   Recall |
|:-----------------------------:|:-------------------:|:-----------:|:----------:|:--------:|
| TensorflowClassifier          |            0.9136   |   0.5136    |  0.6576    | 0.9136   |
| RandomForestClassifier        |            0.7993   |   0.8681    |  0.7151    | 0.6079   |
| GradientBoostingClassifier    |            0.7851   |   0.8249    |  0.6828    | 0.5825   |
| QuadraticDiscriminantAnalysis |            0.7991   |   0.7315    |  0.6717    | 0.6209   |
| MLPClassifier                 |            0.7658   |   0.6700    |  0.6095    | 0.5590   |
| KMeans                        |            0.7938   |   0.2528    |  0.3880    | 0.8342   |
| GAN-AE                        |            0.7950   |   0.3962    |  0.5391    | 0.8431   |
| UCluster                      |            0.8073   |   0.0310    |  0.0595    | 0.8921   |
```
### Métricas gráficas
Las métricas gráficas obtenidas con el pipeline de benchtools son la eficiencia de señal vs. rechazo de fondo, la ROC inversa, la curva precisión recuperación y la mejora significativa.

In [3]:
lista_imagenes = ['../../figuras/comp-rejection-RnD.png','../../figuras/comp-inverseroc-RnD.png',
                '../../figuras/comp-precisionrecall-RnD.png','../../figuras/comp-significance-RnD.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-graf-RnD', path=PATH_FIGURES, remove=False)

De acuerdo a todas las métricas gráficas, el clasificador de TensorFlow es el que tiene un mejor rendimiento, con un AUC de 0.972 y una precisión promedio de 0.847. Seguido de este, se encuentran RFC y GBC en todas las métricas.
```{figure} ../../figuras/comp-metricas-graf-RnD.png
---
width: 90%
name: comp-metricas-graf-RnD
---
Metricas gráficas para la clasificación del conjunto R&D. De izquierda derecha, en la fila superior: eficiencia de señal vs. rechazo de fondo, ROC inversa, y en la fila inferior: precisión-recuperación y significancia.
```
Del gráfico de eficiencia de señal vs. rechazo de fondo y del de ROC inversa, es difícil determinar cuál de los algoritmos da un mejor resultado entre QDA y MLP y entre GAN-AE y UCluster, debido a que las curvas se cruzan. Si hacemos referencias al AUC, QDA da un mejor resultado que MLP y GAN-AE da un mejor resultado que UCluster. Sin embargo la diferencia entre los puntajes es pequeña. De acuerdo a estas dos métricas, el clasificador con menor rendimiento es KMeans.

Si observamos la métrica de precisión-recuperación, y de acuerdo a la precisión promedio, QDA da un resultado mejor que MLP, y GAN-AE un mejor resultado que UCluster, lo que concuerda con las métricas anteriores. Sin embargo, de acuerdo a esta métrica KMeans tiene un mejor resultado que UCluster.

Por último, la mejora significativa parece mayor para QDA que para MLP. Entre UCluster y GAN-AE es más complicada la conclusión porque se cruzan múltiples veces. Sin embargo, UCluster parece alcanzar una mejora significativa mayor que la alcanzada por GAN-AE. KMeans posee la menor mejora significativa.

En el caso de este trabajo, es de interés conocer qué tan bien funcionan los modelos para separar señal y fondo en conjuntos de datos con algunas variaciones en las distribuciones, como lo es el conjunto BB1.

(comp-BB1)=
## Conjunto BB1
A diferencia de las predicciones realizadas con el cojunto R&D, las predicciones para el conjunto BB1 se hacen sobre todos los eventos, utilizando los modelos entrenados previamente con el 70% del conjunto R&D. Las métricas obtenidas en este apartado proveen una medida más cercana al verdadero rendimiento de los algoritmos para detectar anomalías.

### Métricas numéricas
En la {numref}`comp-metricas-num-BB1` vemos que las métricas varían con respecto a lo obtenido para el conjunto R&D. 

In [4]:
lista_imagenes = ['../../figuras/comp-balancedacc-BB1.png','../../figuras/comp-precision-BB1.png',
                '../../figuras/comp-recall-BB1.png','../../figuras/comp-f1score-BB1.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-num-BB1', path=PATH_FIGURES, remove=False)

```{figure} ../../figuras/comp-metricas-num-BB1.png
---
width: 100%
name: comp-metricas-num-BB1
---
Diagramas de barras de las métricas numéricas obtenidas utilizando el pipeline de `benchtools` para el conjunto BB1. De izquierda a derecha, en la fila superior: exactitud balanceada y precisión. En la fila inferior: recuperación y puntaje f1.
```
La exactitud balanceada sigue siendo alta para todos los algoritmos. Sin embargo, se observa una disminución más marcada en los clasificadores QDA, GBC y RFC.

La precisión disminuyó notablemente para todos los modelos. Para este conjunto, la mayor precisión fue lograda por GBC con un 4% de precisión, contrario a la precisión obtenida para el conjunto R&D, de 82%. Esto implica que los algoritmos clasifican más eventos de fondo incorrectamente, o menos eventos de señal correctamente, en el conjunto BB1.

La recuperación aumentó para el clasificador MLP. Para los clasificadores QDA, GBC, RFC disminuyó. para UCluster, GAN-AE, KMeas y el clasificador de TensorFlow, la recuperación se mantuvo cercana o sobre el 80%. La baja precisión y alta recuperación indica que los modelos están clasificando muchos eventos de fondo como señal. Sin embargo, en estos eventos clasificados como señal logran clasificar la señal real.

Debido a la baja precisión, el puntaje f1 se vio afectado y disminuyó notablemente para todos los clasificadores. El clasificador con mayor puntaje es GBC, con un puntaje f1 de 0.05, mientras que en el conjunto R&D obtuvo 0.68. 

```{table} Métricas numéricas obtenidas con el pipeline de *benchtools* para el conjunto BB1.
:name: comp-metricasnumericas-BB1

| Classifier                    |   Balanced accuracy |   Precision |    F1 score |   Recall |
|:-----------------------------:|:-------------------:|:-----------:|:-----------:|:--------:|
| TensorflowClassifier          |            0.8418   | 0.0049      | 0.0096      | 0.8249   |
| RandomForestClassifier        |            0.7005   | 0.0362      | 0.0666      | 0.4101   |
| GradientBoostingClassifier    |            0.7164   | 0.0367      | 0.0678      | 0.4424   |
| QuadraticDiscriminantAnalysis |            0.6894   | 0.0264      | 0.0495      | 0.3909   |
| MLPClassifier                 |            0.8143   | 0.0028      | 0.0055      | 0.9005   |
| KMeans                        |            0.8094   | 0.0039      | 0.0078      | 0.7854   |
| GAN-AE                        |            0.9091   | 0.0201      | 0.0393      | 0.8752   |
| UCluster                      |            0.8070   | 0.0002      | 0.0003      | 0.9767   |
```
### Métricas gráficas
Las métricas gráficas también varían con respecto a las obtenidas utilizando el conjunto R&D. 

In [5]:
lista_imagenes = ['../../figuras/comp-rejection-BB1.png','../../figuras/comp-inverseroc-BB1.png',
                '../../figuras/comp-precisionrecall-BB1.png','../../figuras/comp-significance-BB1.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-graf-BB1', path=PATH_FIGURES, remove=False)

```{figure} ../../figuras/comp-metricas-graf-BB1.png
---
width: 90%
name: comp-metricas-graf-BB1
---
Metricas gráficas obtenidas para el conjunto BB1. De izquierda derecha, en la fila superior: eficiencia de señal vs. rechazo de fondo, ROC inversa, y en la fila inferior: precisión-recuperación y significancia.
```
En todos los gráficos, UCluster y KMeans obtuvieron los menores puntajes. De acuerdo al gráfico de eficiencia de señal vs. rechazo de fondo, KMeans tiene un mayor AUC que UCluster. Sin embargo, no es evidente en el gráfico cuál tiene mejor rendimiento porque las líneas se cruzan múltiples veces. Esto también se observa en el gráfico de ROC inversa.

De la métrica de precisión recuperación, obtenemos una precisión media de cero para estos clasificadores. En el gráfico de significancia se observa que ambos se encuentran cercanos a un clasificador aleatorio.

Por otra parte, la diferencia entre los clasificadores supervisados no es evidente. De acuerdo al AUC, GBC tiene mejor rendimiento que el clasificador de TensorFlow, QDA, RFC y MLP, en este orden. Esto se observa un poco mejor en el gráfico de ROC inversa.

En el gráfico de precisión-recuperación, nuevamente se obtiene una mayor precisión promedio para GBC, seguido del clasificador de TensorFlow, RFC, MLP y QDA.

Por último, es evidente que GAN-AE tiene un mejor rendimiento en este conjunto de datos de acuerdo a todas las métricas gráficas.