(comp)=
# Comparación de algoritmos
El rendimiento de los algoritmos utilizados anteriormente no puede ser comparado directamente mediante la reconstrucción de las distribuciones de las variables. Como vimos en la sección anterior, un algoritmo puede parecer ajustar muy bien a los datos en una variable pero no en otra. Además, en general no es evidente cuál algoritmo obtiene una distribución más cercana a la real. Por esto, utilizamos las métricas explicadas en la {numref}`met` para comparar directamente el rendimiento de los algoritmos.

En esta sección se compararán los algoritmos utilizados en la sección anterior con UCluster y GAN-AE. El conjunto R&D se utilizó 70% para entrenamiento y 30% como conjunto de prueba. Con este conjunto de prueba se obtienen las métricas con el fin de configurar los modelos para que realicen la mejor clasificación posible. Sin embargo, en el caso de este trabajo, utilizamos el conjunto de prueba para comparar el rendimiento con los datos de entrenamiento con en el rendimiento al clasificar el conjunto BB1.

El conjunto BB1 se clasifica completamente, es decir, se utilizan los modelos entrenados con el conjunto R&D para clasificar el conjunto BB1. Esto con el fin de observar el rendimiento real que tendrían los algoritmos en la competencia.

Los resultados presentados en esta sección se obtuvieron utilizando el pipeline de `benchtools`.

(comp-RnD)=
## Conjunto R&D
En la sección anterior, se mostraron las distribuciones predichas de algunas variables para este conjunto, con el objetivo de tener una idea general de cómo están clasificando los algoritmos. Las métricas que se mostrarán a continuación están asociadas a esta clasificación.

Es necesario acotar que la clasificación realizada por los algoritmos de las LHCO 2020 para el conjunto R&D no se realiza utilizando exactamente el mismo subconjunto de datos utilizado con los demás algoritmos. Aunque es el mismo conjunto de datos, la distribución de los subconjuntos de entrenamiento y prueba varía para los algoritmos de las olimpiadas de acuerdo al código publicado. Sin embargo, la proporción de datos es la misma para todos los métodos.
### Métricas numéricas
En la {numref}`comp-metricas-num` se observa una comparación visual de las métricas numéricas: exactitud balanceada, precisión, recuperación y puntaje f1.

In [1]:
from benchtools.src.plotools import image_grid

# Definimos el path de las imagenes
PATH_FIGURES = '../../figuras/'

In [2]:
lista_imagenes = ['../../figuras/comp-balancedacc-RnD.png','../../figuras/comp-precision-RnD.png',
                '../../figuras/comp-recall-RnD.png','../../figuras/comp-f1score-RnD.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-num', path=PATH_FIGURES, remove=False)

```{figure} ../../figuras/comp-metricas-num.png
---
width: 80%
name: comp-metricas-num
---
Diagramas de barras de las métricas numéricas obtenidas utilizando el pipeline de `benchtools`. De izquierda a derecha, en la fila superior: exactitud balanceada y precisión. En la fila inferior: recuperación y puntaje f1.
```
Todos los modelos obtuvieron un puntaje de exactitud balanceada mayor a 70%, lo que se considera alto. Sin embargo, observamos que la precisión y la recuperación varía entre los clasificadores. 

Los calsificadores supervisados MLP, QDA, GB y RFC obtuvieron puntajes altos de precisión pero puntajes bajos de recuperación. Esto significa que los algoritmos clasifican pocos eventos como señal, pero estas clasificaciones son mayormente correctas. Por otra parte está el modelos de TensorFlow, que obtuvo un menor puntaje de precisión pero un muy alto puntaje de recuperación. Es decir, clasifica mas eventos como señal, clasificando eventos de fondo incorrectamente, pero logra clasificar la mayoría de los eventos de señal con la etiqueta correcta.

Los modelos no supervisados KMeans, UCluster y GAN-AE son los modelos con menor precisión pero mayor recuperación. Es decir, están etiquetando muchos eventos de fondo incorrectamente como señal, pero entre los eventos etiquetados como señal se encuentra la mayor parte de los eventos de señal. 

La media armónica de estas dos métricas se observa en el gráfico del puntaje f1, donde en general los modelos supervisados obtuvieron puntajes más altos que los modelos no supervisados.

El mayor puntaje f1 fue obtenido por RFC, que también tiene el mayor puntaje de precisión. Por otra parte, el mayor puntaje de exactitud balanceada lo obtuvo el clasificador de TensorFlow, que también posee el mayor puntaje de recuperación.

Los menores puntajes fueron obtenidos por UCluster, con la menor precisión y menor puntaje f1, y por MLP, con el menor puntaje de exactitud balanceada y recuperación. 

Un resumen de los valores numéricos obtenidos se encuentra a continuación.

```{table} Métricas numéricas obtenidas con el pipeline de *benchtools* para el conjunto R&D.
:name: comp-metricasnumericas

| Classifier                    |   Balanced accuracy |   Precision |   F1 score |   Recall |
|-------------------------------|---------------------|-------------|------------|----------|
| TensorflowClassifier          |            0.9136   |   0.5136    |  0.6576    | 0.9136   |
| RandomForestClassifier        |            0.7993   |   0.8681    |  0.7151    | 0.6079   |
| GradientBoostingClassifier    |            0.7851   |   0.8249    |  0.6828    | 0.5825   |
| QuadraticDiscriminantAnalysis |            0.7991   |   0.7315    |  0.6717    | 0.6209   |
| MLPClassifier                 |            0.7658   |   0.6700    |  0.6095    | 0.5590   |
| KMeans                        |            0.7938   |   0.2528    |  0.3880    | 0.8342   |
| GAN-AE                        |            0.7950   |   0.3962    |  0.5391    | 0.8431   |
| UCluster                      |            0.8073   |   0.0310    |  0.0595    | 0.8921   |
```
### Métricas gráficas


In [4]:
lista_imagenes = ['../../figuras/comp-rejection-RnD.png','../../figuras/comp-inverseroc-RnD.png',
                '../../figuras/comp-precisionrecall-RnD.png','../../figuras/comp-significance-RnD.png']
image_grid(rows=2, columns=2, images=lista_imagenes, name='comp-metricas-graf', path=PATH_FIGURES, remove=False)

```{figure} ../../figuras/comp-metricas-graf.png
---
width: 90%
name: comp-metricas-graf
---
Metricas gráficas. De izquierda derecha, en la fila superior: eficiencia de señal vs. rechazo de fondo, ROC inversa, y en la fila inferior: precisión-recuperación y significancia.
```