# Estudio de hiperparámetros con Optuna

El éxito de DBSCAN está fuertemente influenciado por la elección adecuada de sus hiperparámetros: epsilon (ε) y minPoints. Estos parámetros definen respectivamente la escala espacial de los clústeres y la densidad mínima requerida para formar un clúster. Una elección inapropiada puede resultar en un sobre o sub-agrupamiento significativo, afectando la utilidad de los resultados del clustering.


## Objetivos del Estudio

Este notebook tiene dos metas principales:

1. **Automatización en la Optimización de Hiperparámetros**: Se emplea Optuna para navegar a través del espacio de hiperparámetros de `epsilon` y `minPoints`. Nuestro propósito es afinar estos valores para optimizar directamente las métricas de rendimiento de clustering.

2. **Análisis de Hiperparámetros**: Se estudia cómo las variaciones en `epsilon` y `minPoints` impactan en una amplia gama de métricas de clustering. Nuestro análisis buscará proporcionar una comprensión detallada sobre cómo estos ajustes afectan la formación y la calidad de los clústeres.

## Metodología

 La optimización se centra en la maximización o minimización de métricas específicas que son críticas para la evaluación del agrupamiento:

1. **Definición del Espacio de Búsqueda**: Se establecen intervalos adecuados para `epsilon` y `minPoints`, fundamentados en el estudio de las k-distancias en el dataset.

2. **Selección de Métricas Objetivo**: 

| Métrica           | Descripción                                               |
|-------------------|-----------------------------------------------------------|
| DISTANCE          | Distancia promedio entre los puntos de cada clúster.       |
| ACTUALNCLUSTERS   | Número actual de clústeres identificados.                  |
| CLUSTEREDBAGS     | Bolsas de puntos agrupados.                                |
| UNCLUSTEREDBAGS   | Bolsas de puntos no agrupados.                             |
| RMSSTD            | Desviación estándar de la media cuadrática.                |
| SILHOUETTE        | Puntuación de silueta para evaluar la calidad del clúster. |
| XB                | Índice de Xie-Beni.                                        |
| DB                | Índice de Davies-Bouldin.                                  |
| SDBW              | Validación de densidad basada en densidad S_Dbw.           |
| DBCV              | Coeficiente de validación de clúster basado en densidad.    |
| CONFUSIONMATRIX   | Matriz de confusión para comparar clústeres con etiquetas.  |
| ENTROPY           | Entropía de los clústeres.                                 |
| PURITY            | Pureza de los clústeres.                                   |
| RAND              | Índice Rand ajustado.                                      |
| PRECISION         | Precisión de los clústeres identificados.                   |
| RECALL            | Recall de los clústeres identificados.                      |
| F1                | Puntuación F1 de los clústeres identificados.               |
| SPECIFICITY       | Especificidad de los clústeres identificados.               |
| TIME              | Tiempo de ejecución del algoritmo.                          |

De estas, deberemos elegir las más representativas para optimizar.

3. **Función Objetivo y Optimización Iterativa**: Implementaremos una función objetivo que ejecute DBSCAN con los hiperparámetros sugeridos y calcule las métricas de rendimiento, las objetivo y las secundarias. A través de iteraciones sucesivas, Optuna afinará los hiperparámetros en búsqueda del rendimiento óptimo.

4. **Análisis de Resultados**: Examinaremos los resultados utilizando las capacidades de visualización de Optuna, que incluyen gráficos y resúmenes tabulares para discernir el impacto real de los hiperparámetros sobre las métricas seleccionadas.



Cada iteración de Optuna activa una nueva ejecución de DBSCAN, pasando los hiperparámetros actuales a través de la CLI y capturando los resultados para un análisis en tiempo real.


In [14]:
import optuna
from optimization import Optimizer
import constants as c

K = 10 
OBJECTIVES = [c.F1,c.SILHOUETTE]
DIRECTIONS = [c.MAXIMIZE,c.MAXIMIZE]




opt= Optimizer(OBJECTIVES, DIRECTIONS, K)
study = opt.get_study(150)

[I 2023-12-13 09:08:30,889] A new study created in memory with name: no-name-98979882-49c5-4bf8-b0e4-a2072b6c0e71

The distribution is specified by [0.9855143973276451, 3.636152361934171] and step=0.1325318982303263, but the range is not divisible by `step`. It will be replaced by [0.9855143973276451, 3.503620463703845].

[I 2023-12-13 09:08:32,032] Trial 0 finished with values: [0.5263157894736842, 0.19915208888219763] and parameters: {'minPoints': 7, 'epsilon': 2.8409609725522134}. 
[I 2023-12-13 09:08:33,258] Trial 1 finished with values: [0.46153846153846156, 0.24077127598059103] and parameters: {'minPoints': 8, 'epsilon': 2.5758971760915608}. 
[I 2023-12-13 09:08:34,606] Trial 2 finished with values: [0.5121951219512195, 0.1443192456917618] and parameters: {'minPoints': 3, 'epsilon': 2.4433652778612345}. 
[I 2023-12-13 09:08:35,801] Trial 3 finished with values: [0.0, 0.4619769826028503] and parameters: {'minPoints': 10, 'epsilon': 2.178301481400582}. 
[I 2023-12-13 09:08:37,098] 

In [None]:
optuna.visualization.plot_optimization_history(study, target=lambda t: t.values[0])


`target` is specified, but `target_name` is the default value, 'Objective Value'.



In [None]:
# optuna.visualization.plot_parallel_coordinate(study)

In [15]:
objective_figures = opt.plot_slices(study, OBJECTIVES)

other_metrics = []
for metric_name in opt.other_metrics:
    fig = optuna.visualization.plot_slice(study, target=lambda t: t.user_attrs[metric_name], target_name=metric_name)
    other_metrics.append(fig)

for fig in objective_figures + other_metrics:
    fig.show()



[W 2023-12-13 09:15:50,675] Trial 19 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,675] Trial 74 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,677] Trial 116 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,703] Trial 19 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,703] Trial 74 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,704] Trial 116 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,735] Trial 2 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,735] Trial 3 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,736] Trial 5 is omitted in visualization because its objective value is inf or nan.
[W 2023-12-13 09:15:50,736] T

In [None]:
optuna.visualization.plot_param_importances(study)

In [22]:
optuna.visualization.plot_pareto_front(study, targets=lambda t: t.values)

In [1]:
study.best_params

NameError: name 'study' is not defined

In [None]:
opt.distance_metrics

{2: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 7: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 6: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 3: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 5: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 10: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 9: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 8: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171},
 4: {'min_distance': 1.809507047282117, 'max_distance': 3.636152361934171}}

In [None]:
opt.other_metrics

set()

dict_keys([])

92.0

In [None]:
opt.distance_metrics

{3: {'min_distance': 0.9855143973276451,
  'max_distance': 6.634757648606071,
  'actual_min': 0.8092784541046426,
  'actual_max': 6.839458489109429}}