# Medidas de rendimiento de clustering

Cuando trabajamos con algoritmos de clustering, al igual que sucedía al trabajar en aprendizaje supervisado con los algoritmos de regresión y clasificación, es necesario ser capaces de cuantificar cómo de bueno resulta un modelo al realizar clustering sobre un conjunto de datos.

Definir una medida de calidad de clustering es un reto ya que todas las medidas de calidad de clasificación y regresión se basan en comparar los resultados obtenidos ($\hat{y}$) con las etiquetas reales ($y$). En clustering, al ser aprendizaje no supervisado, no existen las etiquetas reales ($y$) y, por tanto, no tenemos con qué comparar las predicciones ($\hat{y}$).

Para poder evaluar los algoritmos de clustering existen dos enfoques:

- Medidas de calidad **SIN _ground truth_**.
- Medidas de calidad **CON _ground truth_**.

El _ground truth_ hace referencia a un conjunto de datos **etiquetados** que se utilizan como conjunto de test. Es decir, el entrenamiento se realiza con datos no etiquetados, pero, para poder hacer la evaluación, se etiqueta un reducido conjunto de los datos que son usados como conjunto de test.

## Silhoutte Coefficient

El *Silhoutte Coefficient* es el máximo representante de las medidas de calidad de clustering sin *ground truth*. Esta medida de calidad representa la definición propia del concepto de clustering llevada a una ecuación: las muestras que se parezcan deben estar cerca y las que no alejadas.

Matemáticamente el *Silhoutte Coefficient* se define como:

$$
s = \frac{b-a}{max(a,b)}
$$

Donde $a$ es la distancia media entre una muestra y todos los puntos de este cluster y $b$ es la distancia media entre una muestra y todos los puntos del cluster más cercano diferente al suyo.

En `sklearn` se encuentra implementada en la función [`silhouette_score`](https://scikit-learn.org/stable/modules/clustering.html#silhouette-coefficient).

## ARI

El *Adjusted Rand Index* (ARI) es una medida de calidad que emplea el *ground truth* para evaluar si el proceso de clustering se ha llevado a cabo de forma correcta. Para su cálculo se apoya en el *Rand Index* (RI) que es definido como:

$$
RI = \frac{a+b}{a+b+c+d}
$$

Donde:

- $a$ es el número de muestras que pertenecen al mismo cluster tanto en la predicción del modelo como en el *ground truth*.
- $b$ es el número de muestras que pertenecen a diferente cluster tanto en la predicción del modelo como en el *ground truth*.
- $c$ es el número de muestras que pertenecen al mismo cluster en la predicción del modelo, pero a diferente cluster en el *ground truth*.
- $d$ es el número de muestras que pertenecen a diferente cluster en la predicción del modelo, pero al mismo cluster en el *ground truth*.

Es decir, se evalúan las agrupaciones acertadas respecto del total de agrupaciones.

El problema de RI es que no contempla las posibles permutaciones de las etiquetas asignadas a los clusters al no conocer el valor real de las mismas. ARI corrige este problema combinando todas las posibles permutaciones.

En `sklearn` se encuentra implementada en la función [`adjusted_rand_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html#sklearn.metrics.adjusted_rand_score).

---

Creado por **Fernando Ortega** (fernando.ortega@upm.es)

<img src="https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png">