# Evaluación de Métricas de Clustering

Para determinar la calidad del agrupamiento de K-Means, no basta con la inercia (la suma de las distancias cuadradas). Se utilizan métricas de validación de clustering que evalúan la cohesión (qué tan cerca están los puntos dentro de un cluster) y la separación (qué tan lejos están los clusters entre sí). En nuestro proyecto, usamos dos de estas métricas: el Coeficiente de Silueta y el Índice de Davies-Bouldin.

## **Coeficiente de Silueta**

El Coeficiente de Silueta mide la calidad de un punto de datos dentro de un cluster. Un valor alto indica que el objeto está bien emparejado con su propio cluster y mal emparejado con clusters vecinos.

La fórmula para el coeficiente de silueta de un punto de datos $i$ es:

$$
S(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}
$$

Donde:
* $a(i)$: Es la distancia promedio del punto $i$ a todos los demás puntos en el **mismo cluster**. Representa la **cohesión** del punto.
* $b(i)$: Es la distancia promedio del punto $i$ a todos los puntos en el **cluster vecino más cercano**. Representa la **separación** del punto.

**Interpretación de la puntuación:**
* **$S(i) \approx 1$**: El punto está muy bien agrupado y lejos de otros clusters. Esto es lo ideal.
* **$S(i) \approx 0$**: El punto se encuentra en la frontera entre dos clusters, por lo que podría pertenecer a cualquiera de ellos.
* **$S(i) \approx -1$**: El punto está en el cluster incorrecto.

En nuestro proyecto, calculamos el **promedio de los Coeficientes de Silueta de todos los puntos**. Un valor promedio alto (cercano a 1) indica que los clusters están bien definidos y separados.

## **Índice de Davies-Bouldin**

El Índice de Davies-Bouldin es una métrica que evalúa la calidad del clustering basándose en la relación entre la dispersión dentro del cluster y la distancia entre los clusters. Un valor bajo indica un buen clustering.

La fórmula se basa en la idea de calcular una medida de "similitud" para cada par de clusters. Para un par de clusters $i$ y $j$, la similitud $R_{ij}$ se define como:

$$
R_{ij} = \frac{s_i + s_j}{d_{ij}}
$$

Donde:
* $s_i$: Es la dispersión del cluster $i$, calculada como la distancia promedio de cada punto a su centroide.
* $d_{ij}$: Es la distancia entre los centroides de los clusters $i$ y $j$.

El Índice de Davies-Bouldin es el promedio de la "similitud" más alta para cada cluster:

$$
\text{DB} = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} R_{ij}
$$

**Interpretación de la puntuación:**
* **DB bajo (idealmente cercano a 0)**: Significa que los clusters son compactos (baja dispersión $s_i$) y están muy separados entre sí (alta distancia $d_{ij}$).
* **DB alto**: Indica que los clusters están solapados, son muy dispersos o no están bien separados.

En el proyecto, buscamos **minimizar** este valor, ya que un valor bajo confirma que la elección de 3 clusters es apropiada para la estructura de nuestros datos.

**Uso en el proyecto**

Ambas métricas se utilizaron para validar nuestra elección de 3 clusters. El Coeficiente de Silueta nos dio una medida de qué tan bien definidos estaban nuestros clusters, mientras que el Índice de Davies-Bouldin nos ayudó a confirmar que los clusters no se solapaban y eran compactos. 

Esto nos llevo a considerar que es un buen modelo de clustering porque:

* Coeficiente de Silueta (0.4658): Este valor es positivo y se acerca a 0.5. Como se explica en el documento, un valor positivo y relativamente alto (cercano a 1) indica que los clusters están bien separados y que los puntos de datos son compactos dentro de sus respectivos grupos. Un valor de 0.4658 es un resultado sólido que muestra una buena definición de los clusters.

* Índice de Davies-Bouldin (0.8072): Este valor es bajo y, lo más importante, es menor que 1. Un valor bajo (idealmente cercano a 0) es el objetivo para esta métrica. Indica que la dispersión dentro de cada cluster es baja y que la distancia entre los centroides de los clusters es alta. En otras palabras, los clusters son compactos y están bien separados entre sí.
