# <img src="uni-logo.png" alt="Logo UNI" width=150 hight=300 align="right">


<br><br><br>
<h1><font color="#7F000E" size=4>Minería de Datos (CC442)</font></h1>



<h1><font color="#7F000E" size=6>Silhouette Score</font></h1>

<br>
<div style="text-align: right">
<font color="#7F000E" size=3>Yuri Coicca, M.Sc.</font><br>
<font color="#7F000E" size=3>Facultad de Ciencias</font><br>
<font color="#7F000E" size=3>Ciencia de la Computación - UNI</font><br>
</div>

La **Métrica de Silueta** (Silhouette Score) es una de las herramientas más importantes para evaluar la calidad de un clustering. A diferencia de otras métricas, no necesita "la respuesta correcta" (etiquetas), sino que mide qué tan bien separados están los grupos y qué tan compactos son internamente.

Aquí te explico a detalle cómo funciona, cómo se calcula y cómo interpretar sus resultados.

---

### 1. El Concepto Fundamental
La silueta mide dos cosas para cada punto de los datos:
1.  **Cohesión:** ¿Qué tan cerca está el punto de sus compañeros de grupo?
2.  **Separación:** ¿Qué tan lejos está el punto de los puntos del grupo más cercano?

El valor resultante oscila entre **-1 y +1**.

---

### 2. El Cálculo (Paso a paso)
Para cada dato individual ($i$), calculamos dos valores:

*   **$a(i)$ (Distancia intra-cluster):** Es el promedio de la distancia entre el punto $i$ y todos los demás puntos que están en su mismo clúster. Queremos que este valor sea **pequeño** (indica que el grupo es compacto).
*   **$b(i)$ (Distancia inter-cluster):** Es el promedio de la distancia entre el punto $i$ y los puntos del clúster más cercano (el clúster vecino al que $i$ no pertenece). Queremos que este valor sea **grande** (indica que el punto no se confunde con otro grupo).

#### La fórmula:
$$s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}$$

---

### 3. Interpretación de los Valores

*   **Cercano a +1:** El punto está muy bien ubicado en su clúster y lejos de los demás. El clustering es exitoso.
*   **Cercano a 0:** El punto está en la frontera entre dos clústeres. Hay solapamiento y el algoritmo no está seguro de a dónde pertenece.
*   **Cercano a -1:** El punto está probablemente en el clúster equivocado, ya que está más cerca del grupo vecino que del suyo propio.

**Coeficiente de Silueta Global:** Es el promedio de la silueta de todos los puntos del dataset. Es un solo número que resume qué tan bueno es el agrupamiento general.

---

### 4. ¿Para qué sirve? (Uso práctico)

La métrica de silueta tiene dos usos principales:

1.  **Encontrar el número óptimo de clústeres ($K$):**
    Si no sabes si tus datos deben dividirse en 2, 3 o 5 grupos, calculas la silueta para cada $K$. El $K$ que te dé la silueta promedio más alta suele ser la mejor elección.
2.  **Validar la consistencia de los grupos:**
    Permite ver si un clúster específico es muy débil (puntos con silueta baja) o muy sólido.

---

### 5. Visualización: El Diagrama de Silueta
No solo se usa el promedio; se suele graficar una "silueta" por cada clúster.
*   **Grosor de la silueta:** Indica cuántos puntos tiene el clúster.
*   **Largo de la silueta (hacia el 1):** Indica la calidad de los puntos en ese clúster.
*   **Línea roja discontinua:** Suele marcar el promedio global. Si un clúster no llega a esa línea, se considera un clúster de baja calidad.

---

### 6. Ejemplo en Python (Scikit-Learn)

Aquí tienes cómo calcularlo rápidamente:

```python
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 1. Crear datos
X, _ = make_blobs(n_samples=500, centers=3, random_state=42)

# 2. Aplicar un algoritmo (ej. K-Means con K=3)
kmeans = KMeans(n_clusters=3, n_init=10)
labels = kmeans.fit_predict(X)

# 3. Calcular la métrica
score = silhouette_score(X, labels)

print(f"El coeficiente de silueta promedio es: {score:.3f}")
```

---

### 7. Ventajas y Desventajas

**Ventajas:**
*   No requiere etiquetas reales (es puramente no supervisado).
*   Es fácil de interpretar (escala fija de -1 a 1).
*   Funciona bien para comparar diferentes algoritmos de clustering sobre el mismo dataset.

**Desventajas:**
*   **Costo computacional:** Para datasets muy grandes (millones de filas), es lento porque debe calcular distancias entre todos los puntos ($O(n^2)$).
*   **Formas de los clústeres:** Al igual que K-Means, la silueta funciona mejor con clústeres esféricos o convexos. Si usas DBSCAN en datos con formas de "luna", la silueta puede dar valores bajos aunque el clustering sea correcto para el ojo humano.