# Silhouette Score

El **Silhouette Score** es una métrica utilizada para calcular la bondad de un clúster (grupo) en un conjunto de datos. Esta métrica proporciona información sobre qué tan bien están separados los clústeres. Un Silhouette Score alto indica que los clústeres están bien definidos y están separados unos de otros, mientras que un puntaje bajo indica que los clústeres pueden superponerse.

El Silhouette Score se calcula para cada punto de datos en función de la distancia media al resto de puntos en el mismo clúster (a) y la distancia media al punto más cercano en un clúster diferente (b). La fórmula para calcular el Silhouette Score de un punto \( i \) es:

$$ \text{Silhouette Score}(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}$$

Donde:
- \( a(i) \) es la distancia promedio de \( i \) a los puntos en el mismo clúster.
- \( b(i) \) es la distancia promedio de \( i \) a los puntos en el clúster más cercano al que \( i \) no pertenece.

El Silhouette Score global para el conjunto de datos es el promedio del Silhouette Score de cada punto. El valor del Silhouette Score varía entre -1 y 1. Un valor cercano a 1 indica que el clúster está bien definido, mientras que un valor cercano a -1 indica que el punto está mal asignado y probablemente debería estar en otro clúster. Un valor cercano a 0 indica que el punto está en o muy cerca del límite entre dos clústeres.

El Silhouette Score es útil para determinar el número óptimo de clústeres en un algoritmo de clustering, como K-Means. Al probar diferentes valores de \( k \) (el número de clústeres) y calcular el Silhouette Score para cada \( k \), puedes identificar el número de clústeres que proporciona la mejor separación entre los clústeres.

En resumen, el Silhouette Score es una métrica importante para evaluar la calidad de los clústeres en un conjunto de datos y ayuda a los analistas de datos a tomar decisiones informadas sobre la estructura del clúster en un problema de clustering.

## Ejemplo

In [1]:
# Importa las bibliotecas necesarias
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

In [2]:
# Crea un DataFrame de ejemplo
data = {
    'Feature1': [1, 2, 3, 4, 5, 11, 12, 13, 14, 15],
    'Feature2': [5, 4, 3, 2, 1, 15, 14, 13, 12, 11]
}

df = pd.DataFrame(data)

In [3]:
# Estandariza los datos (opcional, pero se recomienda para K-Means)
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

In [4]:
# Calcula el Silhouette Score para diferentes valores de k (número de clústeres)

# Probamos con 2, 3, 4 y 5 clústeres
for k in range(2, 6):  
    kmeans = KMeans(n_clusters=k, random_state=42, n_init = 10)
    cluster_labels = kmeans.fit_predict(scaled_data)
    silhouette_avg = silhouette_score(scaled_data, cluster_labels)
    print(f"Silhouette Score para {k} clústeres: {silhouette_avg:.2f}")

Silhouette Score para 2 clústeres: 0.80
Silhouette Score para 3 clústeres: 0.63
Silhouette Score para 4 clústeres: 0.47
Silhouette Score para 5 clústeres: 0.36
