# Análisis de conglomerados (Cluster analysis)


El análisis de conglomerados es una técnica exploratoria que permite identificar grupos homogéneos (conglomerados o “clusters”) en un conjunto de elementos heterogéneos (individuos u objetos). Existen varias técnicas en el análisis de conglomerados, entre las más comunes están el método jerárquico y k-medias.  Esta técnica se utiliza con frecuencia para la segmentación de mercados.

## Práctica 1: Método jerárquico
Aplicaremos el método jerárquico a un conjunto de datos. Hay dos paquetes muy utilizados: scikitlearn y scipy, por su facilidad, utilizaremos el segundo.

In [None]:
# Con Windows para K-means, limitar el uso de núcleos del procesador
#import os
#os.environ["OMP_NUM_THREADS"] = "1"

# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import dendrogram, linkage

Carga el archivo de ejemplo `cerveza.xlsx`

In [None]:
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/data/cerveza.xlsx')

En este ejemplo no es necesario pero es conveniente realizar un análisis exploratorio y evaluar la presencia de datos nulos, datos perdidos, datos atípicos y datos repetidos.

In [None]:
df.head()

**Selección de variables**: En el análisis de conglomerados, primeramente, se debe decidir qué variables se utilizarán. Es recomendable no utilizar demasiadas variables debido a que se incrementa la complejidad en la identificación de los grupos. Es recomendable además que no estén altamente correlacionadas (p. ej. un coeficiente de correlación mayor a 0.90). En caso de que se tengan muchas variables correlacionadas entre sí, se puede realizar previamente un análisis factorial y utilizar los puntajes factoriales para el análisis de conglomerados.

In [None]:
var_cuant = ['Calorias', 'Alcohol', 'Contenido', 'Costo100ml']
matriz_corr = df[var_cuant].corr()
matriz_corr

Para este ejemplo, debido a que la variable “Calorías” y “Porcentaje de alcohol” tienen un coeficiente de correlación de 0.909, de ambas se utilizará solamente “Calorías”. Adicionalmente se considerará la variable de “Costo100ml”. 

In [None]:
X = df[['Calorias', 'Costo100ml']]

**Estandarizar variables**: Es importante que las variables puedan ser comparables, por lo tanto, se recomienda estandarizar las variables. *StandarScaler* transforma la variable a una distribución con media cero y desviación estándar igual a uno.

In [None]:
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

**Seleccionar método**. Aplicaremos la función *linkage** de la biblioteca *scipy*. Se pueden definir varios parámetros, es decir, valores que controlan el comportamiento del algoritmo:
1. *metric*: entre las principales medidas están
    - *euclidean*: es la predeterminada y la más común. Corresponde a la raíz cuadrada de la suma de las diferencias al cuadrado de los valores de las variables.
    - *cityblock*: Utiliza la suma de los valores absolutos de las diferencias de los valores de las variables.

2. *linkage*: es el método que se utilizará para determinar la similitud entre pares de objetos. Entre otros están:
    - *ward*: fusiona aquellos dos grupos que menos incrementen la suma de los cuadrados de las desviaciones.
    - *average*: es el promedio de las distancias entre todos los pares de ambos grupos
    - *complete*: utiliza las distancias máximas entre cualquier par de elementos en dos grupos
    - *single*: utiliza la distancia entre las observaciones más cercanas entre cualquier par de elementos en dos grupos.
  
Si se desea obtener conglomerados (*clusters*) de tamaños similares y no existen valores atípicos, se recomienda utilizar el método de Ward. Se recomienda no mezclar variables cuantitativas con cualitativas, en caso de hacerlo, utilizar una métrica apropiada.

In [None]:
uniones = linkage(X_std, method='ward', metric='euclidean')

Es posible obtener el historial de cómo se fueron realizando los agrupamientos, sin embargo, por practicidad es preferible el uso del dendrograma.

In [None]:
historial_uniones = pd.DataFrame(uniones, columns=['Cluster 1', 'Cluster 2', 
                                           'Distancia', 'Observaciones'])
historial_uniones

Para visualizar el dendrograma, utilizamos la función  `dendrogram()` junto con `pyplot`

In [None]:
plt.figure(figsize=(8, 8))
plt.title('Dendrograma Jerárquico')
plt.ylabel('Distancia')
dendrogram(uniones, orientation='right', labels=df['Cerveza'].tolist())
plt.show()

Las líneas horizontales representan distancias, mientras que las líneas verticales sirven para unir las observaciones. A partir de este gráfico podemos definir los clusters (en diferente color).

## Práctica 2: Método de k-medias

Repetiremos el ejercicio utilizando el método jerárquico. El algoritmo de este método no está basado en distancias sino en la variación dentro de los conglomerados, por lo tanto, no se requiere establecer una medida de distancia. El proceso inicia asignando aleatoriamente los elementos a cierto número de conglomerados. Los elementos son sucesivamente reasignados a otros conglomerados para minimizar la variación dentro de cada conglomerado.

El método de k-medias se considera superior a los métodos jerárquicos (debido a que es menos afectado por valores atípicos) y es más conveniente para muestras grandes. Es recomendable utilizarlo sólo con variables cuantitativas o en algunos casos con variables ordinales.  El inconveniente principal es que se debe especificar cuántos conglomerados se van a utilizar, por ello, muchos investigadores recomiendan previamente utilizar el método jerárquico

In [None]:
from sklearn.cluster import KMeans

In [None]:
# Estandarizar variables
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

En este procedimiento se establece el número de grupos o *clusters* (k). Posteriomente
1. Se crean k "centros" en ubicaciones aleatorias.
2. Para cada observación:
    - Se calcula la distancia a los k centros
    - La observación es asignada al grupo con el centro más cercano.
3. Los centros se mueven al centro de su respectivo grupo.
4. Los pasos 2 y 3 se repiten hasta que no existan cambios en la pertenencia.

El método de k-medias es apropiado cuando se asume que los grupos tienen forma convexa (p. ej. círculo) y tamaños similares. Si no es el caso, conviene explorar otras metodologías para el análisis de conglomerados. 

Utilizaremos la función de k-means en scikit-learn. El parámetro más importante es *n_clusters* que indica el número de grupos (k). Otro parámetro es *n_jobs=-1* para utilizar todos los núcleos del procesador. 

In [None]:
k = 2
# Crear modelo
kmeans = KMeans(n_clusters=k, n_init=10, random_state=42)
# Ajustar modelo
model = kmeans.fit(X_std)

Con `.labels_` se obtiene la clase pronosticada de cada observación, y con `.cluster_centers_` se puede encontrar el centro de cada grupo

In [None]:
cluster = model.labels_
centroids = model.cluster_centers_

Conviertiendo el array `centroids` a un dataframe (*¿Cómo interpretas los centroides?*)

In [None]:
df_centroids = pd.DataFrame(centroids, columns = X.columns)
df_centroids['Cluster Name'] = ['Segmento {}'.format(i+1) for i in range(len(df_centroids))]
df_centroids

**Opcional**: Como solamente estamos usando dos variables podríamos graficarlo en un plano:
- Creamos un *bucle* para cada grupo `for i in range (k)`,
- Identificamos las observaciones de cada grupo y las seleccionamos: `cluster_i = np.where(cluster==i)`
- Hacemos un diagrama de dispersión `plt.scatter(X_std[cluster_i,0], X_std[cluster_i,1]`
- Ubicamos el centroide `plt.scatter(centroids[:,0],centroids[:,-1], marker='*', s=200`

In [None]:
for i in range (k):
    cluster_i = np.where(cluster==i)
    plt.scatter(X_std[cluster_i,0], X_std[cluster_i,1])
    plt.scatter(centroids[:,0],centroids[:,1], marker='*', s=200)
plt.show()

La medida de silueta de cohesión y separación es una medida de bondad de ajuste. Un valor menor a 0.20 indica una mala calidad de la solución, un valor superior a 0.5 indica una buena solución.

In [None]:
from sklearn.metrics import silhouette_score

score = silhouette_score(X_std, cluster) #X_std son los datos y 'cluster' la asignación
print('Medida de silueta:', score)

Algunos utilizan el método del codo (*elbow method*). En este método se calcula la *inercia* en diferentes valores de *k*. La inercia es la suma de las distancias al cuadrado de cada objeto del cluster a su centroide. Tras graficar estos valores, el punto en el cual cambia la tendencia corresponderá al número apropiado de grupos.

In [None]:
wss = [] #wss, del inglés Within-Cluster Sum of Squares
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, n_init=10, random_state=42)
    kmeans.fit(X)
    wss.append(kmeans.inertia_)

# Crear gráfico
plt.figure(figsize=(4, 4))
plt.plot(range(1, 11), wss)
plt.xlabel('Número de clusters')
plt.show()

In [None]:
df['Segmento'] = cluster
df.sample(5)

## Preguntas de autoevaluación

**Pregunta 1**. En una empresa de retail, se están explorando diferentes métodos para segmentar a los clientes en grupos con características similares. ¿En cuál de los siguientes escenarios es más apropiado utilizar el método de k-medias (k-means) en lugar del método de clustering jerárquico?
Opciones:

A) La empresa tiene un pequeño número de clientes (menos de 100) y quiere visualizar la jerarquía completa de agrupaciones posibles, desde un único grupo hasta cada cliente en su propio grupo.

B) La empresa tiene una gran cantidad de datos de clientes (más de 10,000) y busca crear rápidamente un número fijo de segmentos, optimizando la homogeneidad dentro de cada grupo.

C) La empresa no tiene claro cuántos segmentos debe crear y quiere probar diferentes criterios de enlace para determinar la estructura más adecuada, explorando la posibilidad de subgrupos dentro de grupos.

**Pregunta 2**. Una empresa de marketing digital está desarrollando una estrategia para personalizar campañas publicitarias según el comportamiento de los usuarios en su plataforma. Han realizado un análisis de clustering para segmentar a los usuarios en diferentes grupos, pero ahora necesitan determinar cuántos segmentos utilizar para obtener la mejor separación entre los grupos. Entre las siguientes métricas, ¿cuál es la más útil para evaluar la calidad de los clusters y ayudar a definir el número óptimo de segmentos?

A) Distancia euclidiana

B) Coeficiente de correlación

C) Medida de silueta
