<div >
    <img src = "../Banner.jpg" />
</div>

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ignaciomsarmiento/IAMD/blob/main/Clustering_Jerarquico/Clustering_Jerarquico_clase.ipynb)





# Segmentación de clientes basada en datos

La segmentación de clientes es fundamental en el marketing moderno, permitiendo:

1. Entender mejor los diferentes comportamientos de los clientes
2. Crear estrategias de marketing más efectivas y personalizadas
3. Optimizar recursos al dirigirse a grupos específicos

## Analisis de clusters


El análisis de clusters es una herramienta poderosa para identificar estos segmentos de mercado, pero presenta algunos desafíos importantes:

- Los datos de consumidores raramente están bien estructurados
- Las preferencias de los clientes suelen distribuirse de forma continua, sin grupos claramente definidos
- El resultado final depende tanto de los datos como del algoritmo seleccionado


<div style="max-width:500px">
    <img src = "figs/plot_clustering_notebook.png" />
</div>


Existen principalmente dos enfoques para el clustering en marketing:
1. Métodos basados en distancia: Agrupan clientes según su similitud
2. Métodos basados en modelos: Utilizan modelos estadísticos para definir los segmentos


En clases anteriores, estudiamos el algoritmo de k-medias, uno de los métodos más populares para la segmentación de clientes. Recordemos que k-medias:

- Agrupa los clientes en un número predefinido (k) de segmentos
- Funciona iterativamente asignando cada cliente al centroide más cercano
- Es intuitivo y fácil de interpretar en contextos de marketing
- Requiere que especifiquemos el número de segmentos de antemano

Sin embargo, k-medias tiene algunas limitaciones:
- Asume que los clusters son circulares o esféricos
- No maneja bien grupos de diferentes tamaños o densidades
- No detecta outliers o casos atípicos

Esto nos lleva a explorar métodos más avanzados como el clustering jerárquico y DBSCAN, que pueden superar algunas de estas limitaciones y ofrecer nuevas perspectivas en la segmentación de clientes.

La clave está en entender que no existe un método "perfecto" - cada algoritmo tiene sus fortalezas y debilidades. La elección del método dependerá de:
- Las características de nuestros datos
- Los objetivos específicos de la segmentación
- Los requisitos del negocio


### Etapas generales

Las etapas del análisis de clusters podemos resumirlas de la siguiente forma:

1. Iniciamos con una matriz de datos

    \begin{align}
X_{n\times k}=\left(\begin{array}{cccc}
x_{11} &  & \dots & x_{1k}\\
\\
\vdots &  & x_{ik} & \vdots\\
\\
x_{n1} &  & \dots & x_{nk}
\end{array}\right)
    \end{align}

2. Calculamos la matriz de distancia o disimilitud

\begin{align}
D_{n\times n}=\left(\begin{array}{ccccc}
d_{11} &  & \dots &  & d_{1n}\\
 & \ddots\\
\vdots &  & d_{jj} &  & \vdots\\
 &  &  & \ddots\\
d_{n1} &  & \dots &  & d_{nn}
\end{array}\right)
\end{align}


3. Aplicamos el algoritmo de clustering. Existen varios tipos
    - **basados en centroides**
    - **basados en conectividad**
    - **basados en densidades**
    


## Clustering Jerárquico

- El clustering jerárquico es especialmente útil cuando no existen expectativas sobre los patrones y estructuras subyacentes de los datos.


Los métodos de agrupamiento jerárquico son la forma más intuitiva de agrupar datos porque imitan la forma en que un humano abordaría la tarea de dividir un conjunto de n observaciones (consumidores) en k grupos (segmentos).
     - Si el objetivo es tener un gran segmento de mercado (k = 1), la única solución posible es un gran segmento de mercado que contenga a todos los consumidores en los datos X.
     - En el otro extremo, si el objetivo es tener tantos segmentos de mercado como consumidores en el conjunto de datos (k = n), el número de segmentos de mercado tiene que ser n, y cada segmento debe contener exactamente un consumidor.

- Cada consumidor representa su propio grupo. El análisis de segmentación de mercado se produce entre esos dos extremos.



<div >
    <img src = "figs/WallStreet.png" />
</div>


<div >
    <img src = "figs/Harrans.png" />
</div>


- Una característica atractiva es que no es necesario especificar el número de clusers a buscar a priori como en   k-medias


- Este  mide la conectividad entre las observaciones en algún espacio de características o conjunto de datos.


- Podemos usar los resultados para visualizar su similitud espacial entre sí en una variedad de niveles, típicamente en forma de dendrograma, que es una estructura similar a un árbol que muestra progresivamente las similitudes entre las observaciones.


- En algunos casos puede informar a los otros métodos de clustering  basados en los patrones revelados. Por ejemplo, si el dendrograma revela dos grupos naturales, entonces una segunda etapa puede inicializar un algoritmo de k-medias con dos conglomerados. Al especificar el algoritmo de k-medias, podríamos comparar directamente la validez interna de ambos algoritmos  para determinar cuál es mejor para agrupar los datos a lo largo de una variedad de dimensiones (p. ej., conectividad, compacidad, etc.).


- Hay dos tipos de agrupamiento jerárquico:
  - Los métodos de agrupamiento jerárquico divisivo comienzan con el conjunto de datos completo X y lo dividen en dos segmentos de mercado en un primer paso. Luego, cada uno de los segmentos se divide nuevamente en dos segmentos. Este proceso continúa hasta que cada consumidor tiene su propio segmento de mercado.
  - El agrupamiento jerárquico aglomerativo aborda la tarea desde el otro extremo. El punto de partida es que cada consumidor representa su propio segmento de mercado (n grupos únicos). Paso a paso, los dos segmentos de mercado más cercanos entre sí se fusionan hasta que el conjunto de datos completo forma un gran segmento de mercado.


### Enlaces

- Los algoritmos de clustering jerárquico son únicos en el sentido de que requieren especificar:

    - una medida de distancia
    - un método de enlace o vinculación,


- Por lo tanto, con nuestros datos de distancia estandarizados, podemos ajustar un algoritmo de agrupamiento jerárquico, pero como el algoritmo procede en forma de pares, debemos especificar con precisión cómo se unen estos pares.




- El método de enlace es el mecanismo para determinar esto y hay muchos métodos de vinculación entre los que elegir:

   - *Enlace simple*: También conocido como técnica del vecino más cercano; en este método combinamos los clusters, basándonos en los dos puntos más cercanos de cada cluster.
   - *Enlace completo (complete linkage - CL)* :  El enlace completo o técnica del vecino más lejano, es lo opuesto al enlace simple y combina los clusters encontrando la distancia máxima entre las observaciones de los clusters
   - *Enlace promedio de grupo (average )* :El enlace promedio de grupo utiliza la mínima distancia promedio entre los grupos. Es decir, calculamos todas las distancias entre pares de ambos clusters, y calculamos el promedio.
  - *Enlace usando centroides (Centroid)* Este método usa la mínima distancia entre los centroides del cluster.
  - *Enlace de Ward*  une los clusters más cercanos entre sí minimizando la varianza dentro de cada grupo, buscando que los elementos dentro de un mismo cluster sean lo más homogéneos posible.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist

# Crear dos clusters claros y separados
np.random.seed(42)
cluster1 = np.random.normal(loc=[-2, 0], scale=0.3, size=(10, 2))
cluster2 = np.random.normal(loc=[2, 0], scale=0.3, size=(10, 2))
X = np.vstack([cluster1, cluster2])

# Calcular centroides
centroid1 = np.mean(X[:10], axis=0)
centroid2 = np.mean(X[10:], axis=0)

# Encontrar los puntos más cercanos y más lejanos entre clusters
distances = []
for i in range(10):
    for j in range(10, 20):
        dist = np.linalg.norm(X[i] - X[j])
        distances.append((dist, i, j))
min_dist = min(distances)
max_dist = max(distances)
min_points = (X[min_dist[1]], X[min_dist[2]])
max_points = (X[max_dist[1]], X[max_dist[2]])

# Graficar cada tipo de enlace en gráficos separados
fig, axs = plt.subplots(3, 2, figsize=(15, 18))
fig.suptitle('Tipos de Enlaces en Clustering Jerárquico', fontsize=16)

# Single Linkage
axs[0, 0].scatter(X[:10, 0], X[:10, 1], c='blue', label='Cluster 1', s=100, alpha=0.6)
axs[0, 0].scatter(X[10:, 0], X[10:, 1], c='red', label='Cluster 2', s=100, alpha=0.6)
axs[0, 0].plot([min_points[0][0], min_points[1][0]],
               [min_points[0][1], min_points[1][1]],
               'g--', linewidth=2, label='Single Linkage')
axs[0, 0].set_title('Single Linkage')
axs[0, 0].legend()
axs[0, 0].grid(True, linestyle='--', alpha=0.3)

# Complete Linkage
axs[0, 1].scatter(X[:10, 0], X[:10, 1], c='blue', label='Cluster 1', s=100, alpha=0.6)
axs[0, 1].scatter(X[10:, 0], X[10:, 1], c='red', label='Cluster 2', s=100, alpha=0.6)
axs[0, 1].plot([max_points[0][0], max_points[1][0]],
               [max_points[0][1], max_points[1][1]],
               'r--', linewidth=2, label='Complete Linkage')
axs[0, 1].set_title('Complete Linkage')
axs[0, 1].legend()
axs[0, 1].grid(True, linestyle='--', alpha=0.3)

# Average Linkage
axs[1, 0].scatter(X[:10, 0], X[:10, 1], c='blue', label='Cluster 1', s=100, alpha=0.6)
axs[1, 0].scatter(X[10:, 0], X[10:, 1], c='red', label='Cluster 2', s=100, alpha=0.6)
for i in range(3):  # Visualización de conexiones promedio entre pares representativos
    axs[1, 0].plot([X[i, 0], X[10 + i, 0]], [X[i, 1], X[10 + i, 1]], 'purple', linestyle='--', linewidth=1, alpha=0.6)
axs[1, 0].plot([centroid1[0], centroid2[0]], [centroid1[1], centroid2[1]], '--', color='purple', linewidth=2, label='Average Linkage')
axs[1, 0].set_title('Average Linkage')
axs[1, 0].legend()
axs[1, 0].grid(True, linestyle='--', alpha=0.3)

# Centroid Linkage
axs[1, 1].scatter(X[:10, 0], X[:10, 1], c='blue', label='Cluster 1', s=100, alpha=0.6)
axs[1, 1].scatter(X[10:, 0], X[10:, 1], c='red', label='Cluster 2', s=100, alpha=0.6)
axs[1, 1].plot([centroid1[0], centroid2[0]],
               [centroid1[1], centroid2[1]],
               'k--', linewidth=2, label='Centroid Linkage')
axs[1, 1].set_title('Centroid Linkage')
axs[1, 1].legend()
axs[1, 1].grid(True, linestyle='--', alpha=0.3)

# Ward Linkage
axs[2, 0].scatter(X[:10, 0], X[:10, 1], c='blue', label='Cluster 1', s=100, alpha=0.6)
axs[2, 0].scatter(X[10:, 0], X[10:, 1], c='red', label='Cluster 2', s=100, alpha=0.6)
axs[2, 0].plot([centroid1[0], centroid2[0]], [centroid1[1], centroid2[1]], '--', color='orange', linewidth=2)
axs[2, 0].plot([centroid1[0], (centroid1[0] + centroid2[0]) / 2], [centroid1[1], (centroid1[1] + centroid2[1]) / 2],
               '--', color='orange', linewidth=1.5, label='Ward Linkage')
axs[2, 0].set_title('Ward Linkage')
axs[2, 0].legend()
axs[2, 0].grid(True, linestyle='--', alpha=0.3)

# Quitar el último subplot vacío
axs[2, 1].axis('off')

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.show()


   
- Es importante señalar que, al igual que las medidas de distancia, no existe una guía en la literatura sobre cuál es el mejor método de enlace.


- La selección del método de enlace generalmente depende de las preferencias específicas del problema o disciplina, por ejemplo, el enlace centroide es popular entre los genetistas y ward entre los economistas.


- Se recomienda que se comparen varios métodos de enlace para descubrir patrones naturales de la manera más eficiente posible.


- Es importante reiterar que solo los algoritmos jerárquicos requieren la especificación de un método de vinculación, sin embargo, todos los algoritmos de agrupamiento requieren la especificación y el cálculo de una distancia entre las observaciones.

    - La medida de distancia determina cómo se definen la similitud y la diferencia en el espacio de características, mientras que el método de enlace determina cómo se unen los elementos únicos, que se convierten en grupos más grandes.

    - Se requieren medidas tanto de enlace como de distancia para el agrupamiento jerárquico, mientras que solo se requieren medidas de distancia para todas las demás técnicas de agrupamiento.

# Ejemplo: Segmentación de Clientes

In [None]:
# completar código leer base de datos

### El dendograma


El dendrograma es una representación gráfica del resultado del proceso de agrupamiento en forma de árbol. La construcción es relativamente sencilla y se hace de la siguiente forma:

   1. En la parte inferior del gráfico se colocan las N observaciones iniciales.
   2. La unión de elementos se representan por tres líneas rectas. Dos líneas son perpendiculares a los elementos que se van a unir, y su altura va a estar dada por la distancia que hay entre los elementos. La tercera línea, las une.
   3. El proceso se repite hasta que todos los elementos están conectados por líneas rectas.

Entonces cada vez que se fusionan dos elementos o clusters, el dendrograma muestra una conexión correspondiente al nivel de distancia/disimilitud en el que se produjo. Por lo tanto, si cortamos el dendrograma a un nivel de distancia dado, obtenemos un número de clusters existentes en ese nivel y los elementos que lo conforman.

In [None]:
# completar código dendograma

##### Ejemplo:

|   | 1  | 2  | 3 | 4 | 5 |
|---|----|----|---|---|---|
| **1** | 0  |    |   |   |   |
| **2** | 9  | 0  |   |   |   |
| **3** | 3  | 7  | 0 |   |   |
| **4** | 6  | 5  | 9 | 0 |   |
| **5** | 11 | 10 | 2 | 8 | 0 |

<div >
<img src = "figs/complete_link0.png" />
</div>


|    | 35 | 1 | 2 | 4 |
|----|----|---|---|---|
| **35** | 0  |   |   |   |
| **1** | 11 | 0 |   |   |
| **2** | 10 | 9 | 0 |   |
| **4** | 9  | 6 | 5 | 0 |

<div >
<img src = "figs/complete_link1.png" />
</div>


<div >
<img src = "figs/complete_link.png" />
</div>


**enlace simple**

  <div >
<img src = "figs/single_link.png" />
</div>

In [25]:
# fijar distancias

Unnamed: 0,Id_Cliente,Genero,Edad,Ingreso,Puntaje_Gasto,segmento
0,1,Mujer,41,98115.05,39,5
1,2,Mujer,20,35458.14,75,1
2,3,Mujer,68,59872.08,55,2
3,4,Hombre,63,48508.93,51,2
4,5,Mujer,31,44431.11,54,2


In [None]:
# Crear un gráfico de dispersión de los datos con los clusters coloreados

In [28]:
# Estadísticas descriptivas


Unnamed: 0,segmento,1,2,3,4,5
Puntaje_Gasto,mean,78.565217,50.216216,23.307692,82.128205,18.631579
Puntaje_Gasto,std,10.953729,5.871385,13.959281,9.364489,10.915947
Ingreso,mean,26230.419565,55451.258514,28274.667308,86537.49641,87055.074474
Ingreso,std,7742.413865,7847.56706,8998.503308,16684.184918,16200.102296
Edad,mean,25.521739,43.594595,44.115385,32.692308,40.394737
Mujer,mean,0.608696,0.581081,0.615385,0.538462,0.473684
