# Clustering xerárquico

## Dependencias

In [1]:
!pip install numpy matplotlib scikit-learn seaborn pandas

Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp39-cp39-win_amd64.whl.metadata (15 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting pandas
  Downloading pandas-2.2.3-cp39-cp39-win_amd64.whl.metadata (19 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.13.1-cp39-cp39-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading scikit_learn-1.6.1-cp39-cp39-win_amd64.whl (11.2 MB)
   ---------------------------------------- 11.2/11.2 MB 13.4 MB/s eta 0:00:00
Downloading seaborn-0.13.2-py3-none-any

In [2]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
import warnings

ModuleNotFoundError: No module named 'seaborn'

In [None]:
warnings.filterwarnings("ignore")

## Segmentación de clientes cun algoritmo de *clustering* xerárquico

Usaremos o algoritmo de *clustering* xerárquico aglomerativo para traballar co mesmo *dataset* de clientes do [notebook](02_Clustering.ipynb) da sesión anterior.

### Datos

#### Exploración dos datos

Descargamos o dataset co que traballaremos.

In [None]:
!wget http://fegalaz.usc.es/~sdocio/apau2/p1/datasets/customers.csv

In [None]:
df = pd.read_csv(r'customers.csv')

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.drop(columns=["CustomerID"]).describe()

In [None]:
df.dtypes

Comprobamos que non hai valores nulos no *dataset*.

In [None]:
df.isnull().sum()

### Segmentación usando perfil de gasto e ingresos anuais

Eliminamos as columnas coas que non imos traballar, como `CustomerID` (variable categórica que actúa como identificador único), `Gender` (variable categórica de tipo binario) e `Age`.

In [None]:
df.drop(columns=["CustomerID", "Gender", "Age"], inplace=True)

In [None]:
df.head()

Normalizamos os datos para axustar a escala.

In [None]:
scaler = StandardScaler()

numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
X = scaler.fit_transform(df[numeric_cols])

### Clustering

In [None]:
method = 'average'
threshold = 0.7
distance = 'euclidean'
np.set_printoptions(suppress=True, precision=10)

Producimos a matriz de ligazóns (*linkage matrix*), definindo un método (`single`, `complete`, `average`, etc) e unha métrica (`euclidean`, `cosine`, etc). O resultado é unha matriz con forma `(n-1, 4)`, onde cada fila representa cada unha das fusións levadas a cabo nas sucesivas iteracións do proceso de agrupamento xerárquico. As catro columnas son:
- Columnas 0 e 1: índices dos *clusters* que se fusionan en cada iteración. Se os valores están entre `0` e `n-1`, refírese a un punto orixinal do dataset. Se é maior ou igual a `n`, refírese a un *cluster* novo, creado nun agrupamento anterior que pode combinar puntos individuais e/ou *clusters*.
- Columna 2: distancia entre os *clusters* fusionados.
- Columna 3: número total de puntos no novo *cluster* formado pola fusión. O valor vai aumentando a medida que se van fusionando os *clusters*. Na última fila o valor será `n`, xa que é un único *cluster* contendo todos os puntos de datos.

In [None]:
Z = sch.linkage(X, method=method, metric=distance)

In [None]:
Z[-1]


In [None]:
trh = threshold * max(Z[:,2])

plt.figure(1, figsize=(15, 8))
plt.xlabel('Clientes')
plt.ylabel('Distancia')
plt.axhline(y=trh, color='r', linestyle='--', label=f'Limiar de corte ({trh:.2f})')
dendrogram = sch.dendrogram(Z, color_threshold=trh)

In [None]:
agg = AgglomerativeClustering(n_clusters=None, distance_threshold=trh, metric='euclidean', linkage=method)
cluster_id = agg.fit(X)

In [None]:
plt.figure(figsize=(15, 7))
plt.scatter(x='Annual Income (k$)', y='Spending Score (1-100)', data=df, c=agg.labels_, s=100, cmap='viridis', edgecolors='k')
plt.xlabel('Ingresos anuais (k$)')
plt.ylabel('Perfil de gasto (1-100)')
plt.show()