<a href="https://colab.research.google.com/github/gmauricio-toledo/tda/blob/main/00-Clustering_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP_2022/blob/main/03%20Machine%20Learning/notebooks/13-Clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Clustering</h1>


* El an√°lisis de agrupamiento, o agrupamiento, es una tarea de aprendizaje autom√°tico no supervisada.

* Implica descubrir autom√°ticamente la agrupaci√≥n natural de los datos. A diferencia del aprendizaje supervisado (como el modelado predictivo), los algoritmos de agrupaci√≥n solo interpretan los datos de entrada y encuentran grupos o agrupaciones naturales en el espacio de caracter√≠sticas.

* Un grupo, o cluster, es un en el espacio de caracter√≠sticas donde las instancias est√°n m√°s cerca del grupo que de otros grupos.

* Es probable que estos grupos reflejen alg√∫n mecanismo en funcionamiento en el dominio del que se extraen las instancias, un mecanismo que hace que algunas instancias tengan un parecido m√°s fuerte entre s√≠ que con las instancias restantes.

* La agrupaci√≥n en cl√∫sters puede ser √∫til como actividad de an√°lisis de datos para obtener m√°s informaci√≥n sobre el dominio del problema, el llamado descubrimiento de patrones o descubrimiento de conocimiento.

* El agrupamiento tambi√©n puede ser √∫til como un tipo de ingenier√≠a de caracter√≠sticas, donde los ejemplos existentes y nuevos se pueden mapear y etiquetar como pertenecientes a uno de los grupos identificados en los datos.

* La evaluaci√≥n de los grupos identificados es subjetiva y puede requerir un experto en el dominio, aunque existen muchas medidas cuantitativas espec√≠ficas de los grupos.

&#128214; <u>Referencias bibliogr√°ficas</u>:
* Flach, Peter (2012). Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press.

[Algoritmos de clustering en scikit-learn](https://scikit-learn.org/stable/modules/clustering.html)

___

# Ejemplo 1: Documentos de Wikipedia

Usaremos otra vez el dataset de documentos de Wikipedia, tomaremos la versi√≥n parcial y preprocesada de la sesi√≥n pasada.

El objetivo de la pr√°ctica es hacer **Topic Modelling**, es decir segmentar los documentos en grupos con tem√°ticas similares. Para esto, usaremos algoritmos de clustering aplicados a representaciones vectoriales de los documentos. Si las representaciones vectoriales de los documentos son *buenas*, lograremos este objetivo.

Al final evaluaremos usamos m√©tricas de clustering y visualizando t√≥picos manualmente

**El dataset no tiene una variable target** Estamos en aprendizaje no supervisado

In [None]:
!pip install wordcloud -qq

In [None]:
import pandas as pd
import numpy as np

url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/03%20Machine%20Learning/data/spanish-wikipedia-dataframe.csv"
df = pd.read_csv(url,index_col=0)
df.drop(columns=['doc_id'],inplace=True)
df

Construimos la matriz BOW de los documentos y hacemos PCA para obtener una matriz de caracteristicas (num√©ricas continuas).

Con `max_features=10000` y todas las componentes principales tarda alrededor de 2 minutos

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import PCA

docs_list = df['Texto'].values

# cv = CountVectorizer(max_features=10000)
cv = TfidfVectorizer(max_features=10000)
X_bow = cv.fit_transform(docs_list)
print(X_bow.shape)

pca = PCA()
X_pca = pca.fit_transform(np.asarray(X_bow.todense()))
print(X_pca.shape)

Tomamos las primeras `n_dim` componentes principales como representaci√≥n vectorial de cada documento.

In [None]:
n_dim = 300
# n_dim = X_pca.shape[1]

X_pca_dim = X_pca[:,:n_dim]
print(X_pca_dim.shape)

Hacemos clustering a las representaciones vectoriales.

In [None]:
from sklearn.cluster import KMeans

num_clusters = 13
# num_clusters = 6

clustering = KMeans(n_clusters=num_clusters)
clustering.fit(X_pca_dim)
clusters = clustering.labels_

In [None]:
idxs_per_cluster = {j:np.where(clusters==j)[0] for j in np.unique(clusters)}
documents_per_cluster = {j:df.loc[idxs_per_cluster[j],'Texto'].values for j in np.unique(clusters)}

# documents_per_cluster

Con la finalidad de explorar el contenido de los textos de cada cluster, hacemos una nube de palabras de los documentos de cada cluster. Para esto, usamos el m√≥dulo [wordcloud](https://pypi.org/project/wordcloud/).

Aqu√≠ puedes ver [ejemplos de su uso](https://github.com/amueller/word_cloud/tree/main)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt


fig, axs = plt.subplots(nrows=1,ncols=num_clusters,figsize=(5*num_clusters,5),dpi=100)
for k,ax in enumerate(axs):
    wordcloud = WordCloud().generate(" ".join(documents_per_cluster[k]))
    ax.imshow(wordcloud, interpolation='bilinear')
    ax.axis("off")
    ax.set_title(f"Cluster {k}")
fig.show()

In [None]:
from sklearn.metrics import silhouette_score

print(f"Score de silueta: {silhouette_score(X_pca_dim,clusters)}")

Visualicemos el valor de codo

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

n_clusters = range(2,20)
inercias = []

for k in n_clusters:
    clustering = KMeans(n_clusters=k)
    clustering.fit(X_pca_dim)
    inercias.append(clustering.inertia_)

plt.plot(range(1,len(inercias)+1),inercias)
plt.xlabel("N√∫mero de clusters")
plt.ylabel("Inercia")
plt.show()

Imprimamos algunos documentos de cada cluster:

In [None]:
for j,docs in enumerate(documents_per_cluster.values()):
    print(f"Cluster {j}:")
    for doc in docs[:5]:
        print(f"\t{doc[:100]}")
    print()

In [None]:
#@title Generar un HTML para visualizar los clusters

import plotly.graph_objects as go
import numpy as np

# Configuraci√≥n de colores por cluster
colors = np.random.rand(len(np.unique(clusters)), 3) * 255
colors = [f'rgb({r},{g},{b})' for r, g, b in colors]

# Crear figura 3D
fig = go.Figure()

# A√±adir puntos para cada cluster
for cluster_id in np.unique(clusters):
    # Filtrar puntos del cluster actual
    mask = clusters == cluster_id
    x, y, z = X_pca_dim[mask, 0], X_pca_dim[mask, 1], X_pca_dim[mask, 2]

    # Obtener fragmentos de texto (primeros 100 caracteres)
    text_samples = [f"<b>Cluster {cluster_id}</b><br>{doc[:100]}..."
                   for doc in df.loc[mask, 'Texto'].values]

    fig.add_trace(go.Scatter3d(
        x=x,
        y=y,
        z=z,
        mode='markers',
        name=f'Cluster {cluster_id}',
        marker=dict(
            size=5,
            color=colors[cluster_id],
            opacity=0.8
        ),
        text=text_samples,
        hoverinfo='text'
    ))

# Configuraci√≥n del layout
fig.update_layout(
    title='PCA 3D de Documentos Clusterizados con K-Means',
    scene=dict(
        xaxis=dict(visible=False, showticklabels=False),
        yaxis=dict(visible=False, showticklabels=False),
        zaxis=dict(visible=False, showticklabels=False),
        bgcolor='rgba(0,0,0,0)'
    ),
    margin=dict(l=0, r=0, b=0, t=30),
    hoverlabel=dict(
        bgcolor="white",
        font_size=12,
        font_family="Arial"
    )
)

# Guardar como HTML
fig.write_html("Wikipedia_tfidf_kmeans_6.html")

üîµ Reflexiona sobre las siguientes preguntas:

* ¬øPuedes ver de qu√© tratan los documentos de cada cluster?
* Prueba a cambiar el n√∫mero de clusters.
* Prueba a cambiar el n√∫mero de dimensiones de las representaciones vectoriales.
* Prueba a cambiar el m√©todo de clustering
* En cada tarea de clustering, mide el coeficiente de silueta.

# Ejemplo 2: Canciones de Spotify

Este conjunto de datos contiene estad√≠sticas de audio de las 2.000 canciones top de Spotify. Los datos contienen alrededor de 15 columnas que describen la canci√≥n y algunas de sus cualidades. Se incluyen canciones publicadas desde 1956 hasta 2019 de algunos artistas notables y famosos. Estos datos contienen caracter√≠sticas de audio como Danceability, BPM, Liveness, Valence(Positivity) y algunas m√°s:

* √çndice: ID
* T√≠tulo: Nombre de la pista
* Artista: Nombre del artista
* G√©nero superior: G√©nero de la pista
* A√±o: A√±o de lanzamiento de la pista
* Pulsaciones por minuto (BPM): El tempo de la canci√≥n
* Energy: La energ√≠a de una canci√≥n: cuanto m√°s alto sea el valor, m√°s energ√©tica ser√° la canci√≥n.
* Danceability: Cuanto m√°s alto sea el valor, m√°s f√°cil ser√° bailar esta canci√≥n.
* Loudness: Cuanto m√°s alto sea el valor, m√°s fuerte ser√° la canci√≥n.
* Liveness: ...
* Valence: Cuanto m√°s alto sea el valor, m√°s positivo ser√° el estado de √°nimo de la canci√≥n.
* Duraci√≥n: La duraci√≥n de la canci√≥n.
* Acousticness: Cuanto m√°s alto sea el valor, m√°s ac√∫stica ser√° la canci√≥n.
* Speechiness: Cuanto m√°s alto sea el valor, m√°s palabras habladas contiene la canci√≥n.
* Popularity: Cuanto m√°s alto sea el valor, m√°s popular es la canci√≥n.

Este dataset se encuentra en [Kaggle](https://www.kaggle.com/datasets/iamsumat/spotify-top-2000s-mega-dataset)

Vamos a hacer clustering como estrategia para agrupar canciones por grupos similares con base en sus features num√©ricas.

**El dataset no tiene una variable target** Estamos en aprendizaje no supervisado

In [None]:
import pandas as pd
import numpy as np

url = 'https://github.com/DCDPUAEM/DCDP/raw/main/03%20Machine%20Learning/data/spotify-2000.csv'
df = pd.read_csv(url,index_col=0,thousands=',')
df

Hagamos un breve analisis exploratorio

In [None]:
df.dtypes

Veamos los g√©neros

In [None]:
generos = df['Top Genre'].unique()
print(f"Hay {len(generos)} g√©neros √∫nicos:")
print(generos)

Veamos los rangos de las variables

In [None]:
df.describe()

A manera de an√°lisis exploratorio, veamos las correlaciones entre variables, ¬øqu√© observamos?

In [None]:
from seaborn import heatmap
import matplotlib.pyplot as plt

correlaciones = df.iloc[:,3:].corr()
heatmap(correlaciones)
plt.show()

Dado que algunos m√©todos de clustering son susceptibles a la escala de valores, hacemos un escalamiento de las variables num√©ricas.

**Haremos clustering con s√≥lo estas variables num√©ricas**

In [None]:
from sklearn.preprocessing import MinMaxScaler


df2 = df[["Beats Per Minute (BPM)", "Loudness (dB)",
              "Liveness", "Valence", "Acousticness",
              "Speechiness"]].copy()

scaler = MinMaxScaler()
df2[df2.columns] = scaler.fit_transform(df2[df2.columns])
X = df2.values

df2.head(3)

In [None]:
df2.describe()

Usamos K-means para segmentar en 10 grupos

In [None]:
from sklearn.cluster import KMeans

modelo = KMeans(n_clusters=10, n_init='auto')

modelo.fit(X)
clusters = modelo.labels_

print(f"Las primeras 10 etiquetas: {clusters[:10]}")

Integramos la informaci√≥n de los clusters al dataframe original.

In [None]:
df["Music Segments"] = clusters
df["Music Segments"] = df["Music Segments"].map({0: "Cluster 1", 1:
    "Cluster 2", 2: "Cluster 3", 3: "Cluster 4", 4: "Cluster 5",
    5: "Cluster 6", 6: "Cluster 7", 7: "Cluster 8",
    8: "Cluster 9", 9: "Cluster 10"})
df.head(5)

Observemos un cluster

In [None]:
cluster = 'Cluster 1'

df[df['Music Segments']==cluster][['Artist','Title','Top Genre','Year']]

Podemos ver los artistas en este cluster

In [None]:
df[df['Music Segments']==cluster]['Artist'].unique()

Graficamos usando solamente 3 features. Usamos el m√≥dulo [plotly](https://plotly.com/python/) para gr√°ficas interactivas.

Otra alternativa es [Bokeh](https://bokeh.org/).

In [None]:
import plotly.graph_objects as go

PLOT = go.Figure()

for i in list(df["Music Segments"].unique()):
    PLOT.add_trace(go.Scatter3d(x = df[df["Music Segments"]==i]['Beats Per Minute (BPM)'],
                                    y = df[df["Music Segments"] ==i]['Energy'],
                                    z = df[df["Music Segments"] ==i]['Danceability'],
                                    mode = 'markers',marker_size = 6, marker_line_width = 1,
                                    name = str(i)))
PLOT.update_traces(hovertemplate='Beats Per Minute (BPM): %{x} <br>Energy: %{y} <br>Danceability: %{z}')

PLOT.update_layout(width = 800, height = 800, autosize = True, showlegend = True,
                   scene = dict(xaxis=dict(title = 'Beats Per Minute (BPM)', titlefont_color = 'black'),
                                yaxis=dict(title = 'Energy', titlefont_color = 'black'),
                                zaxis=dict(title = 'Danceability', titlefont_color = 'black')),
                   font = dict(family = "Arial", color  = 'black', size = 12))

PLOT.show()

Usando s√≥lo dos dimensiones:

In [None]:
plt.figure(dpi=120)
for segment in df["Music Segments"].unique():
    plt.scatter(x = df[df["Music Segments"]==segment]['Beats Per Minute (BPM)'],
                y = df[df["Music Segments"] ==segment]['Energy'])
plt.show()

In [None]:
plt.figure(dpi=120)
for segment in df["Music Segments"].unique():
    plt.scatter(x = df[df["Music Segments"]==segment]['Danceability'],
                y = df[df["Music Segments"] ==segment]['Energy'])
plt.show()

In [None]:
from sklearn.metrics import silhouette_score

print(f"Score de silueta: {silhouette_score(X,clusters)}")

‚≠ï Preguntas:
* Siendo K-Means, ¬øpor qu√© se no se ve la separaci√≥n perfecta?

‚≠ï Ejercicio 1. Continuando con este m√©todo de K-Means:
* ¬øQu√© valor de K es mejor? Puedes usar cualquiera de los 3 criteros de arriba, empezando por el *elbow value*.
* Una vez que hayas escogido un valor para $K$, reportar los valores de las m√©tricas de clustering: score de Silueta, [Calinski-Harabasz Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score) y [Davies-Bouldin Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score).

‚≠ï Ejercicio 2:

* Repetir el experimento, ahora usando Agglomerative Clustering y DBSCAN.
* ¬øPuedes elevar las m√©tricas de clustering? Considera las m√©tricas score de Silueta y [Davies-Bouldin Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score).
* Explora visualmente algunas canciones de los clusters, ¬øtiene sentido el agrupamiento?

# Ejemplo 3: Segmentaci√≥n de clientes

l objetivo de este an√°lisis es segmentar a los clientes de un centro comercial en grupos homog√©neos (clusters) basados en su comportamiento y caracter√≠sticas demogr√°ficas, como:

* G√©nero
* Ingreso anual (Annual Income (k$)).
* Gasto en el centro comercial (Spending Score (1-100)).
* Edad (Age).

Esto permitir√° identificar patrones ocultos y dise√±ar estrategias de marketing personalizadas para cada grupo (ej: ofertas para "clientes de alto ingreso pero bajo gasto").

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/03%20Machine%20Learning/data/Mall_Customers.csv"

mall_df = pd.read_csv(url)
mall_df.drop(columns=['CustomerID'],inplace=True)
original_mall_df = mall_df.copy()
mall_df

Unnamed: 0,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,Male,19,15,39
1,Male,21,15,81
2,Female,20,16,6
3,Female,23,16,77
4,Female,31,17,40
...,...,...,...,...
195,Female,35,120,79
196,Female,45,126,28
197,Male,32,126,74
198,Male,32,137,18


üî¥ Haz *one-hot encoding* con la variable categ√≥rica usando el m√©todo `get_dummies`, no olvides el hiperpar√°metro `drop_first=True`.

In [None]:
mall_df = pd.get_dummies(mall_df,drop_first=True, dtype=int)
mall_df

Unnamed: 0,Age,Annual Income (k$),Spending Score (1-100),Gender_Male
0,19,15,39,1
1,21,15,81,1
2,20,16,6,0
3,23,16,77,0
4,31,17,40,0
...,...,...,...,...
195,35,120,79,0
196,45,126,28,0
197,32,126,74,1
198,32,137,18,1


üî¥ Extrae las variables (features) de cada instancia y define la matrix $X$

In [None]:
import numpy as np

X = mall_df.values
X.shape

(200, 4)

‚ùóAqu√≠ no hay divisi√≥n train\test

üî¥ **Opcional** Aplica reescalamiento a `X`

In [None]:
from sklearn.preprocessing import MinMaxScaler

X = MinMaxScaler().fit_transform(X)

üî¥ Clusteriza las instancias, usa K-Means y prueba con dos valores de tu elecci√≥n para el n√∫mero de clusters

In [None]:
from sklearn.cluster import KMeans

clustering = KMeans(n_clusters=4)
clustering.fit(X)

üî¥ Extrae los clusters (es decir, el arreglo que dice a qu√© cluster pertenece cada instancia) con el atributo `labels_`

In [None]:
import numpy as np

clusters = clustering.labels_

üî¥ Evalua el clustering usando la m√©trica silueta.

**Recuerda que esta m√©trica es un n√∫mero $-1\leq s\leq 1$** y entre m√°s alto es mejor.

In [None]:
from sklearn.metrics import silhouette_score

silhouette_score(X,clusters)

np.float64(0.3641657522339062)

üü¢ Visualicemos los resultados. Dado que no son tantos ejemplos, imprimamos un dataframe mostrando cada uno de los clusters.

¬øC√≥mo etiquetarias a cada cluster? Es decir, ¬øqu√© comparten en com√∫n cada cluster?

In [None]:
import numpy as np

num_clusters = np.unique(clusters).shape[0]

for i in range(num_clusters):
    print(f"Cluster {i}")
    display(original_mall_df[clusters==i])

Cluster 0


Unnamed: 0,Gender,Age,Annual Income (k$),Spending Score (1-100)
8,Male,64,19,3
10,Male,67,19,14
14,Male,37,20,13
18,Male,52,23,29
20,Male,35,24,35
30,Male,60,30,4
32,Male,53,33,4
42,Male,48,39,36
53,Male,59,43,60
55,Male,47,43,41


Cluster 1


Unnamed: 0,Gender,Age,Annual Income (k$),Spending Score (1-100)
3,Female,23,16,77
4,Female,31,17,40
5,Female,22,17,76
7,Female,23,18,94
9,Female,30,19,72
11,Female,35,19,99
13,Female,24,20,77
19,Female,35,23,98
29,Female,23,29,87
31,Female,21,30,73


Cluster 2


Unnamed: 0,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,Male,19,15,39
1,Male,21,15,81
15,Male,22,20,79
17,Male,20,21,66
21,Male,25,24,73
23,Male,31,25,73
25,Male,29,28,82
27,Male,35,28,61
33,Male,18,33,92
41,Male,24,38,92


Cluster 3


Unnamed: 0,Gender,Age,Annual Income (k$),Spending Score (1-100)
2,Female,20,16,6
6,Female,35,18,6
12,Female,58,20,15
16,Female,35,21,35
22,Female,46,25,5
24,Female,54,28,14
26,Female,45,28,32
28,Female,40,29,31
34,Female,49,33,14
36,Female,42,34,17


üî¥ **Extra**: Hacer reducci√≥n de dimensionalidad usando PCA a dos dimensiones y graficar todas las instancias coloreadas por cluster