<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP_2022/blob/main/03%20Machine%20Learning/notebooks/14-Clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Clustering</h1>


* El an√°lisis de agrupamiento, o agrupamiento, es una tarea de aprendizaje autom√°tico no supervisada.

* Implica descubrir autom√°ticamente la agrupaci√≥n natural de los datos. A diferencia del aprendizaje supervisado (como el modelado predictivo), los algoritmos de agrupaci√≥n solo interpretan los datos de entrada y encuentran grupos o agrupaciones naturales en el espacio de caracter√≠sticas.

* Un grupo, o cluster, es un en el espacio de caracter√≠sticas donde las instancias est√°n m√°s cerca del grupo que de otros grupos.

* Es probable que estos grupos reflejen alg√∫n mecanismo en funcionamiento en el dominio del que se extraen las instancias, un mecanismo que hace que algunas instancias tengan un parecido m√°s fuerte entre s√≠ que con las instancias restantes.

* La agrupaci√≥n en cl√∫sters puede ser √∫til como actividad de an√°lisis de datos para obtener m√°s informaci√≥n sobre el dominio del problema, el llamado descubrimiento de patrones o descubrimiento de conocimiento.

* El agrupamiento tambi√©n puede ser √∫til como un tipo de ingenier√≠a de caracter√≠sticas, donde los ejemplos existentes y nuevos se pueden mapear y etiquetar como pertenecientes a uno de los grupos identificados en los datos.

* La evaluaci√≥n de los grupos identificados es subjetiva y puede requerir un experto en el dominio, aunque existen muchas medidas cuantitativas espec√≠ficas de los grupos.

&#128214; <u>Referencias bibliogr√°ficas</u>:
* Flach, Peter (2012). Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press.

[Algoritmos de clustering en scikit-learn](https://scikit-learn.org/stable/modules/clustering.html)

___

Recuerda la simbolog√≠a de las secciones:

* üîΩ Esta secci√≥n no forma parte del proceso usual de Machine Learning. Es una exploraci√≥n did√°ctica de alg√∫n aspecto del funcionamiento del algoritmo.
* ‚ö° Esta secci√≥n incluye t√©cnicas m√°s avanzadas destinadas a optimizar o profundizar en el uso de los algoritmos.
* ‚≠ï Esta secci√≥n contiene un ejercicio o pr√°ctica a realizar. A√∫n si no se establece una fecha de entrega, es muy recomendable realizarla para practicar conceptos clave de cada tema.

# Demostraci√≥n ilustrativa de algunos algoritmos de agrupamiento

In [None]:
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

Generaci√≥n de datos sint√©ticos

In [None]:
import numpy as np
from sklearn.datasets import make_classification, make_blobs
import matplotlib.pyplot as plt

# X, y = make_blobs(n_samples=500,centers=3, random_state=24)
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=4)

fig, axs = plt.subplots(1,2,figsize=(10,5))
axs[0].scatter(X[:, 0], X[:, 1],c='black')
axs[0].set_xticks([])
axs[0].set_yticks([])
axs[0].set_title("Datos para clustering")
axs[1].scatter(X[:, 0], X[:, 1],c=y)
axs[1].set_xticks([])
axs[1].set_yticks([])
axs[1].set_title("Datos etiquetados")
fig.tight_layout()
fig.show()

A diferencia del aprendizaje supervisado, en los m√©todos de clustering (implementados en scikit-learn) el proceso es de la siguiente manera:

1. Inicializar el objeto, por ejemplo `modelo = KMeans(n_clusters=3)`.
2. Hacer fit: `modelo.fit(X)`. Hay dos opciones:
    * Obtener la lista de etiquetas de clusters como `y_clusters = modelo.predict(X)`.
    * Obtener la lista de etiquetas de clusters usando el atributo `labels_` como `y_clusters = modelo.labels_`.

Tambi√©n pueden obtenerse las etiquetas de los clusters directamente con el m√©todo `fit_transform()`.

En esta notebook estaremos usando indistintamente los 3 m√©todos para ejemplificar su uso.

## [K-MEANS](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)

Probemos varios valores de `n_clusters`





In [None]:
from sklearn.cluster import KMeans

modelo = KMeans(n_clusters=3)
modelo.fit(X)
y_clusters = modelo.predict(X)

plt.figure()
plt.scatter(X[:,0], X[:,1], c=y_clusters)
plt.show()

Evaluemos la tarea de clustering usando la m√©trica de [score de silueta](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html):

In [None]:
from sklearn.metrics import silhouette_score

silhouette_score(X, y_clusters)

Evaluemos la tarea de clustering usando la m√©trica de [adjusted mutual information (AMI)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_mutual_info_score.html).

Recuerda que, para esta m√©trica, necesitamos dos clusterings que comparar. Idealmente, uno es el *ground-truth clustering*. Para esto usemos las etiquetas `y`.

In [None]:
from sklearn.metrics import adjusted_mutual_info_score

adjusted_mutual_info_score(y, y_clusters)

Estamos comparando estos clusterings:

In [None]:
#@title Estamos comparando estos dos clusterings

fig, axs = plt.subplots(1,2,figsize=(10,5))
axs[0].scatter(X[:, 0], X[:, 1],c=y)
axs[0].set_xticks([])
axs[0].set_yticks([])
axs[0].set_title("Ground truth")
axs[1].scatter(X[:, 0], X[:, 1],c=y_clusters)
axs[1].set_xticks([])
axs[1].set_yticks([])
axs[1].set_title("K-means")
fig.tight_layout()
fig.show()

üîΩ Veamos los centroides de cada cluster

In [None]:
centers = modelo.cluster_centers_

plt.scatter(X[:, 0], X[:, 1],c=y_clusters)
plt.scatter(centers[:,0],centers[:,1],color='black', marker='x',s=80)

plt.show()

### ‚ö° ¬øC√≥mo sabemos cu√°ntos clusters buscar?

Cuando los m√©todos de clustering requieren, como hiperpar√°metro, el n√∫mero de clusters a encontrar, podemos realizar cualquiera de los siguientes an√°lisis.

#### Elbow value

‚ùó S√≥lo es para K-Means

In [None]:
max_num_clusters = 20

inertias = []
k_values = list(range(1,max_num_clusters))
for k in k_values:
    modelo = KMeans(n_clusters=k, n_init='auto')
    modelo.fit(X)
    inertias.append(modelo.inertia_)

plt.figure(figsize=(7,5))
plt.plot(k_values,inertias,color='red')
plt.axvline(x=3,linestyle='dashed',color='gray')
plt.ylabel("Inertia", fontsize=15)
plt.xlabel("Value of k", fontsize=15)
plt.xticks(k_values)
plt.show()

#### An√°lisis de silueta

**Funciona para cualquier m√©todo**

Tambi√©n podemos usar el **score de silueta**, el cual es un valor $-1\leq s\leq 1$ que mide que tan coherente son los puntos dentro de sus propios clusters, en t√©rminos de las distancias a los dem√°s clusters. Entre m√°s alto el valor, la configuraci√≥n del cl√∫ster es apropiada. **Este score es intr√≠nseco del clustering**.

Usaremos la implementaci√≥n de [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html).

In [None]:
from sklearn.metrics import silhouette_score

max_num_clusters = 20

siluetas = []
k_values = list(range(2,max_num_clusters))
for k in k_values:
    kmeans = KMeans(n_clusters=k, n_init='auto').fit(X)
    labels = kmeans.labels_
    siluetas.append(silhouette_score(X, labels, metric='euclidean'))

plt.figure(figsize=(7,5))
plt.plot(k_values,siluetas,color='red')
plt.axvline(x=3,linestyle='dashed',color='gray')
plt.xticks(k_values)
plt.ylabel("Silhoutte Scores", fontsize=15)
plt.xlabel("Value of k", fontsize=15)
plt.show()

#### An√°isis de Adjusted Mutual Information (AMI)

Buscamos el clustering con el mayor valor de AMI.

Es un score que asigna una puntuaci√≥n a la comparaci√≥n entre dos clusterings. La Informaci√≥n Mutua Ajustada mide que tanta informaci√≥n comparten dos clusterings en t√©rminos de los elementos que comparten, es decir, del tama√±o de la intersecci√≥n.





In [None]:
from sklearn.metrics import adjusted_mutual_info_score

max_num_clusters = 20

scores = []
k_values = list(range(2,max_num_clusters))
for k in k_values:
    kmeans = KMeans(n_clusters=k, n_init='auto')
    kmeans.fit(X)
    labels = kmeans.labels_
    scores.append(adjusted_mutual_info_score(y, labels))

plt.figure(figsize=(7,5))
plt.plot(k_values,scores,color='red')
plt.axvline(x=3,linestyle='dashed',color='gray')
plt.xticks(k_values)
plt.ylabel("Adjusted Mutual Information", fontsize=15)
plt.xlabel("Value of k", fontsize=15)
plt.show()

Como podemos ver, en los tres casos se valida la hip√≥tesis de que el mejor valor para $K$ es $K=3$. Esta hip√≥tesis tiene mayor peso por el conocimiento previo del problema, es decir, al generar los datos sabiamos que teniamos 3 grupos de puntos.

### üîΩ K-Means es sensible a outliers

In [None]:
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=500,centers=3, random_state=174)

plt.figure()
plt.scatter(X[:,0],X[:,1])
plt.show()

In [None]:
Xp = X.copy()

Xp[2] = Xp[2] + [4,0]
Xp[5] = Xp[5] + [4.25,-1]
Xp[1] = Xp[1] + [-3,0]

plt.figure()
plt.scatter(Xp[:,0],Xp[:,1],c=y)
plt.scatter(Xp[[1,2,5],0],Xp[[1,2,5],1],marker='x',color='black')
plt.show()

In [None]:
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
labels = kmeans.labels_

kmeans_p = KMeans(n_clusters=3)
kmeans_p.fit(Xp)
labels_p = kmeans_p.labels_

fig, axs = plt.subplots(1,2,figsize=(9,5),sharey=True)
axs[0].scatter(X[:,0],X[:,1],c=labels)
axs[1].scatter(Xp[:,0],Xp[:,1],c=labels_p)
fig.show()

In [None]:
from sklearn.metrics import silhouette_score

max_num_clusters = 20

siluetas_1 = []
siluetas_2 = []
k_values = list(range(2,max_num_clusters))
for k in k_values:
    kmeans_1 = KMeans(n_clusters=k, n_init='auto').fit(X)
    labels_1 = kmeans_1.labels_
    siluetas_1.append(silhouette_score(X, labels_1, metric='euclidean'))
    kmeans_2 = KMeans(n_clusters=k, n_init='auto').fit(X)
    labels_2 = kmeans_2.labels_
    siluetas_2.append(silhouette_score(Xp, labels_2, metric='euclidean'))

fig, axs = plt.subplots(1,2)
fig.suptitle("Silhoutte Scores")
axs[0].plot(k_values,siluetas_1,color='red')
axs[0].set_title("Original dataset")
axs[1].plot(k_values,siluetas_2,color='red')
axs[1].set_title("Con outliers")
plt.show()

## [Clustering Jer√°rquico](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html)

* La agrupaci√≥n jer√°rquica es una familia general de algoritmos de agrupaci√≥n que crean agrupaciones anidadas fusion√°ndolas o dividi√©ndolas sucesivamente. Esta jerarqu√≠a de grupos se representa como un √°rbol (o dendrograma). La ra√≠z del √°rbol es el grupo √∫nico que re√∫ne todas las muestras, siendo las hojas los grupos con una sola muestra.
* La implementaci√≥n [AgglomerativeClustering](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering) de scikit-learn realiza una agrupaci√≥n jer√°rquica utilizando un enfoque ascendente (bottom-up): cada observaci√≥n comienza en su propio grupo, y los grupos se fusionan sucesivamente. Los criterios de vinculaci√≥n (_linkage_) determinan la m√©trica utilizada para la estrategia de fusi√≥n:
  - _Ward_ minimiza la suma de las diferencias al cuadrado dentro de todos los grupos. Es un enfoque que minimiza la varianza y, en este sentido, es similar a la funci√≥n objetivo de k-means pero se aborda con un enfoque jer√°rquico aglomerativo.
  - _Maximum_ o _complete Linkage_ minimiza la distancia m√°xima entre observaciones de pares de grupos.
  - _Average linkage_ minimiza el promedio de las distancias entre todas las observaciones de pares de grupos.
  - _Single linkage_ minimiza la distancia entre las observaciones m√°s cercanas de pares de grupos.



---


Se puede especificar, ya sea el n√∫mero de clusters o el umbral de distancia m√°xima:

* Si `n_clusters`$\geq2$ entonces nos regresa ese n√∫mero de clusters.
* Si `n_clusters`=None, hay que especificar un `distance_threshold`.
* Si `distance_threshold`$\neq$None, `n_clusters` debe ser None y `compute_full_tree` debe ser True.


In [None]:
from sklearn.cluster import AgglomerativeClustering

# modelo = AgglomerativeClustering(n_clusters=3)
# no_dendo = True

# descomenta la siguiente l√≠nea si quieres ver un dendograma
modelo = AgglomerativeClustering(distance_threshold=5.0,
                                 n_clusters=None,
                                 compute_full_tree=True)
no_dendo=False


yhat = modelo.fit_predict(X)

clusters = np.unique(yhat)

for cluster in clusters:
    fila = np.where(yhat == cluster)
    plt.scatter(X[fila, 0], X[fila, 1])
plt.show()

print(f"{len(clusters)} clusters encontrados.")

Tambi√©n podemos usar criterios externos para escoger un n√∫mero de clusters adecuado. Por ejemplo, podemos usar el score de silueta. La conclusi√≥n es usar 3 clusters.

In [None]:
from sklearn.metrics import silhouette_score

max_num_clusters = 20

siluetas = []
k_values = list(range(2,max_num_clusters))
for k in k_values:
    ac = AgglomerativeClustering(n_clusters=k)
    ac.fit(X)
    labels = ac.labels_
    siluetas.append(silhouette_score(X, labels, metric='euclidean'))

plt.figure(figsize=(7,5))
plt.plot(k_values,siluetas,color='red')
plt.axvline(x=3,linestyle='dashed',color='gray')
plt.xticks(k_values)
plt.ylabel("Silhoutte Scores", fontsize=15)
plt.xlabel("Value of k", fontsize=15)
plt.show()

In [None]:
from scipy.cluster.hierarchy import dendrogram

def plot_dendrogram(model, **kwargs):
    # Create linkage matrix and then plot the dendrogram

    # create the counts of samples under each node
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # leaf node
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack([model.children_, model.distances_,
                                      counts]).astype(float)

    # Plot the corresponding dendrogram
    dendrogram(linkage_matrix, **kwargs)

if not no_dendo:
    plt.figure(dpi=120)
    plt.title('Hierarchical Clustering Dendrogram')
    # plot the top three levels of the dendrogram
    plot_dendrogram(modelo, truncate_mode='level', p=3)
    plt.xlabel("Number of points in node (or index of point if no parenthesis).")
    plt.show()

## [DBSCAN](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html)
* [Martin Ester, Hans-Peter Kriegel, J√∂rg Sander, Xiaowei Xu (1996). _A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise_. Proceedings of Knowledge Discovery and Databases - The International Conference on Knowledge Discovery & Data Mining.](https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf)
* DBSCAN recurre a una noci√≥n de c√∫mulos basada en la densidad de los mismos, que est√° dise√±ada para descubrir grupos de formas arbitrarias. DBSCAN requiere solo un par√°metro de entrada $\varepsilon$, el cual determina la distancia m√°xima entre dos puntos para considerarse cercanos. El otro par√°metro importante es el `min_samples` el cual representa el n√∫mero m√≠nimo de puntos que puede haber en un cluster.

* DBSCAN reconoce ruido. Es decir, puede dejar puntos sin asignar a ning√∫n cluster.

* "_La raz√≥n principal por la que reconocemos los grupos, es que dentro de cada grupo tenemos una densidad t√≠pica de puntos que es considerablemente m√°s alta que fuera del grupo. Adem√°s, la densidad dentro de las √°reas de ruido es menor que la densidad en cualquiera de los grupos._"

In [None]:
from sklearn.cluster import DBSCAN

modelo = DBSCAN(eps=0.530, min_samples=9)

yhat = modelo.fit_predict(X)

clusters = [j for j in np.unique(yhat) if j!=-1]    # Todos los clusters que no son ruido

plt.figure()
plt.scatter(X[yhat==-1,0],X[yhat==-1,1],marker='x',color='gray',label='ruido')
for cluster in clusters:
    filas = np.where(yhat == cluster)
    plt.scatter(X[filas, 0], X[filas, 1])
plt.legend(loc='best')
plt.show()

¬øC√≥mo denota DBSCAN a los puntos que no pertenecen a ning√∫n cluster (ruido)?

In [None]:
np.unique(yhat)

Una particularidad de DBSCAN es la susceptibilidad de los resultados en funci√≥n del principal par√°metro $\varepsilon$.

In [None]:
valores_eps = np.linspace(0.0001,10,100)
num_clusters = []

for eps in valores_eps:
    modelo = DBSCAN(eps=eps, min_samples=5)
    yhat = modelo.fit_predict(X)
    clusters = np.unique(yhat)
    num_clusters.append(len(clusters))

plt.plot(valores_eps,num_clusters)
plt.suptitle("N√∫mero de clusters en funci√≥n del par√°metro eps")
plt.xlabel("eps",fontsize=15)
plt.ylabel("N√∫mero de clusters", fontsize=15)
plt.show()

## üîΩ Comparaci√≥n de K-Means, AgglomerativeClustering y DBSCAN en datasets grandes

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

X, y = make_blobs(n_samples=15000,centers=3, random_state=174)

plt.figure()
plt.scatter(X[:,0],X[:,1],c='black')
plt.show()

In [None]:
import time
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

modelos = [KMeans(n_clusters=3),AgglomerativeClustering(n_clusters=3),DBSCAN()]

fig, axs = plt.subplots(1,3,figsize=(15,5))

for modelo,ax in zip(modelos,axs):
    inicio = time.time()
    modelo.fit(X)
    final = time.time()
    print(f"{modelo.__class__.__name__}\tTiempo de ejecuci√≥n: {final-inicio}")
    clusters = modelo.labels_
    ax.scatter(X[:,0],X[:,1],c=clusters)
    ax.set_title(f"{modelo.__class__.__name__}")
    ax.set_xticks([])
    ax.set_yticks([])
fig.show()

**Conclusiones**

* KMeans es bueno con datasets grandes.
* AgglomerativeClustering tarda con datasets grandes.
* DBSCAN es el mejor con datasets grandes.

## Otros m√©todos

### [Affinity Propagation](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AffinityPropagation.html)

* [Brendan J. Frey, Delbert Dueck (2007). Clustering by passing messages between data points. Science 315 (5814); pp. 972-6.](https://pdfs.semanticscholar.org/ea78/2c8b0848987e9575ea648e0419054d3f5bbf.pdf?_ga=2.62870572.1030401696.1591021245-1055786045.1581021538)

* AffinityPropagation crea clusters enviando mensajes entre pares de muestras hasta la convergencia. Los mensajes enviados entre pares representan la idoneidad de una muestra para ser el ejemplar de la otra, que se actualiza en respuesta a los valores de otros pares. Esta actualizaci√≥n se produce de forma iterativa hasta la convergencia, momento en el que se eligen los ejemplares definitivos y, por tanto, se obtiene la agrupaci√≥n final.

* AffinityPropagation puede ser interesante, ya que elige el n√∫mero de clusters en funci√≥n de los datos proporcionados. Para ello, los dos par√°metros importantes son la preferencia, que controla cu√°ntos ejemplares se utilizan, y el factor de amortiguaci√≥n, que amortigua los mensajes de responsabilidad y disponibilidad para evitar oscilaciones num√©ricas al actualizar estos mensajes.

* El principal inconveniente de la propagaci√≥n por afinidad es su complejidad.

In [None]:
from sklearn.cluster import AffinityPropagation

modelo = AffinityPropagation(damping=0.5,max_iter=500,random_state=None)

modelo.fit(X)
yhat = modelo.fit_predict(X)

clusters = np.unique(yhat)

print(f"Se encontraron {clusters.shape[0]} clusters")

for cluster in clusters:
    fila = np.where(yhat == cluster)
    plt.scatter(X[fila, 0], X[fila, 1])

plt.show()

### [BIRCH](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.Birch.html)

* Tian Zhang, Raghu Ramakrishnan and Miron Livny (1996). _BIRCH: An Efficient Data Clustering Method for Very Large Databases_.  ACM SIGMOD Record. DOI:10.1145/235968.233324.
* BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) es un m√©todo de clustering de tipo jer√°rquico bottom-up, especialmente dise√±ado para grandes conjuntos de datos.
* BIRCH agrupa de forma incremental y din√°mica datos, con la m√©trica Euclidiana, de entrada para intentar producir la mejor calidad de agrupaci√≥n con los recursos disponibles.


In [None]:
from sklearn.cluster import Birch

modelo = Birch(threshold=0.01, n_clusters=3)

modelo.fit(X)
yhat = modelo.predict(X)

clusters = np.unique(yhat)

for cluster in clusters:
    fila = np.where(yhat == cluster)
    plt.scatter(X[fila, 0], X[fila, 1])

plt.show()

### [OPTICS](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.OPTICS.html)

OPTICS (Ordering Points To Identify the Clustering Structure) est√° muy relacionado con DBSCAN, tambi√©n encuentra puntos *nucleo* y expande a partir de ellos. A diferencia de DBSCAN, mantiene una jerarqu√≠a de clusters para un intervalo de radios peque√±os. Es una mejor alternativa a DBSCAN en datasets grandes.

In [None]:
from sklearn.cluster import OPTICS

modelo = OPTICS(max_eps=200, min_samples=9)

yhat = modelo.fit_predict(X)

clusters = np.unique(yhat)

for cluster in clusters:
    filas = np.where(yhat == cluster)
    plt.scatter(X[filas, 0], X[filas, 1])

plt.show()

In [None]:
num_clusters = []
valores_eps = np.linspace(0.0001,200,100)

for eps in valores_eps:
    modelo = OPTICS(eps=eps, min_samples=5)
    yhat = modelo.fit_predict(X)
    clusters = np.unique(yhat)
    num_clusters.append(len(clusters))

plt.plot(valores_eps,num_clusters)
plt.suptitle("N√∫mero de clusters en funci√≥n del par√°metro eps")
plt.xlabel("eps",fontsize=15)
plt.ylabel("N√∫mero de clusters", fontsize=15)
plt.show()

### [Spectral Clustering](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.SpectralClustering.html)

* La agrupaci√≥n espectral es una clase general de m√©todos de agrupaci√≥n, extra√≠da del √°lgebra lineal.

* "_Una alternativa prometedora que ha surgido recientemente en varios campos es utilizar m√©todos espectrales para la agrupaci√≥n. Aqu√≠, uno usa los vectores propios m√°s altos de una matriz derivada de la distancia entre puntos._" [Andrew Y. Ng, Michael I. Jordan and Yair Weiss (2002). _On Spectral Clustering: Analysis and an algorithm_. In ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS.](https://papers.nips.cc/paper/2092-on-spectral-clustering-analysis-and-an-algorithm.pdf)

* Un review del m√©todo: https://link.springer.com/article/10.1007/s11222-007-9033-z

* El hiperpar√°metro "n_clusters" es utilizado para especificar el n√∫mero estimado de cl√∫steres en los datos.

In [None]:
from sklearn.cluster import SpectralClustering

modelo = SpectralClustering(n_clusters=2)

yhat = modelo.fit_predict(X)

clusters = np.unique(yhat)

for cluster in clusters:
    fila = np.where(yhat == cluster)
    plt.scatter(X[fila, 0], X[fila, 1])

plt.show()

## M√°s m√©tricas

Hay m√°s m√©tricas que pueden usarse para el clustering. Las hay de dos tipos:

1. Cuando no se conoce un clustering *ground truth*, en este caso se evalua el m√≥delo unicamente con la informaci√≥n de √©l mismo. Por ejemplo:

    * [Silhoutte score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score)
    * [Calinski-Harabasz Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score)
    * [Davies-Bouldin Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score)
    * ...

2. Cuando se conoce un clustering *ground truth* o se quieren comparar dos clusterings. Por ejemplo:
    * [AMI](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_mutual_info_score.html#sklearn.metrics.adjusted_mutual_info_score)
    * [V-measure](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.v_measure_score.html#sklearn.metrics.v_measure_score)
    * [Rand index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.rand_score.html#sklearn.metrics.rand_score)
    * ...


## ‚≠ï Pr√°ctica

¬øPuedes encontrar buenos clusterings para los siguientes datasets?

Considera dos datasets DS1 y DS2/DS3. En cada uno de ellos, prueba los siguientes m√©todos:

1. K-Means
2. AgglomerativeClustering
3. DBSCAN

Tareas a realizar:

* Realiza una busqueda de hiperpar√°metros bas√°ndote en alguna m√©trica como AMI, Silhoutte, Elbow Value (para el caso de K-Means) o alguna otra.
* Con estos hiperpar√°metros, escoge el mejor clustering de cada uno de los tres m√©todos.
* Compara visualmente los 3 clusterings obtenidos.
* Usando el score de silueta y el √≠ndice Calinski-Harabasz, ¬øcu√°l de los tres clusterings fue mejor?
* En el caso del dataset DS1, tienes un *ground truth* clustering. Reporta el valor de la m√©trica [AMI](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_mutual_info_score.html#sklearn.metrics.adjusted_mutual_info_score) y [ARI](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html#sklearn.metrics.adjusted_rand_score).

In [None]:
from sklearn.datasets import make_moons, make_blobs
import numpy as np

n_samples = 500

DS1 = make_moons(n_samples=n_samples, noise=.05)
DS2 = np.random.rand(n_samples, 2)
DS3 = make_blobs(n_samples=n_samples, cluster_std=[1.0, 2.5, 0.5], random_state=170)

In [None]:
import matplotlib.pyplot as plt

# X, y = DS1
X, y = DS3
# X = DS2

plt.figure()
plt.scatter(X[:,0],X[:,1])
plt.show()

Graficar los clusters:

In [None]:
fig, axs = plt.subplots(1,2,figsize=(9,5),sharey=True)
axs[0].scatter(X[:,0],X[:,1], c=y)
axs[0].set_title("Original dataset")
axs[1].scatter(X[:,0],X[:,1], c=y_clusters)
axs[1].set_title("Clustering")
fig.show()

# Ejemplo 1: Documentos de Wikipedia

Usaremos otra vez el dataset de documentos de Wikipedia, tomaremos la versi√≥n parcial y preprocesada de la sesi√≥n pasada.

El objetivo de la pr√°ctica es segmentar los documentos en grupos con tem√°ticas similares. Para esto, usaremos algoritmos de clustering. Si las representaciones vectoriales de los documentos son *buenas*, lograremos este objetivo.

In [None]:
!pip install wordcloud -qq

In [None]:
import pandas as pd
import numpy as np

url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/03%20Machine%20Learning/data/spanish-wikipedia-dataframe.csv"
df = pd.read_csv(url,index_col=0)
df

Nos quedamos con documentos que tengan entre 50 y 200 palabras

In [None]:
df['Palabras'] = df['Texto'].apply(lambda x: x.split())
df['Total'] = df['Palabras'].apply(lambda x: len(x))
df.drop(columns=['Palabras'],inplace=True)

df = df[(df['Total'] < 200) & (df['Total'] > 50)]
df.reset_index(drop=True,inplace=True)
df

Construimos la matriz BOW de los documentos y hacemos PCA para obtener una matriz de caracteristicas (num√©ricas continuas).

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import PCA

docs_list = df['Texto'].values

cv = CountVectorizer(max_features=None)
X_bow = cv.fit_transform(docs_list)
print(X_bow.shape)

pca = PCA(svd_solver='auto')
X_pca = pca.fit_transform(np.asarray(X_bow.todense()))
print(X_pca.shape)

Tomamos las primeras `n_dim` componentes principales como representaci√≥n vectorial de cada documento.

In [None]:
n_dim = 20

X_pca_dim = X_pca[:,:n_dim]
print(X_pca_dim.shape)

Hacemos clustering a las representaciones vectoriales.

In [None]:
from sklearn.cluster import KMeans

clustering = KMeans(n_clusters=3)
clustering.fit(X_pca_dim)
clusters = clustering.labels_

In [None]:
idxs_per_cluster = {j:np.where(clusters==j)[0] for j in np.unique(clusters)}
documents_per_cluster = {j:df.loc[idxs_per_cluster[j],'Texto'].values for j in np.unique(clusters)}

documents_per_cluster

Con la finalidad de explorar el contenido de los textos de cada cluster, hacemos una nube de palabras de los documentos de cada cluster. Para esto, usamos el m√≥dulo [wordcloud](https://pypi.org/project/wordcloud/).

Aqu√≠ puedes ver [ejemplos de su uso](https://github.com/amueller/word_cloud/tree/main)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt


fig, axs = plt.subplots(nrows=1,ncols=3,figsize=(15,5),dpi=100)
for k,ax in enumerate(axs):
    wordcloud = WordCloud().generate(" ".join(documents_per_cluster[k]))
    ax.imshow(wordcloud, interpolation='bilinear')
    ax.axis("off")
    ax.set_title(f"Cluster {k}")
fig.show()

In [None]:
from sklearn.metrics import silhouette_score

print(f"Score de silueta: {silhouette_score(X_pca_dim,clusters)}")

‚ùì

* ¬øPuedes ver de qu√© tratan los documentos de cada cluster?
* Prueba a cambiar el n√∫mero de clusters.
* Prueba a cambiar el n√∫mero de dimensiones de las representaciones vectoriales.
* Prueba a cambiar el m√©todo de clustering
* En cada tarea de clustering, mide el coeficiente de silueta.

# Ejemplo 2: Canciones de Spotify

Este conjunto de datos contiene estad√≠sticas de audio de las 2.000 canciones top de Spotify. Los datos contienen alrededor de 15 columnas que describen la canci√≥n y algunas de sus cualidades. Se incluyen canciones publicadas desde 1956 hasta 2019 de algunos artistas notables y famosos. Estos datos contienen caracter√≠sticas de audio como Danceability, BPM, Liveness, Valence(Positivity) y algunas m√°s:

* √çndice: ID
* T√≠tulo: Nombre de la pista
* Artista: Nombre del artista
* G√©nero superior: G√©nero de la pista
* A√±o: A√±o de lanzamiento de la pista
* Pulsaciones por minuto (BPM): El tempo de la canci√≥n
* Energy: La energ√≠a de una canci√≥n: cuanto m√°s alto sea el valor, m√°s energ√©tica ser√° la canci√≥n.
* Danceability: Cuanto m√°s alto sea el valor, m√°s f√°cil ser√° bailar esta canci√≥n.
* Loudness: Cuanto m√°s alto sea el valor, m√°s fuerte ser√° la canci√≥n.
* Liveness: ...
* Valence: Cuanto m√°s alto sea el valor, m√°s positivo ser√° el estado de √°nimo de la canci√≥n.
* Duraci√≥n: La duraci√≥n de la canci√≥n.
* Acousticness: Cuanto m√°s alto sea el valor, m√°s ac√∫stica ser√° la canci√≥n.
* Speechiness: Cuanto m√°s alto sea el valor, m√°s palabras habladas contiene la canci√≥n.
* Popularity: Cuanto m√°s alto sea el valor, m√°s popular es la canci√≥n.

Este dataset se encuentra en [Kaggle](https://www.kaggle.com/datasets/iamsumat/spotify-top-2000s-mega-dataset)

In [None]:
import pandas as pd
import numpy as np

url = 'https://github.com/DCDPUAEM/DCDP/raw/main/03%20Machine%20Learning/data/spotify-2000.csv'
df = pd.read_csv(url,index_col=0,thousands=',')
df

In [None]:
# print(df['Length (Duration)'].values)
df.dtypes

In [None]:
generos = df['Top Genre'].unique()
print(f"Hay {len(generos)} g√©neros √∫nicos:")
print(generos)

In [None]:
df.describe()

A manera de an√°lisis exploratorio, veamos las correlaciones entre variables, ¬øqu√© observamos?

In [None]:
from seaborn import heatmap
import matplotlib.pyplot as plt

correlaciones = df.iloc[:,3:].corr()
heatmap(correlaciones)
plt.show()

Dado que algunos m√©todos de clustering son susceptibles a la escala de valores, hacemos un escalamiento.

In [None]:
from sklearn.preprocessing import MinMaxScaler


df2 = df[["Beats Per Minute (BPM)", "Loudness (dB)",
              "Liveness", "Valence", "Acousticness",
              "Speechiness"]].copy()

scaler = MinMaxScaler()
df2[df2.columns] = scaler.fit_transform(df2[df2.columns])
X = df2.values

df2.head(3)

In [None]:
df2.describe()

Usamos K-means para segmentar en 10 grupos

In [None]:
from sklearn.cluster import KMeans

modelo = KMeans(n_clusters=10, n_init='auto')

modelo.fit(X)
clusters = modelo.labels_

print(f"Las primeras 10 etiquetas: {clusters[:10]}")

Integramos la informaci√≥n de los clusters al dataframe original.

In [None]:
df["Music Segments"] = clusters
df["Music Segments"] = df["Music Segments"].map({0: "Cluster 1", 1:
    "Cluster 2", 2: "Cluster 3", 3: "Cluster 4", 4: "Cluster 5",
    5: "Cluster 6", 6: "Cluster 7", 7: "Cluster 8",
    8: "Cluster 9", 9: "Cluster 10"})
df.head(5)

Observemos un cluster

In [None]:
cluster = 'Cluster 3'

df[df['Music Segments']==cluster][['Artist','Title','Top Genre','Year']]

Podemos ver los artistas en este cluster

In [None]:
df[df['Music Segments']==cluster]['Artist'].unique()

Graficamos usando solamente 3 features. Usamos el m√≥dulo [plotly](https://plotly.com/python/) para gr√°ficas interactivas.

Otra alternativa es [Bokeh](https://bokeh.org/).

In [None]:
import plotly.graph_objects as go

PLOT = go.Figure()

for i in list(df["Music Segments"].unique()):
    PLOT.add_trace(go.Scatter3d(x = df[df["Music Segments"]==i]['Beats Per Minute (BPM)'],
                                    y = df[df["Music Segments"] ==i]['Energy'],
                                    z = df[df["Music Segments"] ==i]['Danceability'],
                                    mode = 'markers',marker_size = 6, marker_line_width = 1,
                                    name = str(i)))
PLOT.update_traces(hovertemplate='Beats Per Minute (BPM): %{x} <br>Energy: %{y} <br>Danceability: %{z}')

PLOT.update_layout(width = 800, height = 800, autosize = True, showlegend = True,
                   scene = dict(xaxis=dict(title = 'Beats Per Minute (BPM)', titlefont_color = 'black'),
                                yaxis=dict(title = 'Energy', titlefont_color = 'black'),
                                zaxis=dict(title = 'Danceability', titlefont_color = 'black')),
                   font = dict(family = "Arial", color  = 'black', size = 12))

PLOT.show()

Usando s√≥lo dos dimensiones:

In [None]:
plt.figure(dpi=120)
for segment in df["Music Segments"].unique():
    plt.scatter(x = df[df["Music Segments"]==segment]['Beats Per Minute (BPM)'],
                y = df[df["Music Segments"] ==segment]['Energy'])
plt.show()

In [None]:
plt.figure(dpi=120)
for segment in df["Music Segments"].unique():
    plt.scatter(x = df[df["Music Segments"]==segment]['Danceability'],
                y = df[df["Music Segments"] ==segment]['Energy'])
plt.show()

In [None]:
from sklearn.metrics import silhouette_score

print(f"Score de silueta: {silhouette_score(X,clusters)}")

‚≠ï Preguntas:
* Siendo K-Means, ¬øpor qu√© se no se ve la separaci√≥n perfecta?

‚≠ï Ejercicio 1. Continuando con este m√©todo de K-Means:
* ¬øQu√© valor de K es mejor? Puedes usar cualquiera de los 3 criteros de arriba, empezando por el *elbow value*.
* Una vez que hayas escogido un valor para $K$, reportar los valores de las m√©tricas de clustering: score de Silueta, [Calinski-Harabasz Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score) y [Davies-Bouldin Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score).

‚≠ï Ejercicio 2:

* Repetir el experimento, ahora usando Agglomerative Clustering y DBSCAN.
* ¬øPuedes elevar las m√©tricas de clustering? Considera las m√©tricas score de Silueta y [Davies-Bouldin Index](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score).
* Explora visualmente algunas canciones de los clusters, ¬øtiene sentido el agrupamiento?

# Ejemplo 3: `20newsgroups`

Retomamos el corpus de documentos `20newsgroups`. Realizaremos un clustering en las representaciones de los documentos para ver qu√© documentos se agrupan juntos.

Este dataset se encuentra disponible en sklearn, [documentaci√≥n](https://scikit-learn.org/0.19/modules/generated/sklearn.datasets.fetch_20newsgroups.html#sklearn.datasets.fetch_20newsgroups).

In [None]:
#@title Descargamos el dataset
from sklearn.datasets import fetch_20newsgroups
import numpy as np

data_full = fetch_20newsgroups(remove=('headers', 'footers', 'quotes'),
                               categories=['soc.religion.christian','sci.space','rec.autos'])

In [None]:
docs = data_full.data
print(f"N√∫mero de documentos: {len(docs)}")
topics = data_full.target
print(f"N√∫mero de t√≥picos: {np.unique(topics).shape[0]}")

In [None]:
docs[:2]

## Representaciones *term-document* y *tf-idf*

Hemos visto que los documentos se pueden representar por medio de vectores *sparse* cuyas componentes son conteos de las apariciones de ciertas palabras. Es decir, el modelo **BOW** (bag of words).

Otra forma parecida de representar documentos es por medio de vectores cuyas componentes ahora representan √≠ndices *tf-idf* (term frequency - inverse document frequency). Estas tienen la ventaja de restar importancia a palabras que aparecen en muchos documentos.

Para un corpus $D$ de documentos, el √≠ndice $tfidf$ de un t√©rmino $t$ en un documento $d$ se calcula como

$$tfidf(t,d,D)=tf(t,d)idf(t,D)$$

donde

$$tf(t,d)=\frac{f_{t,d}}{\sum_{s\in d}f_{s,d}}$$

$$idf(t,D)=\log\frac{N}{|\{d\in D : t\in d\}|}$$

$f_{t,d}$ es el n√∫mero de ocurrencias de un t√©rmino $t$ en un documento $d$, $N$ es el n√∫mero de documentos en $D$.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer


corpus = [
        'This is the first document.',
        'This document is the second document.',
        'And this is the third one.',
        'Is this the first document?',
        ]

tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(corpus)
print(f"Vocabulario:\n{tfidf_vectorizer.get_feature_names_out()}")
print(f"Es una matriz sparse:\n{X_tfidf}")
print(f"Primeras tres columnas:\n{X_tfidf.todense()[:,:3]}")

Recordemos el modelo **BOW**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer()
X_counts = count_vectorizer.fit_transform(corpus)
print(f"El vocabulario:\n{count_vectorizer.get_feature_names_out()}")
print(f"Las primeras tres columnas:\n{X_counts.todense()[:,:3]}")

## Clustering

Traemos la funci√≥n para limpiar texto de hace algunas sesiones

In [None]:
url = "https://raw.githubusercontent.com/DCDPUAEM/DCDP/main/03%20Machine%20Learning/data/limpiador_texto.py"
!wget --no-cache --backups=1 {url}

In [None]:
from nltk import download

download('stopwords')
download('punkt')

In [None]:
from limpiador_texto import preprocesar_textos

clean_docs = preprocesar_textos(docs)

Realizamos el clustering con las dos representaciones y calculamos las m√©tricas de rendimiento del clustering.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_mutual_info_score, adjusted_rand_score, silhouette_score


vectorizer = TfidfVectorizer(stop_words='english',
                             max_features=200)
X_tfidf = vectorizer.fit_transform(docs)
# X_tfidf = vectorizer.fit_transform(clean_docs)
print(X_tfidf.shape)

clustering = KMeans(n_clusters=3, n_init='auto')
clustering.fit(X_tfidf)
clusters = clustering.labels_

print(f"AMI: {adjusted_mutual_info_score(topics,clusters)}")
print(f"AR: {adjusted_rand_score(topics,clusters)}")
print(f"Silhoutte del clustering obtenido: {silhouette_score(X_tfidf,clusters)}")
print(f"Silhoutte de los t√≥picos: {silhouette_score(X_tfidf,topics)}")

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_mutual_info_score, adjusted_rand_score, silhouette_score


vectorizer = CountVectorizer(stop_words='english',
                             max_features=200)
# X_counts = vectorizer.fit_transform(docs)
X_counts = vectorizer.fit_transform(clean_docs)
print(X_counts.shape)

clustering = KMeans(n_clusters=3, n_init='auto',random_state=57)
clustering.fit(np.asarray(X_counts.todense()))
clusters_counts = clustering.labels_

print(f"AMI: {adjusted_mutual_info_score(topics,clusters_counts)}")
print(f"AR: {adjusted_rand_score(topics,clusters_counts)}")
print(f"Silhoutte del clustering obtenido: {silhouette_score(np.asarray(X_counts.todense()),clusters_counts)}")
print(f"Silhoutte de los t√≥picos: {silhouette_score(np.asarray(X_counts.todense()),topics)}")

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_mutual_info_score, adjusted_rand_score, silhouette_score
from sklearn.decomposition import PCA


vectorizer = CountVectorizer(stop_words='english',
                             max_features=200)
# X_counts = vectorizer.fit_transform(docs)
X_counts = vectorizer.fit_transform(clean_docs)
print(X_counts.shape)

pca = PCA(svd_solver='auto',n_components=30)
X_pca = pca.fit_transform(np.asarray(X_counts.todense()))
print(X_pca.shape)

clustering = KMeans(n_clusters=3, n_init='auto',random_state=57)
clustering.fit(np.asarray(X_pca))
clusters_counts = clustering.labels_

print(f"AMI: {adjusted_mutual_info_score(topics,clusters_counts)}")
print(f"AR: {adjusted_rand_score(topics,clusters_counts)}")
print(f"Silhoutte del clustering obtenido: {silhouette_score(X_pca,clusters_counts)}")
print(f"Silhoutte de los t√≥picos: {silhouette_score(X_pca,topics)}")

Podr√≠amos explorar el comportamiento del par√°metro `n_clusters` usando los criterios de intertia y silhoutte.

In [None]:
import matplotlib.pyplot as plt

sils = []
inertias = []

for n in range(2,20):
    clustering = KMeans(n_clusters=n, n_init='auto')
    clustering.fit(np.asarray(X_counts.todense()))
    # sil = silhouette_score(np.asarray(X_counts.todense()),clustering.labels_)
    # sils.append(sil)
    inertias.append(clustering.inertia_)


plt.plot(list(range(2,20)),inertias)
plt.show()

## Exploraci√≥n de los clusters

Podemos probar algunas t√©cnicas adicionales para explorar los clusters

In [None]:
!pip install -qq wordcloud

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

fig, axs = plt.subplots(nrows=1,ncols=3,figsize=(15,10),dpi=100)
for k,ax in enumerate(axs):
    cluster_text = " ".join([clean_docs[j] for j,cluster in enumerate(clusters_counts) if cluster==k])
    wc = WordCloud().generate(cluster_text)
    ax.set_title(f"Cluster {k}")
    ax.imshow(wc, interpolation='bilinear')
    ax.set_xticks([])
    ax.set_yticks([])
fig.show()

Imprimimos algunos documentos en cada cluster

In [None]:
np.random.seed(43)

for k in range(3):
    docs_in_cluster = [clean_docs[j] for j,cluster in enumerate(clusters_counts) if cluster==k]
    print(f"Cluster {k} {20*'-'}")
    print(f"N√∫mero de documentos en el cluster: {clusters_counts[clusters_counts==k].shape[0]}")
    some_docs = np.random.choice(docs_in_cluster,size=3)
    print(some_docs)

‚≠ï **Ejercicio**

Repite el experimento variando el par√°metro `max_features` de los vectorizadores para ver si puedes subir las m√©tricas de rendimiento y obtener una mejor separaci√≥n de t√≥picos, esto hazlo *visualmente* (usando las nubes de palabras y algunos documentos).

Usa los dos vectorizadores
