# AGRUPAMIENTO CONOCIDO

Para la primera parte de la actividad, en la que se analizará un conjunto de datos con agrupamiento conocido, se ha decidido utilizar uno de los datasets sintéticos proporcionados. El objetivo principal será el demostrar, aprovechando las particularidades tan marcadas del dataset, como la tipología de los datos afecta a la efectividad de los distintos métodos de agrupamiento.<br>

En el caso del dataset escogido "dataset_cuatro_diferente_densidad" la particularidad más marcada es la diferencia de densidades entre los distintos agrupamientos, lo que, como se podrá comprobar, pondrá en serias dificultades algunos de los algoritmos analizados. Si se hubieran escogido otros datos, los resultados habrían variado significativamente.

In [None]:
# Se importan las distintas librerías que se usarán durante la actividad
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn
from sklearn.cluster import KMeans
from sklearn.metrics import confusion_matrix

# Se declaran un grupo de funciones de evaluación intrínsecas que se utilizaran más adelante
def medida_error(mat):
    assign = np.sum([np.max(mat[l,:]) for l in np.arange(mat.shape[0])])
    return 1 - assign / float(np.sum(mat))

def medida_pureza(mat):
    totales = np.sum(mat,0)/float(np.sum(mat))
    return np.sum([totales * np.max(mat[:,k]/float(np.sum(mat[:,k]))) for k in np.arange(mat.shape[1])])

def medida_precision(mat, l, k):
    return mat[l,k]/float(np.sum(mat[:,k]))

def medida_recall(mat, l, k):
    return mat[l,k]/float(np.sum(mat[l,:]))

def medida_f1_especifica(mat, l, k):
    prec = medida_precision(mat, l, k)
    rec = medida_recall(mat, l, k)
    if (prec+rec)==0:
        return 0
    else:
        return 2 * prec * rec / (prec + rec)

def medida_f1(mat):
    totales = np.sum(mat,1)/float(np.sum(mat))
    assign = np.sum([totales[l] * np.max([medida_f1_especifica(mat, l, k) 
                                          for k in np.arange(mat.shape[1])]) 
                     for l in np.arange(mat.shape[0])])
    return assign

def medida_entropia(mat):
    totales = np.sum(mat,0)/float(np.sum(mat))
    relMat = mat/np.sum(mat,0)
    logRelMat = relMat.copy()
    logRelMat[logRelMat==0]=0.0001 # Evita el logaritmo de 0. Inofensivo pues luego desaparece al multiplicar por 0
    logRelMat = np.log(logRelMat)
    return -np.sum([totales[k] * np.sum([relMat[l,k]*logRelMat[l,k] 
                                         for l in np.arange(mat.shape[0])]) 
                    for k in np.arange(mat.shape[1])])

# Se declara la función que se utilizará para comprobar los resultados de los distintos agrupamientos 
def intrinsic_evaluation(Dy_t, Dy_p):
    conf_matrix = confusion_matrix(Dy_t, Dy_p)
    entropy = medida_entropia(conf_matrix)
    purity = medida_pureza(conf_matrix)
    f1 = medida_f1(conf_matrix)
    df_cm = pd.DataFrame(conf_matrix)
    plt.figure(figsize = (10,7))
    plt.title('Pureza: '  + str(round(purity, 4)) + '  F1: ' + str(round(f1, 4)) + '  Entropía: ' + str(round(entropy, 4)),
              fontdict={'fontsize':20})
    sn.heatmap(df_cm, annot=True, cmap="Blues")

# k-means++

Como representante de agrupamiento basado en particiones se ha escogido **k-means++**, máximo representante de este tipo de agrupamiento y del clustering en general (con sus variaciones).

In [None]:
# Si se quiere asegurar la reproducibilidad de la práctica se fija la semilla aleatoria
# Sin embargo, si lo que se busca es simular una situación real puede ser más interesante evaluar múltiples casuísticas con
# inicializaciones distintas.
np.random.seed(17)

data_file_url = 'https://raw.githubusercontent.com/jhernandezgonzalez/unsupervisedlearning/master/datasets/sinteticos/dataset_cuatro_diferente_densidad.csv'
D = np.array(pd.read_csv(data_file_url,header=0))
Dx = D[:,0:2]
Dy = D[:,2]

print('El dataset cargado tiene',Dx.size,'instancias.')

fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(Dx[:,0],Dx[:,1], c=Dy)

*El primer paso que se realizará es la detección del número óptimo de clusters. Para ello se utilizarán dos medidas de evaluación intrínseca (ancho de silueta y índice de Calinski-Harabasz) y el procedimiento del codo.*<br>

*En este estudio se utilizaran principalmente estas 2 medidas intrínsecas para la parametrización debido a que no sufren demasiado por intentar evaluar clusters con distintas densidades*

In [None]:
# Compruebo que 4 es un buen número de clústers
from sklearn.metrics import silhouette_score, calinski_harabaz_score

rsilueta = np.zeros(9)
rcalinski = np.zeros(9)

for k in np.arange(2,11):
    modelo = KMeans(n_clusters=k, init='k-means++')
    modelo = modelo.fit(Dx)
    Dyp_sk = modelo.predict(Dx)
    cDx_sk = modelo.cluster_centers_
    rsilueta[k-2] = silhouette_score(Dx, Dyp_sk)
    rcalinski[k-2] = calinski_harabaz_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
ax.plot( np.arange(2,11), rsilueta, linestyle='-', marker='o')
ax.set_xlabel("Número de clústeres")
ax.set_ylabel("Medida de ancho de silueta")

fig, ax = plt.subplots(figsize=(15,5))
ax.plot( np.arange(2,11), rcalinski, linestyle='-', marker='o')
ax.set_xlabel("Número de clústeres")
ax.set_ylabel("Medida de Calinski-Harabasz")

*Si se observan las medidas de ancho de silueta para las distintas cantidades de clusters se puede ver el cambio de pendiente anunciado por la regla del codo en k=4. A su vez, la mejor medida de Calinski-Harabasz también se encuentra en k=4 por lo que se escoge este número de clusters.*

In [None]:
# Se inicializa KMeans con el número de clústeres a buscar
modelo = KMeans(n_clusters=4, init='k-means++')
# Se aprende el 
modelo = modelo.fit(Dx)
# Se predicen los clusters
Dyp_sk = modelo.predict(Dx)
# Se obtienen los centros de los clústeres
cDx_sk = modelo.cluster_centers_

In [None]:
# Los centros de los clusters se encuentran en
print(cDx_sk)

In [None]:
# Se muestra el resultado de las asignaciones finales
fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(Dx[:,0],Dx[:,1], c=Dyp_sk)
ax.scatter(cDx_sk[:,0],cDx_sk[:,1], marker='*', s=200, c='r')

*Finalmente se aplican las distintas medidas intrínsecas para evaluar el comportamiento del algoritmo.*

In [None]:
# Debido a que los valores de los clusteres reales van de 1 a 4 y que los calculados van de 0 a 3,
# se aplica un factor de corrección para calcular la matriz de confusión.
intrinsic_evaluation(Dy-[1], Dyp_sk)

*Se puede observar que los resultados del algoritmo son muy buenos debido a que los datos se adaptan perfectamente a un agrupamiento por particiones.*

# Clustering Jerárquico Aglomerativo

Como ejemplo de agrupamiento jerárquico se utilizará la aproximación aglomerativa debido a que hasta el momento la divisiva raramente se utiliza en aplicaciones reales.

In [None]:
from scipy.cluster.hierarchy import linkage, fcluster, cut_tree, dendrogram

# Se generan 3 modelos utilizando los distintos tipos de cálculo de disimilitud intercluster estudiados en clase
modelo_single = linkage(Dx, 'single')   # disimilitud mínima
modelo_completo = linkage(Dx, 'complete') # disimilitud máxima
modelo_average = linkage(Dx, 'average')  # disimilitud media

plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_single)
plt.show()

plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_completo)
plt.show()

plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_average)
plt.show()

*En este caso se compararán las tres disimilitudes estudiadas en clase y por ello fijaremos el número de clusters en 4, como se ha podido ver en el anterior apartado.*<br>

*Para empezar se muestran visualmente los resultados.*

In [None]:
plt.scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo_single, n_clusters=4).flatten())
plt.show()

*No funciona muy bien. Los puntos amarillo y verde los considera un clúster y no logra separar.*

In [None]:
plt.scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo_completo, n_clusters=4).flatten())
plt.show()

*No funciona muy bien. Divide el cluster inferior de la derecha antes que los de la izquierda*

In [None]:
plt.scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo_average, n_clusters=4).flatten())
plt.show()

*No funciona muy bien. El punto amarillo lo considera un clúster y no logra separar el de la izquierda.*

*En los dos últimos ejemplos parecería que si se aumentara el número de clusters el resultado podría ser mejor. Se ha probado y no es así, el algoritmo tiende a dividir los clusters de la derecha en más partes antes que los dos de la izquierda.*

In [None]:
# La siguiente función llega a los mismos resultados 
#def plot_varios(Dx,Dy,K):
#    fig, ax = plt.subplots(1,4, figsize=(20,5))
#    ax[0].scatter(Dx[:,0], Dx[:,1], c=Dy)
#    ax[0].set_title('Datos originales')

#    modelo = linkage(Dx, 'single')
#    ax[1].scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo, n_clusters = K).flatten())
#    ax[1].set_title('Disimilitud mínima')
    
#    modelo = linkage(Dx, 'complete')
#    ax[2].scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo, n_clusters = K).flatten())
#    ax[2].set_title('Disimilitud máxima')
    
#    modelo = linkage(Dx, 'average')
#    ax[3].scatter(Dx[:,0], Dx[:,1], c=cut_tree(modelo, n_clusters = K).flatten())
#    ax[3].set_title('Disimilitud media')

In [None]:
#plot_varios(Dx,Dy,4) # Ninguna distancia funciona muy bien

In [None]:
# Se utiliza el modelo que ha devuelto mejores resultados (modelo_average) para la evaluación intrínseca. 
intrinsic_evaluation(Dy-[1], cut_tree(modelo_average, n_clusters=4).flatten())

*En este caso las medidas son significativamente que para Kmeans++. La poca densidad del cluster de arriba a la derecha contra la gran proximidad de los de la izquierda hacen que los algoritmos jerárquicos no sean una buena opción.*

# Agrupamiento Espectral

Como caso paradigmático de agrupamiento espectral se utilizará un grafo con K vecinos más cercanos y una laplaciana normalizada (utilizada en la función SpectralClustering de sklearn).<br>

Para empezar, buscamos el número óptimo de vecinos para el KNN.

In [None]:
from sklearn.cluster import SpectralClustering

rSpectral_cal = {}
rSpectral_sil = {}
for K in np.arange(2,9):
    for knn in np.arange(7,20,1):
        modelo = SpectralClustering(n_clusters = K, 
                                    affinity = 'nearest_neighbors', n_neighbors = knn,
                                    random_state = 0)
        Dyp_sk = modelo.fit_predict(Dx)
        rSpectral_cal[str(K) + '_' + str(knn)] = calinski_harabaz_score(Dx, Dyp_sk)
        rSpectral_sil[str(K) + '_' + str(knn)] = silhouette_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rSpectral_cal.keys(), rSpectral_cal.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Nº clusters-Vecinos)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rSpectral_sil.keys(), rSpectral_sil.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Nº clusters-Vecinos)")
ax.set_ylabel("Medida de ancho de silueta")

*Se observa que para pocos vecinos el algoritmo no es capaz de crear un grafo totalmente conectado.*<br>

*También se ve que de 18 vecinos en adelante, en ningún caso el algoritmo no mejora.*<br>

*Se provaran dos configuraciones, 2 clusters y 12 vecinos (el resultado sería el mismo pero con menos vecinos el grafo no queda conectado) y 4 clusters y 15 vecinos.*

In [None]:
fig, ax = plt.subplots(1,2, figsize=(20,5))

clustering_2_12 = SpectralClustering(n_clusters = 2, 
                                affinity = 'nearest_neighbors', n_neighbors = 12,
                                random_state = 0).fit(Dx)
ax[0].scatter(Dx[:,0], Dx[:,1], c=clustering_2_12.labels_)
ax[0].set_title('2 Clusters con 12 vecinos')
    
clustering_4_15 = SpectralClustering(n_clusters = 4, 
                                affinity = 'nearest_neighbors', n_neighbors = 15,
                                random_state = 0).fit(Dx)
ax[1].scatter(Dx[:,0], Dx[:,1], c=clustering_4_15.labels_)
ax[1].set_title('4 Clusters con 15 vecinos')
    

In [None]:
# Se utiliza el modelo con K=2 y knn=12 visto arriba
intrinsic_evaluation(Dy-[1], clustering_2_12.fit_predict(Dx).flatten())

In [None]:
# Se utiliza el modelo con K=4 y knn=15 visto arriba
intrinsic_evaluation(Dy-[1], clustering_4_15.fit_predict(Dx).flatten())

# Agrupamiento basado en densidad - DBSCAN

En el caso del agrupamiento basado en densidad, al haber visto tres métodos con propiedades significativamente distintas se ha decidido aplicar los 3 y realizar ajuste de parámetros hasta llegar a la mejor solución posible

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.metrics.pairwise import euclidean_distances

rDBSCAN_cal = {}
rDBSCAN_sil = {}
for M in np.arange(4,20,2):
    for eps in np.arange(4,20,2):
        modelo = DBSCAN(eps=eps, min_samples=M)
        Dyp_sk = modelo.fit_predict(Dx)
        rDBSCAN_cal[str(M) + '_' + str(eps)] = calinski_harabaz_score(Dx, Dyp_sk)
        rDBSCAN_sil[str(M) + '_' + str(eps)] = silhouette_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rDBSCAN_cal.keys(), rDBSCAN_cal.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Vecinos-Rango)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rDBSCAN_sil.keys(), rDBSCAN_sil.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Vecinos-Rango)")
ax.set_ylabel("Medida de ancho de silueta")

In [None]:
eps = 12
M = 12
clustering = DBSCAN(eps=eps, min_samples=M).fit(Dx)

# Mostrar resultados
fig, ax = plt.subplots(1,2,figsize=(20,5))
ax[0].scatter(Dx[:,0], Dx[:,1], c= Dy)
ax[1].scatter(Dx[:,0], Dx[:,1], c = clustering.labels_)

*Se observa que ni en el mejor caso se llega a un clustering medianamente aceptable. El algoritmo solo consigue detectar 2 clústers y una gran cantidad de puntos de ruido. Esto es debido a que DBSCAN no es ni mucho menos el más adecuado para clasificar clusters con densidades distintas.*

# Agrupamiento basado en densidad - Mean Shift

In [None]:
# Variando h (bandwidth) solo consigue separar en 3 clusters, no 4
from sklearn.cluster import MeanShift

rMeanShift_cal = {}
rMeanShift_sil = {}
for bwd in np.arange(4,81,4):
    modelo = MeanShift(bandwidth = bwd, n_jobs=4)
    Dyp_sk = modelo.fit_predict(Dx)
    rMeanShift_cal[bwd] = calinski_harabaz_score(Dx, Dyp_sk)
    rMeanShift_sil[bwd] = silhouette_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rMeanShift_cal.keys(), rMeanShift_cal.values(), linestyle='-', marker='o')
ax.set_xlabel("Bandwidth")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rMeanShift_sil.keys(), rMeanShift_sil.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Vecinos-Rango)")
ax.set_ylabel("Medida de ancho de silueta")


In [None]:
clustering = MeanShift(bandwidth = 30).fit(Dx)

# Mostrar resultados
fig, ax = plt.subplots(1,2,figsize=(20,5))
ax[0].scatter(Dx[:,0], Dx[:,1], c = Dy)
ax[1].scatter(Dx[:,0], Dx[:,1], c = clustering.labels_)

# Agrupamiento basado en densidad - Affinity Propagation

In [None]:
# Función que se utilizará para pintar las relaciones entre los representates finales y sus representados en cada cluster
def dibujar_clusteringAP(modelo):
    fig = plt.figure(figsize=(10, 5))

    ncentros = modelo.cluster_centers_indices_.size
    colores = 'bgrcmyk'

    for k in np.arange(ncentros):
        kc = k % len(colores)

        centro = Dx[modelo.cluster_centers_indices_[k],:]
        miembros_cluster = np.where(modelo.labels_ == k)[0]

        plt.scatter(Dx[miembros_cluster, 0], Dx[miembros_cluster, 1], c=colores[kc], s=3)
        for i in miembros_cluster:
            plt.plot([centro[0], Dx[i,0]], [centro[1], Dx[i,1]], c = colores[kc])

    plt.scatter(Dx[modelo.cluster_centers_indices_,0], Dx[modelo.cluster_centers_indices_,1], 
                s=50, c = 'black')

    plt.title('Núm. clústeres: %s' % ncentros)
    plt.show()

In [None]:
# He tenido que pasar un buen rato modificando el factor de aprendizaje y las preferencias hasta obtener 4 clusters
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.cluster import AffinityPropagation

mSimilitud = euclidean_distances(Dx)
mSimilitud = -mSimilitud**2

rAffinity_cal = {}
rAffinity_sil = {}

for pref in np.arange(100,200,10):
    for factor in np.arange(0.71,0.95,0.04):
        preferencia = np.median(mSimilitud) * pref
        np.fill_diagonal(mSimilitud, preferencia)
        modelo = AffinityPropagation(preference=preferencia, damping=factor)
        Dyp_sk = modelo.fit_predict(Dx)
        # Condición para parar la iteración
        if np.max(Dyp_sk) == -1:
            print("Error: pref: %d, factor: %f ",(pref,factor))
            break
        rAffinity_cal[str(pref) + '_' + str(factor)] = calinski_harabaz_score(Dx, Dyp_sk)
        rAffinity_sil[str(pref) + '_' + str(factor)] = silhouette_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rAffinity_cal.keys(), rAffinity_cal.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Preferencia-Factor)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(rAffinity_sil.keys(), rAffinity_sil.values(), linestyle='-', marker='o')
ax.set_xlabel("Parámetros (Preferencia-Factor)")
ax.set_ylabel("Medida de ancho de silueta")

In [None]:
## /REVISAR/ Comento esto que creo que hay que borrarlo
# clustering = AffinityPropagation(preference=preferencia, damping=factor).fit(Dx)

In [None]:
## /REVISAR/ Comento esto que creo que hay que borrarlo
# dibujar_clusteringAP(clustering)

# Mixtura de Gaussianas y algoritmo EM

In [None]:
from sklearn.mixture import GaussianMixture

def matriz_confusion(cat_real, cat_pred):
    cats = np.unique(cat_real)
    clusts = np.unique(cat_pred)
    mat = np.array([[np.sum(np.logical_and(cat_real==cats[i], cat_pred==clusts[j])) 
                     for j in np.arange(clusts.size)] 
                    for i in np.arange(cats.size)])
    return(mat)


def medida_error(mat):
    assign = np.sum([np.max(mat[l,:]) for l in np.arange(mat.shape[0])])
    return 1 - assign / float(np.sum(mat))

def medida_pureza(mat):
    totales = np.sum(mat,0)/float(np.sum(mat))
    return np.sum([totales[k] * np.max(mat[:,k]/float(np.sum(mat[:,k]))) for k in np.arange(mat.shape[1])])

def medida_precision(mat, l, k):
    return mat[l,k]/float(np.sum(mat[:,k]))

def medida_recall(mat, l, k):
    return mat[l,k]/float(np.sum(mat[l,:]))

def medida_f1_especifica(mat, l, k):
    prec = medida_precision(mat, l, k)
    rec = medida_recall(mat, l, k)
    if (prec+rec)==0:
        return 0
    else:
        return 2*prec*rec/(prec+rec)

def medida_f1(mat):
    totales = np.sum(mat,1)/float(np.sum(mat))
    assign = np.sum([totales[l] * np.max([medida_f1_especifica(mat, l, k) 
                                          for k in np.arange(mat.shape[1])]) 
                     for l in np.arange(mat.shape[0])])
    return assign

# Se inicializa el método con el número de clústeres (componentes) a buscar
modelo = GaussianMixture(n_components = 4, max_iter = 200)
# Se aprende el modelo
modelo = modelo.fit(Dx)
# Se predicen las asignaciones a clústeres
Dyp_sk = modelo.predict(Dx)

# Medimos el rendimiento del algoritmo de ScikitLearn
mC_sk = matriz_confusion(Dy,Dyp_sk)

print('Matriz de confusión:')
print(mC_sk)
print('El valor del error cometido es = ', medida_error(mC_sk))
print('La pureza del agrupamiento obtenido es = ', medida_pureza(mC_sk))
print('El valor F1 es = ', medida_f1(mC_sk))


In [None]:
# Mostrar resultados. Parece funcionar bien, pero hay algunos puntos que no se asignan correctamente
fig, ax = plt.subplots(1,2,figsize=(20,5))
ax[0].scatter(Dx[:,0], Dx[:,1], c = Dy)
ax[1].scatter(Dx[:,0],Dx[:,1], c=Dyp_sk)
ax[0].set_title('Datos originales')
ax[1].set_title('Algoritmo EM')

# AGRUPAMIENTO NO CONOCIDO

In [None]:
import io
import requests
from pprint import pprint

# DATASET DE AUTOS_MPG DE UCI
url_autos = 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'
data_names = ['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','car name']

response=requests.get(url_autos).content
ds_autos=pd.read_csv(io.StringIO(response.decode('utf-8')),delim_whitespace=True,header=None, names = data_names,na_values='?')

# Limpieza de las instancias con valores nulos
ds_autos = ds_autos.dropna()

# EJEMPLO DE DATOS
ds_autos.sample(5)

In [None]:
# ESTADÍSTICA DEL DATASET
ds_autos.describe()

In [None]:
# Correlación entre las columnas
ds_autos.corr()

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Transformación a array de numpy eliminando el modelo del coche, origen y año
D = np.array(ds_autos)[:,:-3]

# Normalizamos los valores
scaler = MinMaxScaler()
scaler.fit(D)
# Dx contiene los datos normalizados
Dx = scaler.transform(D)

# Guardamos los nombres de las columnas
columHeaders = ds_autos.columns.values[:-3]

Dx

## K-means++

In [None]:
# Comprobación de número de clusters adecuados
rsilueta = np.zeros(9)
rcalinski = np.zeros(9)

for k in np.arange(2,11):
    modelo = KMeans(n_clusters=k)
    modelo = modelo.fit(Dx)
    Dyp_sk = modelo.predict(Dx)
    cDx_sk = modelo.cluster_centers_
    rsilueta[k-2] = silhouette_score(Dx, Dyp_sk)
    rcalinski[k-2] = calinski_harabaz_score(Dx, Dyp_sk)

fig, ax = plt.subplots(figsize=(15,5))
ax.plot( np.arange(2,11),rsilueta, linestyle='-', marker='o')
ax.set_xlabel("Número de clústeres")
ax.set_ylabel("Medida de ancho de silueta")

fig, ax = plt.subplots(figsize=(15,5))
ax.plot( np.arange(2,11), rcalinski, linestyle='-', marker='o')
ax.set_xlabel("Número de clústeres")
ax.set_ylabel("Medida de Calinski-Harabasz")


### Resultado

Con esta técnica vemos que el número de $k$ apropiado parce estar entre $k=2$ o $k=3$

In [None]:
from sklearn.metrics import silhouette_samples
from mpl_toolkits.mplot3d import Axes3D

# función para dibujar la silueta
def plot_silhouettes(X, y):
    cluster_labels = np.unique(y)
    n_clusters = cluster_labels.shape[0]
    silhouette_vals = silhouette_samples(X, y, metric='euclidean')
    y_ax_lower = 0
    y_ax_upper = 0
    yticks = []
    for i, c in enumerate(cluster_labels):
        c_silhouette_vals = silhouette_vals[y == c]
        c_silhouette_vals.sort()
        y_ax_upper += len(c_silhouette_vals)
#         color = cm.jet(i / n_clusters)
        plt.barh(
            range(y_ax_lower, y_ax_upper),
            c_silhouette_vals,
            height=1.0,
            edgecolor='none'
        )
        yticks.append((y_ax_lower + y_ax_upper) / 2)
        y_ax_lower += len(c_silhouette_vals)

    silhouette_avg = np.mean(silhouette_vals)
    plt.axvline(silhouette_avg, color='red', linestyle='--')

    plt.yticks(yticks, cluster_labels + 1)
    plt.ylabel('Cluster')
    plt.xlabel('Silhouette coefficient')

    plt.show() 

def mostrarAtributosRelevantes(Dx, Y):
    model = ExtraTreesClassifier()
    model.fit(X,Y)
    
    df = pd.DataFrame([[x, model.feature_importances_[x], columHeaders[x]] for x in range(len(columHeaders))],columns=['indice','importancia','atributo'])
    
    variables = df.sort_values('importancia',ascending=False).iloc[0:3]    
    
    fig, ax = plt.subplots(figsize=(15,5))
    ax.bar(columHeaders,model.feature_importances_)
    ax.set_title('Relevancia de variables para K ='+ str(len(set(Y))))
    
    x_param = variables.iloc[0,0]
    y_param = variables.iloc[1,0]
    z_param = variables.iloc[2,0]
    
    x_label = columHeaders[x_param]
    y_label = columHeaders[y_param]
    z_label = columHeaders[z_param]
    
    fig = plt.figure(figsize=(10,10))
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(D[:,x_param],D[:,y_param], D[:,z_param], c = Y)

    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)
    ax.set_zlabel(z_label)

### Observación de resultados gráficos

Intentamos sacar las variables más representativas del clasificador que parecen ser los cilindros y el desplazamiento.

A medida que aumentamos el número de $k$ el valor de los parámetros para el algoritmo se va igualando

In [None]:
from sklearn.metrics import mutual_info_score, silhouette_score, calinski_harabaz_score
from sklearn.ensemble import ExtraTreesClassifier

# Cambio la salida por consola de los números
np.set_printoptions(formatter={"float_kind": lambda x: "%g" % x})


rKM_cal = {}
rKM_sil = {}

fig, ax = plt.subplots(5,2,figsize=(20,50))
# ax[1].scatter(Dx[:,2],Dx[:,4], c=Dyp_sk)  

aux_graphf = 0
aux_graphc = 0

# Se inicializa KMeans con el número de clústeres a buscar
for nClusters in range(2,7):
    modelo = KMeans(n_clusters=nClusters)
    # Se aprende el 
    modelo = modelo.fit(Dx)
    # Predicting the clusters
    Dyp_sk = modelo.predict(Dx)
    result = modelo.labels_
    # Obtener los centros de los clústeres
    cDx_sk = modelo.cluster_centers_
    
    # Extracción de variables relevantes
    model = ExtraTreesClassifier()
    model.fit(Dx,Dyp_sk)

    ax[aux_graphf,0].bar(columHeaders,model.feature_importances_)
    ax[aux_graphf,0].set_title('K = ' + str(nClusters))
    
    ax[aux_graphf,1].scatter(Dx[:,1], Dx[:,2], c = Dyp_sk)
    ax[aux_graphf,1].set_title('K = ' + str(nClusters))
    ax[aux_graphf,1].set_xlabel("cylinders")
    ax[aux_graphf,1].set_ylabel("displacement")
    
    aux_graphf += 1
        
    rKM_cal[str(nClusters)] = calinski_harabaz_score(Dx, Dyp_sk)
    rKM_sil[str(nClusters)] = silhouette_score(Dx, Dyp_sk)



Resultados de la importancia de los atributos para $k=3$

In [None]:
nClusters = 3
modelo = KMeans(n_clusters=nClusters)
# Se aprende el 
modelo = modelo.fit(Dx)
X = Dx
Y = modelo.labels_

plt.subplot()
plot_silhouettes(X,Y)

mostrarAtributosRelevantes(X,Y)

### RESULTADOS

El número de cilindros parace ser una variable muy decisiva a la hora de asignar una muestra a un cluster, si observamos los gráficos de la distribución de los parámetros cilindros y desplazamiento de instancias respecto a los clusters, el gráfico con más sentido es el de la ejecución con $k=3$, que se corresponde con nuestras observaciones anteriores

# Clustering Jerárquico Aglomerativo

In [None]:
from sklearn.cluster import AgglomerativeClustering

modelo_single = linkage(Dx, 'single')   # disimilitud mínima
modelo_completo = linkage(Dx, 'complete') # disimilitud máxima
modelo_average = linkage(Dx, 'average')  # disimilitud media

ag_KM_cal = {}
ag_KM_sil = {}
plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_single)
plt.show()
for nClusters in range(2,6):
    result = cut_tree(modelo_single, n_clusters=nClusters).flatten()
    Dyp_sk = result    
    ag_KM_cal[str(nClusters)] = calinski_harabaz_score(Dx, Dyp_sk)
    ag_KM_sil[str(nClusters)] = silhouette_score(Dx, Dyp_sk)
    
fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_cal.keys(), ag_KM_cal.values(), linestyle='-', marker='o')
ax.set_title("SINGLE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_sil.keys(), ag_KM_sil.values(), linestyle='-', marker='o')
ax.set_title("SINGLE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de ancho de silueta")


ag_KM_cal = {}
ag_KM_sil = {}
plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_completo)
plt.show()
for nClusters in range(2,6):
    result = cut_tree(modelo_completo, n_clusters=nClusters).flatten()
    Dyp_sk = result    
    ag_KM_cal[str(nClusters)] = calinski_harabaz_score(Dx, Dyp_sk)
    ag_KM_sil[str(nClusters)] = silhouette_score(Dx, Dyp_sk)
    
fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_cal.keys(), ag_KM_cal.values(), linestyle='-', marker='o')
ax.set_title("COMPLETE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_sil.keys(), ag_KM_sil.values(), linestyle='-', marker='o')
ax.set_title("COMPLETE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de ancho de silueta")


ag_KM_cal = {}
ag_KM_sil = {}    
plt.figure(figsize=(50, 20))
plt.title('Dendrograma de Clustering Jerárquico')
plt.xlabel('Índice del caso')
plt.ylabel('Distancia')
dendrogram(modelo_average)
plt.show()

for nClusters in range(2,6):
    result = cut_tree(modelo_average, n_clusters=nClusters).flatten()
    Dyp_sk = result    
    ag_KM_cal[str(nClusters)] = calinski_harabaz_score(Dx, Dyp_sk)
    ag_KM_sil[str(nClusters)] = silhouette_score(Dx, Dyp_sk)
    
fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_cal.keys(), ag_KM_cal.values(), linestyle='-', marker='o')
ax.set_title("AVERAGE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de Calinski-Harabasz")

fig, ax = plt.subplots(figsize=(15,5))
plt.xticks(rotation=90)
ax.plot(ag_KM_sil.keys(), ag_KM_sil.values(), linestyle='-', marker='o')
ax.set_title("AVERAGE")
ax.set_xlabel("Parámetros (Número de clusters)")
ax.set_ylabel("Medida de ancho de silueta")

### RESULTADOS

Tal y como con el K-MEANS parace que un $k$ para los algoritmos aglomerativos se comporta mejor que uno alto

Destacar la mejora del aglomerativo de distancia completa y media con un $k=3$ que mejora significativamente el corte para $k=2$

A continuación mostramos gráficamente los resultados para el algoritmo aglomerativo uno mejores resultados (Average con 3 clusters)

In [None]:
result = cut_tree(modelo_average, n_clusters=3).flatten()
Dyp_sk = result

plot_silhouettes(Dx,Y)
mostrarAtributosRelevantes(Dx,result)

## AGRUPAMIENTO ESPECTRAL

In [None]:
import seaborn as sns

solucionsD = []
for nClusters in range(2,6):
    for knn in range(5,25,1):
        clustering = SpectralClustering(n_clusters = nClusters, affinity = 'nearest_neighbors', n_neighbors = knn, random_state = 0).fit(Dx)
        result = clustering.labels_
        if len(set(result)) != 0:
            solucionsD.append([ knn, nClusters,len(set(result)),silhouette_score(Dx,result),calinski_harabaz_score(Dx, result)])
        
df = pd.DataFrame(solucionsD,columns=['knn', 'nClusters', 'clusters', 'silhouette', 'calinski'])

sns.relplot(x="knn", y="silhouette",kind='line', hue='nClusters', data=df)
sns.relplot(x="knn", y="calinski",kind='line', hue='nClusters', data=df)

print("Rank by calinski")
print(df.sort_values("calinski",ascending=False).iloc[0:10])

print("\nRank by silhouette")
print(df.sort_values("silhouette",ascending=False).iloc[0:10])

### RESULTADOS

Para algoritmo espectral los resultados mejoran cuanto mayor sea el parámetro hasta llegar a $knn=10$, que se estanca.

Respecto al parámetro del número de clústers n_clusters, como en los algoritmos anteriores da mejores resultados con valores bajos $k=2$ y $k=3$ 

Mostramos resultados para la mejor configuración (3 clusters, 10 vecinos)

In [None]:
clustering = SpectralClustering(n_clusters = 3, affinity = 'nearest_neighbors', n_neighbors = 10, random_state = 0).fit(Dx)
result = clustering.labels_

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)

# Agrupamiento basado en densidad - DBSCAN

In [None]:
solucionsD = []
for nSamples in np.arange(10,200,20):
    for nEps in np.arange(0.05,1,0.05):
        clustering = DBSCAN(eps=nEps, min_samples=nSamples).fit(Dx)
        result = clustering.labels_
        if len(set(result)) <= 1:
            continue
        solucionsD.append([ nSamples,nEps,len(set(result)),silhouette_score(Dx,result),calinski_harabaz_score(Dx, result)])

df = pd.DataFrame(solucionsD,columns=['nSamples', 'nEps', 'clusters', 'silhouette', 'calinski'])

sns.relplot(x="nEps", y="silhouette",kind='line', hue="nSamples", data=df)
sns.relplot(x="nEps", y="calinski",kind='line', hue="nSamples", data=df) 

print("Rank by calinski")
print(df.sort_values("calinski",ascending=False).iloc[0:10])

print("\nRank by silhouette")
print(df.sort_values("silhouette",ascending=False).iloc[0:10])

### RESULTADOS

Para el algoritmo DBSCAN los valores altos de sus parámetros dan buenos resultados para los valores de $minSamples>120$. Cuanto más ejemplos tiene el algoritmo más tarda en dar resultados con $eps's$ pequeños.

Tras las pruebas realizadas, se concluye que los mejores resultados son para $0.35<eps<0.55$

Las mejores ejecuciones de este algoritmo han generado 2 clusters

Mostramos resultados para 10 ejemplos y 0.4 de eps

In [None]:
clustering = DBSCAN(eps=0.4, min_samples=10).fit(Dx)
result = clustering.labels_

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)

# Agrupamiento basado en densidad - Mean Shift

In [None]:
solucionsD = []
for nBandwidth in np.arange(0.05,1,0.05):
    vBandwidth = nBandwidth
    clustering = MeanShift(bandwidth = vBandwidth).fit(Dx)
    
    result = clustering.labels_
    if np.sum(result) != 0:
        solucionsD.append([nBandwidth,len(set(result)),silhouette_score(Dx,result),calinski_harabaz_score(Dx, result)])    

df = pd.DataFrame(solucionsD,columns=['nBandwidth', 'clusters', 'silhouette', 'calinski'])

sns.relplot(x="nBandwidth", y="silhouette",kind='line', data=df)
sns.relplot(x="nBandwidth", y="calinski",kind='line', data=df) 

print("Rank by calinski")
print(df.sort_values("calinski",ascending=False).iloc[0:10])

print("\nRank by silhouette")
print(df.sort_values("silhouette",ascending=False).iloc[0:10])

### RESULTADOS

Para este algoritmo los resultados son bastante buenos. El valor del parámetro $bandwidth$ comprendido entre $0.4$ y $0.45$ genera 3 clusters con buenos resultados

Mostramos resultados para bandwidth de 0.4

In [None]:
clustering = MeanShift(bandwidth = 0.4).fit(Dx)
result = clustering.labels_

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)

# Agrupamiento basado en densidad - Affinity Propagation

In [None]:
mSimilitud = euclidean_distances(Dx)
mSimilitud = -mSimilitud**2

rAffinity_cal = {}
rAffinity_sil = {}

solucionsD = []

for pref in np.arange(100,200,10):
    for factor in np.arange(0.6,0.91,0.1):
        preferencia = np.median(mSimilitud) * pref
        np.fill_diagonal(mSimilitud, preferencia)
        modelo = AffinityPropagation(preference=preferencia, damping=factor)
        Dyp_sk = modelo.fit_predict(Dx)
        # Condición para parar la iteración
        if np.max(Dyp_sk) <= 0 or np.max(Dyp_sk) >= (len(Dx)-1):
            print("Error: pref: %d, factor: %f " %(pref,factor))
            break
            
        rAffinity_cal[str(pref) + '_' + str(factor)] = calinski_harabaz_score(Dx, Dyp_sk)
        rAffinity_sil[str(pref) + '_' + str(factor)] = silhouette_score(Dx, Dyp_sk)        
        
        result = Dyp_sk
        solucionsD.append([ preferencia,factor,len(set(result)),silhouette_score(Dx,result),calinski_harabaz_score(Dx, result)])


df = pd.DataFrame(solucionsD,columns=['preferencia', 'factor' ,'clusters', 'silhouette', 'calinski'])  

sns.relplot(x="factor", y="silhouette",kind='line', hue="preferencia", data=df)
sns.relplot(x="factor", y="calinski",kind='line', hue="preferencia", data=df)

print("Rank by calinski")
print(df.sort_values("calinski",ascending=False).iloc[0:10])

print("\nRank by silhouette")
print(df.sort_values("silhouette",ascending=False).iloc[0:10])

### RESULTADOS

Para este algoritmo la enpezamos a tener resultados buenos a partir de $factor>0.65$ y con $preferencia>-60$.

A partir de éstos valores los resultados parecen estabilizarse. Todas las ejecuciones buenas han dado un número de clusters igual a 2

Realizamos un ejemplo de los valores con preferencia de (-50) y factor de 0.6

In [None]:
modelo = AffinityPropagation(preference=-50, damping=0.6)
Dyp_sk = modelo.fit_predict(Dx)
result = Dyp_sk

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)

# Mixtura de Gaussianas y algoritmo EM

In [None]:
solucionsD = []
for componentes in range(2,6):
    for iters in range(100,400,10):
        # Se inicializa el método con el número de clústeres (componentes) a buscar
        modelo = GaussianMixture(n_components = componentes, max_iter = iters)
        # Se aprende el modelo
        modelo = modelo.fit(Dx)
        # Se predicen las asignaciones a clústeres
        Dyp_sk = modelo.predict(Dx)
        result = Dyp_sk

        solucionsD.append([ componentes,iters,len(set(result)),silhouette_score(Dx,result),calinski_harabaz_score(Dx, result)])

df = pd.DataFrame(solucionsD,columns=['componentes', 'iters' ,'clusters', 'silhouette', 'calinski'])  

sns.relplot(x="iters", y="silhouette",kind='line', hue="componentes", data=df)
sns.relplot(x="iters", y="calinski",kind='line', hue="componentes", data=df)

print("Rank by calinski")
print(df.sort_values("calinski",ascending=False).iloc[0:10])

print("\nRank by silhouette")
print(df.sort_values("silhouette",ascending=False).iloc[0:10])

### RESULTADOS

Resultado interesante con este algoritmo ya que se producen dos fenomenos intereseantes al aumentar el número de iteraciones para los valores de componentes 2 y 3.

Para 2, 4 y 5 componentes las medidas reproducen un comportamiento oscilador cuando aumentamos el número de iteraciones (entre 150 y 300).

Para 3 componentes las medidas parecen estabilizarse.
Las mejores medidas de silueta se obtienen con 3 componentes y las de calinski con 3 componentes.

Realizaremos una visualización con ambos casos

In [None]:
modelo =  GaussianMixture(n_components = 2, max_iter = 340)
Dyp_sk = modelo.fit_predict(Dx)
result = Dyp_sk

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)

In [None]:
modelo =  GaussianMixture(n_components = 3, max_iter = 340)
Dyp_sk = modelo.fit_predict(Dx)
result = Dyp_sk

plot_silhouettes(Dx,result)
mostrarAtributosRelevantes(Dx,result)