In [10]:
#importacion de las bibliotecas nesesarias para el script
%matplotlib inline
import os,sys
import pandas as pd
import matplotlib.pyplot as plot
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import linkage, fcluster

In [11]:
random_state = 170

#obtencion de los nombres de los datasets
files = os.listdir("./datasets")

#ordenamos los nombres de los archivos
files.sort()

name = ["Ubicacion de las fuerzas policiacas","Total de crimenes y area de la fuerza policiaca","Ubicacion y area de las fuerzas policiacas","Total de reportes para cada tipo de crimen","Total de reportes anuales","Total de reportes mensuales"];

#for para eliminar la extercion del nombre de los archivos
for i in range(len(files)):
    files[i] = files[i][:-4]

In [14]:
count = 0
for i in files:
    #lectura del dataset con pandas
    dataset = pd.read_csv("./datasets/"+i+".csv", header=None)
    
    #obtenemos la dimencionalidad del dataset
    D = len(dataset.columns)-1
    
    #eliminamos el nombre de las fuerzas del dataset
    del dataset[0]
    
    #normalizacion de los datos del dataset
    dataset = StandardScaler().fit_transform(dataset)
    
    #lista para guardar el resultado de la metrica silhouette_score
    result_silhouette_score = []
    for i in range(0,4):
        result_silhouette_score.append([0.0]*40)
    
    j = 0
    for K in range(2,42):
        #ejecusion de KMeans
        labels_kmeans = KMeans(n_clusters=K, random_state=random_state).fit_predict(dataset)

        #ejecucion de HAC averange linkage
        labels_HAC_averange = AgglomerativeClustering(n_clusters=K, linkage="average").fit_predict(dataset)
    
        #ejecucion de HAC single linkage
        links = linkage(dataset,"single")
        labels_HAC_single = fcluster(links,K,criterion="maxclust")
    
        #ejecucion de HAC complete linkage
        labels_HAC_complete = AgglomerativeClustering(n_clusters=K, linkage="complete").fit_predict(dataset)
    
        #calculo de la metrica ARI para los algoritmos de clustering
        result_silhouette_score[0][j] = silhouette_score(dataset,labels_kmeans)
        result_silhouette_score[1][j] = silhouette_score(dataset,labels_HAC_averange)
        result_silhouette_score[2][j] = silhouette_score(dataset,labels_HAC_single)
        result_silhouette_score[3][j] = silhouette_score(dataset,labels_HAC_complete)
        j += 1
        
    
    fig = plot.figure(figsize=(18,6))
    ax = fig.add_subplot(111)

    #asignamos los titulos de la figura y de los ejes x y y
    plot.xlabel("Numero de Clusters (K)",fontsize=14,fontweight="bold")
    plot.ylabel("Mean Silhouette Coefficient",fontsize=14,fontweight="bold")

    #activamos la cuadricula de la grafica
    plot.grid(True,color="black",linewidth=1)

    plot.xticks(range(40),range(2,42),fontsize=14,fontweight="bold")
    plot.yticks(fontsize=14,fontweight="bold")

    #graficamos las curvas en la grafica
    colors = ["red","blue","green","black"]
    for line in range(4):
        plot.plot(range(40), result_silhouette_score[line], '-',color=colors[line],linewidth=3)

    #ponemos la leyenda de la grafica
    plot.legend(["Kmeans","HAC average linkage","HAC single linkage","HAC complete linkage"],prop = {"size":14,"weight":"bold"}, loc = 1)

    #asignacion del titulo a la figura
    plot.suptitle(name[count],fontsize=14,fontweight="bold")
        
    #guardamos la figura en una imagen
    plot.savefig(name[count])
        
    #cerramos el plot
    plot.close()

    count += 1

In [4]:
"""#validacion de las dimenciones del dataset para saber si se crearan los scatter plots de los algoritmos 
    if(D == 2):
        
        #creamos la figura para los scatterplots
        figure = plot.figure(figsize=(12, 18))
         
        #creamos el scatter plot del Ground Truth
        plot.subplot(321)
        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_true, linewidth=1)
        plot.title("Ground Truth",fontsize=18,fontweight="bold")
        
        #creamos el scatter plot del Kmeans
        plot.subplot(322)
        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_kmeans, linewidth=1)
        plot.title("KMeans",fontsize=18,fontweight="bold")
        
        #creamos el scatter plot del HAC Average
        plot.subplot(323)
        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_HAC_averange, linewidth=1)
        plot.title("HAC Average linkage",fontsize=18,fontweight="bold")
        
        #creamos el scatter plot del HAC single
        plot.subplot(324)
        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_HAC_single, linewidth=1)
        plot.title("HAC Single linkage",fontsize=18,fontweight="bold")
        
        #creamos el scatter plot del HAC complete
        plot.subplot(325)
        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_HAC_complete, linewidth=1)
        plot.title("HAC Complete linkage",fontsize=18,fontweight="bold")
        
        #asignacion del titulo a la figura
        plot.suptitle(i,fontsize=18,fontweight="bold")
        
        #guardamos la figura en una imagen
        plot.savefig(i)
        
        #cerramos el plot
        plot.close()
        
    """

'#validacion de las dimenciones del dataset para saber si se crearan los scatter plots de los algoritmos \n    if(D == 2):\n        \n        #creamos la figura para los scatterplots\n        figure = plot.figure(figsize=(12, 18))\n         \n        #creamos el scatter plot del Ground Truth\n        plot.subplot(321)\n        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_true, linewidth=1)\n        plot.title("Ground Truth",fontsize=18,fontweight="bold")\n        \n        #creamos el scatter plot del Kmeans\n        plot.subplot(322)\n        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_kmeans, linewidth=1)\n        plot.title("KMeans",fontsize=18,fontweight="bold")\n        \n        #creamos el scatter plot del HAC Average\n        plot.subplot(323)\n        plot.scatter(dataset[:, 0], dataset[:, 1], c=labels_HAC_averange, linewidth=1)\n        plot.title("HAC Average linkage",fontsize=18,fontweight="bold")\n        \n        #creamos el scatter plot del HAC single\n  