In [1]:
from sklearn.metrics import calinski_harabasz_score, silhouette_score
import pandas as pd
import seaborn
from math import floor

In [2]:
def to_matrix(df, columns=[]):
    """Devuelve los atributos seleccionados como valores"""
    return df[columns].dropna().values

In [3]:
def norm(data):
    """Normaliza una serie de datos"""
    return (data - data.min(axis=0))/(data.max(axis=0)-data.min(axis=0))


In [4]:
def measures_silhoutte_calinski(data, labels):
    """
    Devuelve el resultado de evaluar los clusters de data asociados con labels.
    
    Parámetros:
    
    - data vector de datos ya normalizados.
    - labels: etiquetas.
    """
    # Hacemos una muestra de sólo el 20% porque son muchos elementos
    muestra_silhoutte = 0.2 if (len(data) > 10000) else 1.0
    silhouette = silhouette_score(data, labels, metric='euclidean', sample_size=int(floor(data.shape[0]*muestra_silhoutte)))
    calinski = calinski_harabasz_score(data, labels)
    return silhouette, calinski


In [5]:
def print_measure(measure, value):
    """
    Muestra el valor con un número fijo de decimales
    """
    print("{}: {:.3f}".format(measure, value))

In [6]:
def pairplot(df, columns, labels):
    """
    Devuelve una imagen pairplot.

    Parámetros:

    - df: dataframe
    - columns: atributos a considerar
    - labels: etiquetas
    """
    df_plot = df.loc[:,columns]
    df_plot['classif'] = labels
    seaborn.pairplot(df_plot, hue='classif', palette='Paired')


In [7]:
def denorm(data, df):
    """
    Permite desnormalizar
    """
    return data*(df.max(axis=0)-df.min(axis=0))+df.min(axis=0)


In [8]:
def visualize_centroids(centers, data, columns):
    """
    Visualiza los centroides.

    Parametros:

    - centers: centroides.
    - data: listado de atributos.
    - columns: nombres de los atributos.
    """
    df_centers = pd.DataFrame(centers,columns=columns)
    centers_desnormal=denorm(centers, data)
    hm = seaborn.heatmap(df_centers, cmap="YlGnBu", annot=centers_desnormal, fmt='.3f')
    hm.set_xticklabels(hm.get_xticklabels(), rotation = 45, fontsize = 8)
    # estas tres lineas las he añadido para evitar que se corten la linea superior e inferior del heatmap
    bottom, top = hm.get_ylim()
    hm.set_ylim(bottom + 0.5, top - 0.5)
    hm.figure.tight_layout()
    return hm


In [1]:
from kneed import KneeLocator
def find_k_ellbow(data, plotname):
    sse = []
    for k in range(2, 12):
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(data)
        sse.append(kmeans.inertia_)


    plt.style.use("fivethirtyeight")
    plt.plot(range(2, 12), sse)
    plt.xticks(range(2, 12))
    plt.xlabel("Number of Clusters")
    plt.ylabel("Inertia")
    plt.tight_layout()
    plt.savefig(plotname,dpi=300)
    plt.show()

    kl = KneeLocator(range(2, 12), sse, curve="convex", direction="decreasing")
    return (kl.elbow) 

Functions for finding the best k using elbow method and silhouette coefficient

In [2]:
#silhoutte coefficient
def find_k_silhoutte(data, plotname):
    silhouette_coefficients = []

    for k in range(2, 12):
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(data)
        score = silhouette_score(data, kmeans.labels_)
        silhouette_coefficients.append(score)

    plt.style.use("fivethirtyeight")
    plt.plot(range(2, 12), silhouette_coefficients)
    plt.xticks(range(2, 12))
    plt.xlabel("Number of Clusters")
    plt.ylabel("Silhouette Coefficient")
    plt.tight_layout()
    plt.savefig(plotname,dpi=300)
    plt.show()