# Ejemplo de Clustering

Este notebook es un ejemplo de uso de clustering usando una serie de funciones utilidades que se han definido para la práctica 2.

## Carga del fichero

En este caso voy a clasificar datos distintos al problema.

In [None]:
import seaborn as sns

In [None]:
df_all = sns.load_dataset('penguins')

In [None]:
df_all.head()

## Filtro de nuestro caso de uso

En nuestro caso aplicamos el caso de uso de una determinada isla. Vosotros/as para el datasets tendréis que usar un par de datasets, fijando los atributos deseados. 

In [None]:
df_all.island.unique()

In [None]:
df = df_all[df_all.island == 'Dream']
df = df[df.sex == 'Female']

Voy a aplicar clustering. Para ello voy a utilizar únicamente los valores numéricos.

In [None]:
atributos = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']

Cargo las funciones de utilidad

In [None]:
from pract2_utils import *

In [None]:
df

Esta función nos permite convertir los atributos deseados en una matrix.

In [None]:
data = to_matrix(df, atributos)

Vamos a ver las primeras filas

In [None]:
data[:5]

## Normalizar los datos

Para aplicar los métodos de clustering es normal normalizar los datos, vamos a usar nuestra propia función (para luego poder desnormalizar en la gráfica).

In [None]:
data_norm = norm(data)

In [None]:
data[:5]

In [None]:
data_norm[:5]

In [None]:
data_norm

## Aplico el k-means

Voy a aplicar un único k-means, vosotros tendríais que aplicar un estudio de parámetros, y además otro algoritmo más.

In [None]:
from sklearn.cluster import KMeans

In [None]:
results = KMeans(n_clusters=3, random_state=0).fit(data_norm)

In [None]:
results.labels_

En los atributos labels_ tengo en un vector las etiquetas de cada fila, y 

In [None]:
labels = results.labels_

In [None]:
centroids = results.cluster_centers_

## Obtengo la medida

In [None]:
silhouette, calinski = measures_silhoutte_calinski(data_norm, labels)

print("silhouette: {:3f}".format(silhouette))
print("calinsky: {:3f}".format(calinski))

## Visualizo los centroides

In [None]:
visualize_centroids(centroids, data, atributos)

In [None]:
pairplot(df, atributos, labels)

## Viendo el balanceo de los distintos clustering

Vamos a ver cómo se distribuyen

In [None]:
from collections import Counter

In [None]:
Counter(labels)

De un cluster hay bastante más que de los otros dos, que están mucho más parejos.

# Calculo de Centroides _a mano_

¿Y si no tuviese los centroides?

Vamos a calcularlos a mano.

Primeros creamos un dataframe a partir de los datos normalizados

In [None]:
df_data = pd.DataFrame(data_norm)

Ahora le asignamos sus nombres de atributos 

In [None]:
df_data.columns = atributos

In [None]:
df_data.head()

Le añadimos el cluster como otro atributo

In [None]:
df_data['cluster'] = labels

In [None]:
df_data.head()

In [None]:
df_centroides = df_data.groupby('cluster').mean()

In [None]:
df_centroides

In [None]:
centroids

Si los queremos de igual forma podemos hacer:

In [None]:
centroides = df_centroides.values

In [None]:
centroides

In [None]:
import numpy as np

Vemos que son equivalentes (son números reales, por eso comparamos que la diferencia sea pequeña en vez de comparar con igualdad)

In [None]:
np.all(np.abs(centroids-centroides) < 1e-15)