
# LAB: Introducción al Clustering. K-Means Clustering 


# ![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcR_z4GT2bY3HmLtHlRmRVm1oygMgUUvz6o8ryX3vAMo65iIftAD) 

## Introducción

A esta altura ya sabemos lo que es un proceso de Clusterización, como preparar los datos para realizarlo y como evaluar el análisis de K-Means. Ahora es el momento de poner a prueba nuestras habilidades. Para esta sesión de laboratorio vamos a completar un proceso completo de K-Means usando Python.

Vamos a trabajar con el dataset de cáncer de pecho elaborado por la Universidad de Wisconsin (que ya habíamos usado previamente). Las features fueron calculadas de imágenes digitalizadas de tejido mamario. Describen características de los núcleos celulares en las imágenes.

La idea va a ser encontrar grupos de tejidos similares en función de esas características.



### Ejercicio

### Requerimientos

- Importar los datos
- Realizar una proceso de K-Means para extraer información.
    - Usar Scikit-Learn
- Encontrar el "Silhouette Score" para elvaluar los cluster de análisis.
- Encontrar el k óptimo
- Encontrar los centroides. (Hint: Usar Scikit!)


### Fuentes adicionales

- Un link de [K-Means Documentation](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
- Sobre Silhouette Score [Silhouette Score Documentation](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html)

====================================================================================================================

## _COMENCEMOS!!!!_

### Sección I: Importar la Data

Importar paquetes y leer el archivo

In [None]:
%matplotlib inline
import matplotlib
matplotlib.style.use('ggplot')
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()  # for plot styling
import numpy as np
from sklearn.cluster import KMeans

In [None]:
from sklearn.datasets import load_breast_cancer
df = load_breast_cancer()
df.data.shape

In [None]:
print(df.DESCR)

### Sección II. Estimar clusters utilizando un k = 4

In [None]:
kmeans = KMeans(n_clusters=4, random_state=0)
clusters = kmeans.fit_predict(df.data)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

### Sección II a. Hacer una inspección gráfica de algunos los datos

In [None]:
plt.figure(figsize=(12, 12))

ax1=plt.subplot(221)
#puntos
ax1.scatter(df.data[:, 0], df.data[:, 1], c=labels,alpha=0.5,s=30)
ax1=plt.subplot(222)
ax1.scatter(df.data[:, 0], df.data[:, 5], c=labels,alpha=0.5,s=30)
ax1=plt.subplot(223)
ax1.scatter(df.data[:, 0], df.data[:, 10], c=labels,alpha=0.5,s=30)
ax1=plt.subplot(224)
ax1.scatter(df.data[:, 0], df.data[:, 26], c=labels,alpha=0.5,s=30)

### Sección II b. Realizar una evaluación interna de los clusters

In [None]:
from sklearn.metrics import silhouette_score, calinski_harabaz_score
silhouette_score(df.data, labels)

In [None]:
calinski_harabaz_score(df.data, labels)  

** BONUS: ** Investigar algunas otras métricas de evaluación en la [documentación de Scikit-Learn](http://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation). Calcularlas e interpretarlas.

### Sección III. Hallar el k óptimo

In [None]:
evaluation = []
for k in range(2,9):
    kmeans = KMeans(n_clusters=k, random_state=0) #Como siempre, suele ser una buena práctica fijar la semilla
    kmeans.fit(df.data)
    labels = kmeans.labels_
    centroids = kmeans.cluster_centers_
    #predY = np.choose(labels, pd.Series(range(0,k+1)).astype(np.int64))
    silhouette = silhouette_score(df.data, labels, metric='euclidean')
    calinsky = calinski_harabaz_score(df.data, labels)      
    evaluation = [k, silhouette, calinsky]
    print("K= ", evaluation)

### Sección IV. Teniendo en cuenta el número de clusters óptimo estimado en el punto anterior, ¿qué medida de validación externa podría utilizarse? Realizar las pruebas necesarias

> Dado que se trata de un dataset que intenta clasificar muestras de tejido mamario en "maligno" y "benigno" una psoible medida de validación externa podría ser el target del dataset.

In [None]:
kmeans = KMeans(n_clusters=2, random_state=0) #Como siempre, suele ser una buena práctica fijar la semilla
kmeans.fit(df.data)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

In [None]:
plt.figure(figsize=(12, 12))

ax1=plt.subplot(221)
#puntos
ax1.scatter(df.data[:, 0], df.data[:, 1], c=labels,alpha=0.5,s=30)
ax1=plt.subplot(222)
ax1.scatter(df.data[:, 0], df.data[:, 1], c=df.target,alpha=0.5,s=30)
ax1=plt.subplot(223)
ax1.scatter(df.data[:, 0], df.data[:, 10], c=labels,alpha=0.5,s=30)
ax1=plt.subplot(224)
ax1.scatter(df.data[:, 0], df.data[:, 10], c=df.target,alpha=0.5,s=30)

Como puede verse, las etiquetas están "invertidas"... los 0's en el target corresponden a "1" en el clustering y viceversa. Procedemos a corregir este punto.

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [None]:
predY = np.choose(labels, [1, 0]).astype(np.int64)

In [None]:
accuracy_score(df.target, predY)

In [None]:
confusion_matrix(df.target, predY)