<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

# <center>Agrupamiento jerárquico</center>

Bienvenido al laboratorio de agrupamiento jerárquico con Python usando SciPy y el paquete Scikit-learn.

#  Agrupamiento jerárquico aglomerativo

Veremos una técnica de agrupamiento, que es el <b>agrupamiento jerárquico aglomerativo</b>. Recuerde que el aglomerativo es el enfoque de abajo hacia arriba. <br> <br>
En este laboratorio veremos el agrupamiento aglomerativo, que es más utilizado que el agrupamiento divisivo.  <br> <br>
Como criterio de enlace utilizaremos el enlace completo.  <br>
<b> <i> NOTA: ¡también puede intentar usar enlace promedio donde se utilizaría enlace completo para ver la diferencia! </i> </b>

In [None]:
import numpy as np 
import pandas as pd
from scipy import ndimage 
from scipy.cluster import hierarchy 
from scipy.spatial import distance_matrix 
from matplotlib import pyplot as plt 
from sklearn import manifold, datasets 
from sklearn.cluster import AgglomerativeClustering 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

---
### Generación de datos aleatorios
Usaremos la clase  <b>make_blobs</b> para generar un conjunto de datos. <br> <br>
Ingrese los siguientes parámetros en make_blobs:
<ul>
    <li> <b>n_samples</b>: es la cantidad total de puntos dividida por igual entre clústeres. </li>
    <ul> <li> Elija un número de 10 a 1500. </li> </ul>
    <li> <b>centers</b>: es la cantidad de centros que se generarán, o la ubicación fija de los centros. </li>
    <ul> <li> Seleccione arreglos de coordenadas x,y para generar los centros. Use entre 1 y 10 centros (ej.: centers=[[1,1], [2,5]]) </li> </ul>
    <li> <b>cluster_std</b>: la desviación estándar de los clústeres. Cuanto mayor sea el número, más separados estarán los clústeres.</li>
    <ul> <li> Elija un número entre 0.5-1.5 </li> </ul>
</ul> <br>
Guarde el resultado en <b>X1</b> e <b>y1</b>.

In [None]:
X1, y1 = make_blobs(n_samples=50, centers=[[4,4], [-2, -1], [1, 1], [10,4]], cluster_std=0.9)

Dibuje el diagrama de dispersión de los datos generados en forma aleatoria.

In [None]:
plt.scatter(X1[:, 0], X1[:, 1], marker='o') 

---
### Agrupamiento aglomerativo
Para comenzar, agruparemos los datos aleatorios que acabamos de crear.

La clase <b> Agrupamiento aglomerativo [Agglomerative Clustering] </b> requiere dos valores de entrada:
<ul>
    <li> <b>n_clusters</b>: cantidad de clústeres que se formarán y cantidad de baricentros que se generarán. </li>
    <ul> <li> El valor será: 4 </li> </ul>
    <li> <b>linkage</b>: qué criterio de enlace se utilizará. El criterio de enlace determina qué distancia usar entre conjuntos de observaciones. El algoritmo combinará los pares de clústeres que minimicen este criterio. </li>
    <ul> 
        <li> El valor será: “complete” </li> 
        <li> <b>Nota</b>: se recomienda probar también todo con “average” (promedio) </li>
    </ul>
</ul> <br>
Guarde el resultado en una variable llamada <b> agglom </b>

In [None]:
agglom = AgglomerativeClustering(n_clusters = 4, linkage = 'average')

Ajuste el modelo con  <b> X2 </b> e <b> y2 </b> de los datos generados anteriormente.

In [None]:
agglom.fit(X1,y1)

¡Ejecute el código siguiente para mostrar el agrupamiento! <\br>
Recuerde leer el código y los comentarios para entender mejor cómo funciona la representación gráfica.


In [None]:
# Create a figure of size 6 inches by 4 inches.
plt.figure(figsize=(6,4))

# These two lines of code are used to scale the data points down,
# Or else the data points will be scattered very far apart.

# Create a minimum and maximum range of X1.
x_min, x_max = np.min(X1, axis=0), np.max(X1, axis=0)

# Get the average distance for X1.
X1 = (X1 - x_min) / (x_max - x_min)

# This loop displays all of the datapoints.
for i in range(X1.shape[0]):
    # Replace the data points with their respective cluster value 
    # (ex. 0) and is color coded with a colormap (plt.cm.spectral)
    plt.text(X1[i, 0], X1[i, 1], str(y1[i]),
             color=plt.cm.nipy_spectral(agglom.labels_[i] / 10.),
             fontdict={'weight': 'bold', 'size': 9})
    
# Remove the x ticks, y ticks, x and y axis
plt.xticks([])
plt.yticks([])
#plt.axis('off')



# Display the plot of the original data before clustering
plt.scatter(X1[:, 0], X1[:, 1], marker='.')
# Display the plot
plt.show()


### Dendrograma asociado al agrupamiento jerárquico aglomerativo
Recuerde que la <b>matriz de distancias [distance matrix]</b> contiene la distancia desde cada punto a todos los demás puntos del conjunto de datos</b>. <br> 
Use la función <b>distance_matrix</b>, que requiere <b>dos valores de entrada [two inputs]</b>. Use la matriz de características, <b> X2 </b>, como ambos valores de entrada y guarde la matriz de distancia en una variable con el nombre <b> dist_matrix </b> <br> <br>.

Recuerde que los valores de distancia son simétricos y en la diagonal hay ceros. Esta es una manera de asegurarse de que la matriz sea correcta. 
<br>(Imprima en pantalla dist_matrix para asegurarse de que sea correcta) [(print out dist_matrix to make sure it's correct)]


In [None]:
dist_matrix = distance_matrix(X1,X1) 
print(dist_matrix)

Use la clase <b> linkage </b> (enlace) de la jerarquía para pasar como parámetros:
<ul>
    <li> la matriz de distancias </li>
    <li> 'complete' para enlace completo </li>
</ul> <br>
Guarde el resultado en una variable llamada <b> Z </b>

In [None]:
Z = hierarchy.linkage(dist_matrix, 'complete')

Por lo general, los agrupamientos jerárquicos se representan visualmente como dendrogramas, como se muestra en la siguiente celda. Cada combinación está representada por una línea horizontal. La coordenada y de la línea horizontal es la similitud de los dos clústeres que se combinaron, donde las ciudades se ven como clústeres de un solo punto. Al avanzar de la capa más baja al nodo más alto, el dendrograma nos permite reconstruir el historial de combinaciones que dio como resultado el agrupamiento representado.

A continuación guardaremos el dendrograma en una variable llamada <b>dendro</b>. Al hacer esto, también se mostrará el dendrograma. Usamos la clase <b> dendrogram </b> de la jerarquía para pasar como parámetro:
<ul> <li> Z </li> </ul>

In [None]:
dendro = hierarchy.dendrogram(Z)

## Práctica
Para nuestro caso usamos enlace   __completo [complete]__ cambie a enlace  __promedio [average]__ para ver cómo varía el dendrograma.

In [None]:
# write your code here




Haga doble clic __aquí [here]__ para ver la solución.

<!-- Your answer is below:
    
Z = hierarchy.linkage(dist_matrix, 'average')
dendro = hierarchy.dendrogram(Z)

-->

---
# Agrupamiento en un conjunto de datos de vehículos

Suponga que una empresa automotriz ha desarrollado prototipos de un nuevo vehículo. Antes de incorporar el nuevo modelo a su línea, el fabricante desea determinar qué vehículos del mercado se parecen más a los prototipos (es decir, cómo se pueden agrupar los vehículos, qué grupo es el más similar al modelo y, por lo tanto, contra qué modelos competirán).

Nuestro objetivo es usar métodos de agrupamiento para hallar los clústeres de vehículos más característicos. Esto servirá como resumen de los vehículos actuales y ayudará al fabricante a tomar decisiones sobre nuevos modelos de manera simple.


### Descarga de los datos
Para descargar los datos, usaremos **`!wget`**. Usaremos  `!wget` para descargar los datos de IBM Object Storage. 
__¿Sabía usted?__ Al usar aprendizaje automático, es probable que trabaje con grandes conjuntos de datos. Como empresa, ¿dónde puede alojar sus datos? IBM ofrece una oportunidad inigualable para empresas, con 10 TB de almacenamiento en IBM Cloud Object Storage: [Regístrese ahora gratis](http://cocl.us/ML0101EN-IBM-Offer-CC)

In [None]:
!wget -O cars_clus.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv

## Lectura de los datos
Leamos el conjunto de datos para ver qué características de los modelos actuales ha reunido el fabricante.

In [None]:
filename = 'cars_clus.csv'

#Read csv
pdf = pd.read_csv(filename)
print ("Shape of dataset: ", pdf.shape)

pdf.head(5)

Las características son: precio en dólares [price], tamaño del motor [engine_s], potencia en caballos de fuerza [horsepow], distancia entre ejes [wheelbas], ancho [width], longitud [length], peso en vacío [curb_wgt], capacidad del tanque de combustible [fuel_cap] y eficiencia de uso del combustible [mpg].

### Limpieza de los datos
Para limpiar el conjunto de datos, quitemos las columnas que tienen valor nulo:

In [None]:
print ("Shape of dataset before cleaning: ", pdf.size)
pdf[[ 'sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']] = pdf[['sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']].apply(pd.to_numeric, errors='coerce')
pdf = pdf.dropna()
pdf = pdf.reset_index(drop=True)
print ("Shape of dataset after cleaning: ", pdf.size)
pdf.head(5)

### Selección de características
Seleccionemos nuestro conjunto de características:

In [None]:
featureset = pdf[['engine_s',  'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap', 'mpg']]

### Normalización
Ahora podemos normalizar el conjunto de características. __MinMaxScaler__ transforma las características; modifica cada una de ellas para ajustarla a un rango dado. El valor predeterminado es (0, 1). Es decir, este estimador cambia la escala y convierte cada característica en forma individual, de manera tal que quede entre cero y uno.

In [None]:
from sklearn.preprocessing import MinMaxScaler
x = featureset.values #returns a numpy array
min_max_scaler = MinMaxScaler()
feature_mtx = min_max_scaler.fit_transform(x)
feature_mtx [0:5]

## Agrupamiento con Scipy
En esta parte usamos el paquete Scipy para agrupar el conjunto de datos:
En primer lugar, calculamos la matriz de distancias.


In [None]:
import scipy
leng = feature_mtx.shape[0]
D = scipy.zeros([leng,leng])
for i in range(leng):
    for j in range(leng):
        D[i,j] = scipy.spatial.distance.euclidean(feature_mtx[i], feature_mtx[j])

En el agrupamiento aglomerativo, el algoritmo debe actualizar la matriz de distancias para reflejar la distancia del clúster recién formado con respecto a los demás clústeres del bosque. Scipy admite los siguientes métodos para calcular la distancia entre el clúster recién formado y cada uno:
- single (individual)
- complete (completo)
- average (promedio)
- weighted (ponderado)
- centroid (baricentro)

Usamos __complete__ para nuestro caso, pero si lo desea, cámbielo para ver cómo varían los resultados.


In [None]:
import pylab
import scipy.cluster.hierarchy
Z = hierarchy.linkage(D, 'complete')

Básicamente, el agrupamiento jerárquico no exige una cantidad predefinida de clústeres. Sin embargo, para algunos usos queremos una partición de clústeres disjuntos, como en el agrupamiento particional. 
Puede usar una línea de corte:

In [None]:
from scipy.cluster.hierarchy import fcluster
max_d = 3
clusters = fcluster(Z, max_d, criterion='distance')
clusters

Además, puede determinar la cantidad de clústeres de manera directa:

In [None]:
from scipy.cluster.hierarchy import fcluster
k = 5
clusters = fcluster(Z, k, criterion='maxclust')
clusters


Ahora, dibujemos el dendrograma:

In [None]:
fig = pylab.figure(figsize=(18,50))
def llf(id):
    return '[%s %s %s]' % (pdf['manufact'][id], pdf['model'][id], int(float(pdf['type'][id])) )
    
dendro = hierarchy.dendrogram(Z,  leaf_label_func=llf, leaf_rotation=0, leaf_font_size =12, orientation = 'right')

## Agrupamiento con scikit-learn
Hagámoslo de nuevo, pero esta vez con el paquete scikit-learn:

In [None]:
dist_matrix = distance_matrix(feature_mtx,feature_mtx) 
print(dist_matrix)

Ahora podemos usar la función de agrupamiento aglomerativo AgglomerativeClustering de la biblioteca scikit-learn para agrupar el conjunto de datos. AgglomerativeClustering realiza un agrupamiento jerárquico con el enfoque de abajo hacia arriba. El criterio de enlace determina la métrica que se utiliza para la estrategia de combinación:
- El método de Ward minimiza la suma de los cuadrados de las diferencias entre todos los clústeres. Busca minimizar la varianza y en ese sentido se parece a la función objetivo de k medias, pero tratada con un enfoque jerárquico aglomerativo.
- El enlace máximo o completo minimiza la distancia máxima entre observaciones de pares de clústeres.
- El enlace promedio minimiza el promedio de las distancias entre todas las observaciones de pares de clústeres.


In [None]:
agglom = AgglomerativeClustering(n_clusters = 6, linkage = 'complete')
agglom.fit(feature_mtx)
agglom.labels_

Y podemos agregar un nuevo campo a nuestra hoja de datos para mostrar el clúster de cada fila:

In [None]:
pdf['cluster_'] = agglom.labels_
pdf.head()

In [None]:
import matplotlib.cm as cm
n_clusters = max(agglom.labels_)+1
colors = cm.rainbow(np.linspace(0, 1, n_clusters))
cluster_labels = list(range(0, n_clusters))

# Create a figure of size 6 inches by 4 inches.
plt.figure(figsize=(16,14))

for color, label in zip(colors, cluster_labels):
    subset = pdf[pdf.cluster_ == label]
    for i in subset.index:
            plt.text(subset.horsepow[i], subset.mpg[i],str(subset['model'][i]), rotation=25) 
    plt.scatter(subset.horsepow, subset.mpg, s= subset.price*10, c=color, label='cluster'+str(label),alpha=0.5)
#    plt.scatter(subset.horsepow, subset.mpg)
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')

Como puede observar, estamos viendo la distribución de cada clúster mediante el diagrama de dispersión, pero no queda muy claro cuál es el baricentro de cada clúster. Además, hay dos tipos de vehículos en nuestro conjunto de datos: “camioneta” (con valor 1 en la columna de tipo) y “automóvil” (con valor 1 en la columna de tipo). Los usamos para distinguir entre clases y resumir el clúster. Primero contamos la cantidad de casos que hay en cada grupo:

In [None]:
pdf.groupby(['cluster_','type'])['cluster_'].count()

Ahora prestamos atención a las características de cada clúster:

In [None]:
agg_cars = pdf.groupby(['cluster_','type'])['horsepow','engine_s','mpg','price'].mean()
agg_cars


Es evidente que tenemos tres clústeres principales que contienen la mayoría de los vehículos.
__Automóviles [Cars]__:
- Clúster 1: con valor alto de eficiencia de uso del combustible y bajo en cuanto a potencia.
- Clúster 2: con buena potencia y eficiencia de uso del combustible, pero a un precio superior a la media.
- Clúster 3: con valor bajo en términos de eficiencia, mucha potencia y el precio más alto.

__Camionetas [Trucks]:
- Clúster 1: con casi el valor más alto de eficiencia entre las camionetas, y el más bajo en potencia y precio.
- Clúster 2: con eficiencia casi baja y potencia media, pero precio superior al promedio.
- Clúster 3: con buena eficiencia y potencia, precio bajo.

Observe que no usamos el tipo y el precio de los vehículos en el proceso de agrupamiento, pero el agrupamiento jerárquico pudo crear los clústeres y distinguirlos con una exactitud bastante alta.


In [None]:
plt.figure(figsize=(16,10))
for color, label in zip(colors, cluster_labels):
    subset = agg_cars.loc[(label,),]
    for i in subset.index:
        plt.text(subset.loc[i][0]+5, subset.loc[i][2], 'type='+str(int(i)) + ', price='+str(int(subset.loc[i][3]))+'k')
    plt.scatter(subset.horsepow, subset.mpg, s=subset.price*20, c=color, label='cluster'+str(label))
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')


## ¿Desea saber más?

IBM SPSS Modeler es una plataforma de análisis completa que tiene muchos algoritmos de aprendizaje automático. Ha sido diseñada para aportar inteligencia predictiva a las decisiones que toman personas, grupos, sistemas, su empresa como conjunto. Este curso le permite acceder a una evaluación gratuita, disponible en este enlace: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

También puede usar Watson Studio para ejecutar estos cuadernos más rápido con conjuntos de datos más grandes. Watson Studio es la solución de IBM en la nube número uno para científicos de datos, construida por científicos de datos. Con los cuadernos Jupyter, RStudio, Apache Spark y otras bibliotecas populares preempaquetadas en la nube, Watson Studio hace posible que los científicos de datos colaboren en sus proyectos sin necesidad de instalar nada. Súmese hoy mismo a la comunidad de usuarios de Watson Studio, que crece cada día más, con una cuenta gratuita en [Watson Studio](https://cocl.us/ML0101EN_DSX)

### Thanks for completing this lesson!

Cuaderno creado por: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>
Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). Este cuaderno y su código fuente se difunden de conformidad con los términos de la [licencia del MIT](https://bigdatauniversity.com/mit-license/).​