<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

# <center>Hierarchical Clustering</center>

Bienvenido a Lab of Hierarchical Clustering with Python usando el paquete Scipy y Scikit-learn.

#  Hierarchical Clustering - Agglomerative

Vamos a ver una técnica de agrupación, que es <b> Aglomerative Hierarchical Clustering </b>. Recuerde que la aglomeración es el enfoque de abajo hacia arriba. <br> <br>
En este laboratorio, analizaremos el agrupamiento aglomerativo, que es más popular que el agrupamiento divisivo. <br> <br>
También usaremos Enlace completo como Criterios de enlace. <br>
<b> <i> NOTA: ¡También puede intentar usar el enlace promedio donde quiera que se use el enlace completo para ver la diferencia! </i> </b>

In [None]:
import numpy as np 
import pandas as pd
from scipy import ndimage 
from scipy.cluster import hierarchy 
from scipy.spatial import distance_matrix 
from matplotlib import pyplot as plt 
from sklearn import manifold, datasets 
from sklearn.cluster import AgglomerativeClustering 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

---
### Generating Random Data // Generando datos aleatorios
Generaremos un conjunto de datos utilizando la clase <b> make_blobs </b>. <br> <br>
Ingrese estos parámetros en make_blobs:
<ul>
    <li> <b>n_samples</b>: El número total de puntos divididos equitativamente entre grupos. </li>
    <ul> <li> Elige un número de 10-1500 </li> </ul>
    <li> <b>centers</b>: El número de centros para generar, o las ubicaciones de centros fijos. </li>
    <ul> <li> Elija matrices de coordenadas x, y para generar los centros. Tener 1-10 centros (ej. Centros = [[1,1], [2,5]]) </li> </ul>
    <li> <b>cluster_std</b>: La desviación estándar de los grupos. Cuanto mayor es el número, más separados están los grupos</li>
    <ul> <li> Escoge un número entre 0.5-1.5 </li> </ul>
</ul> <br>
Save the result to <b>X1</b> and <b>y1</b>.

In [None]:
X1, y1 = make_blobs(n_samples=50, centers=[[4,4], [-2, -1], [1, 1], [10,4]], cluster_std=0.9)

Plot the scatter plot of the randomly generated data // **Trace el diagrama de dispersión de los datos generados aleatoriamente**

In [None]:
plt.scatter(X1[:, 0], X1[:, 1], marker='o') 

---
### Agglomerative Clustering // Agrupamiento Aglomerativo
Comenzaremos agrupando los puntos de datos aleatorios que acabamos de crear.

The <b> Agglomerative Clustering </b> La clase requerirá dos entradas:
<ul>
    <li> <b>n_clusters</b>: El número de grupos para formar, así como el número de centroides para generar. </li>
    <ul> <li> El valor será: 4 </li> </ul>
    <li> <b>linkage</b>: Qué criterio de vinculación utilizar. El criterio de vinculación determina qué distancia usar entre conjuntos de observación. El algoritmo fusionará los pares de clúster que minimizan este criterio. </li>
    <ul> 
        <li> El valor será: 'completo' </li> 
        <li> <b>Note</b>: Se recomienda que pruebe todo con 'average' también </li>
    </ul>
</ul> <br>
Guarde el resultado en una variable llamada <b> agglom </b>

In [None]:
agglom = AgglomerativeClustering(n_clusters = 4, linkage = 'average')

Ajuste el modelo con <b> X2 </b> y <b> y2 </b> de los datos generados anteriormente.

In [None]:
agglom.fit(X1,y1)

¡Ejecute el siguiente código para mostrar el agrupamiento! <br>
Recuerde leer el código y los comentarios para comprender mejor cómo funciona el trazado.

In [None]:
# Create a figure of size 6 inches by 4 inches.
plt.figure(figsize=(6,4))

# These two lines of code are used to scale the data points down,
# Or else the data points will be scattered very far apart.

# Create a minimum and maximum range of X1.
x_min, x_max = np.min(X1, axis=0), np.max(X1, axis=0)

# Get the average distance for X1.
X1 = (X1 - x_min) / (x_max - x_min)

# This loop displays all of the datapoints.
for i in range(X1.shape[0]):
    # Replace the data points with their respective cluster value 
    # (ex. 0) and is color coded with a colormap (plt.cm.spectral)
    plt.text(X1[i, 0], X1[i, 1], str(y1[i]),
             color=plt.cm.nipy_spectral(agglom.labels_[i] / 10.),
             fontdict={'weight': 'bold', 'size': 9})
    
# Remove the x ticks, y ticks, x and y axis
plt.xticks([])
plt.yticks([])
#plt.axis('off')



# Display the plot of the original data before clustering
plt.scatter(X1[:, 0], X1[:, 1], marker='.')
# Display the plot
plt.show()


### Dendrogram Associated for the Agglomerative Hierarchical Clustering // Dendrograma asociado a la agrupación jerárquica aglomerativa
Recuerde que una <b> matriz de distancia </b> contiene la <b> distancia desde cada punto a cualquier otro punto de un conjunto de datos </b>. <br>
Use la función <b> distancia_matriz, </b> que requiere <b> dos entradas </b>. Utilice la matriz de características, <b> X2 </b> como ambas entradas y guarde la matriz de distancia en una variable llamada <b> dist_matrix </b> <br> <br>
Recuerde que los valores de distancia son simétricos, con una diagonal de 0. Esta es una forma de asegurarse de que su matriz sea correcta. <br> (imprima dist_matrix para asegurarse de que sea correcto)


In [None]:
dist_matrix = distance_matrix(X1,X1) 
print(dist_matrix)

Usando la clase <b> enlace </b> de la jerarquía, pase los parámetros:
<ul>
    <li> La matriz de distancia </li>
    <li> 'completo' para un enlace completo</li>
</ul> <br>
Guarde el resultado en una variable llamada <b> Z </b>

In [None]:
Z = hierarchy.linkage(dist_matrix, 'complete')

**Hierarchical clustering** generalmente se visualiza como un dendrograma como se muestra en la siguiente celda. Cada fusión está representada por una línea horizontal. La coordenada y de la línea horizontal es la similitud de los dos grupos que se fusionaron, donde las ciudades se ven como grupos únicos.
Al pasar de la capa inferior al nodo superior, un dendrograma nos permite reconstruir el historial de fusiones que dieron como resultado la agrupación representada.

A continuación, guardaremos el dendrograma en una variable llamada <b> dendro </b>. Al hacer esto, también se mostrará el dendrograma.
Usando la clase <b> dendrograma </b> de la jerarquía, pase el parámetro:
<ul> <li> Z </li> </ul>

In [None]:
dendro = hierarchy.dendrogram(Z)

## Practice
Si usó el enlace __complete__ para su caso, cámbielo a enlace __average__ para ver cómo cambia el dendograma.

In [None]:
# write your code here




Double-click __here__ for the solution.

<!-- Your answer is below:
    
Z = hierarchy.linkage(dist_matrix, 'average')
dendro = hierarchy.dendrogram(Z)

-->

---
# Clustering on Vehicle dataset

Imagine que un fabricante de automóviles ha desarrollado prototipos para un nuevo vehículo. Antes de introducir el nuevo modelo en su gama, el fabricante desea determinar qué vehículos existentes en el mercado se parecen más a los prototipos, es decir, cómo se pueden agrupar los vehículos, qué grupo es el más similar al modelo y, por lo tanto, qué modelos estarán compitiendo contra.

Nuestro objetivo aquí es utilizar métodos de agrupamiento para encontrar los grupos de vehículos más distintivos. Resumirá los vehículos existentes y ayudará a la fabricación a tomar decisiones sobre nuevos modelos de manera simple.

### Download data
Para descargar los datos, usaremos **`!wget`**. Para descargar los datos, usaremos `!wget` to download it from IBM Object Storage.  
__Did you know?__ When it comes to Machine Learning, you will likely be working with large datasets. As a business, where can you host your data? IBM is offering a unique opportunity for businesses, with 10 Tb of IBM Cloud Object Storage: [Sign up now for free](http://cocl.us/ML0101EN-IBM-Offer-CC)

In [None]:
!wget -O cars_clus.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv

## Read data // Leer datos
leamos el conjunto de datos para ver qué características ha recopilado el fabricante sobre los modelos existentes.

In [None]:
filename = 'cars_clus.csv'

#Read csv
pdf = pd.read_csv(filename)
print ("Shape of dataset: ", pdf.shape)

pdf.head(5)

Los conjuntos de características incluyen price in thousands (price), engine size (engine_s), horsepower (horsepow), wheelbase (wheelbas), width (width), length (length), curb weight (curb_wgt), fuel capacity (fuel_cap) and fuel efficiency (mpg).

### Data Cleaning // Limpieza de datos
simplemente borremos el conjunto de datos soltando las filas que tienen un valor nulo:

In [None]:
print ("Shape of dataset before cleaning: ", pdf.size)
pdf[[ 'sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']] = pdf[['sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']].apply(pd.to_numeric, errors='coerce')
pdf = pdf.dropna()
pdf = pdf.reset_index(drop=True)
print ("Shape of dataset after cleaning: ", pdf.size)
pdf.head(5)

### Feature selection
Seleccionemos nuestro conjunto de características:

In [None]:
featureset = pdf[['engine_s',  'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap', 'mpg']]

### Normalization
Ahora podemos normalizar el conjunto de características. __MinMaxScaler__ transforma características al escalar cada característica a un rango determinado. Es por defecto (0, 1). Es decir, este estimador escala y traduce cada característica individualmente de modo que esté entre cero y uno.

In [None]:
from sklearn.preprocessing import MinMaxScaler
x = featureset.values #returns a numpy array
min_max_scaler = MinMaxScaler()
feature_mtx = min_max_scaler.fit_transform(x)
feature_mtx [0:5]

## Clustering using Scipy
En esta parte usamos el paquete Scipy para agrupar el conjunto de datos:
Primero, calculamos la matriz de distancia.

In [None]:
import scipy
leng = feature_mtx.shape[0]
D = scipy.zeros([leng,leng])
for i in range(leng):
    for j in range(leng):
        D[i,j] = scipy.spatial.distance.euclidean(feature_mtx[i], feature_mtx[j])

In agglomerative clustering, en cada iteración, el algoritmo debe actualizar la matriz de distancia para reflejar la distancia del grupo recién formado con los grupos restantes en el bosque.
Los siguientes métodos son compatibles con Scipy para calcular la distancia entre el grupo recién formado y cada uno:
    - single
    - complete
    - average
    - weighted
    - centroid
    
    
Utilizamos __complete__ para nuestro caso, pero no dude en cambiarlo para ver cómo cambian los resultados.

In [None]:
import pylab
import scipy.cluster.hierarchy
Z = hierarchy.linkage(D, 'complete')

Esencialmente, Hierarchical clustering no requiere un número predeterminado de clústeres. Sin embargo, en algunas aplicaciones queremos una partición de clústeres disjuntos como en clustering plano.
Para que pueda usar una línea de corte:

In [None]:
from scipy.cluster.hierarchy import fcluster
max_d = 3
clusters = fcluster(Z, max_d, criterion='distance')
clusters

Además, puede determinar el número de clústeres directamente:

In [None]:
from scipy.cluster.hierarchy import fcluster
k = 5
clusters = fcluster(Z, k, criterion='maxclust')
clusters


Now, plot the dendrogram: // Ahora, grafica el dendrograma:

In [None]:
fig = pylab.figure(figsize=(18,50))
def llf(id):
    return '[%s %s %s]' % (pdf['manufact'][id], pdf['model'][id], int(float(pdf['type'][id])) )
    
dendro = hierarchy.dendrogram(Z,  leaf_label_func=llf, leaf_rotation=0, leaf_font_size =12, orientation = 'right')

## Clustering using scikit-learn
Vamos a hacerlo de nuevo, pero esta vez usando el paquete scikit-learn:

In [None]:
dist_matrix = distance_matrix(feature_mtx,feature_mtx) 
print(dist_matrix)

Ahora, podemos usar la función 'AgglomerativeClustering' de la biblioteca scikit-learn para agrupar el conjunto de datos. AgglomerativeClustering realiza una **hierarchical clustering**(agrupación jerárquica) utilizando un enfoque ascendente. Los criterios de vinculación determinan la métrica utilizada para la estrategia de fusión:

- Ward minimiza la suma de las diferencias al cuadrado dentro de todos los grupos. Es un enfoque que minimiza la varianza y, en este sentido, es similar a la función objetivo k-means pero se aborda con un enfoque jerárquico aglomerativo.
- Maximum or complete linkage minimizes the maximum distance between observaciones de pares de grupos.
- Average linkage minimizes the average of the distances between all observaciones de pares de grupos.

In [None]:
agglom = AgglomerativeClustering(n_clusters = 6, linkage = 'complete')
agglom.fit(feature_mtx)
agglom.labels_

Y podemos agregar un nuevo campo a nuestro marco de datos para mostrar el grupo de cada fila:

In [None]:
pdf['cluster_'] = agglom.labels_
pdf.head()

In [None]:
import matplotlib.cm as cm
n_clusters = max(agglom.labels_)+1
colors = cm.rainbow(np.linspace(0, 1, n_clusters))
cluster_labels = list(range(0, n_clusters))

# Create a figure of size 6 inches by 4 inches.
plt.figure(figsize=(16,14))

for color, label in zip(colors, cluster_labels):
    subset = pdf[pdf.cluster_ == label]
    for i in subset.index:
            plt.text(subset.horsepow[i], subset.mpg[i],str(subset['model'][i]), rotation=25) 
    plt.scatter(subset.horsepow, subset.mpg, s= subset.price*10, c=color, label='cluster'+str(label),alpha=0.5)
#    plt.scatter(subset.horsepow, subset.mpg)
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')

Como puede ver, estamos viendo la distribución de cada grupo utilizando el diagrama de dispersión, pero no está muy claro dónde está el centroide de cada grupo. Además, hay 2 tipos de vehículos en nuestro conjunto de datos, "camión" (valor de 1 en la columna de tipo) y "automóvil" (valor de 1 en la columna de tipo). Entonces, los usamos para distinguir las clases y resumir el clúster. Primero contamos el número de casos en cada grupo:

In [None]:
pdf.groupby(['cluster_','type'])['cluster_'].count()

Ahora podemos ver las características de cada grupo:

In [None]:
agg_cars = pdf.groupby(['cluster_','type'])['horsepow','engine_s','mpg','price'].mean()
agg_cars


Es obvio que tenemos 3 grupos principales con la mayoría de los vehículos en esos.

__Cars__:
- Cluster 1: with almost high mpg, and low in horsepower.
- Cluster 2: with good mpg and horsepower, but higher price than average.
- Cluster 3: with low mpg, high horsepower, highest price.
    
    
    
__Trucks__:
- Cluster 1: with almost highest mpg among trucks, and lowest in horsepower and price.
- Cluster 2: with almost low mpg and medium horsepower, but higher price than average.
- Cluster 3: with good mpg and horsepower, low price.

Tenga en cuenta que no utilizamos __type__ , y __price__ de los automóviles en el proceso de agrupación, pero la agrupación jerárquica podría forjar los grupos y discriminarlos con una precisión bastante alta.

In [None]:
plt.figure(figsize=(16,10))
for color, label in zip(colors, cluster_labels):
    subset = agg_cars.loc[(label,),]
    for i in subset.index:
        plt.text(subset.loc[i][0]+5, subset.loc[i][2], 'type='+str(int(i)) + ', price='+str(int(subset.loc[i][3]))+'k')
    plt.scatter(subset.horsepow, subset.mpg, s=subset.price*20, c=color, label='cluster'+str(label))
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')


## Want to learn more?

IBM SPSS Modeler is a comprehensive analytics platform that has many machine learning algorithms. It has been designed to bring predictive intelligence to decisions made by individuals, by groups, by systems – by your enterprise as a whole. A free trial is available through this course, available here: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

Also, you can use Watson Studio to run these notebooks faster with bigger datasets. Watson Studio is IBM's leading cloud solution for data scientists, built by data scientists. With Jupyter notebooks, RStudio, Apache Spark and popular libraries pre-packaged in the cloud, Watson Studio enables data scientists to collaborate on their projects without having to install anything. Join the fast-growing community of Watson Studio users today with a free account at [Watson Studio](https://cocl.us/ML0101EN_DSX)

### Thanks for completing this lesson!

Notebook created by: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>
Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). This notebook and its source code are released under the terms of the [MIT License](https://bigdatauniversity.com/mit-license/).​