# Clustering Jerárquico

En este cuaderno, utilizaremos sklearn para hacer clustering jerárquico en el dataset Iris. Iris contiene 4 atributos y 150 samples. Cada uno tiene sus labels como uno de los tres tipos de flores Iris. En este ejercicio corto, quitaremos los labels y vamos a crear los clusters basándonos en los atributos. Luego compararemos los resultados de diferentes técnicas con los labels originales para ver cuáles lo hacen mejor.

## 1. Importando dataset Iris

In [None]:
from sklearn import datasets

iris = datasets.load_iris()

Estos son los primeros 10 ejemplos con sus features y sus respectivos labels.

In [None]:
iris.data[:10]

In [None]:
iris.target

## 2. Clustering
Iniciaremos usando el método `AgglomerativeClustering` para conducir clustering jerárquico. 

In [None]:
from sklearn.cluster import AgglomerativeClustering

# Hierarchical clustering
# Ward is the default linkage algorithm, so we'll start with that
ward = AgglomerativeClustering(n_clusters=3)
ward_pred = ward.fit_predict(iris.data)

Vamos a usar complete y average linkage.

In [None]:
# Hierarchical clustering using complete linkage
# TODO: Create an instance of AgglomerativeClustering with the appropriate parameters
complete = 

# Fit & predict
# TODO: Make AgglomerativeClustering fit the dataset and predict the cluster labels
complete_pred =

# Hierarchical clustering using average linkage
# TODO: Create an instance of AgglomerativeClustering with the appropriate parameters
avg = 

# Fit & predict
# TODO: Make AgglomerativeClustering fit the dataset and predict the cluster labels
avg_pred = 

Vamos a comparar los resultados con los labels originales. Usaremo `adjusted_rand_score`, que es un índice de validación externo con valores entre -1 y 1, donde 1 significa que dos clusters son idénticos en cómo agruparon los samples, sin importar el label que se asignó.

In [None]:
from sklearn.metrics import adjusted_rand_score

ward_ar_score = adjusted_rand_score(iris.target, ward_pred)

In [None]:
# TODO: Calculated the adjusted Rand score for the complete linkage clustering labels
complete_ar_score = 

# TODO: Calculated the adjusted Rand score for the average linkage clustering labels
avg_ar_score =

In [None]:
print( "Scores: \nWard:", ward_ar_score,"\nComplete: ", complete_ar_score, "\nAverage: ", avg_ar_score)

## 3. Efecto de normalización

Vamos a mejorar el resultado.

In [None]:
iris.data[:15]

Mirando esto, podemos ver que la cuarta columna tiene valores más bajos que las otras columnas, por lo que su varianza contará menos en el proceso de clustering dado que se basa en distancia. Vamos a normalizar el dataset para que sus valores estén entre 0 y 1. Vamos a usar la función `preprocessing.normalize()`.

In [None]:
from sklearn import preprocessing

normalized_X = preprocessing.normalize(iris.data)
normalized_X[:10]

In [None]:
ward = AgglomerativeClustering(n_clusters=3)
ward_pred = ward.fit_predict(normalized_X)

complete = AgglomerativeClustering(n_clusters=3, linkage="complete")
complete_pred = complete.fit_predict(normalized_X)

avg = AgglomerativeClustering(n_clusters=3, linkage="average")
avg_pred = avg.fit_predict(normalized_X)


ward_ar_score = adjusted_rand_score(iris.target, ward_pred)
complete_ar_score = adjusted_rand_score(iris.target, complete_pred)
avg_ar_score = adjusted_rand_score(iris.target, avg_pred)

print( "Scores: \nWard:", ward_ar_score,"\nComplete: ", complete_ar_score, "\nAverage: ", avg_ar_score)

## 4. Visualización de dendograma

Vamos a usar Scipy's [```linkage```](https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html) para realizar el clustering y obtener la matriz de linkage.

In [None]:
# Import scipy's linkage function to conduct the clustering
from scipy.cluster.hierarchy import linkage

# Specify the linkage type. Scipy accepts 'ward', 'complete', 'average', as well as other values
# Pick the one that resulted in the highest Adjusted Rand Score
linkage_type = 'ward'

linkage_matrix = linkage(normalized_X, linkage_type)

In [None]:
from scipy.cluster.hierarchy import dendrogram
import matplotlib.pyplot as plt
plt.figure(figsize=(22,18))

# plot using 'dendrogram()'
dendrogram(linkage_matrix)

plt.show()