# Clustering jerárquico y dendrogramas
Antes de empezar, pongamos un poco de notación para hablar todos el mismo idioma

* X dataset (array de n x m) de puntos a clusterizar
* n número de datos
* m número de rasgos 
* Z array de enlace del cluster con la información de las uniones
* k número de clusters


Al ser un clustering jerárquico, no necesita conocer el número de clústers en los que va a quedar clasificado todo el dataset

In [26]:
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram,linkage
import pandas as pd
import numpy as np

In [27]:
np.random.seed(4711)
a=np.random.multivariate_normal([10,0],[[3,1],[1,4]],size=[100,])
b=np.random.multivariate_normal([0,20],[[3,1],[1,4]],size=[50,])
X=np.concatenate((a,b))

In [28]:
X.shape

(150, 2)

In [29]:
plt.scatter(X[:,0],X[:,1])

<matplotlib.collections.PathCollection at 0x7fd321b38c88>

In [30]:
Z=linkage(X,method="ward")

In [31]:
from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist

In [32]:
c,coph_dist=cophenet(Z,pdist(X))

In [33]:
c

0.9800148387574268

**Cuanto más cerca está a 1** se entiende que las distancias son más similares a las originales. Algo que es positivo

In [34]:
Z[0]

array([5.20000000e+01, 5.30000000e+01, 4.15105485e-02, 2.00000000e+00])

In [35]:
Z[1]

array([1.40000000e+01, 7.90000000e+01, 5.91375926e-02, 2.00000000e+00])

In [36]:
Z[:20]

array([[5.20000000e+01, 5.30000000e+01, 4.15105485e-02, 2.00000000e+00],
       [1.40000000e+01, 7.90000000e+01, 5.91375926e-02, 2.00000000e+00],
       [3.30000000e+01, 6.80000000e+01, 7.10677929e-02, 2.00000000e+00],
       [1.70000000e+01, 7.30000000e+01, 7.13712071e-02, 2.00000000e+00],
       [1.00000000e+00, 8.00000000e+00, 7.54313099e-02, 2.00000000e+00],
       [8.50000000e+01, 9.50000000e+01, 1.09277896e-01, 2.00000000e+00],
       [1.08000000e+02, 1.31000000e+02, 1.10071548e-01, 2.00000000e+00],
       [9.00000000e+00, 6.60000000e+01, 1.13022407e-01, 2.00000000e+00],
       [1.50000000e+01, 6.90000000e+01, 1.14289714e-01, 2.00000000e+00],
       [6.30000000e+01, 9.80000000e+01, 1.21200766e-01, 2.00000000e+00],
       [1.07000000e+02, 1.15000000e+02, 1.21671017e-01, 2.00000000e+00],
       [6.50000000e+01, 7.40000000e+01, 1.24900190e-01, 2.00000000e+00],
       [5.80000000e+01, 6.10000000e+01, 1.40277358e-01, 2.00000000e+00],
       [6.20000000e+01, 1.52000000e+02, 1.72599535e

Para encontrar el cluster #157

In [37]:
Z[157-len(X)]

array([ 9.        , 66.        ,  0.11302241,  2.        ])

In [38]:
idx=[33,62,68]
idx

[33, 62, 68]

In [39]:
plt.figure()
plt.scatter(X[:,0],X[:,1])
plt.scatter(X[idx,0],X[idx,1],c='r')

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7fd321aff8d0>

# Representación gráfica del Dendograma

In [40]:
%matplotlib notebook
plt.figure()
plt.title("Dendograma para el clustering jerárquico")
plt.xlabel('ID de los usuarios')
plt.ylabel("Distancia")
dendrogram(Z,leaf_rotation=90,leaf_font_size=7,color_threshold=0.7*180)
plt.show()

<IPython.core.display.Javascript object>

las líneas horizontales marcan uniones de clusters y las verticales los elementos que lo componen

In [41]:
Z[-4:]

array([[290.        , 294.        ,  15.11533118,  76.        ],
       [287.        , 292.        ,  17.11527362,  50.        ],
       [293.        , 295.        ,  23.12198936, 100.        ],
       [296.        , 297.        , 180.27043021, 150.        ]])

## Truncar el dendograma

Algunas funcionalidades del método de dendograma:

* color_threshold: A partir del valor (distancia) que se le indique, se dividirá el dataset en esos clusters con colores específicos. Por defecto es el 70% de la distancia máxima.

* truncate_mod: Resume el dendograma según el método indicado, con lastp y un valor de p dado se muestran los últimos p clusters.

* show_leaf_counts: Oculta o activa el número de elementos en cada cluster.

* show_contracted: Muestra u oculta un símbolo que marca la cantidad en cada cluster.

In [42]:
%matplotlib notebook
plt.figure()
plt.title("Dendograma para el clustering jerárquico truncado")
plt.xlabel('ID de los usuarios')
plt.ylabel("Distancia")
dendrogram(Z,leaf_rotation=90,leaf_font_size=7,color_threshold=0.7*180,truncate_mode="lastp",
           p=12,show_leaf_counts=True,show_contracted=True)
plt.show()

<IPython.core.display.Javascript object>

**Siempre hay n-1 uniones siendo n el número de datos?**

## Dendograma personalizado

In [43]:
def dendogram_tune(*args,**kwargs):
    max_d=kwargs.pop("max_d",None)
    if max_d and 'color_threshold' not in kwargs:
        kwargs['color_threshold']=max_d
    annotate_above=kwargs.pop('annotate_above',0)
    
    
    ddata=dendrogram(*args,**kwargs)
    
#     print(ddata) #CRear una utabla
    
    if not kwargs.get('no_plot',False):
        plt.title("Dendograma para el clustering jerárquico truncado")
        plt.xlabel('ID de los usuarios (o tamaño del cluster)')
        plt.ylabel("Distancia")
        for i,d,c in zip(ddata['icoord'],ddata['dcoord'],ddata['color_list']):
            x=0.5*sum(i[1:3])
            y=d[1]
            if y>annotate_above:
                plt.plot(x,y,'o',c=c)
                plt.annotate('%.3g'%y,(x,y),xytext=(0,-5),textcoords="offset points",va='top',ha='center')
                
    if max_d:
        plt.axhline(y=max_d,c='k')
        
    return ddata

In [54]:
plt.figure()
dendogram_tune(Z,truncate_mode='lastp',p=12,leaf_rotation=90,leaf_font_size=8,show_contracted=True,
               annotate_above=10,max_d=20)
plt.show()

<IPython.core.display.Javascript object>

\begin{equation}
inconsistency_{i}=\frac{h_{i}-\overline{h_{j}}}{std(h_{j})}
\end{equation}

La profundidad indica cuántos clusters se utlizan para calular la media y estandarizar las alturas.

In [45]:
from scipy.cluster.hierarchy import inconsistent

In [46]:
depth=5 
incons=inconsistent(Z,depth)
incons[-10:]

array([[ 1.80874989,  2.17061644, 10.        ,  2.44276733],
       [ 2.31731998,  2.19649179, 16.        ,  2.52742372],
       [ 2.24511599,  2.44225327,  9.        ,  2.37659088],
       [ 2.30462321,  2.44191287, 21.        ,  2.6387508 ],
       [ 2.20673283,  2.68378067, 17.        ,  2.84581581],
       [ 1.95309037,  2.58100378, 29.        ,  4.05821033],
       [ 3.46173275,  3.53735716, 28.        ,  3.29443647],
       [ 3.15857131,  3.54836284, 28.        ,  3.93327935],
       [ 4.90210137,  5.10301603, 28.        ,  3.57041559],
       [12.12200256, 32.15467931, 30.        ,  5.22936105]])

El problema es que las últimas uniones no siguen una distribución normal donde se pueda obtener una buena estandarización. Conforme se avanza en las distancias (se vuelven más grandes), pasarán estos valores a ser outliers respecto a las primeras distancias que están mas juntas.

## Método del codo

In [47]:
last=Z[-10:,2]
last_rev=last[::-1]
idx=np.arange(1,len(last)+1)
plt.figure()
plt.plot(idx,last_rev)
print(last_rev,'\n')

acc=np.diff(last,2)
acc_rev=acc[::-1]
plt.plot(idx[:-2]+1,acc_rev)

k=acc_rev.argmax()+2
print('El número óptimo de clusters es: %g'%k)

<IPython.core.display.Javascript object>

[180.27043021  23.12198936  17.11527362  15.11533118  12.42734657
   9.84427829   8.74822275   8.04935282   7.86878542   7.11106083] 

El número óptimo de clusters es: 2


Se necesita por lo menos 2 clusters para un punto a la izquierda o derecha del DataFrame. Nunca la solución será K=1 ni K=último.

In [48]:
c=np.random.multivariate_normal([40,40],[[20,1],[1,30]],size=[200,])
d=np.random.multivariate_normal([80,80],[[30,1],[1,30]],size=[200,])
e=np.random.multivariate_normal([0,100],[[100,1],[1,100]],size=[200,])
X2=np.concatenate((X,c,d,e),)
plt.figure()
plt.scatter(X2[:,0],X2[:,1])

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7fd321f31e48>

In [49]:
Z2=linkage(X2,'ward')

In [59]:
plt.figure(figsize=(8,8))
dendogram_tune(Z2,truncate_mode='lastp',p=30,leaf_rotation=90,leaf_font_size=10,
               show_contracted=True,annotate_above=40,max_d=150)
plt.show()

<IPython.core.display.Javascript object>

In [51]:
last=Z2[-10:,2]
last_rev=last[::-1]
idx=np.arange(1,len(last)+1)
plt.figure()
plt.plot(idx,last_rev)
print(last_rev,'\n')

acc=np.diff(last,2)
acc_rev=acc[::-1]
plt.plot(idx[:-2]+1,acc_rev)

k=acc_rev.argmax()+2
print('El número óptimo de clusters es: %g'%k)

<IPython.core.display.Javascript object>

[1262.52130994 1186.7588235   614.06504667  180.27043021  166.66434658
  141.92437181   92.54599212   90.91214341   80.96733501   74.17015312] 

El número óptimo de clusters es: 4


In [52]:
print(inconsistent(Z2,5)[-10:])

[[ 13.99221995  15.56655759  30.           3.8658472 ]
 [ 16.73940735  18.56390061  30.           3.45982932]
 [ 19.05945013  20.53210626  31.           3.49952861]
 [ 19.25573887  20.8265769   29.           3.51907342]
 [ 21.36116189  26.77659523  30.           4.50255938]
 [ 36.58100874  37.08602393  31.           3.50761079]
 [ 12.12200256  32.15467931  30.           5.22936105]
 [ 42.61369802 111.38576865  31.           5.13038026]
 [ 81.75198678 208.31582073  31.           5.30447871]
 [147.25602023 307.95700562  31.           3.62149673]]


## Recupera los clusters y sus elementos

In [60]:
from scipy.cluster.hierarchy import fcluster

In [69]:
max_d=50
cluster=fcluster(Z,max_d,criterion="distance")
cluster

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [68]:
k=3
cluster=fcluster(Z,k,criterion="maxclust")
cluster

array([3, 3, 2, 3, 3, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 3,
       3, 3, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 3, 2, 3, 3, 3, 3, 3, 2,
       2, 3, 3, 3, 3, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 3, 2, 3, 2, 2, 3,
       3, 3, 2, 3, 3, 2, 3, 2, 3, 3, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [65]:
fcluster(Z,8,depth=10)

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [70]:
plt.figure()
plt.scatter(X[:,0],X[:,1],c=cluster,cmap="prism")

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7fd321dca9b0>

In [75]:
max_d=170
cluster=fcluster(Z2,max_d,criterion="distance")
cluster

plt.figure()
plt.scatter(X2[:,0],X2[:,1],c=cluster,cmap="brg")

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7fd321d3d550>