# 1. Clustering Jerárquico

## Agrupación jerárquica

La agrupación jerárquica funciona colocando primero cada punto de datos en su propio grupo y luego fusionando los grupos en función de alguna regla, hasta que solo quede el número deseado de grupos. Para que esto funcione, es necesario que haya una medida de distancia entre los puntos de datos. Con esta medida de distancia `d`, podemos definir otra medida de distancia entre los **clusters** U y V usando uno de los siguientes métodos (*vínculos*):

* `single`: $d(U, V) := \min_{u \in U, v \in V} d(u,v)$ 
             basado en dos objetos más cercanos
* `complete`: $d(U, V) := \max_{u \in U, v \in V} d(u,v)$ 
             basado en dos objetos más lejanos
* `average`: $d(U, V) := \sum_{u \in U, v \in V} \frac{d(u,v)}{|U||V|}$
             basado en la media aritmética de todos los objetos
* `ward`: intenta minimizar la varianza en cada grupo
* `centroids`: basado en la media geométrica de todos los objetos
* `median`: basado en la mediana de todos los objetos

En cada iteración del algoritmo, se fusionan dos grupos más cercanos entre sí. Después de esto, se vuelve a calcular la distancia entre los conglomerados y luego continúa con la siguiente iteración.

- Creación de una matriz de distancias mediante vinculación
     - ```método```: cómo calcular la proximidad de los conglomerados
     - ```metric```: métrica de distancia
     - ```optimal_ordering```: puntos de datos del pedido

# Importar las librerías


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importar el data set


In [None]:
dataset = pd.read_csv('sesion3_Mall_Customers.csv')
X = dataset.iloc[:, [3, 4]].values
dataset

In [None]:
X

In [None]:
dataset.describe()

# Utilizar el dendrograma para encontrar el número óptimo de clusters

In [None]:
import scipy.cluster.hierarchy as sch
dendrogram = sch.dendrogram(sch.linkage(X, method = "ward"))
plt.title("Dendrograma")
plt.xlabel("Clientes")
plt.ylabel("Distancia Euclídea")
plt.show()

# Ajustar el clustering jerárquico a nuestro conjunto de datos

In [None]:
from sklearn.cluster import AgglomerativeClustering
hc = AgglomerativeClustering(n_clusters = 5, affinity = "euclidean", linkage = "ward")
y_hc = hc.fit_predict(X)
y_hc

# Visualización de los clusters

In [None]:
plt.scatter(X[y_hc == 0, 0], X[y_hc == 0, 1], s = 100, c = "red", label = "Cautos")
plt.scatter(X[y_hc == 1, 0], X[y_hc == 1, 1], s = 100, c = "blue", label = "Estandard")
plt.scatter(X[y_hc == 2, 0], X[y_hc == 2, 1], s = 100, c = "green", label = "Objetivo")
plt.scatter(X[y_hc == 3, 0], X[y_hc == 3, 1], s = 100, c = "cyan", label = "Descuidados")
plt.scatter(X[y_hc == 4, 0], X[y_hc == 4, 1], s = 100, c = "magenta", label = "Conservadores")
plt.title("Cluster de clientes")
plt.xlabel("Ingresos anuales (en miles de $)")
plt.ylabel("Puntuación de Gastos (1-100)")
plt.legend()
plt.show()

### Un Ejemplo utilizando la librería Scipy

In [None]:
import numpy as np

X = np.array([[5,3],
    [10,15],
    [15,12],
    [24,10],
    [30,30],
    [85,70],
    [71,80],
    [60,78],
    [70,55],
    [80,91],])

In [None]:
import matplotlib.pyplot as plt

labels = range(1, 11)
plt.figure(figsize=(10, 7))
plt.subplots_adjust(bottom=0.1)
plt.scatter(X[:,0],X[:,1], label='True Position')

for label, x, y in zip(labels, X[:, 0], X[:, 1]):
    plt.annotate(
        label,
        xy=(x, y), xytext=(-3, 3),
        textcoords='offset points', ha='right', va='bottom')
plt.show()

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt

linked = linkage(X, 'single')

labelList = range(1, 11)

plt.figure(figsize=(10, 7))
dendrogram(linked,
            orientation='top',
            labels=labelList,
            distance_sort='descending',
            show_leaf_counts=True)
plt.show()

## with scikit-learn

In [None]:
from sklearn.cluster import AgglomerativeClustering

cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(X)

In [None]:
print(cluster.labels_)

In [None]:
plt.scatter(X[:,0],X[:,1], c=cluster.labels_, cmap='rainbow')


### Agrupación jerárquica: método ward
¡Es hora de Comic-Con! Comic-Con es una convención anual basada en cómics que se celebra en las principales ciudades del mundo. Tienes los datos del paso del año pasado, el número de personas en el campo de la convención en un momento dado. Le gustaría decidir la ubicación de su puesto para maximizar las ventas. Utilizando el método de la sala, aplique agrupaciones jerárquicas para encontrar los dos puntos de atracción en el área.

- Preprocesamiento

In [None]:
comic_con = pd.read_csv('comic_con.csv', index_col=0)
comic_con.head()

In [None]:
from scipy.cluster.vq import whiten

comic_con['x_scaled'] = whiten(comic_con['x_coordinate'])
comic_con['y_scaled'] = whiten(comic_con['y_coordinate'])

In [None]:
from scipy.cluster.hierarchy import linkage, fcluster
import seaborn as sns

# Use the linkage()
distance_matrix = linkage(comic_con[['x_scaled', 'y_scaled']], method='ward', metric='euclidean')

# Assign cluster labels
comic_con['cluster_labels'] = fcluster(distance_matrix, 2, criterion='maxclust')

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', hue='cluster_labels', data=comic_con);

### Agrupación jerárquica: método single
Usemos el mismo conjunto de datos de pisadas y verifiquemos si se ven cambios si usamos un método diferente para la agrupación.

In [None]:
# Use the linkage()
distance_matrix = linkage(comic_con[['x_scaled', 'y_scaled']], method='single', metric='euclidean')

# Assign cluster labels
comic_con['cluster_labels'] = fcluster(distance_matrix, 2, criterion='maxclust')

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', hue='cluster_labels', data=comic_con);

### Agrupación jerárquica: método complete
Por tercera y última vez, usemos el mismo conjunto de datos de pisadas y verifiquemos si se observan cambios si usamos un método diferente para la agrupación.



In [None]:
# Use the linkage()
distance_matrix = linkage(comic_con[['x_scaled', 'y_scaled']], method='complete', metric='euclidean')

# Assign cluster labels
comic_con['cluster_labels'] = fcluster(distance_matrix, 2, criterion='maxclust')

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', hue='cluster_labels', data=comic_con);

## Visualizar clústeres
- ¿Por qué visualizar clústeres?
     - Trate de dar sentido a los grupos formados
     - Un paso adicional en la validación de clústeres.
     - Detectar tendencias en los datos

### Visualice clústeres con matplotlib
Hemos comentado que las visualizaciones son necesarias para evaluar los clústeres que se forman y detectar tendencias en sus datos. Centrémonos ahora en visualizar el conjunto de datos de pisadas de Comic-Con utilizando el módulo matplotlib.

In [None]:
# Define a colors dictionary for clusters
colors = {1:'red', 2:'blue'}

# Plot the scatter plot
comic_con.plot.scatter(x='x_scaled', y='y_scaled', c=comic_con['cluster_labels'].apply(lambda x: colors[x]));

### Visualice grupos con seaborn
Visualicemos ahora el conjunto de datos de pisadas de Comic Con utilizando el módulo seaborn. Visualizar clústeres usando seaborn es más fácil con la función incorporada `` `hue`` para etiquetas de clúster.

In [None]:
# Plot a scatter plot using seaborn
sns.scatterplot(x='x_scaled', y='y_scaled', hue='cluster_labels', data=comic_con)

## ¿Cuántos clusters?
- Introducción a los dendrogramas
     - Estrategia hasta ahora: decide los grupos en la inspección visual
     - Los dendrogramas ayudan a mostrar progresiones a medida que se fusionan los grupos
     - Un dendrograma es un diagrama de ramificación que demuestra cómo se compone cada grupo al ramificarse en sus nodos secundarios.

### Crea un dendrograma
Los dendrogramas son diagramas de ramificación que muestran la fusión de grupos a medida que nos movemos por la matriz de distancias. Usemos los datos de pisadas de Comic Con para crear un dendrograma.



In [None]:
from scipy.cluster.hierarchy import dendrogram

# Create a dendrogram
dn = dendrogram(distance_matrix)

### Limitaciones de la agrupación jerárquica
- Comparación del tiempo de ejecución del método de vinculación
     - Aumento del tiempo de ejecución con puntos de datos.
     - Aumento cuadrático del tiempo de ejecución
     - No es factible para grandes conjuntos de datos

### Ejecución de tiempo de agrupación jerárquica
En ejercicios anteriores de este capítulo, usó los datos de la pisada de Comic-Con para crear clústeres. En este ejercicio, calculará cuánto tiempo lleva ejecutar el algoritmo en el sistema de DataCamp.

Recuerde que puede cronometrar la ejecución de pequeños fragmentos de código con:
```python
%timeit sum([1, 3, 2])
```

In [None]:
%timeit linkage(comic_con[['x_scaled', 'y_scaled']], method='ward', metric='euclidean')

## 2. Agrupación por densidad
### Un ejemplo más complicado

El algoritmo de k-medias puede tener dificultades cuando los grupos no tienen formas convexas:

In [None]:
from sklearn.datasets import make_moons
X,y = make_moons(200, noise=0.05, random_state=0)

In [None]:
X

In [None]:
plt.scatter(X[:,0], X[:,1]);

In [None]:
from sklearn.cluster import KMeans
model=KMeans(6)
model.fit(X)
plt.scatter(X[:,0], X[:,1], c=model.labels_);

La agrupación no funciona bien ahora, ya que no es posible separar las dos agrupaciones con una línea. Podríamos incrustar este conjunto de datos en un espacio dimensional superior, donde la separación es posible. Y luego aplique el agrupamiento de k-medias.

Alternativamente, podemos usar un tipo diferente de algoritmo de agrupamiento para este caso. El * algoritmo DBSCAN * se basa en densidades y funciona bien con datos cuya densidad en los clústeres es uniforme.

In [None]:
from sklearn.cluster import DBSCAN
model = DBSCAN(eps=0.3)
model.fit(X)
plt.scatter(X[:,0], X[:,1], c=model.labels_);

La buena noticia es que DBSCAN no requiere que el usuario especifique el número de clústeres. Pero ahora el algoritmo depende de otro hiperparámetro: un umbral para la distancia (aquí 0,3).