#  Aprendizaje no supervisado
## Agrupación K-medias, jerárquica y DBSCAN

Seguimos con la base de datos de consumidores de ayer.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import plotly as py
import plotly.graph_objs as go

from sklearn.cluster import KMeans

from sklearn.cluster import DBSCAN

from scipy.cluster.hierarchy import linkage, fcluster
from scipy.cluster.hierarchy import dendrogram

import warnings
warnings.filterwarnings('ignore')

## Datos
Tenemos una base de datos: la unidad de observación son consumidores de un centro comercial.

In [None]:
df = pd.read_csv('Mall_Customers.csv')
df.head()

### Visualicemos esos consumidores

In [None]:
plt.figure(1 , figsize = (15 , 7))
plt.title('Scatter plot of Age v/s Spending Score', fontsize = 20)
plt.xlabel('Age')
plt.ylabel('Spending Score')
plt.scatter( x = 'Age', y = 'Spending Score (1-100)', data = df, s = 100)
plt.show()

## Modelos
Vamos a crear los siguientes modelos de agrupación y los vamos a comparar:
* K-medias
* Agrupación jerárquica
* Agrupación por densidad DBSCAN

### K-means
En K-medias, los centros se mueven hacia los datos cercanos, y luego los datos cercanos escogen su centro más cercano, hasta que hay estabilidad.

In [None]:
X1 = df[['Age' , 'Spending Score (1-100)']].iloc[: , :].values
X1[0:5]

In [None]:
## Un modelo con 2 grupos

algorithm = (KMeans(n_clusters = 2 ,init='k-means++', n_init = 10 ,max_iter=300,
                        tol=0.0001,  random_state= 111  , algorithm='elkan') )
algorithm.fit(X1)
labels1 = algorithm.labels_
centroids1 = algorithm.cluster_centers_

In [None]:
plt.figure(1 , figsize = (15 , 7) )
plt.clf()
plt.scatter( x = 'Age', y = 'Spending Score (1-100)', data = df, c = labels1, s = 100)
#plt.scatter(x = centroids1[: , 0] , y =  centroids1[: , 1] , s = 300 , c = 'red' , alpha = 0.5)
plt.ylabel('Spending Score (1-100)') , plt.xlabel('Age')
plt.title('Agrupación por K-means')
plt.show()

### Análisis del codo

In [None]:
X1 = df[['Age' , 'Spending Score (1-100)']].iloc[: , :].values
inertia = []
for n in range(1 , 15):
    algorithm = (KMeans(n_clusters = n ,init='k-means++', n_init = 10 ,max_iter=300,
                        tol=0.0001,  random_state= 111  , algorithm='elkan') )
    algorithm.fit(X1)
    inertia.append(algorithm.inertia_)

In [None]:
plt.figure(1 , figsize = (15 ,6))
plt.plot(np.arange(1 , 15) , inertia , 'o')
plt.plot(np.arange(1 , 15) , inertia , '-' , alpha = 0.5)
plt.xlabel('Number of Clusters') , plt.ylabel('Inertia')
plt.show()

**Observamos que** parece que la incercia se estabiliza al rededor de cuatro grupos. Este puede ser un punto de partida, **pero no camisa de fuerza**, el criterio del analista es clave.

In [None]:
## Después de haber hecho el análisis del codo, nos quedábamos con 4 grupos:

algorithm = (KMeans(n_clusters = 4 ,init='k-means++', n_init = 10 ,max_iter=300,
                        tol=0.0001,  random_state= 111  , algorithm='elkan') )
algorithm.fit(X1)
labels1 = algorithm.labels_
centroids1 = algorithm.cluster_centers_

In [None]:
plt.figure(1 , figsize = (15 , 7) )
plt.clf()
plt.scatter( x = 'Age', y = 'Spending Score (1-100)', data = df, c = labels1, s = 100)
#plt.scatter(x = centroids1[: , 0] , y =  centroids1[: , 1] , s = 300 , c = 'red' , alpha = 0.5)
plt.ylabel('Spending Score (1-100)') , plt.xlabel('Age')
plt.title('Agrupación por K-means')
plt.show()

### Jerárquica
[Referencia](https://colab.research.google.com/github/goodboychan/chans_jupyter/blob/master/_notebooks/2020-06-06-02-Hierarchical-Clustering.ipynb#scrollTo=CdHHHWloEbov)

In [None]:
# Formato correcto de los datos
X = df[['Age' , 'Spending Score (1-100)']]
X.head()

In [None]:
# Use the linkage()
distance_matrix = linkage(X, method='single', metric='euclidean')

# Assign cluster labels
numero_grupos = 5
# maxclust: En cuentra la distancia óptima entre dos observaciones para la creación de grupos
X['Grupo'] = fcluster(distance_matrix, numero_grupos, criterion='maxclust')

# Plot clusters
plt.figure(2 , figsize = (15 , 7) )
plt.title('Agrupación Jerárquica')
sns.scatterplot(x='Age', y='Spending Score (1-100)', s=100, hue='Grupo', data=X, palette='colorblind')

In [None]:
plt.title('Dendograma para 5 grupos')
dendrogram(distance_matrix)

### DBSCAN

In [None]:
# Usamos este formato
X1[0:5]

In [None]:
# eps: distancia máxima
# min_samples: número de datos para ser popular
modeloDensidad = DBSCAN(eps=6, min_samples=3).fit(X)
etiquetas = modeloDensidad.labels_
modeloDensidad

In [None]:
plt.figure(3 , figsize = (15 , 7) )
plt.title('Agrupación por DBSCAN')
c= sns.scatterplot(x='Age', y='Spending Score (1-100)', s=100, hue=etiquetas, data=X, palette='colorblind')
c.legend(loc='center left', bbox_to_anchor=(1, 0.5), ncol=1)