# Importamos dataset

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# importamos el dataset de Mall Customers
mall = pd.read_csv("Mall_Customers.csv")

In [None]:
mall.head()

In [None]:
mall.info()

In [None]:
# solo utilizaremos la columnas 4 y 5
# mall.drop(columns=['CustomerID', 'Genre', 'Age'], inplace=True)
mall.drop(columns=['CustomerID', 'Genre', 'Age'], inplace=True)

# Clustering

In [None]:
# importamos las librerias necesarias para realizar el clustering
from sklearn.cluster import KMeans

In [None]:
# inicializamos un diccionario para poder guardar la 'inertia' de cada grupo
clusters = {'n': [], 'inertia': []}

In [None]:
# utilizaremos un bucle for para probar diferentes cantidades de clusters y almacenarlas en el diccionario
# luego de este ejercicio utilizaremos el metodo del codo (elbow) para encontrar la cantidad optima

for i in range(1, 11):
  model = KMeans(n_clusters=i, random_state=123)
  model.fit(mall)
  inertia = model.inertia_

  clusters['n'].append(i)
  clusters['inertia'].append(inertia)

In [None]:
sns.set_style('whitegrid')
pd.DataFrame(clusters).plot(x='n', y='inertia', kind='line', marker='o')

In [None]:
# vemos que la cantidad optima de clusters es 5
# armamos un modelo para predecir los valores actuales del dataset mall
kmeans = KMeans(n_clusters=5)

# entrenamos con los datos del dataset
kmeans.fit(mall)

# generamos un arreglo donde se almacenan las clases predichas por el modelo
pred_class = kmeans.predict(mall)

# adicionamos al dataframe mall el valor de cada clase en una columna nueva
mall['Clase'] = pred_class

In [None]:
# visualizamos las clases en el scatterplot a traves de los diferentes colores

sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Clase', data=mall, palette=sns.color_palette("Paired", 5))

# Clustering Jerarquico


In [None]:
# en este caso vamos a necesitar utilizar la libreria de SciPy

from scipy.cluster.hierarchy import linkage, dendrogram

In [None]:
# vamos a generar el dendograma con distancia euclidea y disimilitud ward
# la computacion del algoritmo se genera en la siguiente linea de codigo
dend = linkage(mall, method='ward', metric='euclidean')

# utilizamos la funcion dendogram que tambien importamos de SciPy para graficarlo
plt.figure(figsize=(25, 15))
dendrogram(dend, leaf_rotation=90, leaf_font_size=6)
plt.show()

In [None]:
# ahora podemos elegir a la altura sobre la cual deseamos cortar el cluster
# para esto debemos importar otra funcionalidad de SciPy llamada fcluster

from scipy.cluster.hierarchy import fcluster

# el proceso es sencillo, simplemente elegimos como argumentos  el modelo que hicimos
# previamente llamado dend, a que distancia queremos generar los clusters y con que criterio
# 150 parece un buen punto para el corte, y pensemos, cuantos clusters deberian aparecer como maximo

labels = fcluster(dend, 150, criterion='distance')

In [None]:
# veamos cual es el valor mas alto de un cluster, tiene sentido en funcion al grafico?
max(labels)

In [None]:
# solo nos falta agregar al dataframe del mall esta nueva categorizacion
# para ello crearemos una nueva columna la cual llamaremos clase_dend

mall['clase_dend'] = labels

In [None]:
# visualizamos las clases en el scatterplot a traves de los diferentes colores
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='clase_dend', data=mall, palette=sns.color_palette("Paired", 5))