In [None]:
###
# Importar librerias necesarias para el procesamiento del dataframe
###

'''Pandas para la lectura del archivo'''
import pandas as pd

'''Sns y plt para organizar los graficos visuales'''
import seaborn as sns
import matplotlib.pyplot as plt

#
# Importar el archivo csv del set online llamado Mall_Customers.csv
#
df = pd.read_csv('/content/sample_data/Mall_Customers.csv')

#
# 1. Para este caso de estudio todas las variables pasan por un proceso de
# análisis y se visualizan a través de graficos
#

#
# Visualización básica de los datos para entender las distribuciones
#
sns.pairplot(df.drop('CustomerID', axis=1), hue='Gender')
plt.show()

#
# Visualizar la correlación entre las variables numéricas
#
sns.heatmap(df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']].corr(), annot=True, cmap='coolwarm')
plt.show()

In [None]:
'''Escaladores de caracteristicas para este caso las variables de estudio'''
from sklearn.preprocessing import StandardScaler, LabelEncoder

#
# 2. Preprocesamiento y Selección de Características
#

#
# Codificación de variables categóricas y escalado de características numéricas
#
df['Gender'] = LabelEncoder().fit_transform(df['Gender'])

#
# Escalado de características numéricas
#
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
df_scaled = pd.DataFrame(df_scaled, columns=['Age', 'Annual Income (k$)', 'Spending Score (1-100)'])

#
# 3. Selección de características
# para este caso de estudio Utilizaremos todas las características numéricas
# en este ejemplo
#
features = df_scaled

#
# 4. Entrenamiento del modelo
#

'''Modelo de ejecución de entrenamiento'''
from scipy.cluster.hierarchy import dendrogram, linkage

#
# Utilizar el método de vinculación 'ward' que minimiza la varianza de los clusters que se fusionan
#
linked = linkage(features, method='ward')

#
# Visualización con un dendrograma
#
plt.figure(figsize=(10, 7))
dendrogram(linked, orientation='top', labels=df.index, distance_sort='descending', show_leaf_counts=True)
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Cluster Size')
plt.ylabel('Distance')
plt.show()

In [None]:
#
# 5. Evaluación del desempeño
#

'''Metricas de desempeño'''
from sklearn.metrics import silhouette_score, calinski_harabasz_score

'''Librería para la definición de clusters'''
from scipy.cluster.hierarchy import fcluster

#
# Decidir un número de clusters y asignar labels
# para este caso de estudio el numero de clusters será de 3
#
k = 3
clusters = fcluster(linked, k, criterion='maxclust')

print('Silhouette Score:', silhouette_score(features, clusters))
print('Calinski-Harabasz Score:', calinski_harabasz_score(features, clusters))

In [None]:
#
# 6. Visualización de resultados
#

#
# Agregar los labels del cluster al dataframe original
#
df['Cluster'] = clusters

#
# Visualización de los clusters
#
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', hue='Cluster', data=df, palette='viridis')
plt.title('Cluster Visualization')
plt.show()