In [1]:
#Implementando el Análisis de Clústeres con K-Means(Caso Centro Comercial)
#Objetivo: aplicar KMeans para crear 3 clusters en datos estandarizados, añadir la asignación de clusters a tus datos, 
#realizar un análisis agrupado por cluster y finalmente interpretar los resultados, asistido por ChatGPT.

In [2]:
# Importamos Bibliotecas

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

In [3]:
# Carga de datos desde un archivo CSV

datos = pd.read_csv('C:\\Users\\ALLAN\\Desktop\\Business Analitics con Python y ChatGPT\\centrocomercial.csv', delimiter = ';', index_col = 'ID')


In [4]:
datos.head()

Unnamed: 0_level_0,Genero,Edad,IngresoAnual,ScoreGasto
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Masculino,19,15,39
2,Masculino,21,15,81
3,Femenino,20,16,6
4,Femenino,23,16,77
5,Femenino,31,17,40


In [5]:
# Preprocesamiento de datos categóricos:
# Convertir la variable categórica 'Genero' en variables dummy/indicadoras.
# 'drop_first=True' omite la primera categoría alfabética para evitar la multicolinealidad,
# lo que significa que 'Femenino' será representado como 0 y 'Masculino' como 1.

In [6]:
datos_preprocesados = pd.get_dummies(datos, columns=['Genero'], drop_first=True)

In [7]:
datos_preprocesados.head()

Unnamed: 0_level_0,Edad,IngresoAnual,ScoreGasto,Genero_Masculino
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,19,15,39,True
2,21,15,81,True
3,20,16,6,False
4,23,16,77,False
5,31,17,40,False


In [8]:
# Estandarización de los datos numéricos:
# Inicializar un objeto StandardScaler

estandarizar = StandardScaler()

In [9]:
# Aplicar la estandarización

datos_std = estandarizar.fit_transform(datos_preprocesados)

In [10]:
datos_std

array([[-1.42456879, -1.73899919, -0.43480148,  1.12815215],
       [-1.28103541, -1.73899919,  1.19570407,  1.12815215],
       [-1.3528021 , -1.70082976, -1.71591298, -0.88640526],
       [-1.13750203, -1.70082976,  1.04041783, -0.88640526],
       [-0.56336851, -1.66266033, -0.39597992, -0.88640526],
       [-1.20926872, -1.66266033,  1.00159627, -0.88640526],
       [-0.27630176, -1.62449091, -1.71591298, -0.88640526],
       [-1.13750203, -1.62449091,  1.70038436, -0.88640526],
       [ 1.80493225, -1.58632148, -1.83237767,  1.12815215],
       [-0.6351352 , -1.58632148,  0.84631002, -0.88640526],
       [ 2.02023231, -1.58632148, -1.4053405 ,  1.12815215],
       [-0.27630176, -1.58632148,  1.89449216, -0.88640526],
       [ 1.37433211, -1.54815205, -1.36651894, -0.88640526],
       [-1.06573534, -1.54815205,  1.04041783, -0.88640526],
       [-0.13276838, -1.54815205, -1.44416206,  1.12815215],
       [-1.20926872, -1.54815205,  1.11806095,  1.12815215],
       [-0.27630176, -1.

In [11]:
cluster3 = KMeans(n_clusters=3, init="k-means++", random_state=99)

In [12]:
#Ahora Entrenaré el Modelo de Datos Cluster(n=3)

cluster3.fit(datos_std)



In [13]:
# Añado las etiquetas de cluster a los datos preprocesados para su análisis
# Utilizo los datos preprocesados en lugar de los datos originales para poder analizar la variable categórica
# Creo una copia para conservar los datos originales sin alteración (una buena práctica)
# Utilizo los datos preprocesados en lugar de los datos originales para poder analizar la variable categórica

datos_copia = datos_preprocesados.copy()

In [14]:
# Y en el df copia, añadimos una nueva columna con el número del cluster

datos_copia['Cluster'] = cluster3.labels_

In [15]:
# Veamos que tiene datos_copia

datos_copia

Unnamed: 0_level_0,Edad,IngresoAnual,ScoreGasto,Genero_Masculino,Cluster
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,19,15,39,True,0
2,21,15,81,True,0
3,20,16,6,False,1
4,23,16,77,False,0
5,31,17,40,False,1
...,...,...,...,...,...
196,35,120,79,False,0
197,45,126,28,False,1
198,32,126,74,True,0
199,32,137,18,True,2


In [16]:
# Crear una tabla de análisis agrupando por cluster (con .groupby) y calculando la media de las variables (con .mean)

df_analisis = datos_copia.groupby('Cluster').mean()

In [17]:
df_analisis

Unnamed: 0_level_0,Edad,IngresoAnual,ScoreGasto,Genero_Masculino
Cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,28.107143,61.785714,73.261905,0.464286
1,44.746269,57.791045,36.253731,0.0
2,49.204082,62.244898,29.734694,1.0
