<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
        <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Logotipo de Skills Network">
    </a>
</p>

# Agrupamiento K-Means

Tiempo estimado necesario: **25** minutos

## Objetivos

Despu√©s de completar este laboratorio, ser√°s capaz de:

* Utilizar el algoritmo de agrupamiento K-Means de scikit-learn para agrupar datos


## Introducci√≥n

Existen muchos modelos para el **agrupamiento (clustering)**. En este cuaderno, presentaremos el modelo que se considera uno de los m√°s sencillos entre ellos. A pesar de su simplicidad, **K-means** se utiliza ampliamente para el agrupamiento en muchas aplicaciones de ciencia de datos, y es especialmente √∫til cuando se necesita descubrir r√°pidamente informaci√≥n a partir de **datos no etiquetados**. En este cuaderno aprender√°s a utilizar K-means para la segmentaci√≥n de clientes.

Algunas aplicaciones reales de K-means:
- Segmentaci√≥n de clientes
- Comprender qu√© intentan hacer los visitantes de un sitio web
- Reconocimiento de patrones
- Aprendizaje autom√°tico
- Compresi√≥n de datos

En este cuaderno practicamos el agrupamiento K-means con 2 ejemplos:
- K-means sobre un conjunto de datos generado aleatoriamente
- Uso de K-means para la segmentaci√≥n de clientes


<h1>Tabla de contenidos</h1>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#random_generated_dataset">K-Means sobre un conjunto de datos generado aleatoriamente</a></li>
            <ol>
                <li><a href="#setting_up_K_means">Configuraci√≥n de K-Means</a></li>
                <li><a href="#creating_visual_plot">Creaci√≥n de la visualizaci√≥n</a></li>
            </ol>
        <p></p>
        <li><a href="#customer_segmentation_K_means">Segmentaci√≥n de clientes con K-Means</a></li>
            <ol>
                <li><a href="#pre_processing">Preprocesamiento</a></li>
                <li><a href="#modeling">Modelado</a></li>
                <li><a href="#insights">Conclusiones</a></li>
            </ol>
    </ul>
</div>
<br>
<hr>


### Importar librer√≠as
Primero vamos a importar las librer√≠as necesarias.  
Ejecuta tambi√©n <b>%matplotlib inline</b>, ya que en esta secci√≥n vamos a generar gr√°ficos.



In [None]:
# Surpress warnings:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

In [None]:
import random 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.datasets import make_blobs 
%matplotlib inline

<h1 id="random_generated_dataset">K-Means sobre un conjunto de datos generado aleatoriamente</h1>

¬°Vamos a crear nuestro propio conjunto de datos para este laboratorio!


Primero necesitamos establecer una semilla aleatoria. Utiliza la funci√≥n <b>numpy.random.seed()</b>, donde la semilla se establecer√° en <b>0</b>.


In [None]:
np.random.seed(0)

A continuaci√≥n, vamos a crear <i>clusters aleatorios</i> de puntos utilizando la clase <b>make_blobs</b>.  
La clase <b>make_blobs</b> puede recibir muchos par√°metros, pero utilizaremos los siguientes. <br><br>

<b><u>Entrada</u></b>
<ul>
    <li><b>n_samples</b>: N√∫mero total de puntos, repartidos equitativamente entre los clusters.</li>
    <ul><li>Valor: 5000</li></ul>
    <li><b>centers</b>: N√∫mero de centros a generar o localizaciones fijas de los centros.</li>
    <ul><li>Valor: [[4, 4], [-2, -1], [2, -3], [1, 1]]</li></ul>
    <li><b>cluster_std</b>: Desviaci√≥n est√°ndar de los clusters.</li>
    <ul><li>Valor: 0.9</li></ul>
</ul>
<br>
<b><u>Salida</u></b>
<ul>
    <li><b>X</b>: Array con forma [n_samples, n_features]. (Matriz de caracter√≠sticas)</li>
    <ul><li>Las muestras generadas.</li></ul> 
    <li><b>y</b>: Array con forma [n_samples]. (Vector de respuesta)</li>
    <ul><li>Etiquetas enteras que indican a qu√© cluster pertenece cada muestra.</li></ul>
</ul>

In [None]:
X, y = make_blobs(n_samples=5000, centers=[[4,4], [-2, -1], [2, -3], [1, 1]], cluster_std=0.9)

Muestra el diagrama de dispersi√≥n de los datos generados aleatoriamente.


In [None]:
plt.scatter(X[:, 0], X[:, 1], marker='.')

<h2 id="setting_up_K_means">Configuraci√≥n de K-Means</h2>
Ahora que tenemos nuestros datos aleatorios, vamos a configurar el algoritmo de agrupamiento K-Means.


La clase **KMeans** dispone de numerosos par√°metros, pero en este caso utilizaremos los siguientes:

<ul>
    <li><b>init</b>: M√©todo de inicializaci√≥n de los centroides.</li>
    <ul>
        <li>Valor: <code>"k-means++"</code></li>
        <li>
            <code>k-means++</code>: selecciona los centroides iniciales de forma inteligente para acelerar la convergencia 
            y mejorar la calidad del clustering.  
            <br>
            <i>Es el valor por defecto, por lo que no es necesario especificarlo expl√≠citamente.</i>
        </li>
    </ul>


<li><b>n_clusters</b>: N√∫mero de clusters que se van a formar y, por tanto, n√∫mero de centroides a generar.</li>
<ul>
    <li>Valor: 4 (ya que se desea obtener 4 grupos)</li>
</ul>

<li><b>n_init</b>: N√∫mero de veces que se ejecuta el algoritmo KMeans con distintas inicializaciones de los centroides.</li>
<ul>
    <li>
        El resultado final ser√° el mejor en t√©rminos de inercia.
        <br>
        <i>Actualmente se recomienda usar <code>"auto"</code>, para que la librer√≠a seleccione autom√°ticamente el n√∫mero √≥ptimo de inicializaciones.</i>
    </li>
    <li>Valor: <code>"auto"</code></li>
</ul>
<li><b>random_state</b>: Controla la aleatoriedad del algoritmo.</li>
<ul>
    <li>
        Permite obtener resultados reproducibles en distintas ejecuciones.
    </li>
    <li>Valor: 42</li>
</ul>

</ul>

Inicializa el algoritmo **KMeans** con estos par√°metros y guarda el modelo resultante en una variable llamada <b>k_means</b>.




In [None]:
k_means = KMeans(init = "k-means++", n_clusters = 4, n_init = 'auto',random_state=42)

Ahora ajusta (fit) el modelo KMeans utilizando la matriz de caracter√≠sticas <b>X</b> que hemos creado antes.


In [None]:
k_means.fit(X)

Obt√©n las etiquetas de cada punto del modelo usando el atributo <b>.labels_</b> de KMeans y gu√°rdalas como <b>k_means_labels</b>.


In [None]:
k_means_labels = k_means.labels_
k_means_labels

Tambi√©n obt√©n las coordenadas de los centros de los clusters utilizando <b>.cluster_centers_</b>  
y gu√°rdalas como <b>k_means_cluster_centers</b>.

In [None]:
k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

<h2 id="creating_visual_plot">Creaci√≥n de la visualizaci√≥n</h2>

Ahora que ya tenemos los datos generados y el modelo KMeans inicializado, vamos a representarlos gr√°ficamente para ver el resultado.


Lee el c√≥digo y los comentarios con atenci√≥n para entender c√≥mo se realiza la visualizaci√≥n.


In [None]:
# Inicializa la figura con las dimensiones especificadas.
fig = plt.figure(figsize=(6, 4))

# colors utiliza un mapa de colores, que generar√° un conjunto de colores
# en funci√≥n del n√∫mero de etiquetas existentes. Usamos set(k_means_labels)
# para obtener las etiquetas √∫nicas.
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means_labels))))

# Crear el gr√°fico
ax = fig.add_subplot(1, 1, 1)

# Bucle for que representa los puntos de datos y los centroides.
# k tomar√° valores de 0 a 3, que coinciden con los posibles clusters
# a los que puede pertenecer cada punto de datos.
for k, col in zip(range(len([[4,4], [-2, -1], [2, -3], [1, 1]])), colors):

    # Crear una lista de todos los puntos de datos, donde los puntos que
    # pertenecen al cluster (por ejemplo, el cluster 0) se marcan como True,
    # y el resto como False.
    my_members = (k_means_labels == k)
    
    # Definir el centroide o centro del cluster.
    cluster_center = k_means_cluster_centers[k]
    
    # Representa los puntos de datos con el color col.
    ax.plot(X[my_members, 0], X[my_members, 1], 'w',
            markerfacecolor=col, marker='.')
    
    # Representa los centroides con el color especificado,
    # pero con un borde m√°s oscuro.
    ax.plot(cluster_center[0], cluster_center[1], 'o',
            markerfacecolor=col, markeredgecolor='k', markersize=6)

# T√≠tulo del gr√°fico
ax.set_title('KMeans')

# Eliminar las marcas del eje X
ax.set_xticks(())

# Eliminar las marcas del eje Y
ax.set_yticks(())

# Mostrar el gr√°fico
plt.show()



<div style="background-color:green;color:white">

<br>

## Pr√°ctica

Intenta agrupar el conjunto de datos anterior en **3 clusters**.
Aviso: no vuelvas a generar los datos, utiliza el mismo conjunto creado anteriormente.

<br>

In [None]:
# write your code here



<h1 id="customer_segmentation_K_means">Segmentaci√≥n de clientes con K-Means</h1>

Imagina que dispones de un conjunto de datos de clientes y necesitas aplicar segmentaci√≥n de clientes sobre datos hist√≥ricos.
La **segmentaci√≥n de clientes** es la pr√°ctica de dividir una base de clientes en grupos de individuos que comparten caracter√≠sticas similares. Es una estrategia clave, ya que permite a las empresas dirigirse a grupos espec√≠ficos y asignar de forma eficiente sus recursos de marketing.

Por ejemplo, un grupo puede incluir clientes con alta rentabilidad y bajo riesgo, es decir, m√°s propensos a comprar productos o suscribirse a servicios. El objetivo del negocio ser√° retener a esos clientes. Otro grupo puede estar formado por clientes de organizaciones sin √°nimo de lucro, entre otros.

### Cargar datos desde un archivo CSV

Antes de trabajar con los datos, utilizamos pandas para leer el conjunto de datos desde IBM Object Storage.

In [None]:
import pandas as pd
cust_df = pd.read_csv("https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%204/data/Cust_Segmentation.csv")
cust_df.head()

<h2 id="pre_processing">Pre-processing</h2


Como puedes observar, la variable **Address** es una variable categ√≥rica. El algoritmo k-means no se puede aplicar directamente a variables categ√≥ricas, ya que la distancia eucl√≠dea no tiene sentido para valores discretos.
Por ello, eliminamos esta caracter√≠stica y ejecutamos el agrupamiento.

In [None]:
df = cust_df.drop('Address', axis=1)
df.head()

#### Normalizaci√≥n mediante la desviaci√≥n est√°ndar

Ahora vamos a normalizar el conjunto de datos. ¬øPor qu√© es necesaria la normalizaci√≥n?
La normalizaci√≥n es un m√©todo estad√≠stico que ayuda a los algoritmos basados en c√°lculos matem√°ticos a interpretar correctamente caracter√≠sticas con diferentes magnitudes y distribuciones. Para ello utilizamos **StandardScaler()**.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# Selecciona todas las filas del DataFrame y las columnas desde la segunda en adelante
# (se asume que la primera columna no se utiliza para el clustering)
X = df.iloc[:, 1:]

# Se crea un pipeline de preprocesamiento
pipeline = Pipeline([
    # Paso 1: Imputaci√≥n de valores faltantes (NaN)
    # Sustituye los valores NaN de cada columna por la media de dicha columna
    ("imputer", SimpleImputer(strategy="mean")),

    # Paso 2: Estandarizaci√≥n de las variables
    # Ajusta los datos para que tengan media 0 y desviaci√≥n est√°ndar 1
    # Esto es fundamental para algoritmos basados en distancia como KMeans
    ("scaler", StandardScaler())
])

# Ajusta el pipeline a los datos y aplica las transformaciones
# El resultado es un array con los datos ya imputados y normalizados
X = pipeline.fit_transform(X)


<h2 id="modeling">Modelado</h2>


En nuestro ejemplo (si no dispusi√©ramos del algoritmo k-means), este proceso equivaldr√≠a a realizar m√∫ltiples pruebas y suposiciones sobre la edad, ingresos, educaci√≥n, etc., de cada grupo de clientes.
Sin embargo, utilizando el agrupamiento K-Means, todo este proceso se realiza de forma mucho m√°s sencilla.

Apliquemos k-means a nuestro conjunto de datos y observemos las etiquetas de los clusters.

In [None]:
# N√∫mero de clusters que se desean formar
clusterNum = 3

# Se crea el modelo KMeans
# - init="k-means++": inicializa los centroides de forma eficiente
# - n_clusters=clusterNum: n√∫mero de grupos a formar
# - n_init=12: n√∫mero de inicializaciones del algoritmo para elegir la mejor soluci√≥n
k_means = KMeans(n_clusters=3, n_init="auto", random_state=42)

# Se ajusta el modelo a los datos X
k_means.fit(X)

# Se obtienen las etiquetas de cluster asignadas a cada observaci√≥n
labels = k_means.labels_

# Se imprimen las etiquetas de los clusters
print(labels)


<h2 id="insights">Hallazgos</h2>

Asignamos las etiquetas a cada fila del dataframe.


In [None]:
df["Clus_km"] = labels
df.head(5)

Podemos comprobar f√°cilmente los valores de los centroides calculando la media de las caracter√≠sticas de cada cluster.


In [None]:
df.groupby('Clus_km').mean()

Ahora observamos la distribuci√≥n de los clientes en funci√≥n de su edad e ingresos.


In [None]:
# Calcula el √°rea de cada punto del scatter plot
# Se usa pi * radio¬≤, donde el radio es la columna 1 de X
# El √°rea determina el tama√±o visual de cada punto
area = np.pi * (X[:, 1])**2  

# Crea un diagrama de dispersi√≥n (scatter plot)
plt.scatter(
    X[:, 0],              # Eje X: valores de la columna 0 (Edad)
    X[:, 3],              # Eje Y: valores de la columna 3 (Ingresos)
    s=area,               # Tama√±o de cada punto proporcional al √°rea calculada
    c=labels.astype(float),  # Color de los puntos seg√∫n el cluster asignado
    alpha=0.5             # Transparencia de los puntos (mejora la visualizaci√≥n)
)

# Etiqueta del eje X
plt.xlabel('Edad', fontsize=18)

# Etiqueta del eje Y
plt.ylabel('Ingresos', fontsize=16)

# Muestra la gr√°fica en pantalla
plt.show()


In [None]:
import pandas as pd
import plotly.express as px

# Convertimos X (array) en DataFrame con nombres de columnas
df_plot = pd.DataFrame(
    X[:, [1, 0, 3]],               # mismas columnas que usabas en matplotlib
    columns=["Education", "Age", "Income"]
)

# A√±adimos las etiquetas de cluster
df_plot["cluster"] = labels.astype(str)

# Gr√°fico 3D interactivo
fig = px.scatter_3d(
    df_plot,
    x="Education",
    y="Age",
    z="Income",
    color="cluster",
    opacity=0.8,
    title="Clusters en 3D (KMeans ‚Äì interactivo)"
)

fig.show()


K-means divide a los clientes en grupos mutuamente excluyentes, por ejemplo, en 3 clusters.
Los clientes de cada cluster son demogr√°ficamente similares entre s√≠.

A partir de aqu√≠, podemos crear un perfil para cada grupo considerando las caracter√≠sticas comunes de cada cluster.
Por ejemplo, los 3 clusters podr√≠an ser:

* CLIENTES CON ALTO PODER ADQUISITIVO, ALTO NIVEL EDUCATIVO Y EDAD AVANZADA
* CLIENTES DE EDAD MEDIA E INGRESOS MEDIOS
* CLIENTES J√ìVENES CON BAJOS INGRESOS

¬øQu√© perfil crees que corresponde cada cluster?

### ¬°Gracias por completar este laboratorio! üéâ

## Autor

Saeed Aghabozorgi

### Otros Contribuidores

<a href="https://www.linkedin.com/in/joseph-s-50398b136/" target="_blank">Joseph Santarcangelo</a>

### Revisi√≥n y traducci√≥n

<a href="https://www.linkedin.com/in/carlostessier/" target="_blank">Carlos Tessier</a>

 

## <h3 align="center"> ¬© Corporaci√≥n IBM 2025. Todos los derechos reservados. <h3/>