
# Tarea 1: Agrupamiento y Método del Codo

En esta tarea, exploraremos la técnica de agrupamiento utilizando **KMeans** y determinaremos el número óptimo de clústeres mediante el **método del codo**. Utilizaremos el conjunto de datos público de [Kaggle: Wholesale Customers Dataset](https://archive.ics.uci.edu/ml/datasets/Wholesale+customers). Este conjunto de datos contiene información sobre el consumo de diferentes categorías de productos por parte de clientes mayoristas.

## Objetivos
1. Cargar y explorar el conjunto de datos.
2. Implementar el método del codo para determinar el valor óptimo de \( k \).
3. Aplicar KMeans para agrupar a los clientes.
4. Analizar los resultados y responder preguntas clave.

---


In [None]:

# Instalación de bibliotecas necesarias
!pip install pandas matplotlib scikit-learn seaborn


In [None]:

# Importar las bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns

# Configuración para gráficos más estéticos
sns.set(style="whitegrid")



## Paso 1: Cargar los datos

El conjunto de datos puede descargarse directamente desde su fuente pública. Lo cargaremos en un DataFrame de pandas.


In [None]:

# Cargar los datos desde la URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00292/Wholesale%20customers%20data.csv"
data = pd.read_csv(url)

# Mostrar las primeras filas del conjunto de datos
data.head()



### Paso 2: Exploración inicial

Analizaremos la estructura y estadísticas básicas del conjunto de datos para identificar columnas relevantes y preprocesar los datos según sea necesario.


In [None]:

# Información general sobre los datos
data.info()

# Estadísticas descriptivas
data.describe()



## Paso 3: Selección de características

Para este análisis, utilizaremos las columnas relacionadas con el consumo: `Fresh`, `Milk`, `Grocery`, `Frozen`, `Detergents_Paper` y `Delicassen`.


In [None]:

# Seleccionar las características relevantes
X = data[['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']]

# Normalizar los datos para KMeans
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)



## Paso 4: Método del Codo

Implementaremos el método del codo para determinar el valor óptimo de \( k \) (número de clústeres).


In [None]:

# Método del codo
inertia = []
range_k = range(1, 11)

for k in range_k:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)

# Visualizar el método del codo
plt.figure(figsize=(8, 5))
plt.plot(range_k, inertia, marker='o', linestyle='--')
plt.xlabel('Número de Clústeres (k)')
plt.ylabel('Inercia')
plt.title('Método del Codo')
plt.show()



### Preguntas
1. ¿Cuál es el valor óptimo de \( k \) según el método del codo? Justifique su respuesta.
2. Explique cómo afecta el valor de \( k \) a la agrupación y a la inercia total.



## Paso 5: Aplicación de KMeans

Supongamos que el valor óptimo de \( k \) es 5. Aplicaremos KMeans con este valor y analizaremos los resultados.


In [None]:

# Aplicar KMeans con el valor óptimo de k
k_optimo = 5  # Cambiar según la respuesta al método del codo
kmeans = KMeans(n_clusters=k_optimo, random_state=42)
data['Cluster'] = kmeans.fit_predict(X_scaled)

# Visualizar los centroides
centroides = pd.DataFrame(kmeans.cluster_centers_, columns=X.columns)
centroides



## Paso 6: Análisis y visualización

Visualizaremos los clústeres resultantes y responderemos preguntas sobre la agrupación.


In [None]:

# Visualización de los clústeres
plt.figure(figsize=(8, 5))
sns.scatterplot(
    x=X_scaled[:, 0], 
    y=X_scaled[:, 1], 
    hue=data['Cluster'], 
    palette='Set2', 
    s=100
)
plt.title('Agrupación de Clientes (KMeans)')
plt.xlabel('Fresh (Normalizado)')
plt.ylabel('Milk (Normalizado)')
plt.legend(title='Cluster')
plt.show()



### Preguntas
1. Analice las características de los centroides. ¿Qué diferencias clave observa entre los clústeres?
2. ¿Qué tipo de clientes podrían representar los diferentes clústeres?
3. ¿Cómo puede usarse esta agrupación en una estrategia de marketing?

---

## Entregables
Suba un informe en formato PDF que incluya:
- Las respuestas a las preguntas planteadas.
- Gráficos y análisis obtenidos del notebook.
- Conclusiones sobre los resultados del agrupamiento.

¡Buena suerte!
