## Introducción



El presente análisis se basa en el dataset `online_retail.csv`, que contiene información transaccional de una tienda en línea con base en el Reino Unido. Con el objetivo de preparar los datos para un análisis riguroso, se desarrollaron dos etapas iniciales:

-  **01_eda_and_cleaning.ipynb**: Se realizó un **análisis exploratorio de datos (EDA)** y una limpieza del dataset original. Esto incluyó el tratamiento de valores nulos, tratamiento de registros duplicados y eliminacion de outliers.

-  **02_feature_engineering_and_rfm.ipynb**: Se construyeron las variables RFM (Recency, Frequency y Monetary) y otras variables necesarias para aplicar los algortimos de clustering que a continuacion se van a detallar.

A partir de este trabajo, se derivaron **cuatro datasets**, segmentados por cliente o producto y por región local o extranjero:

###  Datasets Derivados

| Dataset                       | Descripción                                  |
|------------------------------|----------------------------------------------|
| `rfm_clientes_local`         | RFM para clientes del Reino Unido            |
| `rfm_productos_locales`      | RFM para productos vendidos a Reino unido |
| `rfm_clientes_extranjero`    | RFM para clientes al extranjero      |
| `rfm_productos_extranjeros`  | RFM para productos vendidos al extranjero    |

---

###  Variables de los Datasets

#### `rfm_clientes_local`

- `id_cliente`: Identificador único del cliente 

- `Recency`: Días desde la última compra hasta la fecha de referencia  

- `Frequency`: Cantidad total de compras realizadas hasta la fecha de referencia  

- `Monetary`: Monto total gastado hasta la fecha de referencia    

- `horario_promedio`: Hora promedio de compra  

- Columnas mensuales (`2010-12` a `2011-12`): Total gastado por cliente en cada mes  

#### `rfm_clientes_extranjeros`

- Igual estructura que el dataset local:  

  - `id_cliente`, `Recency`, `Frequency`, `Monetary`, `horario_promedio`  

  - Columnas de gasto mensual de `2010-12` a `2011-12`

#### `rfm_productos_locales`

- `id_producto`: Identificador único del producto  

- `recency`: Días desde la última venta del producto hasta la fecha de referencia  

- `frequency`: Número total de veces que fue vendido hasta la fecha de referencia   

- `monetary`: Monto total facturado por el producto  hasta la fecha de referencia  

- `horario_promedio`: Hora promedio de compra  

- Columnas mensuales (`2010-12` a `2011-12`): Cantidad total vendida por mes  

#### `rfm_productos_extranjeros`

- Incluye todas las variables del dataset de productos locales:  

  - `id_producto`, `Recency`, `Frequency`, `Monetary`, `horario_promedio`, `2010-12` a `2011-12`  

- Además, contiene columnas adicionales con nombres de países:  

  Representan la cantidad total de unidades vendidas por país fuera del Reino Unido  
  (por ejemplo: `France`, `Germany`, `Japan`, `USA`, etc.)

---

###  Objetivo de la División Local / Extranjero

La decisión de segmentar el análisis en dos regiones (local y extranjero) responde a los siguientes motivos:

- **Evitar sesgos**: La gran mayoría de los clientes se encuentran en el Reino Unido. Sin esta separación, los algoritmos de clustering tenderían al comportamiento local y nos desviaria el analisis hacia otra lado.

- **Detectar patrones comerciales diferenciados**: Nos interesa responder:

  - ¿Qué productos se venden en el extranjero?

  - ¿Quiénes son nuestros clientes fuera de Reindo Unido y de que tipo son? 

  - ¿Cuáles son los productos más relevantes localmente?

  - ¿Qué tipo de clientes tenemos en el Reino Unido?

- **Orientación estratégica**: Esta división permite **formular acciones concretas de marketing y ventas** diferenciadas para ambos mercados (local y extranjero), con base en los segmentos detectados.



## Comparación de Algoritmos de Clustering



A continuación se comparan los tres algoritmos aplicados  sobre clientes y productos, utilizando tres métricas clave:

- **Silhouette Score (↑ mejor)**: Evalúa la separación y cohesión de los clústeres.
- **Davies-Bouldin Index (↓ mejor)**: Mide la similitud entre clústeres; menor es mejor.
- **Calinski-Harabasz Index (↑ mejor)**: Evalúa la dispersión entre los grupos formados.

---

###  Tabla Comparativa de Métricas

#### 1. Clientes Locales

| Algoritmo       | Silhouette Score ↑ | Davies-Bouldin ↓ | Calinski-Harabasz ↑ | Nº de Clústeres |
|-----------------|--------------------|------------------|----------------------|------------------|
| DBSCAN          | 0.19               | 1.41             | 982                  | 2 + 1 outlier    |
| K-Means         | 0.37               | 0.98             | 2326                 | 3                |
| Agglomerative   | 0.34               | 1.03             | 2152                 | 3                |

#### 2. Productos Locales

| Algoritmo       | Silhouette Score ↑ | Davies-Bouldin ↓ | Calinski-Harabasz ↑ | Nº de Clústeres |
|-----------------|--------------------|------------------|----------------------|------------------|
| DBSCAN          | 0.70               | 0.82             | 226                  | 2 + 1 outliers   |
| K-Means         | 0.53               | 0.66             | 3108                 | 3                |
| Agglomerative   | 0.53               | 0.71             | 2824                 | 3                |

#### 3. Productos Extranjeros

| Algoritmo       | Silhouette Score ↑ | Davies-Bouldin ↓ | Calinski-Harabasz ↑ | Nº de Clústeres |
|-----------------|--------------------|------------------|----------------------|------------------|
| DBSCAN          | 0.80               | 1.77             | 143                  | 2 + 1 outliers   |
| K-Means         | 0.48               | 0.70             | 2440                 | 3                |
| Agglomerative   | 0.46               | 0.66             | 1783                 | 3                |

#### 4. Clientes Extranjeros

| Algoritmo       | Silhouette Score ↑ | Davies-Bouldin ↓ | Calinski-Harabasz ↑ | Nº de Clústeres |
|-----------------|--------------------|------------------|----------------------|------------------|
| DBSCAN          | 0.68               | 0.98             | 337                  | 2 + 1 outliers   |
| K-Means         | 0.31               | 1.18             | 143                  | 3                |
| Agglomerative   | 0.29               | 1.22             | 132                  | 3                |

---

###  Análisis de Resultados

- **Silhouette Score**:  
  DBSCAN obtiene los valores más altos en segmentos de productos (locales y extranjeros), lo que sugiere una excelente cohesión interna para estos casos.  
  Sin embargo, en los segmentos de **clientes** (tanto locales como extranjeros), **K-Means supera a DBSCAN**, mostrando una segmentación más útil desde el punto de vista estratégico.

- **Davies-Bouldin Index**:  
  K-Means domina esta métrica en 3 de los 4 segmentos, lo que indica una separación más efectiva entre clústeres y menos solapamiento.  
  DBSCAN obtiene valores elevados en productos extranjeros, lo que pone en duda la claridad de los límites de sus clústeres.

- **Calinski-Harabasz Score**:  
  K-Means obtiene los valores más altos en todos los casos, destacándose por generar clústeres bien separados y compactos.  
  Esto sugiere una estructura robusta y útil para definir estrategias claras.

---

###  Eleccion de modelo Final

Aunque **DBSCAN** presenta un buen desempeño en cohesión (Silhouette), su alta detección de *outliers* y la dificultad para controlar el número de clústeres lo hacen menos práctico para estrategias comerciales.  
Por otro lado, **K-Means** ofrece:

- Una segmentación más clara y controlada.
- Buen rendimiento global en todas las métricas.
- Interpretabilidad directa y grupos equilibrados.


>  Por estas razones, se selecciona **K-Means como el algoritmo de clustering más adecuado** para el presente análisis de clientes y productos.

---

###  Alcance del Análisis

- El análisis permite segmentar clientes y productos de manera clara para focalizar estrategias de marketing.

- Facilita la identificación de grupos clave para promociones, fidelización y optimización de inventarios.  

- Ofrece una base sólida para análisis futuros con nuevos datos o para adaptar campañas comerciales según los segmentos detectados.

---

###  Desventajas y Limitaciones

- Los modelos de clustering dependen de la calidad y características del dataset; los resultados pueden variar si cambian los datos o se incorporan nuevas variables.  

- **K-Means** asume clústeres convexos y de tamaño similar, lo cual puede limitar su efectividad frente a estructuras complejas o distribuciones muy irregulares.  



---






## Extranjero

###  Segmentación de Clientes (extranjero)

| Clúster | Recencia | Frecuencia | Monto | Característica principal                                                   |
|--------:|----------|------------|-------|----------------------------------------------------------------------------|
| 0       | 228      | 1          | 739   | Clientes poco frecuentes y recientes. Bajo valor total.                   |
| 1       | 36       | 4          | 2336  | Clientes muy activos y con alto gasto. Son el principal motor de ingresos.|
| 2       | 50       | 2          | 688   | Clientes antiguos pero que mantienen actividad estable.                   |

---

### Segmentación de Productos (extranjero)

| Clúster | Recency | Frequency | Monetary | Interpretación                                                                                             |
|--------:|---------|-----------|----------|-------------------------------------------------------------------------------------------------------------|
| 0       | 26.3    | 83.96     | 145.29   | Alta rotación y bajo valor. Productos funcionales o de consumo masivo.                                     |
| 1       | 121.5   | 47.63     | 74.65    | Recencia muy alta y baja frecuencia. Productos rezagados o poco atractivos.                                |
| 2       | 19.9    | 403.55    | 528.83   | Altísima rotación, excelente recencia y alto valor. Son los productos estrella o top sellers.              |

---

###  Análisis cruzado clientes-productos (mapa de calor)

- **Clúster Cliente 1 + Producto 2**: Mayor ingreso total (24.705) y mayor cantidad de compras (19.701). → **Segmento estratégico**.
- **Clúster Cliente 2 + Producto 2**: También fuerte (21.835 en monto, 18.059 en cantidad).
- **Clúster Cliente 1 + Producto 0**: Buen rendimiento (22.316 en monto, 14.508 en cantidad). → **Grupo secundario de alto valor**.

---

###  Análisis Cruzado de Comportamiento Mensual

####  Gasto Promedio Mensual por Clúster de Cliente

- **Clúster 1** domina el gasto mensual, con picos en junio, octubre y noviembre.  
  → Perfil VIP, leal y con alto poder adquisitivo.


- **Clúster 0** arranca bien pero cae desde julio.  
  → Clientes que abandonan o reducen actividad.


- **Clúster 2** muestra crecimiento estable hasta octubre.  
  → Segmento en expansión o fidelizable.

####  Ventas Promedio Mensual por Clúster de Producto

- **Clúster 2** (productos estrella) lidera durante todo el año, con picos en sep-oct-nov.  

- **Clúster 1** se mantiene bajo y desaparece desde octubre.  

- **Clúster 0** es constante, con leve aumento en octubre.  


---

###  Recomendaciones Personalizadas

####  Clientes del Clúster 1 + Productos del Clúster 2
 Segmento más rentable.

**Acciones:**

- Programas de asociacion con tarjetas que brinden descuentos.

- Ofertas exclusivas para lanzamientos o ediciones limitadas.

- Comunicación frecuente por mail con novedades.

---

####  Clientes del Clúster 2 + Productos del Clúster 2

**Acciones:**

- Promociones tipo 2x1 o prueba gratis.

- Campañas de remarketing.

- Reforzar contenido y reseñas de productos.

---

####  Clientes del Clúster 1 + Productos del Clúster 0

**Acciones:**

- paquetes promocionales.

- Promociones “comeback” para aumentar frecuencia.

---

###  Estrategias Regionales por Clúster de Producto

Del análisis realizado, se identificaron diferencias importantes en el rendimiento de los productos según el país. A continuación, se propone una estrategia de promoción segmentada por clúster de producto, teniendo en cuenta que **el orden de los países refleja la prioridad**, ya que están listados según el **mayor promedio de ventas** de ese clúster.

#### Productos del Clúster 2 

**Priorizar en:**

1. Países Bajos (Holanda)
2. Alemania
3. Irlanda
4. Francia

#### Productos del Clúster 1 

**Promover en:**

1. Irlanda
2. Alemania
3. Holanda
4. francia

#### Productos del Clúster 0 

**Reforzar en:**

1. irlanda
2. Alemania
3. Francia
4. holanda

---

## Local



### Segmentación de Clientes

| Clúster | Recencia | Frecuencia | Monto | Característica principal                                                   |
| ------- | -------- | ---------- | ----- | -------------------------------------------------------------------------- |
| 0       | 49       | 2          | 514   | Clientes ocasionales pero activos; compran con poca frecuencia pero mantienen actividad y gastan un monto moderado.                    |
| 1       | 228      | 1          | 387   | Clientes dormidos o casi perdidos; compraron hace mucho, con poca frecuencia y bajo gasto. Riesgo alto de abandono total.             |
| 2       | 38       | 5          | 1770  | Clientes leales y rentables; alta frecuencia de compra y gasto significativo.                                                             |

### Segmentación de Productos

| Clúster | Recencia | Frecuencia | Monto  | Interpretación                                                                                     |
|---------|----------|------------|--------|-------------------------------------------------------------------------------------------------|
| 0       | 7.04     | 307.03     | 496.35 | Productos de buena rotación y valor medio; estables y funcionales para el consumo frecuente.     |
| 1       | 5.10     | 1491.78    | 1880.92| Productos estrella; alta demanda, frecuencia y valor, clave para los ingresos principales.       |
| 2       | 49.69    | 167.82     | 264.12 | Productos rezagados o de nicho; baja rotación y valor, con ventas decrecientes o específicas.    |

---

### Análisis Cruzado de Segmentos Clave

- **Dúo Estrella:**  

  Clientes del clúster **2** (leales y rentables) y productos del clúster **1** (productos estrella) generan el mayor volumen: 

  - Monto total: **26,572**  

  - Cantidad de compras: **222,038**  

- **Segmento Secundario Importante:**  
  Clientes ocasionales (clúster 0) que consumen productos estrella (clúster 1), representando un mercado con potencial de crecimiento.  

- **Clientes de Alto Valor con Productos Estables:**  

  Clientes leales (clúster 2) que consumen productos de rotación media (clúster 0), consolidando ingresos estables.

Estos tres grupos deben ser el foco principal de las estrategias comerciales y de marketing.

---

### Recomendaciones de Marketing Personalizadas

#### Para Clientes Leales (Clúster 2) y Productos Estrella (Clúster 1)

- Diseñar programas de fidelización con descuentos escalonados.  

- Ofrecer promociones exclusivas para lanzamientos o ediciones limitadas.

- Mantener comunicación frecuente vía email con novedades y recomendaciones personalizadas.

#### Para Clientes Ocasionales (Clúster 0) y Productos Estrella (Clúster 1)

- Implementar promociones tipo 2x1 o muestras gratuitas para incentivar repetición.  

- Realizar campañas de remarketing y envíos de recordatorios.  

- Mejorar la calidad de contenido y reseñas para aumentar la confianza en estos productos.

#### Para Clientes Leales (Clúster 2) y Productos de Rotación Media (Clúster 0)

- Crear paquetes promocionales o bundles atractivos.  


- Promocionar ofertas “comeback” para incentivar la frecuencia de compra.

---

### Comportamiento Mensual de Clientes y Productos

#### Gasto Promedio Mensual por Clúster de Cliente

- **Clúster 2 (Leales):**  

  Presenta el gasto más alto y creciente, con un pico en noviembre 2011, confirmando su importancia como segmento clave y rentable.

- **Clúster 0 (Ocasionales):**  

  Comienza con gasto moderado y crece a partir de agosto, con picos en octubre y noviembre, posiblemente impulsado por campañas estacionales.

- **Clúster 1 (Dormidos):**  

  Activos hasta julio pero caen abruptamente a partir de agosto, reflejando clientes inactivos o en riesgo de abandono.

#### Ventas Promedio Mensual por Clúster de Producto

- **Clúster 1 (Estrella):**  

  Lidera con crecimiento constante y máximos en noviembre, apuntando a alta demanda y rentabilidad.

- **Clúster 0 (Funcionales):**  

  Mantiene ventas estables durante el año, con un pequeño repunte en otoño, representando productos de apoyo o consumo habitual.

- **Clúster 2 (Rezagados):**  

  Ventas bajas y caída pronunciada en noviembre y diciembre, indicando un segmento en declive o con menor atractivo.

---

### Recomendación General Estratégica

Enfocar esfuerzos comerciales y campañas de marketing en el binomio más rentable y estratégico:  

**Clientes del Clúster 2 + Productos del Clúster 1**  

Con promociones especiales en los meses con mayor actividad (**septiembre a noviembre**) para maximizar ingresos y fidelización.

---


