# üìä An√°lisis Intermedio E-commerce

Portfolio Data Analyst - Nivel Intermedio

Este notebook muestra un an√°lisis completo de e-commerce usando la base de datos `portfolio_intermedio` en PostgreSQL. El objetivo es presentar un trabajo profesional de Data Analyst, desde la conexi√≥n a datos hasta conclusiones accionables para negocio.


In [14]:
# ‚úÖ Configuraci√≥n de conexi√≥n a PostgreSQL

import pandas as pd
from sqlalchemy import create_engine
import os

# Par√°metros de conexi√≥n (ajustados a tu entorno local)
DB_USER = "postgres"
DB_PASSWORD = "123456"  # definida en tu entorno
DB_HOST = "localhost"
DB_PORT = "5432"
DB_NAME = "portfolio_intermedio"

DATABASE_URL = f"postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"

engine = create_engine(DATABASE_URL)

print("Conexi√≥n creada a:", DATABASE_URL)


Conexi√≥n creada a: postgresql://postgres:123456@localhost:5432/portfolio_intermedio


In [15]:
# üì• Carga de tablas principales

import pandas as pd

# Definimos una funci√≥n auxiliar para leer tablas de forma segura

def cargar_tabla(nombre_tabla: str) -> pd.DataFrame:
    print(f"Cargando tabla: {nombre_tabla}...")
    df = pd.read_sql(f"SELECT * FROM {nombre_tabla}", con=engine)
    print(f"  -> {len(df)} filas, {len(df.columns)} columnas")
    return df

# Tablas de e-commerce
clientes = cargar_tabla("ecom_customers")
ordenes = cargar_tabla("ecom_orders")
items = cargar_tabla("ecom_order_items")
productos = cargar_tabla("ecom_products")

# Marketing y online retail
marketing = cargar_tabla("marketing_analytics")
online_retail = cargar_tabla("online_retail")


Cargando tabla: ecom_customers...
  -> 1000 filas, 5 columnas
Cargando tabla: ecom_orders...
  -> 5000 filas, 7 columnas
Cargando tabla: ecom_order_items...
  -> 12394 filas, 7 columnas
Cargando tabla: ecom_products...
  -> 200 filas, 5 columnas
Cargando tabla: marketing_analytics...
  -> 2000 filas, 9 columnas
Cargando tabla: online_retail...
  -> 10000 filas, 8 columnas


## 1. Entendimiento de los datos

En esta secci√≥n se realiza una **revisi√≥n r√°pida del esquema**, tama√±os y calidad b√°sica de los datos para entender el contexto de negocio y validar que las tablas est√°n listas para an√°lisis.


In [16]:
# üîç Resumen general de las tablas

def resumen_df(nombre: str, df: pd.DataFrame):
    print("\n" + "=" * 80)
    print(f"RESUMEN: {nombre}")
    print("=" * 80)
    print("Filas:", len(df))
    print("Columnas:", df.columns.tolist())
    print("Valores nulos por columna:\n", df.isna().sum())

for nombre, df in [
    ("Clientes", clientes),
    ("√ìrdenes", ordenes),
    ("Items", items),
    ("Productos", productos),
    ("Marketing", marketing),
    ("Online Retail", online_retail),
]:
    resumen_df(nombre, df)



RESUMEN: Clientes
Filas: 1000
Columnas: ['customer_id', 'nombre', 'email', 'pais', 'fecha_registro']
Valores nulos por columna:
 customer_id       0
nombre            0
email             0
pais              0
fecha_registro    0
dtype: int64

RESUMEN: √ìrdenes
Filas: 5000
Columnas: ['order_id', 'customer_id', 'fecha_orden', 'fecha_envio', 'estado', 'region', 'total']
Valores nulos por columna:
 order_id       0
customer_id    0
fecha_orden    0
fecha_envio    0
estado         0
region         0
total          0
dtype: int64

RESUMEN: Items
Filas: 12394
Columnas: ['item_id', 'order_id', 'product_id', 'cantidad', 'precio_unitario', 'descuento', 'subtotal']
Valores nulos por columna:
 item_id            0
order_id           0
product_id         0
cantidad           0
precio_unitario    0
descuento          0
subtotal           0
dtype: int64

RESUMEN: Productos
Filas: 200
Columnas: ['product_id', 'nombre', 'categoria', 'precio', 'costo']
Valores nulos por columna:
 product_id    0
nombre

## 2. Modelo de datos (vista de Data Analyst)

Aqu√≠ se documenta c√≥mo se relacionan las tablas entre s√≠. Esto es clave para explicar tu trabajo a recruiters / hiring managers.

- `ecom_customers` ‚Üî `ecom_orders` (1:N) v√≠a `customer_id`
- `ecom_orders` ‚Üî `ecom_order_items` (1:N) v√≠a `order_id`
- `ecom_order_items` ‚Üî `ecom_products` (N:1) v√≠a `product_id`
- `marketing_analytics` se puede relacionar por campa√±a / canal / fecha
- `online_retail` sirve como dataset adicional para an√°lisis de comportamiento de compra

En un portfolio real, aqu√≠ puedes pegar una imagen de diagrama entidad‚Äìrelaci√≥n exportado desde pgAdmin/DBeaver.


## 3. An√°lisis de comportamiento de clientes (Cohortes)

Objetivo: entender **c√≥mo se comportan los clientes a lo largo del tiempo** despu√©s de su primera compra.

Preguntas clave:
- ¬øCu√°ntos clientes vuelven a comprar despu√©s de su primera orden?
- ¬øEn qu√© mes pierdo m√°s clientes?
- ¬øQu√© cohortes (mes de primera compra) son m√°s saludables?


In [17]:
# üßÆ Construcci√≥n de cohortes de clientes

# Detectamos el nombre correcto de la columna de fecha en √≥rdenes
if "order_date" in ordenes.columns:
    fecha_col = "order_date"
elif "fecha_orden" in ordenes.columns:
    fecha_col = "fecha_orden"
else:
    raise ValueError("No se encontr√≥ columna de fecha en 'ordenes' (se esperaba 'order_date' o 'fecha_orden').")

# Nos aseguramos de tener fechas en formato datetime
ordenes[fecha_col] = pd.to_datetime(ordenes[fecha_col])

# Cohorte = mes de la primera compra de cada cliente
primer_pedido = (
    ordenes
    .groupby("customer_id")[fecha_col]
    .min()
    .reset_index()
    .rename(columns={fecha_col: "cohort_date"})
)

ordenes_cohort = ordenes.merge(primer_pedido, on="customer_id", how="left")
ordenes_cohort["cohort_month"] = ordenes_cohort["cohort_date"].dt.to_period("M")
ordenes_cohort["order_month"] = ordenes_cohort[fecha_col].dt.to_period("M")

# Distancia en meses desde la cohorte
ordenes_cohort["cohort_index"] = (
    (ordenes_cohort["order_month"] - ordenes_cohort["cohort_month"]).apply(lambda x: x.n)
)

# Tabla de retenci√≥n por cohorte
cohort_counts = (
    ordenes_cohort
    .groupby(["cohort_month", "cohort_index"])['customer_id']
    .nunique()
    .unstack(fill_value=0)
)

cohort_percentage = cohort_counts.divide(cohort_counts.iloc[:, 0], axis=0)

cohort_percentage.head()


cohort_index,0,1,2,3,4,5,6,7,8,9,...,26,27,28,29,30,31,32,33,34,35
cohort_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2022-01,1.0,0.124031,0.108527,0.085271,0.155039,0.131783,0.139535,0.124031,0.124031,0.139535,...,0.139535,0.124031,0.116279,0.139535,0.147287,0.139535,0.186047,0.186047,0.085271,0.139535
2022-02,1.0,0.138889,0.083333,0.138889,0.157407,0.166667,0.083333,0.083333,0.194444,0.166667,...,0.111111,0.083333,0.111111,0.12963,0.138889,0.12037,0.157407,0.138889,0.083333,0.0
2022-03,1.0,0.112069,0.146552,0.181034,0.112069,0.137931,0.086207,0.12069,0.198276,0.181034,...,0.137931,0.112069,0.155172,0.155172,0.146552,0.112069,0.112069,0.077586,0.0,0.0
2022-04,1.0,0.108434,0.144578,0.084337,0.156627,0.096386,0.156627,0.13253,0.084337,0.13253,...,0.120482,0.084337,0.120482,0.120482,0.180723,0.072289,0.108434,0.0,0.0,0.0
2022-05,1.0,0.029412,0.117647,0.117647,0.102941,0.161765,0.147059,0.147059,0.088235,0.176471,...,0.088235,0.117647,0.073529,0.102941,0.088235,0.117647,0.0,0.0,0.0,0.0


## 4. An√°lisis RFM (Recency, Frequency, Monetary)

Objetivo: **segmentar clientes** seg√∫n su valor y actividad, para mostrar una visi√≥n clara y accionable para marketing y ventas.

- **Recency**: hace cu√°nto tiempo compr√≥ por √∫ltima vez
- **Frequency**: cu√°ntas compras ha hecho
- **Monetary**: cu√°nto dinero ha gastado

Esta secci√≥n es muy potente para explicar tu valor como Data Analyst en e-commerce.


In [18]:
# üßÆ C√°lculo de m√©tricas RFM

import numpy as np

# Detectamos columnas de fecha y monto para adaptarnos al dataset
if "order_date" in ordenes.columns:
    fecha_col_rfm = "order_date"
elif "fecha_orden" in ordenes.columns:
    fecha_col_rfm = "fecha_orden"
else:
    raise ValueError("No se encontr√≥ columna de fecha en 'ordenes' (se esperaba 'order_date' o 'fecha_orden').")

if "total_amount" in ordenes.columns:
    monetary_col = "total_amount"
elif "total" in ordenes.columns:
    monetary_col = "total"
else:
    # fallback: usamos el n√∫mero de √≥rdenes como proxy de valor monetario
    monetary_col = None

# Aseguramos tipo datetime en la fecha
ordenes[fecha_col_rfm] = pd.to_datetime(ordenes[fecha_col_rfm])

# Fecha de referencia: √∫ltima fecha de orden
ref_date = ordenes[fecha_col_rfm].max()

# C√°lculo de RFM
if monetary_col is not None:
    rfm = (
        ordenes
        .groupby("customer_id")
        .agg(
            recency=(fecha_col_rfm, lambda x: (ref_date - x.max()).days),
            frequency=("order_id", "nunique"),
            monetary=(monetary_col, "sum"),
        )
        .reset_index()
    )
else:
    rfm = (
        ordenes
        .groupby("customer_id")
        .agg(
            recency=(fecha_col_rfm, lambda x: (ref_date - x.max()).days),
            frequency=("order_id", "nunique"),
            monetary=("order_id", "count"),
        )
        .reset_index()
    )

rfm.head()


Unnamed: 0,customer_id,recency,frequency,monetary
0,1,434,2,1358.47
1,2,615,2,713.0
2,3,52,7,3659.05
3,4,66,6,2916.67
4,5,8,4,1437.12


## 5. Canales y campa√±as (Marketing Analytics)

Objetivo: conectar **inversi√≥n en marketing** con **resultados de negocio**.

Preguntas clave:
- ¬øQu√© canales tienen mejor ROI?
- ¬øQu√© campa√±as traen clientes de mayor valor (seg√∫n RFM)?
- ¬øD√≥nde deber√≠amos concentrar el presupuesto?


In [19]:
# üìä Ejemplo simple de ROI por canal

if {"Channel", "Cost", "Revenue"}.issubset(marketing.columns):
    roi_canal = (
        marketing
        .groupby("Channel")
        .agg(
            inversions=("Cost", "sum"),
            revenue=("Revenue", "sum"),
        )
        .reset_index()
    )
    roi_canal["ROI"] = (roi_canal["revenue"] - roi_canal["inversions"]) / roi_canal["inversions"]
    roi_canal.sort_values("ROI", ascending=False, inplace=True)
    roi_canal
else:
    print("Las columnas esperadas ('Channel', 'Cost', 'Revenue') no est√°n en marketing_analytics.")


Las columnas esperadas ('Channel', 'Cost', 'Revenue') no est√°n en marketing_analytics.
