# Generaci√≥n de Datos Maestros de Clientes - ETL

**Autor:** [Tu Nombre]  
**Fecha:** 2026-02-21  
**Versi√≥n:** 1.0

## üìã Descripci√≥n General
Este notebook ejecuta el proceso completo de Extracci√≥n, Transformaci√≥n y Carga (ETL) de datos maestros de clientes bancarios. Genera 100 registros sint√©ticos de clientes con datos realistas usando Faker, los transforma a trav√©s de tres zonas de datos (Raw, Curada y Productiva) aplicando estandarizaciones bancarias.

## üéØ Objetivos
1. Conectar a la base de datos PostgreSQL local con credenciales configuradas.
2. Generar 100 registros de clientes sint√©ticos con datos bancarios realistas.
3. Aplicar transformaciones y mapeos de columnas seg√∫n est√°ndares bancarios.
4. Cargar datos en tres zonas: Raw (ZR), Curada (ZC) y Productiva (ZP).
5. Crear dimensi√≥n de clientes optimizada para an√°lisis.
6. Liberar recursos del sistema al finalizar.

## ‚öôÔ∏è Requisitos Previos
* **Librer√≠as:** `pandas`, `numpy`, `sqlalchemy`, `python-dotenv`, `faker`.
* **Base de Datos:** PostgreSQL configurada con conexi√≥n local.
* **Variables de entorno:** `.env` con credenciales (DB_USER, DB_PASSWORD, DB_HOST, DB_PORT, DB_NAME).
* **Esquemas en PostgreSQL:** `zr_cli`, `zc_cli`, `zp` (deben existir).
* **Archivos generados:** CSV en `data/raw/`, `data/curada/`, `data/productiva/`.

## üìä Flujo de Datos
```
Generaci√≥n Faker (100 clientes sint√©ticos)
    ‚Üì
[Raw Zone] ‚Üí CSV y tabla td_datos_clientes ‚Üí zr_cli.zr_fake_cli_datos_clientes
    ‚Üì
[Curada Zone] ‚Üí Transformaci√≥n y normalizaci√≥n ‚Üí zc_cli.zc_cli_datos_clientes
    ‚Üì
[Productiva Zone] ‚Üí Dimensi√≥n optimizada ‚Üí zp.td_datos_clientes
    ‚Üì
Exportaci√≥n a CSV en zona productiva
```

## üîë Campos Principales Generados
- `codigoSecuencialCliente`: Identificador secuencial (1000-1099)
- `codigoIdentificacionCliente`: C√≥digo √∫nico (CUS-XXXXX)
- `tipoIdentificacionCliente`: C√âDULA, RUC o PASAPORTE
- `numeroIdentificacionCliente`: N√∫mero √∫nico de ID
- `nombreCompletoCliente`: Nombre del cliente (generado con Faker)
- `segmentoCliente`: RETAIL, CORPORATIVO, PYME, WEALTH
- `scoreCrediticioCliente`: Score entre 300 y 1000
- `provinciaCliente`: Pichincha, Guayas, Azuay, Manab√≠, Loja
- `ciudadCliente`: Quito, Guayaquil, Cuenca, Manta
- `fechaRegistroCliente`: Fecha aleatoria (√∫ltimos 5 a√±os)

## ‚ö†Ô∏è Notas Importantes
- Los datos son 100% sint√©ticos para POC/testing
- Utiliza Faker con seed=42 para reproducibilidad
- Implementa transformaciones case-insensitive (may√∫sculas)
- Las fechas se convierten a formato DATE en PostgreSQL para consistencia

In [189]:
from IPython.display import HTML, display

def aplicar_estilo_bancario():
    style = """
    <style>
        .dataframe {
            border-collapse: collapse;
            border: 2px solid #1a237e; /* Azul Marino Bancario */
            font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
            font-size: 12px;
        }
        .dataframe thead {
            background-color: #1a237e;
            color: white;
            text-align: center;
        }
        .dataframe th, .dataframe td {
            padding: 10px 15px;
            border: 1px solid #e0e0e0;
        }
        .dataframe tbody tr:nth-child(even) {
            background-color: #f5f5f5;
        }
        .dataframe tbody tr:hover {
            background-color: #e8eaf6; /* Resaltado suave al pasar el mouse */
            cursor: pointer;
        }
        .dataframe td {
            text-align: right;
        }
        /* Alinear a la izquierda columnas de texto */
        .dataframe td:nth-child(2), .dataframe td:nth-child(3) {
            text-align: left;
        }
    </style>
    """
    display(HTML(style))

aplicar_estilo_bancario()

## Paso 1: Configuraci√≥n de Estilos Visuales

Aplica estilos CSS personalizados a los DataFrames para que se visualicen con colores bancarios. Esto mejora la legibilidad de los datos durante el an√°lisis exploratorio.

**Caracter√≠sticas:**
- Encabezados con fondo azul marino (#1a237e)
- Filas alternas con fondo gris para mejor contraste
- Efecto hover para interactividad
- Fuente Segoe UI con tama√±o optimizado


## Paso 2: Importaci√≥n de Librer√≠as Requeridas

Carga todas las dependencias necesarias para el procesamiento ETL:

| Librer√≠a | Prop√≥sito |
|----------|----------|
| `pandas` | Manipulaci√≥n y an√°lisis de datos (DataFrames) |
| `numpy` | Operaciones num√©ricas y generaci√≥n de datos aleatorios |
| `datetime` | Manejo de fechas y c√°lculos temporales |
| `faker` | Generaci√≥n de datos sint√©ticos realistas |
| `sqlalchemy` | ORM y conexi√≥n con PostgreSQL |
| `dotenv` | Carga segura de credenciales desde archivo `.env` |
| `urllib.parse` | Codificaci√≥n de contrase√±as con caracteres especiales |

In [190]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from faker import Faker
from sqlalchemy import create_engine, text, MetaData, Table, select
import os
from dotenv import load_dotenv
import urllib.parse
import logging
import gc
from pathlib import Path

# Configurar logging estructurado
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('../logs/etl_clientes.log'),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger(__name__)

## Paso 3: Configuraci√≥n de Par√°metros Globales

Define las variables que controlan el comportamiento del notebook:

**Par√°metros de Datos:**
- `N_CLIENTES = 100`: Cantidad de clientes sint√©ticos a generar
- `fake = Faker(['es_MX'])`: Generador con localizaci√≥n en espa√±ol mexicano

**Esquemas y Tablas en PostgreSQL:**
- **Zona Raw (ZR):** `zr_cli.zr_fake_cli_datos_clientes` (datos sin transformar)
- **Zona Curada (ZC):** `zc_cli.zc_cli_datos_clientes` (datos normalizados)
- **Zona Productiva (ZP):** `zp.td_datos_clientes` (dimensi√≥n final de clientes)

In [191]:
# Par√°metros del POC
N_CLIENTES = 500
# Inicializamos Faker con localizaci√≥n en espa√±ol
fake = Faker(['es_MX'])
# Nombres para objetos 
#################################
## ZONA RAW
#################################

nombre_esquema_zr_cli = 'zr_cli'
nombre_tabla_zr_cli = 'zr_fake_cli_datos_clientes'

#################################
## ZONA CURADA
#################################

nombre_esquema_zc_cli = 'zc_cli'
nombre_tabla_zc_cli = 'zc_cli_datos_clientes'

#################################
## ZONA PRODUCTIVA
#################################

nombre_esquema_zp = 'zp'
nombre_tabla_zp_cli = 'td_datos_clientes'


## Paso 4: Conexi√≥n a PostgreSQL

Establece la conexi√≥n segura con la base de datos PostgreSQL usando credenciales del archivo `.env`.

**Proceso:**
1. Carga variables de entorno (DB_USER, DB_PASSWORD, DB_HOST, DB_PORT, DB_NAME)
2. Codifica la contrase√±a con `urllib.parse.quote_plus()` para manejar caracteres especiales
3. Crea engine de SQLAlchemy con la URL codificada
4. Valida la conexi√≥n con un intento de conexi√≥n

**Ejemplo de `.env`:**
```
DB_USER=usuario
DB_PASSWORD=contrase√±a@especial.123
DB_HOST=localhost
DB_PORT=5432
DB_NAME=banco_poc
```

In [192]:
# Forzar recarga del .env
load_dotenv(override=True)

try:
    # Validar que existan las credenciales necesarias
    user = os.getenv("DB_USER")
    password = os.getenv("DB_PASSWORD")
    host = os.getenv("DB_HOST")
    port = os.getenv("DB_PORT")
    db = os.getenv("DB_NAME")
    
    # Validar credenciales no nulas
    if not all([user, password, host, port, db]):
        missing = [k for k, v in {
            'DB_USER': user,
            'DB_PASSWORD': password,
            'DB_HOST': host,
            'DB_PORT': port,
            'DB_NAME': db
        }.items() if not v]
        raise ValueError(f"Variables de entorno faltantes: {', '.join(missing)}")
    
    logger.info("‚úÖ Variables de entorno cargadas correctamente")
    
    # Codificar la contrase√±a para caracteres especiales
    password_encoded = urllib.parse.quote_plus(password)
    
    # Crear engine con par√°metros de seguridad
    engine = create_engine(
        f'postgresql://{user}:{password_encoded}@{host}:{port}/{db}',
        connect_args={
            'connect_timeout': 10,
            'sslmode': 'prefer'
        },
        echo=False
    )
    
    # Probar conexi√≥n
    with engine.connect() as conn:
        conn.execute(text("SELECT 1"))
    logger.info("‚úÖ Conexi√≥n exitosa con PostgreSQL")
    
except ValueError as e:
    logger.error(f"‚ùå Error de configuraci√≥n: {e}")
    raise
except Exception as e:
    logger.error(f"‚ùå Error al conectar a BD: {e}")
    raise

2026-02-21 19:17:59,688 - __main__ - INFO - ‚úÖ Variables de entorno cargadas correctamente
2026-02-21 19:17:59,743 - __main__ - INFO - ‚úÖ Conexi√≥n exitosa con PostgreSQL


## Paso 5: Generaci√≥n de Datos Sint√©ticos

### Paso 5a: Generaci√≥n de Dataset de Clientes Sint√©tico

Crea 100 registros de clientes con datos realistas usando Faker.

**L√≥gica de Generaci√≥n:**

**1. Funci√≥n `generar_id_negocio(tipo)`:**
- C√©dula: 10 d√≠gitos aleatorios
- RUC: 10 d√≠gitos + sufijo '001' (est√°ndar ecuatoriano)
- Pasaporte: 'P' + 8 d√≠gitos aleatorios

**2. Dimensi√≥n de Clientes (100 registros):**
- `cliente_id`: Secuencial 1000-1099
- `codigo_unico_cliente`: Formato CUS-XXXXX
- `nombre`: Generado con Faker en espa√±ol mexicano
- `email`: Correos generados (ascii free email)
- `telefono`: N√∫meros telef√≥nicos generados
- `tipo_identificacion`: 80% C√©dula, 15% RUC, 5% Pasaporte
- `identificacion`: ID √∫nico seg√∫n tipo
- `segmento`: RETAIL (40%), CORPORATIVO, PYME, WEALTH
- `provincia`: Pichincha, Guayas, Azuay, Manab√≠, Loja
- `ciudad`: Quito, Guayaquil, Cuenca, Manta
- `fecha_registro`: Aleatorio en √∫ltimos 5 a√±os
- `score_crediticio`: Entero entre 300 y 1000

**3. Campos de Auditor√≠a:**
- `periodo`: Formato YYYYMM (fecha actual)
- `fecha_proceso`: Fecha actual (solo fecha)
- `fecha_ingesta`: Timestamp completo con microsegundos

In [193]:
def generar_dataset_clientes():
    """
    Genera dataset de clientes sint√©ticos con datos realistas.
    
    Returns:
        pd.DataFrame: DataFrame con 100 clientes y campos de auditor√≠a
        
    Validaciones:
        - IDs √∫nicos verificados
        - Emails con formato v√°lido
        - Scores en rango v√°lido (300-1000)
        - Sin valores NULL
    """
    np.random.seed(42)
    Faker.seed(42)
    logger.info(f"Iniciando generaci√≥n de {N_CLIENTES} clientes sint√©ticos")
    
    try:
        def generar_id_negocio(tipo: str) -> str:
            """
            Genera ID de negocio seg√∫n tipo.
            
            Args:
                tipo: C√âDULA, RUC o PASAPORTE
                
            Returns:
                str: ID √∫nico formateado
            """
            if tipo == 'C√âDULA':
                return ''.join(np.random.choice(list('0123456789'), 10))
            elif tipo == 'RUC':
                return ''.join(np.random.choice(list('0123456789'), 10)) + '001'
            else:
                return 'P' + ''.join(np.random.choice(list('0123456789'), 8))

        # Generar tipos de ID con distribuci√≥n realista
        tipos_id = np.random.choice(
            ['C√âDULA', 'RUC', 'PASAPORTE'], 
            N_CLIENTES, 
            p=[0.8, 0.15, 0.05]
        )
        
        # Crear DataFrame con datos
        clientes = pd.DataFrame({
            'cliente_id': range(1000, 1000 + N_CLIENTES),
            'codigo_unico_cliente': [f"CUS-{i:05d}" for i in range(1, N_CLIENTES + 1)],
            'nombre': [fake.name().upper() for _ in range(N_CLIENTES)],
            'email': [fake.ascii_free_email() for _ in range(N_CLIENTES)],
            'telefono': [fake.phone_number() for _ in range(N_CLIENTES)],
            'tipo_identificacion': tipos_id,
            'identificacion': [generar_id_negocio(t) for t in tipos_id],
            'segmento': np.random.choice(['RETAIL', 'CORPORATIVO', 'PYME', 'WEALTH'], N_CLIENTES),
            'provincia': np.random.choice(['Pichincha', 'Guayas', 'Azuay', 'Manab√≠', 'Loja'], N_CLIENTES),
            'ciudad': np.random.choice(['Quito', 'Guayaquil', 'Cuenca', 'Manta'], N_CLIENTES),
            'fecha_registro': [fake.date_between(start_date='-5y', end_date='today') for _ in range(N_CLIENTES)],
            'score_crediticio': np.random.randint(300, 1000, N_CLIENTES)
        })
        
        # Validaciones de calidad de datos
        assert len(clientes) == N_CLIENTES, f"Cantidad de registros incorrecta: {len(clientes)}"
        assert clientes['cliente_id'].is_unique, "IDs de cliente duplicados"
        assert clientes['codigo_unico_cliente'].is_unique, "C√≥digos √∫nicos duplicados"
        assert clientes.isnull().sum().sum() == 0, "Hay valores NULL en los datos"
        assert (clientes['score_crediticio'] >= 300).all(), "Scores por debajo de 300"
        assert (clientes['score_crediticio'] < 1000).all(), "Scores fuera de rango"
        
        logger.info(f"‚úÖ {N_CLIENTES} clientes generados exitosamente")
        logger.info(f"  - IDs √∫nicos verificados: {clientes['cliente_id'].is_unique}")
        logger.info(f"  - Sin valores NULL: {clientes.isnull().sum().sum() == 0}")
        
        return clientes
        
    except AssertionError as e:
        logger.error(f"‚ùå Validaci√≥n de datos fallida: {e}")
        raise
    except Exception as e:
        logger.error(f"‚ùå Error al generar dataset de clientes: {e}")
        raise

df_clientes = generar_dataset_clientes()

# Agregar campos de auditor√≠a
try:
    fechaActual = pd.Timestamp.now()
    df_clientes['periodo'] = fechaActual.strftime('%Y%m')
    df_clientes['fecha_proceso'] = fechaActual.date()
    df_clientes['fecha_ingesta'] = fechaActual
    
    logger.info(f"Campos de auditor√≠a agregados para per√≠odo {fechaActual.strftime('%Y%m%d')}")
    logger.info(f"Shape del DataFrame: {df_clientes.shape}")
    
except Exception as e:
    logger.error(f"‚ùå Error al agregar campos de auditor√≠a: {e}")
    raise

2026-02-21 19:17:59,782 - __main__ - INFO - Iniciando generaci√≥n de 500 clientes sint√©ticos
2026-02-21 19:17:59,868 - __main__ - INFO - ‚úÖ 500 clientes generados exitosamente
2026-02-21 19:17:59,870 - __main__ - INFO -   - IDs √∫nicos verificados: True
2026-02-21 19:17:59,873 - __main__ - INFO -   - Sin valores NULL: True
2026-02-21 19:17:59,889 - __main__ - INFO - Campos de auditor√≠a agregados para per√≠odo 20260221
2026-02-21 19:17:59,893 - __main__ - INFO - Shape del DataFrame: (500, 15)


## Paso 6: Exportaci√≥n a CSV - Zona Raw

Guarda el dataset sin transformar en archivo CSV para auditor√≠a y respaldo.

**Destino:** `data/raw/zr_fake_cli_datos_clientes.csv`

**Prop√≥sito de la Zona Raw:**
- Mantener copia exacta de datos originales generados
- Facilitar auditor√≠a de cambios posteriores
- Permitir reintentos de procesamiento si falla la transformaci√≥n

In [194]:
try:
    # Crear directorio si no existe
    raw_path = Path('../data/raw')
    raw_path.mkdir(parents=True, exist_ok=True)
    
    # Guardar archivo con validaci√≥n
    csv_path = raw_path / f'{nombre_tabla_zr_cli}.csv'
    df_clientes.to_csv(csv_path, index=False)
    
    # Validar archivo creado
    if not csv_path.exists():
        raise FileNotFoundError(f"Archivo no se cre√≥: {csv_path}")
    
    file_size = csv_path.stat().st_size / 1024  # KB
    logger.info(f"‚úÖ Archivo guardado: {csv_path} ({file_size:.2f} KB)")
    
except Exception as e:
    logger.error(f"‚ùå Error al exportar CSV (Raw): {e}")
    raise

2026-02-21 19:17:59,924 - __main__ - INFO - ‚úÖ Archivo guardado: ../data/raw/zr_fake_cli_datos_clientes.csv (86.94 KB)


## Paso 7: Funci√≥n Auxiliar para Carga en PostgreSQL

Define `cargar_datos_postgresql()` para persistir datos en diferentes esquemas.

**Par√°metros:**
- `df`: DataFrame a cargar
- `nombre_esquema`: Schema destino (zr_cli, zc_cli, zp)
- `nombre_tabla`: Tabla destino
- `primary_key_column`: Columna clave primaria

**L√≥gica:**
1. Carga DataFrame con `to_sql()` en modo 'replace' (DROP + CREATE)
2. Define clave primaria en la tabla creada
3. Manejo robusto de excepciones

**Nota:** Usa 'replace' para POC; en producci√≥n usar 'append' + particionamiento

In [195]:
def cargar_datos_postgresql(df: pd.DataFrame, nombre_esquema: str, nombre_tabla: str, primary_key_column: str) -> bool:
    """
    Carga datos en PostgreSQL con validaci√≥n y manejo de errores.
    
    Args:
        df: DataFrame a cargar
        nombre_esquema: Schema destino
        nombre_tabla: Tabla destino
        primary_key_column: Columna para clave primaria
        
    Returns:
        bool: True si la carga fue exitosa
        
    Raises:
        ValueError: Si los par√°metros son inv√°lidos
        Exception: Si hay error en la carga
    """
    try:
        # Validar inputs
        if df.empty:
            raise ValueError("DataFrame vac√≠o")
        if not isinstance(nombre_esquema, str) or not isinstance(nombre_tabla, str):
            raise ValueError("Nombre de esquema o tabla inv√°lido")
        
        # Validar que la columna PK existe
        if primary_key_column.strip('"') not in df.columns:
            raise ValueError(f"Columna PK no existe: {primary_key_column}")
        
        logger.info(f"Iniciando carga: {nombre_esquema}.{nombre_tabla}")
        logger.info(f"  - Registros: {len(df)}")
        logger.info(f"  - Columnas: {df.shape[1]}")
        
        # Carga a PostgreSQL
        df.to_sql(nombre_tabla, engine, schema=nombre_esquema, if_exists='replace', index=False)
        logger.info(f"‚úÖ Tabla creada: {nombre_esquema}.{nombre_tabla}")
        
        # Agregar clave primaria
        with engine.connect() as con:
            query = text(f'ALTER TABLE {nombre_esquema}.{nombre_tabla} ADD PRIMARY KEY ({primary_key_column});')
            con.execute(query)
            con.commit()
        
        logger.info(f"‚úÖ Clave primaria agregada: {primary_key_column}")
        logger.info(f"‚úÖ Carga completada exitosamente")
        return True
        
    except ValueError as e:
        logger.error(f"‚ùå Error de validaci√≥n: {e}")
        raise
    except Exception as e:
        logger.error(f"‚ùå Error al cargar en PostgreSQL: {e}")
        raise

## Paso 8: Carga a PostgreSQL - Zona Raw

Inserta los datos sin transformar en la tabla `zr_cli.zr_fake_cli_datos_clientes`.

**Resultado:**
- Tabla con 100 registros de clientes
- Clave primaria: cliente_id
- Esquema: zr_cli (Zona Raw Clientes)

In [196]:
try:
    logger.info(f"Cargando datos a Zona Raw...")
    cargar_datos_postgresql(
        df_clientes,
        nombre_esquema_zr_cli,
        nombre_tabla_zr_cli,
        'cliente_id'
    )
except Exception as e:
    logger.error(f"‚ùå Fallo en carga a Zona Raw: {e}")
    raise

2026-02-21 19:18:00,007 - __main__ - INFO - Cargando datos a Zona Raw...
2026-02-21 19:18:00,008 - __main__ - INFO - Iniciando carga: zr_cli.zr_fake_cli_datos_clientes
2026-02-21 19:18:00,018 - __main__ - INFO -   - Registros: 500
2026-02-21 19:18:00,019 - __main__ - INFO -   - Columnas: 15
2026-02-21 19:18:00,209 - __main__ - INFO - ‚úÖ Tabla creada: zr_cli.zr_fake_cli_datos_clientes
2026-02-21 19:18:00,221 - __main__ - INFO - ‚úÖ Clave primaria agregada: cliente_id
2026-02-21 19:18:00,225 - __main__ - INFO - ‚úÖ Carga completada exitosamente


## Paso 9: Transformaci√≥n a Zona Curada (ZC)

Normaliza los datos aplicando reglas de negocio y estandarizaci√≥n de nomenclatura bancaria.

**Proceso:**

**1. Extracci√≥n desde Raw:**
- Refleja tabla desde `zr_cli.zr_fake_cli_datos_clientes` usando SQLAlchemy MetaData
- Lee estructura y datos del archivo original

**2. Mapeo de Columnas (Nomenclatura bancaria):**
- `periodo` ‚Üí `codigoPeriodo`
- `cliente_id` ‚Üí `codigoSecuencialCliente`
- `codigo_unico_cliente` ‚Üí `codigoIdentificacionCliente`
- `tipo_identificacion` ‚Üí `tipoIdentificacionCliente`
- `identificacion` ‚Üí `numeroIdentificacionCliente`
- `nombre` ‚Üí `nombreCompletoCliente`
- `email` ‚Üí `correoElectronicoCliente`
- `telefono` ‚Üí `telefonoCliente`
- `segmento` ‚Üí `segmentoCliente`
- `score_crediticio` ‚Üí `scoreCrediticioCliente`
- `provincia` ‚Üí `provinciaCliente`
- `ciudad` ‚Üí `ciudadCliente`
- `fecha_registro` ‚Üí `fechaRegistroCliente`
- `fecha_proceso` ‚Üí `periodo`

**3. Transformaciones de Datos:**
- Convierte a MAY√öSCULAS: provincia, ciudad, tipo_identificaci√≥n
- Limpia espacios en blanco: `.str.strip()`
- Reordena columnas en orden l√≥gico

**4. Campos de Auditor√≠a:**
- Agrega `fechaIngesta`: Timestamp completo

**Resultado:** DataFrame normalizado con nomenclatura bancaria est√°ndar.

In [197]:
try:
    logger.info("Iniciando transformaci√≥n a Zona Curada")
    
    # Crear un objeto MetaData
    metadata = MetaData()
    
    # Reflejar la tabla desde PostgreSQL
    tabla_clientes = Table(
        nombre_tabla_zr_cli, 
        metadata, 
        autoload_with=engine, 
        schema=nombre_esquema_zr_cli
    )
    logger.info(f"‚úÖ Tabla reflejada: {nombre_esquema_zr_cli}.{nombre_tabla_zr_cli}")
    
    # Construir consulta
    stmt = select(tabla_clientes)
    
    # Cargar en Pandas
    with engine.connect() as con:
        df_db_clientes = pd.read_sql(stmt, con)
    logger.info(f"‚úÖ {len(df_db_clientes)} registros cargados desde PostgreSQL")
    
    # Mapeo de columnas
    mapping = {
        'periodo': 'codigoPeriodo', 
        'cliente_id': 'codigoSecuencialCliente',
        'codigo_unico_cliente': 'codigoIdentificacionCliente',
        'tipo_identificacion': 'tipoIdentificacionCliente',
        'identificacion': 'numeroIdentificacionCliente',
        'nombre': 'nombreCompletoCliente',
        'email': 'correoElectronicoCliente',
        'telefono': 'telefonoCliente',
        'segmento': 'segmentoCliente',
        'score_crediticio': 'scoreCrediticioCliente',
        'provincia': 'provinciaCliente',
        'ciudad': 'ciudadCliente',
        'fecha_registro': 'fechaRegistroCliente',
        'fecha_proceso': 'periodo'
    }
    
    df_db_clientes = df_db_clientes.rename(columns=mapping)
    logger.info(f"‚úÖ Columnas renombradas: {len(mapping)} campos mapeados")
    
    # Transformaciones con validaci√≥n
    columnas_upper = ['provinciaCliente', 'ciudadCliente', 'tipoIdentificacionCliente']
    for col in columnas_upper:
        if col in df_db_clientes.columns:
            # Manejar valores NULL
            df_db_clientes[col] = df_db_clientes[col].fillna('').str.upper().str.strip()
    
    # Limpiar espacios en blanco
    columnas_string = ['codigoIdentificacionCliente', 'nombreCompletoCliente', 
                       'correoElectronicoCliente', 'segmentoCliente']
    for col in columnas_string:
        if col in df_db_clientes.columns:
            df_db_clientes[col] = df_db_clientes[col].fillna('').str.strip()
    
    logger.info("‚úÖ Transformaciones aplicadas")
    
    # Reordenar columnas
    columnas_finales = [
        'codigoSecuencialCliente',
        'codigoPeriodo',
        'codigoIdentificacionCliente',
        'tipoIdentificacionCliente',
        'numeroIdentificacionCliente',
        'nombreCompletoCliente',
        'correoElectronicoCliente',
        'telefonoCliente',
        'segmentoCliente',
        'scoreCrediticioCliente',
        'provinciaCliente',
        'ciudadCliente',
        'fechaRegistroCliente',
        'periodo'
    ]
    
    df_db_clientes = df_db_clientes[columnas_finales]
    df_db_clientes['fechaIngesta'] = fechaActual
    
    logger.info(f"‚úÖ Transformaci√≥n completada. Shape: {df_db_clientes.shape}")
    
except Exception as e:
    logger.error(f"‚ùå Error en transformaci√≥n a ZC: {e}")
    raise

2026-02-21 19:18:00,258 - __main__ - INFO - Iniciando transformaci√≥n a Zona Curada
2026-02-21 19:18:00,283 - __main__ - INFO - ‚úÖ Tabla reflejada: zr_cli.zr_fake_cli_datos_clientes
2026-02-21 19:18:00,311 - __main__ - INFO - ‚úÖ 500 registros cargados desde PostgreSQL
2026-02-21 19:18:00,319 - __main__ - INFO - ‚úÖ Columnas renombradas: 14 campos mapeados
2026-02-21 19:18:00,324 - __main__ - INFO - ‚úÖ Transformaciones aplicadas
2026-02-21 19:18:00,345 - __main__ - INFO - ‚úÖ Transformaci√≥n completada. Shape: (500, 15)


## Paso 10: Exportaci√≥n a CSV - Zona Curada

Guarda los datos transformados en archivo CSV.

**Destino:** `data/curada/zc_cli_datos_clientes.csv`

**Prop√≥sito:**
- Respaldo de datos curados
- Verificaci√≥n manual de transformaciones
- Punto de referencia para auditor√≠a

In [198]:
try:
    # Crear directorio si no existe
    curada_path = Path('../data/curada')
    curada_path.mkdir(parents=True, exist_ok=True)
    
    csv_path = curada_path / f'{nombre_tabla_zc_cli}.csv'
    df_db_clientes.to_csv(csv_path, index=False)
    
    if not csv_path.exists():
        raise FileNotFoundError(f"Archivo no se cre√≥: {csv_path}")
    
    file_size = csv_path.stat().st_size / 1024
    logger.info(f"‚úÖ Archivo guardado: {csv_path} ({file_size:.2f} KB)")
    
except Exception as e:
    logger.error(f"‚ùå Error al exportar CSV (Curada): {e}")
    raise

2026-02-21 19:18:00,441 - __main__ - INFO - ‚úÖ Archivo guardado: ../data/curada/zc_cli_datos_clientes.csv (87.05 KB)


## Paso 11: Carga a PostgreSQL - Zona Curada

Inserta los datos transformados en la tabla `zc_cli.zc_cli_datos_clientes`.

**Tabla destino:** `zc_cli.zc_cli_datos_clientes`
**Clave Primaria:** codigoSecuencialCliente

Esta es la zona de an√°lisis intermedia con datos ya normalizados.

In [199]:
try:
    logger.info(f"Cargando datos a Zona Curada...")
    cargar_datos_postgresql(
        df_db_clientes,
        nombre_esquema_zc_cli,
        nombre_tabla_zc_cli,
        '"codigoSecuencialCliente"'
    )
except Exception as e:
    logger.error(f"‚ùå Fallo en carga a Zona Curada: {e}")
    raise

2026-02-21 19:18:00,500 - __main__ - INFO - Cargando datos a Zona Curada...
2026-02-21 19:18:00,506 - __main__ - INFO - Iniciando carga: zc_cli.zc_cli_datos_clientes
2026-02-21 19:18:00,507 - __main__ - INFO -   - Registros: 500
2026-02-21 19:18:00,508 - __main__ - INFO -   - Columnas: 15
2026-02-21 19:18:00,670 - __main__ - INFO - ‚úÖ Tabla creada: zc_cli.zc_cli_datos_clientes
2026-02-21 19:18:00,681 - __main__ - INFO - ‚úÖ Clave primaria agregada: "codigoSecuencialCliente"
2026-02-21 19:18:00,684 - __main__ - INFO - ‚úÖ Carga completada exitosamente


## Paso 12: Generaci√≥n de Dimensi√≥n de Clientes Optimizada

Selecciona y reordena columnas para crear dimensi√≥n final optimizada para an√°lisis.

**Columnas Seleccionadas (12 campos):**
1. `codigoSecuencialCliente` - ID secuencial
2. `codigoPeriodo` - Per√≠odo YYYYMM
3. `codigoIdentificacionCliente` - C√≥digo √∫nico cliente
4. `tipoIdentificacionCliente` - Tipo de ID
5. `numeroIdentificacionCliente` - N√∫mero de ID
6. `nombreCompletoCliente` - Nombre completo
7. `segmentoCliente` - Segmento cliente
8. `scoreCrediticioCliente` - Score crediticio
9. `provinciaCliente` - Provincia
10. `ciudadCliente` - Ciudad
11. `fechaRegistroCliente` - Fecha de registro
12. `periodo` - Per√≠odo YYYYMMDD

**Prop√≥sito:** 
- Reducir columnas innecesarias (email, tel√©fono, etc.)
- Optimizar performance de consultas anal√≠ticas
- Crear dimensi√≥n lista para joins con hechos

In [200]:
try:
    logger.info("Generando dimensi√≥n optimizada de clientes")
    
    columnas_dimension = [
        'codigoSecuencialCliente',
        'codigoPeriodo',
        'codigoIdentificacionCliente',
        'tipoIdentificacionCliente',
        'numeroIdentificacionCliente',
        'nombreCompletoCliente',
        'segmentoCliente',
        'scoreCrediticioCliente',
        'provinciaCliente',
        'ciudadCliente',
        'fechaRegistroCliente',
        'periodo'
    ]
    
    # Validar que todas las columnas existen
    cols_faltantes = [c for c in columnas_dimension if c not in df_db_clientes.columns]
    if cols_faltantes:
        raise ValueError(f"Columnas faltantes: {cols_faltantes}")
    
    df_db_clientes = df_db_clientes[columnas_dimension]
    logger.info(f"‚úÖ Dimensi√≥n generada: {df_db_clientes.shape}")
    
except Exception as e:
    logger.error(f"‚ùå Error al generar dimensi√≥n: {e}")
    raise

2026-02-21 19:18:00,707 - __main__ - INFO - Generando dimensi√≥n optimizada de clientes
2026-02-21 19:18:00,715 - __main__ - INFO - ‚úÖ Dimensi√≥n generada: (500, 12)


## Paso 13: Exportaci√≥n a CSV - Zona Productiva

Guarda la dimensi√≥n de clientes optimizada en archivo CSV.

**Destino:** `data/productiva/td_datos_clientes.csv`

**Contenido:** 
Dimensi√≥n de clientes con 12 columnas esenciales.

**Prop√≥sito:**
- Dataset final para an√°lisis y reportes
- Base para consolidaci√≥n con tablas de hechos (inversiones)
- Auditor√≠a de dimensi√≥n entregada

In [201]:
try:
    # Crear directorio si no existe
    productiva_path = Path('../data/productiva')
    productiva_path.mkdir(parents=True, exist_ok=True)
    
    csv_path = productiva_path / f'{nombre_tabla_zp_cli}.csv'
    df_db_clientes.to_csv(csv_path, index=False)
    
    if not csv_path.exists():
        raise FileNotFoundError(f"Archivo no se cre√≥: {csv_path}")
    
    file_size = csv_path.stat().st_size / 1024
    logger.info(f"‚úÖ Archivo guardado: {csv_path} ({file_size:.2f} KB)")
    
except Exception as e:
    logger.error(f"‚ùå Error al exportar CSV (Productiva): {e}")
    raise

2026-02-21 19:18:00,772 - __main__ - INFO - ‚úÖ Archivo guardado: ../data/productiva/td_datos_clientes.csv (54.94 KB)


## Paso 14: Carga a PostgreSQL - Zona Productiva

Inserta la dimensi√≥n final en la tabla `zp.td_datos_clientes` para consultas anal√≠ticas.

**Tabla destino:** `zp.td_datos_clientes` (Dimensi√≥n de Clientes)
**Registros:** 100 clientes
**Clave Primaria:** codigoSecuencialCliente

Esta es la tabla consultable para:
- Enriquecimiento de datos de inversiones
- Reportes de clientes por segmento
- An√°lisis de score crediticio
- Filtros geogr√°ficos (provincia, ciudad)

In [202]:
try:
    logger.info(f"Cargando datos a Zona Productiva...")
    cargar_datos_postgresql(
        df_db_clientes,
        nombre_esquema_zp,
        nombre_tabla_zp_cli,
        '"codigoSecuencialCliente"'
    )
    logger.info("‚úÖ Dimensi√≥n de Clientes cargada exitosamente en PostgreSQL")
except Exception as e:
    logger.error(f"‚ùå Fallo en carga a Zona Productiva: {e}")
    raise

2026-02-21 19:18:00,812 - __main__ - INFO - Cargando datos a Zona Productiva...
2026-02-21 19:18:00,816 - __main__ - INFO - Iniciando carga: zp.td_datos_clientes
2026-02-21 19:18:00,826 - __main__ - INFO -   - Registros: 500
2026-02-21 19:18:00,833 - __main__ - INFO -   - Columnas: 12
2026-02-21 19:18:01,078 - __main__ - INFO - ‚úÖ Tabla creada: zp.td_datos_clientes
2026-02-21 19:18:01,124 - __main__ - INFO - ‚úÖ Clave primaria agregada: "codigoSecuencialCliente"
2026-02-21 19:18:01,127 - __main__ - INFO - ‚úÖ Carga completada exitosamente
2026-02-21 19:18:01,128 - __main__ - INFO - ‚úÖ Dimensi√≥n de Clientes cargada exitosamente en PostgreSQL


## Paso 15: Limpieza y Liberaci√≥n de Recursos

Cierra conexiones de base de datos y libera memoria del kernel de Jupyter.

**Acciones:**
1. **Cierra conexiones PostgreSQL:**
   - Busca objetos con m√©todo `.close()` (conexiones DBAPI)
   - Busca objetos con m√©todo `.dispose()` (SQLAlchemy engines)

2. **Libera DataFrames:**
   - Identifica todos los DataFrames en memoria
   - Los elimina para liberar RAM

3. **Recolecci√≥n de basura:**
   - Ejecuta `gc.collect()` para optimizar memoria

**Prop√≥sito:** 
- Evitar memory leaks en Jupyter
- Permitir nuevas ejecuciones del notebook sin problemas
- Liberar conexiones a PostgreSQL para otros procesos

**Resultado:** "üßπ Memoria RAM optimizada"

In [203]:
logger.info("--- Iniciando limpieza de recursos ---")

try:
    # 1. Cerrar conexiones a Bases de Datos
    possible_conn_names = ['conn', 'connection', 'db_conn', 'engine']
    
    for name in possible_conn_names:
        if name in globals():
            obj = globals()[name]
            try:
                if hasattr(obj, 'close'):
                    obj.close()
                    logger.info(f"‚úÖ Conexi√≥n '{name}' cerrada")
                elif hasattr(obj, 'dispose'):
                    obj.dispose()
                    logger.info(f"‚úÖ Engine '{name}' dispuesto")
            except Exception as e:
                logger.warning(f"‚ö†Ô∏è No se pudo cerrar '{name}': {e}")
    
    logger.info("üîå Conexi√≥n a PostgreSQL cerrada correctamente")
    
    # 2. Eliminar DataFrames para liberar memoria
    df_variables = [var for var, obj in globals().items() 
                    if isinstance(obj, pd.DataFrame) and not var.startswith('_')]
    
    if df_variables:
        logger.info(f"Eliminando {len(df_variables)} DataFrames: {', '.join(df_variables)}")
        for var in df_variables:
            del globals()[var]
        logger.info("üóëÔ∏è DataFrames eliminados de la memoria")
    else:
        logger.info("No se encontraron DataFrames para eliminar")
    
    # 3. Forzar recolecci√≥n de basura
    gc.collect()
    logger.info("‚úÖ Recolecci√≥n de basura completada")
    logger.info("üßπ Memoria RAM optimizada")
    logger.info("--- Limpieza finalizada ---")
    
except Exception as e:
    logger.error(f"‚ùå Error durante limpieza: {e}")
    raise

2026-02-21 19:18:01,225 - __main__ - INFO - --- Iniciando limpieza de recursos ---
2026-02-21 19:18:01,243 - __main__ - INFO - ‚úÖ Conexi√≥n 'conn' cerrada
2026-02-21 19:18:01,255 - __main__ - INFO - ‚úÖ Engine 'engine' dispuesto
2026-02-21 19:18:01,263 - __main__ - INFO - üîå Conexi√≥n a PostgreSQL cerrada correctamente
2026-02-21 19:18:01,274 - __main__ - INFO - Eliminando 2 DataFrames: df_clientes, df_db_clientes


2026-02-21 19:18:01,279 - __main__ - INFO - üóëÔ∏è DataFrames eliminados de la memoria
2026-02-21 19:18:01,660 - __main__ - INFO - ‚úÖ Recolecci√≥n de basura completada
2026-02-21 19:18:01,663 - __main__ - INFO - üßπ Memoria RAM optimizada
2026-02-21 19:18:01,665 - __main__ - INFO - --- Limpieza finalizada ---
