In [1]:
# Setup
import sys
from pathlib import Path

# Agregar directorio ra√≠z al path
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

print(f"‚úÖ Project root: {project_root}")

‚úÖ Project root: D:\Academico\SENATI\octavo_ciclo\appBigData


In [2]:
# Imports
from sqlalchemy import create_engine, text
from config.config import Config
from src.logger_config import get_logger
import pandas as pd

logger = get_logger('notebook_extraccion')
logger.info("üöÄ Iniciando proceso de extracci√≥n")

‚úÖ Configuraci√≥n cargada correctamente
[32m04:18:24 | notebook_extraccion | INFO[0m | üöÄ Iniciando proceso de extracci√≥n[0m


In [3]:
# Celda 3: Crear schema de staging
from sqlalchemy import text

engine_staging = create_engine(Config.get_staging_connection_string())

logger.info("üî® Creando schema de staging...")

# Crear tabla etl_control
sql_etl_control = """
CREATE TABLE IF NOT EXISTS etl_control (
    etl_id INT AUTO_INCREMENT PRIMARY KEY,
    proceso VARCHAR(100) NOT NULL,
    fecha_inicio DATETIME NOT NULL,
    fecha_fin DATETIME,
    estado ENUM('INICIADO', 'COMPLETADO', 'ERROR') DEFAULT 'INICIADO',
    registros_leidos INT DEFAULT 0,
    registros_escritos INT DEFAULT 0,
    registros_error INT DEFAULT 0,
    mensaje_error TEXT,
    duracion_segundos INT,
    INDEX idx_proceso (proceso),
    INDEX idx_fecha (fecha_inicio)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
"""

# Crear tabla audit_calidad
sql_audit = """
CREATE TABLE IF NOT EXISTS audit_calidad (
    audit_id INT AUTO_INCREMENT PRIMARY KEY,
    etl_id INT,
    tabla_origen VARCHAR(100),
    tabla_destino VARCHAR(100),
    validacion VARCHAR(255),
    resultado ENUM('PASS', 'FAIL', 'WARNING'),
    valor_esperado VARCHAR(100),
    valor_obtenido VARCHAR(100),
    mensaje TEXT,
    fecha_validacion DATETIME DEFAULT CURRENT_TIMESTAMP,
    INDEX idx_etl (etl_id),
    INDEX idx_resultado (resultado)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
"""

with engine_staging.connect() as conn:
    # Crear tablas de control
    conn.execute(text(sql_etl_control))
    conn.commit()
    logger.info("‚úÖ Tabla etl_control creada")
    
    conn.execute(text(sql_audit))
    conn.commit()
    logger.info("‚úÖ Tabla audit_calidad creada")

# Las tablas stg_* se crear√°n autom√°ticamente cuando el extractor haga to_sql()
logger.info("‚úÖ Schema b√°sico de staging listo")

# Verificar
query_check = text("SHOW TABLES")
with engine_staging.connect() as conn:
    result = conn.execute(query_check)
    tablas = [row[0] for row in result]
    logger.info(f"üìã Tablas existentes: {tablas}")

[32m04:18:25 | notebook_extraccion | INFO[0m | üî® Creando schema de staging...[0m
[32m04:18:25 | notebook_extraccion | INFO[0m | ‚úÖ Tabla etl_control creada[0m
[32m04:18:25 | notebook_extraccion | INFO[0m | ‚úÖ Tabla audit_calidad creada[0m
[32m04:18:25 | notebook_extraccion | INFO[0m | ‚úÖ Schema b√°sico de staging listo[0m
[32m04:18:25 | notebook_extraccion | INFO[0m | üìã Tablas existentes: ['audit_calidad', 'etl_control', 'stg_address', 'stg_category', 'stg_city', 'stg_country', 'stg_film', 'stg_film_category', 'stg_inventory', 'stg_payment', 'stg_rental', 'stg_store'][0m


In [4]:
# Importar extractor
import importlib
import src.extractor

# Recargar el m√≥dulo para que tome los cambios
importlib.reload(src.extractor)

from src.extractor import SakilaExtractor

extractor = SakilaExtractor()
logger.info("‚úÖ Extractor inicializado")

[32m04:18:29 | extractor | INFO[0m | ‚úÖ Extractor inicializado correctamente[0m
[32m04:18:29 | notebook_extraccion | INFO[0m | ‚úÖ Extractor inicializado[0m


In [5]:
# Extracci√≥n completa (primera vez)
"""
Primera extracci√≥n: COMPLETA
Extrae todas las tablas de Sakila y las carga a Staging
"""
estadisticas = extractor.extraer_todas_las_tablas(
    incremental=False,
    fecha_desde=None
)

print("\n" + "="*80)
print("üìä RESUMEN DE EXTRACCI√ìN")
print("="*80)

total_registros = 0
for tabla, stats in estadisticas.items():
    if 'error' in stats:
        print(f"‚ùå {tabla}: ERROR - {stats['error']}")
    else:
        print(f"‚úÖ {tabla}: {stats['leidos']:,} registros extra√≠dos")
        total_registros += stats['leidos']

print("="*80)
print(f"üì¶ TOTAL: {total_registros:,} registros extra√≠dos")
print("="*80)

[32m04:18:32 | extractor | INFO[0m | üìù ETL registrado con ID: 4[0m
[32m04:18:32 | extractor | INFO[0m | üöÄ INICIO: EXTRACCION_COMPLETA[0m
[32m04:18:32 | extractor | INFO[0m |    Extrayendo 10 tablas[0m
[32m04:18:32 | extractor | INFO[0m | üì• Extrayendo rental (completo)[0m
[32m04:18:32 | extractor | INFO[0m | ‚úÖ Extra√≠dos 16,044 registros de rental[0m
[32m04:18:36 | extractor | INFO[0m | ‚úÖ Cargados 16,044 registros a stg_rental[0m
[32m04:18:36 | extractor | INFO[0m | üìä Tabla: rental[0m
[32m04:18:36 | extractor | INFO[0m |    Filas le√≠das: 16,044[0m
[32m04:18:36 | extractor | INFO[0m |    Filas escritas: 16,044[0m
[32m04:18:36 | extractor | INFO[0m | üì• Extrayendo payment (completo)[0m
[32m04:18:36 | extractor | INFO[0m | ‚úÖ Extra√≠dos 16,044 registros de payment[0m
[32m04:18:39 | extractor | INFO[0m | ‚úÖ Cargados 16,044 registros a stg_payment[0m
[32m04:18:39 | extractor | INFO[0m | üìä Tabla: payment[0m
[32m04:18:39 | extract

In [7]:
# Verificar datos en staging
from sqlalchemy import text

"""
Verificar que los datos se cargaron correctamente
"""
query_verificacion = text("""
    SELECT 
        TABLE_NAME as tabla,
        TABLE_ROWS as registros_aproximados
    FROM information_schema.TABLES
    WHERE TABLE_SCHEMA = 'sakila_staging'
    AND TABLE_NAME LIKE 'stg_%'
    ORDER BY TABLE_ROWS DESC
""")

with engine_staging.connect() as conn:
    df_verificacion = pd.read_sql(query_verificacion, conn)

print("\nüìã Tablas en Staging:")
print(df_verificacion.to_string(index=False))



üìã Tablas en Staging:
            tabla  registros_aproximados
       stg_rental                  16100
      stg_payment                  16055
    stg_inventory                   4585
         stg_film                   1000
stg_film_category                   1000
      stg_address                    603
         stg_city                    600
      stg_country                    109
     stg_category                     16
        stg_store                      2


In [8]:
# Ver muestra de datos (ejemplo: rental)
"""
Ver una muestra de los datos en staging
"""
query_muestra = """
    SELECT * FROM stg_rental 
    ORDER BY rental_date DESC 
    LIMIT 10
"""
df_muestra = pd.read_sql(query_muestra, engine_staging)
print("\nüìä Muestra de stg_rental:")
display(df_muestra)


üìä Muestra de stg_rental:


Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update,etl_fecha_carga,etl_id
0,11577,2006-02-14 15:16:03,4106,219,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4
1,11646,2006-02-14 15:16:03,478,11,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4
2,11541,2006-02-14 15:16:03,2026,335,,1,2006-02-15 21:30:53,2025-10-04 04:18:33,4
3,11672,2006-02-14 15:16:03,3947,521,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4
4,11496,2006-02-14 15:16:03,2047,155,,1,2006-02-15 21:30:53,2025-10-04 04:18:33,4
5,11611,2006-02-14 15:16:03,1857,192,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4
6,11593,2006-02-14 15:16:03,817,99,,1,2006-02-15 21:30:53,2025-10-04 04:18:33,4
7,11563,2006-02-14 15:16:03,1545,83,,1,2006-02-15 21:30:53,2025-10-04 04:18:33,4
8,11652,2006-02-14 15:16:03,1622,597,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4
9,11657,2006-02-14 15:16:03,3043,53,,2,2006-02-15 21:30:53,2025-10-04 04:18:33,4


In [9]:
# Ver control de ejecuciones
"""
Revisar la tabla de control ETL
"""
query_control = """
    SELECT 
        etl_id,
        proceso,
        fecha_inicio,
        fecha_fin,
        estado,
        registros_leidos,
        registros_escritos,
        duracion_segundos
    FROM etl_control
    ORDER BY etl_id DESC
    LIMIT 5
"""

df_control = pd.read_sql(query_control, engine_staging)
print("\nüìã √öltimas ejecuciones ETL:")
display(df_control)


üìã √öltimas ejecuciones ETL:


Unnamed: 0,etl_id,proceso,fecha_inicio,fecha_fin,estado,registros_leidos,registros_escritos,duracion_segundos
0,4,EXTRACCION_COMPLETA,2025-10-04 04:18:32,2025-10-04 04:18:47,COMPLETADO,39999,39999,15.0
1,3,EXTRACCION_COMPLETA,2025-10-04 04:15:47,2025-10-04 04:16:05,COMPLETADO,39396,39396,18.0
2,2,EXTRACCION_COMPLETA,2025-10-04 04:11:31,2025-10-04 04:12:04,COMPLETADO,39396,39396,33.0
3,1,EXTRACCION_COMPLETA,2025-10-04 04:04:57,NaT,INICIADO,0,0,


In [10]:
# Prueba de extracci√≥n incremental (simulaci√≥n)
"""
Simular una extracci√≥n incremental
(En producci√≥n, esto se ejecutar√≠a mensualmente)
"""
# Obtener √∫ltima fecha
ultima_fecha = extractor.obtener_ultima_extraccion()
print(f"\nüìÖ √öltima extracci√≥n: {ultima_fecha}")

# Para probar incremental, necesitar√≠as tener datos nuevos en Sakila
# Por ahora, solo mostramos c√≥mo se llamar√≠a:
print("\nüí° Para extracci√≥n incremental, usar√≠as:")
print("estadisticas_inc = extractor.extraer_todas_las_tablas(")
print("    incremental=True,")
print("    fecha_desde=ultima_fecha")
print(")")

[32m04:20:19 | extractor | INFO[0m | üìÖ √öltima extracci√≥n: 2025-10-04 04:18:47[0m

üìÖ √öltima extracci√≥n: 2025-10-04 04:18:47

üí° Para extracci√≥n incremental, usar√≠as:
estadisticas_inc = extractor.extraer_todas_las_tablas(
    incremental=True,
    fecha_desde=ultima_fecha
)


In [11]:
# Cerrar conexiones
extractor.cerrar_conexiones()
logger.info("‚úÖ Proceso de extracci√≥n completado")

print("\n" + "="*80)
print("üéâ ¬°EXTRACCI√ìN COMPLETADA EXITOSAMENTE!")
print("="*80)
print("\nüìå Siguiente paso: 02_staging.ipynb (Validaciones y limpieza)")

[32m04:20:25 | extractor | INFO[0m | üîå Conexiones cerradas[0m
[32m04:20:25 | notebook_extraccion | INFO[0m | ‚úÖ Proceso de extracci√≥n completado[0m

üéâ ¬°EXTRACCI√ìN COMPLETADA EXITOSAMENTE!

üìå Siguiente paso: 02_staging.ipynb (Validaciones y limpieza)
