# Prueba Tecnica - Analista de Procesos ETL

Este notebook contiene las soluciones para las secciones de **Python (Seccion 2)**, las instrucciones de **Excel (Seccion 1)** y la **Logica ETL (Seccion 4)**.

---
# Seccion 2 - Python

In [None]:
# Celda 0: Imports
# ============================================================================
# pandas: Libreria principal para manipulacion de datos tabulares. Se eligio
#   porque es el estandar de la industria para ETL en Python y ofrece lectura
#   nativa de CSV, concatenacion, deduplicacion y exportacion.
# re: Modulo de expresiones regulares de Python. Se usa para validar formatos
#   de email con patrones complejos que no se pueden resolver con .contains().
# warnings: Se desactivan los warnings para mantener la salida limpia.
#   En produccion se usaria un logger en su lugar.
# ============================================================================
import pandas as pd
import re
import warnings
warnings.filterwarnings('ignore')

print("Librerias cargadas correctamente.")

## 2.1 Carga e Integracion de Archivos

Se cargan los dos archivos CSV (separados por `;`) y se unifican en un solo DataFrame.

**Nota:** El archivo `flights_5000v2.csv` tiene headers corruptos (Col_6 aparece como Col_7, Col_16 como Col_17, Col_18 como Col_13), por lo que se sobreescriben los nombres de columna al momento de la carga.

In [None]:
# Celda 1: Seccion 2.1 - Carga e integracion
# ============================================================================
# OBJETIVO: Cargar ambos archivos CSV v2 y unificarlos en un solo DataFrame.
#
# DECISIONES CLAVE:
# - sep=';' : Ambos archivos v2 usan punto y coma como separador (no coma).
#   Esto se verifico inspeccionando las primeras filas de cada archivo.
#
# - encoding='utf-8-sig' : Los archivos tienen un BOM (Byte Order Mark) al
#   inicio (caracter invisible \ufeff). Sin 'utf-8-sig', el BOM se pega al
#   nombre de la primera columna, quedando "\ufeffCol_1" en lugar de "Col_1".
#   'utf-8-sig' le indica a pandas que descarte el BOM automaticamente.
#
# - names=columnas, header=0 (solo para 5000v2): El archivo flights_5000v2.csv
#   tiene headers CORRUPTOS: Col_6 aparece como Col_7 (posicion 6), Col_16
#   como Col_17 (posicion 16), y Col_18 como Col_13 (posicion 18). Esto
#   causaria que pd.concat() alineara mal las columnas. La solucion es
#   sobreescribir los headers con los nombres correctos usando 'names' y
#   descartar la fila original de headers con 'header=0'.
#   El archivo flights_10000v2.csv tiene headers correctos, por lo que no
#   necesita esta correccion.
#
# - pd.concat() con ignore_index=True: Reinicia el indice del DataFrame
#   resultante (0, 1, 2, ...) para evitar indices duplicados que podrian
#   causar problemas en operaciones posteriores.
# ============================================================================

# Generar lista de headers correctos: ['Col_1', 'Col_2', ..., 'Col_19']
columnas = [f'Col_{i}' for i in range(1, 20)]

# Cargar flights_10000v2.csv - headers correctos, se leen tal cual
df_10000 = pd.read_csv('flights_10000v2.csv', sep=';', encoding='utf-8-sig')
print(f"flights_10000v2.csv: {len(df_10000)} registros")
print(f"  Headers: {list(df_10000.columns)}")

# Cargar flights_5000v2.csv - headers corruptos, se sobreescriben
df_5000 = pd.read_csv('flights_5000v2.csv', sep=';', encoding='utf-8-sig',
                       names=columnas, header=0)
print(f"\nflights_5000v2.csv: {len(df_5000)} registros")
print(f"  Headers (corregidos): {list(df_5000.columns)}")

# Unificar ambos DataFrames en uno solo
flights_Union = pd.concat([df_10000, df_5000], ignore_index=True)
print(f"\n{'='*50}")
print(f"Total de registros en flights_Union: {len(flights_Union)}")
print(f"Columnas: {list(flights_Union.columns)}")

## 2.2 Eliminacion de Duplicados

Se eliminan los registros duplicados basandose en la columna `Col_1` (identificador unico), conservando la primera ocurrencia.

In [None]:
# Celda 2: Seccion 2.2 - Eliminacion de duplicados
# ============================================================================
# OBJETIVO: Eliminar registros con Col_1 repetido, conservando el primero.
#
# DECISIONES CLAVE:
# - subset=['Col_1'] : Se usa Col_1 como llave de negocio porque es el
#   identificador unico del vuelo. Los duplicados surgen porque ambos archivos
#   comparten registros (un pasajero puede aparecer en ambos CSVs con el
#   mismo Col_1 pero datos diferentes en otras columnas).
#
# - keep='first' : Se conserva la PRIMERA ocurrencia. Dado que el concat
#   puso df_10000 primero, se priorizan los datos del archivo de 10,000.
#   Esta decision se basa en que el archivo mas grande suele ser la fuente
#   mas reciente/completa en este contexto.
#
# - Se imprime antes/despues para trazabilidad y auditoria del proceso.
# ============================================================================

print(f"Registros ANTES de eliminar duplicados: {len(flights_Union)}")

# Contar cuantos registros son duplicados (True = es duplicado)
duplicados = flights_Union.duplicated(subset=['Col_1'], keep='first').sum()
print(f"Registros duplicados encontrados (por Col_1): {duplicados}")

# Eliminar duplicados conservando la primera ocurrencia
flights_Sin_Duplicados = flights_Union.drop_duplicates(subset=['Col_1'], keep='first')

print(f"Registros DESPUES de eliminar duplicados: {len(flights_Sin_Duplicados)}")
print(f"\nRegistros eliminados: {len(flights_Union) - len(flights_Sin_Duplicados)}")

## 2.3.1 Validacion de Emails - Col_8

Se validan los correos electronicos de la columna `Col_8`:
- Se eliminan espacios en blanco (padding)
- Se aplica una expresion regular para validar el formato de email
- Se clasifican en validos e invalidos

In [None]:
# Celda 3: Seccion 2.3.1 - Validacion de emails Col_8
# ============================================================================
# OBJETIVO: Clasificar los emails de Col_8 como validos o invalidos.
#
# PROBLEMAS DETECTADOS EN LOS DATOS:
# - Los emails vienen con ~200 espacios de padding a la derecha
#   (ej: "JIM@TERRAPINOVERLAND.COM                                    ")
# - Hay valores no-email como "NO TIENE", "NA", "NO TIEN E"
# - Algunos valores tienen formato de email pero les falta el "@"
#
# DECISIONES CLAVE:
# - .astype(str) : Convierte a string para evitar errores con valores NaN/None
#   que pandas podria interpretar como float. Sin esto, .str.strip() fallaria
#   en filas con valores nulos.
#
# - .str.strip() : Elimina los ~200 espacios de padding. Es el primer paso
#   critico porque sin esto, ningun email pasaria la validacion regex.
#
# - Regex r'^[A-Za-z0-9._%+\-]+@[A-Za-z0-9.\-]+\.[A-Za-z]{2,}$' :
#   Se uso este patron porque cubre los casos estandar de email:
#   - Parte local: letras, numeros, puntos, guion bajo, %, +, -
#   - @ obligatorio: separa la parte local del dominio
#   - Dominio: letras, numeros, puntos, guiones
#   - TLD: al menos 2 letras (com, co, org, etc.)
#   - ^ y $ aseguran que TODO el string sea un email (no solo una parte)
#   No se uso una libreria como email-validator porque la prueba pide regex.
#
# - Se trabaja sobre flights_Sin_Duplicados (no flights_Union) porque la
#   validacion debe hacerse sobre datos ya deduplicados para evitar contar
#   el mismo email invalido multiples veces.
# ============================================================================

# Copiar el DataFrame deduplicado para no modificar el original
df = flights_Sin_Duplicados.copy()

# PASO 1: Limpiar espacios en Col_8 (padding de ~200 caracteres)
df['Col_8'] = df['Col_8'].astype(str).str.strip()

# PASO 2: Definir regex para validacion de formato email
email_regex = r'^[A-Za-z0-9._%+\-]+@[A-Za-z0-9.\-]+\.[A-Za-z]{2,}$'

# PASO 3: Aplicar regex a cada email y clasificar como True/False
df['Email_Valido'] = df['Col_8'].apply(lambda x: bool(re.match(email_regex, x)))

# Separar en dos grupos para reporte
validos = df[df['Email_Valido'] == True]
invalidos = df[df['Email_Valido'] == False]

print(f"Total de registros analizados: {len(df)}")
print(f"Emails VALIDOS: {len(validos)}")
print(f"Emails INVALIDOS: {len(invalidos)}")

print(f"\n--- Ejemplos de emails VALIDOS (primeros 5) ---")
print(validos['Col_8'].head().tolist())

print(f"\n--- Ejemplos de emails INVALIDOS (primeros 10) ---")
print(invalidos['Col_8'].head(10).tolist())

## 2.3.2 Validacion de Telefonos - Col_11

Se validan los numeros de telefono de la columna `Col_11`:
- Se limpian caracteres especiales (`+`, `-`, espacios)
- Reglas de validacion:
  - **Celular**: Exactamente 10 digitos, comienza con `3`
  - **Fijo**: Exactamente 10 digitos, comienza con `601`
- Se clasifican en aptos y no aptos

In [None]:
# Celda 4: Seccion 2.3.2 - Validacion de telefonos Col_11
# ============================================================================
# OBJETIVO: Clasificar telefonos de Col_11 como aptos o no aptos segun
# las reglas de numeracion colombiana.
#
# PROBLEMAS DETECTADOS EN LOS DATOS:
# - Formatos mixtos: "3108152764", "1-252-305-6678", "+37259197979"
# - Algunos tienen guiones, otros tienen prefijo internacional (+)
# - Longitudes variables (desde 0 digitos hasta 11+)
# - Valor "0" aparece como telefono en algunos registros
#
# REGLAS DE VALIDACION (numeracion colombiana):
# - Celular: Exactamente 10 digitos, inicia con 3 (ej: 3001234567)
#   Los celulares en Colombia siempre empiezan con 3 y tienen 10 digitos.
# - Fijo: Exactamente 10 digitos, inicia con 601 (ej: 6011234567)
#   Desde 2021, los fijos en Colombia usan prefijo de area (60X) + 7 digitos.
#
# DECISIONES CLAVE:
# - Se limpian ANTES de validar: quitar +, -, espacios. Esto normaliza
#   formatos como "+57-310-815-2764" a "573108152764" para poder evaluar
#   la longitud y el prefijo uniformemente.
# - Se usa .isdigit() como primera validacion para descartar valores
#   que aun despues de limpiar contengan caracteres no numericos.
# - Se crea Col_11_Limpio como columna separada para mostrar el resultado
#   de la limpieza junto al original en los ejemplos de salida.
# ============================================================================

# PASO 1: Limpiar telefonos - quitar +, -, espacios
# Se usa regex r'[+\-\s]' para eliminar estos caracteres en una sola operacion
df['Col_11_Limpio'] = df['Col_11'].astype(str).str.replace(r'[+\-\s]', '', regex=True).str.strip()

def validar_telefono(tel):
    """
    Valida si un telefono cumple con los formatos colombianos.
    
    Retorna:
    - 'Apto - Celular': 10 digitos, empieza con 3
    - 'Apto - Fijo': 10 digitos, empieza con 601
    - 'No Apto': cualquier otro caso (internacional, incompleto, invalido)
    """
    # Descartar valores no numericos (ej: "nan", letras residuales)
    if not tel.isdigit():
        return 'No Apto'
    # Celular colombiano: 10 digitos empezando con 3
    if len(tel) == 10 and tel.startswith('3'):
        return 'Apto - Celular'
    # Fijo colombiano: 10 digitos empezando con 601 (Bogota y area)
    if len(tel) == 10 and tel.startswith('601'):
        return 'Apto - Fijo'
    # Todo lo demas: internacional, longitud incorrecta, prefijo desconocido
    return 'No Apto'

# PASO 2: Aplicar la funcion de validacion a cada telefono limpio
df['Telefono_Estado'] = df['Col_11_Limpio'].apply(validar_telefono)

# PASO 3: Reportar resultados
print("Clasificacion de telefonos:")
print(df['Telefono_Estado'].value_counts())

aptos = df[df['Telefono_Estado'].str.startswith('Apto')]
no_aptos = df[df['Telefono_Estado'] == 'No Apto']

print(f"\nTotal APTOS: {len(aptos)}")
print(f"Total NO APTOS: {len(no_aptos)}")

print(f"\n--- Ejemplos de telefonos APTOS (primeros 5) ---")
print(aptos[['Col_11', 'Col_11_Limpio', 'Telefono_Estado']].head().to_string(index=False))

print(f"\n--- Ejemplos de telefonos NO APTOS (primeros 5) ---")
print(no_aptos[['Col_11', 'Col_11_Limpio', 'Telefono_Estado']].head().to_string(index=False))

## 2.4 Exportacion del Archivo Limpio

Se exporta el DataFrame unificado (`flights_Union`) con las columnas `Col_8` y `Col_11` depuradas como `flights_unificado_limpio.csv`.

In [None]:
# Celda 5: Seccion 2.4 - Exportacion
# ============================================================================
# OBJETIVO: Exportar flights_Union (los 15,000 registros unificados) con
# las columnas Col_8 y Col_11 ya depuradas como CSV limpio.
#
# DECISIONES CLAVE:
# - Se exporta flights_Union (no flights_Sin_Duplicados): El enunciado
#   pide exportar los datos unificados con las columnas depuradas. La
#   deduplicacion fue un ejercicio analitico aparte (seccion 2.2).
#   Se exportan los 15,000 registros completos con la limpieza aplicada.
#
# - .copy() : Se trabaja sobre una copia para no modificar el DataFrame
#   original flights_Union, que podria necesitarse intacto mas adelante.
#
# - Limpieza de Col_8 (strip): Se aplica la misma limpieza que en la
#   seccion 2.3.1 - quitar los ~200 espacios de padding para que el CSV
#   exportado sea utilizable sin reprocesar.
#
# - Limpieza de Col_11 (quitar +, -, espacios): Se normalizan los telefonos
#   al formato solo-digitos para consistencia, aplicando la misma limpieza
#   que en la seccion 2.3.2.
#
# - index=False : No incluir el indice de pandas como columna en el CSV,
#   ya que no aporta informacion de negocio.
#
# - encoding='utf-8-sig' : Se usa UTF-8 con BOM para que Excel en Windows
#   pueda abrir el archivo correctamente con caracteres especiales.
#   Sin el BOM, Excel podria mostrar caracteres corruptos.
# ============================================================================

# Copiar flights_Union para aplicar la limpieza sin alterar el original
df_exportar = flights_Union.copy()

# Aplicar limpieza de Col_8: quitar espacios de padding (~200 chars)
df_exportar['Col_8'] = df_exportar['Col_8'].astype(str).str.strip()

# Aplicar limpieza de Col_11: normalizar telefonos a solo digitos
df_exportar['Col_11'] = df_exportar['Col_11'].astype(str).str.replace(r'[+\-\s]', '', regex=True).str.strip()

# Exportar a CSV
df_exportar.to_csv('flights_unificado_limpio.csv', index=False, encoding='utf-8-sig')

print(f"Archivo exportado: flights_unificado_limpio.csv")
print(f"Total de registros exportados: {len(df_exportar)}")
print(f"Columnas: {list(df_exportar.columns)}")

## 2.5 Conexion a Base de Datos

Para conectarse a una base de datos **SQL Server** desde Python, se pueden utilizar las librerias `pyodbc` y `sqlalchemy`.

### Librerias necesarias
```bash
pip install pyodbc sqlalchemy
```

### Parametros de conexion
| Parametro | Descripcion | Ejemplo |
|-----------|-------------|---------|
| DRIVER | Driver ODBC instalado | `{ODBC Driver 17 for SQL Server}` |
| SERVER | Nombre o IP del servidor | `localhost` o `192.168.1.100` |
| DATABASE | Nombre de la base de datos | `mi_base_datos` |
| UID | Usuario de la base de datos | `sa` |
| PWD | Contrasena del usuario | `mi_password` |

### Ejemplo de conexion con pyodbc
```python
import pyodbc

# Parametros de conexion
driver = '{ODBC Driver 17 for SQL Server}'
server = 'localhost'
database = 'mi_base_datos'
uid = 'sa'
pwd = 'mi_password'

# Cadena de conexion
conn_str = f'DRIVER={driver};SERVER={server};DATABASE={database};UID={uid};PWD={pwd}'

# Conectar
conn = pyodbc.connect(conn_str)
cursor = conn.cursor()

# Ejecutar consulta
cursor.execute('SELECT TOP 10 * FROM mi_tabla')
rows = cursor.fetchall()
for row in rows:
    print(row)

# Cerrar conexion
conn.close()
```

### Ejemplo de conexion con SQLAlchemy
```python
from sqlalchemy import create_engine
import pandas as pd

# Cadena de conexion SQLAlchemy
engine = create_engine(
    'mssql+pyodbc://sa:mi_password@localhost/mi_base_datos'
    '?driver=ODBC+Driver+17+for+SQL+Server'
)

# Leer datos directamente a un DataFrame
df = pd.read_sql('SELECT * FROM mi_tabla', engine)
print(df.head())

# Escribir un DataFrame a la base de datos
df.to_sql('nombre_tabla', engine, if_exists='replace', index=False)
```

---
# Seccion 1 - Excel

## Instrucciones paso a paso en Excel con Power Query

### Paso 1: Conectar los archivos CSV en Power Query
1. Abrir Excel y crear un nuevo libro
2. Ir a **Datos > Obtener datos > Desde archivo > Desde texto/CSV**
3. Seleccionar `flights_10000v2.csv`
4. En la ventana de vista previa:
   - Delimitador: **Punto y coma (;)**
   - Deteccion de tipo de datos: Primera fila como encabezado
5. Hacer clic en **Transformar datos** para abrir Power Query
6. Repetir los pasos 2-5 para `flights_5000v2.csv`

### Paso 2: Corregir headers del flights_5000v2
En Power Query, sobre la consulta de `flights_5000v2`:
1. Hacer doble clic en el encabezado de la columna que dice `Col_7` (posicion 6) y renombrar a `Col_6`
2. Hacer doble clic en el encabezado de la columna que dice `Col_17` (posicion 16) y renombrar a `Col_16`
3. Hacer doble clic en el encabezado de la columna que dice `Col_13` (posicion 18) y renombrar a `Col_18`

### Paso 3: Anexar (Append) ambas consultas
1. En Power Query, ir a **Inicio > Anexar consultas > Anexar consultas como nuevas**
2. Seleccionar la consulta de `flights_10000v2` como tabla principal
3. Agregar la consulta de `flights_5000v2` como tabla secundaria
4. Hacer clic en **Aceptar**
5. Renombrar la nueva consulta como `flights_Union`

### Paso 4: Convertir Col_10 de texto a numero
1. Seleccionar la columna `Col_10`
2. Opcion A: Ir a **Transformar > Tipo de datos** y seleccionar **Numero decimal**
3. Opcion B: Clic derecho en el encabezado de `Col_10` > **Cambiar tipo > Numero decimal**
4. Si aparecen errores, usar **Reemplazar errores** con valor 0

### Paso 5: Cerrar y cargar los datos
1. Ir a **Inicio > Cerrar y cargar > Cerrar y cargar en...**
2. Seleccionar **Tabla** y elegir la hoja de destino
3. Hacer clic en **Aceptar**

### Paso 6: Crear tabla dinamica
1. Seleccionar cualquier celda dentro de la tabla cargada
2. Ir a **Insertar > Tabla dinamica**
3. Configurar la tabla dinamica:
   - **Filas**: Arrastrar `Col_2` al area de filas
   - **Valores**: Arrastrar `Col_1` al area de valores (configurar como **Cuenta**)
   - **Valores**: Arrastrar `Col_10` al area de valores (configurar como **Suma**)
4. Esto mostrara por cada valor de `Col_2`: la cantidad de registros y la suma de `Col_10`

### Paso 7: Identificar el valor mas duplicado de Col_1
1. Crear otra tabla dinamica o usar CONTAR.SI
2. **Opcion con tabla dinamica**:
   - Filas: `Col_1`
   - Valores: `Col_1` como **Cuenta**
   - Ordenar descendente por cuenta
   - El primer valor es el mas duplicado
3. **Opcion con formula**:
   - En una celda auxiliar: `=INDICE(Col_1;COINCIDIR(MAX(CONTAR.SI(Col_1;Col_1));CONTAR.SI(Col_1;Col_1);0))`

---
# Seccion 4 - Logica ETL

## Parte A: Diseno del Flujo ETL

### Escenario
Diseno de un flujo ETL para integrar datos desde multiples fuentes (ERP, CRM, archivos externos) hacia un data warehouse centralizado.

### 1. Extraccion
- **ERP/CRM**: Conexion mediante APIs REST o conectores nativos a la base de datos (JDBC/ODBC). Se usa extraccion **incremental** con columnas de marca de agua (watermark) como `fecha_modificacion` para evitar extraer datos ya procesados.
- **Archivos externos**: Recepcion via SFTP o carpetas monitoreadas. Se implementa un patron de deteccion de archivos nuevos con validacion de nombre y estructura antes de procesarlos.
- **Frecuencia**: Definida segun requerimientos de negocio (batch diario, horario, o near-real-time segun criticidad).

### 2. Validacion
- **Schema validation**: Verificar que las columnas esperadas existan, con los tipos de datos correctos.
- **Nulos y obligatoriedad**: Verificar campos que no deben ser nulos (PKs, campos criticos de negocio).
- **Integridad referencial**: Validar que las llaves foraneas existan en las tablas de referencia.
- **Registros rechazados**: Los registros que no pasen validacion se envian a una tabla de rechazo (`reject_table`) con el motivo del error para posterior revision.

### 3. Transformacion
- **Estandarizacion de formatos**: Normalizar fechas, telefonos, emails, monedas a formatos unificados.
- **Deduplicacion**: Identificar y eliminar registros duplicados usando llaves de negocio.
- **Logica de negocio**: Aplicar calculos, agregaciones y reglas de negocio especificas (ej: clasificacion de clientes, calculo de metricas).
- **Enriquecimiento**: Cruzar datos de distintas fuentes para agregar informacion adicional.

### 4. Carga
- **Staging area**: Los datos transformados se cargan primero en tablas de staging temporales.
- **UPSERT a tablas destino**: Desde staging se ejecuta un UPSERT (INSERT + UPDATE) hacia las tablas definitivas, usando la llave de negocio para determinar si insertar o actualizar.
- **Transaccional**: La carga se ejecuta dentro de una transaccion para garantizar atomicidad (todo o nada).

### 5. Manejo de Errores
- **Logging estructurado**: Cada etapa registra logs con timestamp, etapa, conteo de registros procesados/rechazados, y mensajes de error.
- **Alertas**: Notificaciones por email o Slack cuando hay errores criticos o cuando el porcentaje de rechazo supera un umbral.
- **Tablas de rechazo**: Registros problematicos se almacenan para reprocesamiento manual o automatico.

### 6. Monitoreo
- **Dashboard de ejecucion**: Panel con estado de cada ejecucion (exito/fallo), duracion, volumen procesado.
- **Conteo de filas por etapa**: Metricas de entrada vs salida en cada fase para detectar perdida o ganancia inesperada de registros.
- **SLAs**: Monitoreo de cumplimiento de tiempos de ejecucion esperados.

### Diagrama del Flujo
```
  [ERP/CRM]    [Archivos SFTP]    [APIs externas]
      |              |                   |
      v              v                   v
  +------------------------------------------+
  |           EXTRACCION                     |
  |   (Incremental / Full / CDC)             |
  +------------------------------------------+
                    |
                    v
  +------------------------------------------+
  |           VALIDACION                     |
  |   Schema + Nulos + Integridad            |
  +----+-------------------------------+-----+
       |                               |
       v                               v
  [Registros OK]               [Tabla de Rechazo]
       |
       v
  +------------------------------------------+
  |         TRANSFORMACION                   |
  |  Estandarizacion + Dedup + Logica Neg.   |
  +------------------------------------------+
                    |
                    v
  +------------------------------------------+
  |            CARGA                         |
  |   Staging -> UPSERT -> Tablas destino    |
  +------------------------------------------+
                    |
                    v
  +------------------------------------------+
  |         MONITOREO & LOGGING              |
  |   Dashboard + Alertas + Metricas         |
  +------------------------------------------+
```

## Parte B: Criterios de Calidad de Datos

### 1. Controles de Conteo y Checksums
- **Conteo por etapa**: Registrar el numero de filas al inicio y final de cada fase (extraccion, validacion, transformacion, carga). Cualquier discrepancia no explicada genera una alerta.
- **Checksums**: Para columnas numericas criticas, calcular sumas de verificacion antes y despues de las transformaciones para garantizar que no haya perdida o alteracion de datos.

### 2. Validacion con Regex, Rangos e Integridad Referencial
- **Regex**: Aplicar expresiones regulares para validar formatos de emails, telefonos, codigos postales, identificaciones.
- **Rangos**: Verificar que valores numericos esten dentro de rangos logicos (ej: precios > 0, edades entre 0-150).
- **Integridad referencial**: Confirmar que cada FK tenga su correspondiente PK en la tabla maestra.

### 3. Evitar Reprocesos
- **Operaciones idempotentes**: Disenar el ETL para que si se ejecuta multiples veces con los mismos datos, el resultado sea identico (usar UPSERT en lugar de INSERT).
- **Tabla de control**: Mantener una tabla `etl_control` con `batch_id`, `fecha_ejecucion`, `archivo_fuente`, `estado`, `filas_procesadas`. Antes de procesar, verificar si el batch ya fue completado.
- **Marcas de agua**: Guardar la ultima fecha/ID procesado para saber desde donde continuar.

### 4. Deteccion de Anomalias
- **Perfilado estadistico**: Calcular estadisticas basicas (media, desviacion estandar, percentiles) de campos clave. Detectar valores atipicos (outliers) que se desvien significativamente.
- **Variacion de volumen**: Alertar si el volumen de datos de una ejecucion varia mas de un porcentaje definido respecto a la ejecucion anterior (ej: +-30%).
- **Distribucion de valores**: Monitorear cambios en la distribucion de valores categoricos (ej: si un pais que normalmente tiene 5% de registros de repente tiene 50%).

## Parte C: Continuidad y Mejora

### 1. Manejo de Fallas
- **Retry con backoff exponencial**: Ante fallas transitorias (conexion, timeout), reintentar automaticamente con esperas crecientes (1s, 2s, 4s, 8s...) hasta un maximo de intentos.
- **Dead Letter Queue (DLQ)**: Registros que fallan repetidamente se envian a una cola/tabla especial para revision manual sin bloquear el flujo principal.
- **Rollback transaccional**: Si la carga falla a medio camino, revertir todos los cambios de la transaccion actual para dejar la base de datos en un estado consistente.
- **Checkpointing**: Guardar puntos de control intermedios para poder reanudar desde el ultimo punto exitoso en lugar de reprocesar todo.

### 2. Documentacion
- **Diccionario de datos**: Documentar cada tabla y columna con su descripcion, tipo de dato, reglas de negocio y transformaciones aplicadas.
- **Linaje de datos (Data Lineage)**: Rastrear el origen de cada campo en las tablas destino, incluyendo las transformaciones intermedias. Herramientas como Apache Atlas o dbt lineage.
- **Runbooks**: Procedimientos operativos documentados para cada escenario de falla (que hacer si falla la extraccion, si hay datos corruptos, si se necesita reprocesar).

### 3. Mejoras Futuras
- **Migracion a streaming**: Evolucionar de procesamiento batch a near-real-time usando herramientas como Apache Kafka + Spark Streaming para reducir la latencia de datos.
- **Catalogo de datos**: Implementar un catalogo centralizado (ej: Apache Atlas, DataHub) para que los usuarios de negocio puedan descubrir y entender los datos disponibles.
- **Scoring de calidad**: Asignar un puntaje de calidad a cada registro y tabla basado en completitud, precision, consistencia y frescura. Publicar metricas en un dashboard accesible.