# MatchSync Lite – Conciliación de Datos para Retail

**Resumen:**  
Este cuaderno demuestra el pipeline completo para la conciliación automática de datos en un entorno retail a pequeña escala. La solución, basada en técnicas de matching exacto y difuso con RapidFuzz y ajuste dinámico, automatiza la conciliación de ventas y depósitos bancarios, reduciendo el trabajo manual y aumentando la trazabilidad.

**Objetivos:**
- Generar datos de ejemplo y la estructura de los campos.
- Procesar y conciliar los datos mediante un enfoque iterativo.
- Validar discrepancias y generar reportes detallados.
- Mostrar resultados con visualizaciones y análisis estadístico.

**Autor:** Ariel Luján Giamportone  
**Fecha:** 2025-04-01  
**Versión:** 1.0


## Configuración del Entorno y Cargas (Code - configuración)
- Configurar logging y rutas.

- Importar las librerías necesarias.

In [None]:
import os
import logging
import pandas as pd
import numpy as np
from pathlib import Path

logging.basicConfig(level=logging.INFO)
# Definir la ruta raíz del proyecto
ROOT_DIR = Path(__file__).resolve().parent.parent.parent  # Ajusta según la ubicación del notebook
print("ROOT_DIR:", ROOT_DIR)

# Configurar rutas
STRUCTURE_FILE = ROOT_DIR / "data" / "raw" / "estructura.xlsx"
TABLA1_FILE = ROOT_DIR / "data" / "raw" / "tabla1.xlsx"
TABLA2_FILE = ROOT_DIR / "data" / "raw" / "tabla2.xlsx"
REPORTS_PATH = ROOT_DIR / "reports"


## Generación de la Estructura y Datos (Code)
Ejecutar los scripts que generan la estructura y los datos (puedes usar subprocess para llamarlos o importar sus funciones directamente).

In [None]:
import subprocess
import sys

def run_script(script_path):
    result = subprocess.run([sys.executable, str(script_path)], capture_output=True, text=True)
    if result.returncode != 0:
        logging.error(f"Error ejecutando {script_path}:\n{result.stderr}")
    else:
        logging.info(result.stdout)

# Ejecutar scripts de generación de estructura y datos
run_script(Path("scripts") / "genera_estructura.py")
run_script(Path("scripts") / "generate_data.py")


## Proceso de Conciliación (Code)
Importar y ejecutar el módulo de conciliación (ej. ConciliadorAvanzado) y mostrar algunos resultados intermedios.

In [None]:
from src.data.process_data import ConciliadorAvanzado

conciliador = ConciliadorAvanzado()
tabla1_final, tabla2_final = conciliador.conciliacion_iterativa()

# Mostrar una muestra de los datos conciliados
display(tabla1_final.head())

## Generación de Reportes y Visualizaciones (Code y Markdown)
Llamar al método para generar reportes en Excel y, si tienes un módulo de visualización, mostrar un gráfico directamente en el notebook.

In [None]:
# Generar reporte en Excel
conciliador.generar_reporte(tabla1_final, tabla2_final)

# (Opcional) Mostrar plot de distribución de puntajes (usando matplotlib o un modulo custom)
try:
    from src.visualization.plot_results import plot_match_score_distribution
    output_plot = REPORTS_PATH / "match_score_distribution.png"
    plot_match_score_distribution(tabla1_final, str(output_plot))
    from IPython.display import Image, display
    display(Image(filename=str(output_plot)))
except ImportError:
    logging.info("Módulo de visualización no encontrado; omitiendo plot.")


## Conclusiones y Siguientes Pasos

- Se ha generado la estructura y los datos de ejemplo para el escenario retail.
- El proceso de conciliación se ha ejecutado de forma iterativa, obteniendo reportes en Excel y visualizaciones.
- **Resultados:**  
  Los reportes muestran el número de registros conciliados, coincidencias exactas y difusas, y otros indicadores relevantes.
  
**Siguientes Pasos:**  
- Evaluar la integración de modelos ML supervisados para mejorar el matching.
- Desarrollar dashboards interactivos para seguimiento en tiempo real.
- Refinar las reglas de validación y segregación en base a feedback adicional.
