In [1]:
import os
import pandas as pd
import json
import base64
from io import StringIO
from google.generativeai import GenerativeModel
import google.generativeai as genai
import pandas as pd
import unicodedata

import re

  from .autonotebook import tqdm as notebook_tqdm


# Extracción de Folletos - Farmacias del Ahorro

Este notebook procesa imágenes de folletos promocionales y:
1. **Extrae productos** usando Gemini Vision
2. **Expande múltiples códigos** (cuando un producto tiene varios códigos como "0776, 0790")
3. **Cruza con catálogo** usando los últimos 4 dígitos del UPC + fuzzy matching

In [2]:
canal_carpeta = "Ahorro"
canal = "ahorro"
fecha = "03-02-2026"
CANAL_ESTATICO = "Farmacias del Ahorro"
DATE_ESTATICO = fecha

In [3]:
#output_folder = f"./competitors/{canal_carpeta}/consolidados/"
final_csv_path = f"./competitors/{canal_carpeta}/consolidados/folleto_{canal}_extraccion_{fecha}.csv"
images_folder = f"./competitors/{canal_carpeta}/folletos"
csv_cruce = f"./competitors/{canal_carpeta}/folleto_{canal}_{fecha}.csv"

In [4]:
genai.configure(api_key="AIzaSyBdcW6Drh8dWeZ6wmI77bA1X32lNd11Bcg") 
#os.makedirs(output_folder, exist_ok=True)
data_frames = []

## 1. Funciones de Utilidad

In [5]:
def get_image_as_base64(image_path):
    with open(image_path, 'rb') as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def validate_csv_response(csv_content):
    try:
        df = pd.read_csv(StringIO(csv_content))
        return True
    except:
        return False

def validate_json_response(json_content):
    try:
        # Intenta analizar el JSON
        data = json.loads(json_content)
        # Verifica que sea una lista de productos
        if isinstance(data, list):
            return True, data
        return False, None
    except Exception as e:
        print(f"Error al validar JSON: {e}")
        return False, None

def expandir_productos_multiples(df):
    """
    Expande filas que tienen múltiples códigos en la columna 'codigos_folleto'.
    Si un producto tiene códigos '0776, 0790', se crean 2 filas idénticas,
    una con código '0776' y otra con '0790'.
    """
    filas_expandidas = []
    
    for _, row in df.iterrows():
        codigos = str(row.get('codigos_folleto', ''))
        
        # Si hay múltiples códigos separados por coma
        if ',' in codigos:
            lista_codigos = [c.strip() for c in codigos.split(',')]
            for codigo in lista_codigos:
                nueva_fila = row.copy()
                nueva_fila['codigos_folleto'] = codigo
                filas_expandidas.append(nueva_fila)
        else:
            filas_expandidas.append(row)
    
    return pd.DataFrame(filas_expandidas).reset_index(drop=True)

In [6]:
def process_image(image_path, max_retries=5):
    print(f"Procesando la imagen: {image_path}")
    
    for attempt in range(max_retries):
        try:
            # Abrir la imagen como bytes 
            with open(image_path, 'rb') as f:
                image_bytes = f.read()
            
            model = GenerativeModel('gemini-2.5-pro')  # Modelo Gemini
            
            prompt = """IMPORTANTE: Responde ÚNICAMENTE con un formato JSON válido, sin texto adicional ni explicaciones.
Extrae la información de la imagen y devuelve una lista de objetos JSON, donde cada objeto representa un producto con las siguientes propiedades:
{
  "codigos_folleto": "códigos entre paréntesis",
  "descripcion_producto": "nombre del producto",
  "categoria": "tipo de producto",
  "marca": "marca del producto",
  "gramaje": "cantidad numérica",
  "unidad_medida": "unidad de medida",
  "promocion": "promoción aplicada",
  "vigencia": "vigencia del producto",
  "precio_regular": "precio antes de promoción (solo número)",
  "precio_oferta": "precio después de promoción (solo número)",
  "revision": "",
  "observaciones": ""
}

Guía para cada propiedad:
- codigos_folleto: IMPORTANTE - Extraer los códigos numéricos que aparecen entre paréntesis junto al producto.
  * Si hay UN solo código, ejemplo: "24 cápsulas (8167)" → codigos_folleto: "8167"
  * Si hay MÚLTIPLES códigos separados por coma, ejemplo: "Varias presentaciones (0776, 0790)" → codigos_folleto: "0776, 0790"
  * Mantener los códigos exactamente como aparecen, separados por coma si son varios
- categoria: Tipo de producto (Medicamentos, Cuidado Personal, Bebé, etc.)
- marca: Marca del producto, si son varias marcas separarlas por comas (ej: "Farmacias del Ahorro", "Genérico", etc.)
    * Si la marca es "Farmacias del Ahorro", y hay multiples descripciones de producto, agregar las descripciones del producto separadas por coma (ej. "Ambroxol, Bencidamina, Dextrometorfano/Guaifenesina" -> "Ambroxol, Bencidamina, Dextrometorfano, Guaifenesina")
- descripcion_producto: Nombre completo del producto como aparece. O en su defecto mencionar si son varias presentaciones (VARIAS_PRESENTACIONES)
    * Considera el caso especial si la marca es "Farmacias del ahorro"
- precio_oferta: Solo el número sin símbolos (ejemplo: 85), precio de la promoción
- precio_regular: Solo el número sin símbolos, precio antes de promoción si aparece
- promocion: Descripción de la promoción, si son multiples, agregarlas separadas por comas (ejemplo: "2 x $85", "3 x $100", "2do al 50%")
- gramaje: Presentación numérica de gramaje, mililitraje, cantidad de piezas, etc.
- unidad_medida: Unidad de la presentación (cápsulas, ml, piezas, etc.)
- vigencia: Vigencia del producto si aparece
- observaciones: Información adicional relevante (ej: "*En el mismo ticket")
- revision: Si la imagen está borrosa o no puedes validar la información, marca con "REVISION"

Reglas estrictas:
- Responde ÚNICAMENTE con la lista JSON, sin texto antes o después
- NO incluyas $ ni otros símbolos en precios
- Usa cadenas vacías "" para campos sin datos
- Los códigos entre paréntesis son CRÍTICOS - extráelos exactamente como aparecen
- Si hay múltiples códigos para un producto, mantenlos todos separados por coma en codigos_folleto
- Tu respuesta debe comenzar con [ y terminar con ], ser un JSON válido que pueda ser parseado directamente"""
            
            response = model.generate_content([prompt, {"mime_type": "image/jpeg", "data": image_bytes}])
            
            response_content = response.text.strip()
            # Limpia el contenido de posibles bloques de código markdown
            if "```json" in response_content:
                response_content = response_content.replace("```json", "").replace("```", "").strip()
            elif "```" in response_content:
                response_content = response_content.replace("```", "").strip()
            
            print("Respuesta recibida")
            is_valid, json_data = validate_json_response(response_content)
            
            if is_valid and json_data:
                # Crear DataFrame a partir de los datos JSON
                df = pd.DataFrame(json_data)
                
                # Asegurar que todas las columnas necesarias existan
                required_columns = ["codigos_folleto", "descripcion_producto", "categoria", "marca",
                                    "gramaje", "unidad_medida", "promocion", "vigencia",
                                    "precio_regular", "precio_oferta", "revision", "observaciones"]
                
                for col in required_columns:
                    if col not in df.columns:
                        df[col] = ""
                
                # Agregar la ruta de la imagen
                df["Pagina"] = image_path
                
                print(f"JSON procesado correctamente para: {image_path}")
                return df
            else:
                print(f"Intento {attempt + 1}: Formato JSON inválido o vacío")
                print(f"Primeros 200 caracteres de la respuesta: {response_content[:200]}")
                if attempt == max_retries - 1:
                    print("Máximo de intentos alcanzado, pasando a la siguiente imagen")
                    return None
        except Exception as e:
            print(f"Error en intento {attempt + 1}: {e}")
            if attempt == max_retries - 1:
                print("Máximo de intentos alcanzado, pasando a la siguiente imagen")
                return None

## 2. Procesamiento de Imágenes con Gemini

In [7]:
# Procesamiento de imágenes
image_files = [f for f in os.listdir(images_folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
for image_file in image_files:
    image_path = os.path.join(images_folder, image_file)
    data = process_image(image_path)
    if data is not None:
        data_frames.append(data)

# Consolidación de resultados
if data_frames:
    final_data = pd.concat(data_frames, ignore_index=True)
    final_data = final_data.dropna(how="all")
    final_data = final_data.reset_index(drop=True)
    
    # Expandir productos con múltiples códigos (ej: "0776, 0790" → 2 filas)
    print(f"Productos antes de expansión: {len(final_data)}")
    final_data = expandir_productos_multiples(final_data)
    print(f"Productos después de expansión: {len(final_data)}")
    
    # Asegurar que las columnas estén en el orden deseado
    column_order = ["codigos_folleto", "descripcion_producto", "categoria", "marca",
                    "gramaje", "unidad_medida", "promocion", "vigencia",
                    "precio_regular", "precio_oferta", "revision", "observaciones", "Pagina"]
    
    final_data = final_data[column_order]
    final_data.to_csv(final_csv_path, index=False, encoding="utf-8-sig")
    print(f"CSV final generado: {final_csv_path}")

else:
    print("No se generaron datos. Verifica las imágenes o las configuraciones.")

Procesando la imagen: ./competitors/Ahorro/folletos\0001.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0001.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0002.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0002.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0003.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0003.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0004.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0004.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0005.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0005.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0006.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Ahorro/folletos\0006.jpg
Procesando la imagen: ./competitors/Ahorro/folletos\0007.jpg
Respuesta recib

## 3. Ejecución de Extracción

## Cruce con Catálogo de Ahorro (Fuzzy Matching)

In [8]:
from rapidfuzz import fuzz, process

# Cargar el catálogo de productos de Farmacias Ahorro
# NOTA: Ajustar el nombre del archivo según corresponda
catalogo_ahorro_path = "./farmaciasdelahorro_listing_9999_2025-12-15.csv"  # Ruta al catálogo de productos
catalogo_ahorro = pd.read_csv(catalogo_ahorro_path, dtype = str, encoding="utf-8-sig")

# Cargar el CSV generado del folleto
folleto_data = pd.read_csv(final_csv_path , dtype = str, encoding="utf-8-sig")

print(f"Productos en folleto: {len(folleto_data)}")
print(f"Productos en catálogo: {len(catalogo_ahorro)}")
print(f"\nColumnas del catálogo: {catalogo_ahorro.columns.tolist()}")

Productos en folleto: 511
Productos en catálogo: 13243

Columnas del catálogo: ['Date', 'Canal', 'Category', 'Subcategory', 'Subcategory2', 'Subcategory3', 'Marca', 'Modelo', 'SKU', 'UPC', 'Item', 'Item Characteristics', 'URL SKU', 'Image', 'Price', 'Sale Price', 'Shipment Cost', 'Sales Flag', 'Store ID', 'Store Name', 'Store Address', 'Stock', 'UPC WM', 'Final Price']


In [9]:
# Catálogo
COLUMNA_UPC_CATALOGO = "UPC"
COLUMNA_ITEM_CATALOGO = "Item"
COLUMNA_URL_CATALOGO = "URL SKU"

# Folleto
COLUMNA_CODIGO_FOLLETO = "codigos_folleto"
COLUMNA_MARCA_FOLLETO = "marca"
COLUMNA_DESCRIPCION_FOLLETO = "descripcion_producto"
COLUMNA_PROMOCION_FOLLETO = "promocion"
COLUMNA_PRECIO_OFERTA_FOLLETO = "precio_oferta"

# Variables estáticas
CANAL_ESTATICO = "Farmacias del Ahorro"
DATE_ESTATICO = "2025-12-15"

# ============================================
# PREPARACIÓN DE DATOS - CONVERTIR TODO A STRING
# ============================================
print("Preparando datos...")

# Convertir todas las columnas del folleto a string
for col in folleto_data.columns:
    folleto_data[col] = folleto_data[col].astype(str)
    folleto_data[col] = folleto_data[col].replace('nan', '')

# Convertir todas las columnas del catálogo a string
for col in catalogo_ahorro.columns:
    catalogo_ahorro[col] = catalogo_ahorro[col].astype(str)
    catalogo_ahorro[col] = catalogo_ahorro[col].replace('nan', '')

print(f"Folleto: {len(folleto_data)} filas")
print(f"Catálogo: {len(catalogo_ahorro)} filas")

# ============================================
# FUNCIONES DE LIMPIEZA
# ============================================
def limpiar_texto(texto):
    """
    Limpia el texto para comparación:
    - Convierte a minúsculas
    - Quita acentos
    - Quita guiones, guiones bajos y otros caracteres especiales
    - Quita espacios extra
    """
    if pd.isna(texto) or texto is None or str(texto).strip() == '':
        return ""
    
    texto = str(texto).lower().strip()
    
    # Quitar acentos
    texto = unicodedata.normalize('NFD', texto)
    texto = ''.join(c for c in texto if unicodedata.category(c) != 'Mn')
    
    # Quitar guiones, guiones bajos y caracteres especiales comunes
    texto = texto.replace('-', '')
    texto = texto.replace('_', '')
    texto = texto.replace('.', '')
    texto = texto.replace("'", "")
    texto = texto.replace('"', '')
    
    # Quitar espacios múltiples
    texto = re.sub(r'\s+', ' ', texto)
    
    return texto

def extraer_marcas(texto_marca):
    """
    Extrae las marcas individuales de la columna marca.
    Maneja casos como: "Dimacol, Theraflu, Tesacof" o "Histiacil " o "Varios"
    
    Returns:
        Lista de marcas limpias, o lista vacía si es vacío
    """
    if pd.isna(texto_marca) or texto_marca is None or str(texto_marca).strip() == '':
        return []
    
    texto_limpio = limpiar_texto(texto_marca)
    
    # Separar por comas y limpiar cada marca
    marcas = [m.strip() for m in texto_limpio.split(',')]
    marcas = [m for m in marcas if m]  # Quitar vacíos
    
    return marcas

def marca_en_item(marcas_lista, item_texto):
    """
    Verifica si alguna de las marcas aparece en el texto del Item.
    """
    if not marcas_lista:
        return False
    
    item_limpio = limpiar_texto(item_texto)
    
    for marca in marcas_lista:
        if marca and marca in item_limpio:
            return True
    
    return False

def es_promocion_multiple(promocion):
    """
    Detecta si la promoción es tipo "2 x", "3 x", "4 x", etc.
    Ejemplos: "2 x $209", "3x$100", "2 X $50"
    """
    if pd.isna(promocion) or promocion is None or str(promocion).strip() == '':
        return False
    
    promocion_str = str(promocion).lower().strip()
    
    # Buscar patrón: número + "x" (con o sin espacios)
    patron = r'\d+\s*x\s*\$?'
    
    return bool(re.search(patron, promocion_str))

# ============================================
# FUNCIONES DE BÚSQUEDA
# ============================================
def obtener_ultimos_4_digitos(codigo):
    """Extrae los últimos 4 dígitos de un código."""
    codigo_str = str(codigo).strip()
    codigo_limpio = ''.join(filter(str.isdigit, codigo_str))
    if len(codigo_limpio) >= 4:
        return codigo_limpio[-4:]
    return codigo_limpio.zfill(4)

def buscar_por_ultimos_4_digitos(codigo_folleto, catalogo_df, col_upc):
    """
    Busca en el catálogo productos cuyo UPC termine en los últimos 4 dígitos.
    """
    ultimos_4 = obtener_ultimos_4_digitos(codigo_folleto)
    
    mask = catalogo_df[col_upc].apply(
        lambda x: obtener_ultimos_4_digitos(x) == ultimos_4
    )
    
    return catalogo_df[mask].copy()

def filtrar_por_marca(candidatos_df, marcas_lista, col_item):
    """
    Filtra candidatos verificando si alguna marca aparece en la columna Item.
    """
    if candidatos_df.empty or not marcas_lista:
        return pd.DataFrame()
    
    mask = candidatos_df[col_item].apply(
        lambda x: marca_en_item(marcas_lista, x)
    )
    
    return candidatos_df[mask].copy()

# ============================================
# PROCESO PRINCIPAL
# ============================================
resultados_cruce = []

for idx, row in folleto_data.iterrows():
    codigo_folleto = str(row[COLUMNA_CODIGO_FOLLETO]).strip()
    marca_folleto = str(row[COLUMNA_MARCA_FOLLETO]).strip()
    descripcion_folleto = str(row[COLUMNA_DESCRIPCION_FOLLETO]).strip()
    promocion_folleto = str(row[COLUMNA_PROMOCION_FOLLETO]).strip()
    precio_oferta = str(row[COLUMNA_PRECIO_OFERTA_FOLLETO]).strip()
    
    print(f"\n{'='*60}")
    print(f"Producto {idx+1}/{len(folleto_data)}")
    print(f"Código folleto: {codigo_folleto}")
    print(f"Marca folleto: {marca_folleto}")
    print(f"Descripción: {descripcion_folleto[:50]}...")
    
    # Determinar qué usar como marca para búsqueda
    if limpiar_texto(marca_folleto) == "varios":
        texto_para_buscar_marca = descripcion_folleto
        print(f"⚠️ Marca es 'Varios' - usando descripción para buscar")
    elif limpiar_texto(marca_folleto) == "farmacias del ahorro":
        texto_para_buscar_marca = descripcion_folleto
        print(f"⚠️ Marca es 'Farmacias del Ahorro' - usando descripción para buscar")
    else:
        texto_para_buscar_marca = marca_folleto
    
    # Extraer marcas individuales
    marcas_lista = extraer_marcas(texto_para_buscar_marca)
    print(f"Marcas a buscar: {marcas_lista}")
    
    # Verificar si precio_oferta debe vaciarse por promoción múltiple
    if es_promocion_multiple(promocion_folleto):
        precio_oferta = ''
        print(f"⚠️ Promoción múltiple detectada ({promocion_folleto}) - vaciando precio_oferta")
    
    # Caso especial: marca vacía y descripción vacía
    if not marcas_lista:
        print("⚠️ No hay marcas para buscar - dejando vacío")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'SIN_MARCA_BUSCAR'
        resultado['candidatos_codigo'] = '0'
        resultado['candidatos_marca'] = '0'
        resultados_cruce.append(resultado)
        continue
    
    # Buscar candidatos por últimos 4 dígitos
    candidatos = buscar_por_ultimos_4_digitos(
        codigo_folleto, 
        catalogo_ahorro, 
        COLUMNA_UPC_CATALOGO
    )
    
    print(f"Candidatos por código (últimos 4 dígitos): {len(candidatos)}")
    
    if len(candidatos) == 0:
        print("❌ No se encontraron productos con ese código")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'SIN_COINCIDENCIA_CODIGO'
        resultado['candidatos_codigo'] = '0'
        resultado['candidatos_marca'] = '0'
        resultados_cruce.append(resultado)
        continue
    
    # Filtrar por marca
    print(f"Buscando marcas en columna Item...")
    matches_marca = filtrar_por_marca(
        candidatos, 
        marcas_lista, 
        COLUMNA_ITEM_CATALOGO
    )
    
    print(f"Candidatos que coinciden en marca: {len(matches_marca)}")
    
    if len(matches_marca) == 0:
        # Hay candidatos por código pero ninguno coincide en marca
        print(f"⚠️ Sin match de marca")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'SIN_MATCH_MARCA'
        resultado['candidatos_codigo'] = str(len(candidatos))
        resultado['candidatos_marca'] = '0'
        resultados_cruce.append(resultado)
        
    elif len(matches_marca) == 1:
        # Match único - ESTE ES EL ÚNICO VÁLIDO
        match = matches_marca.iloc[0]
        print(f"✅ Match único: {match[COLUMNA_UPC_CATALOGO]} - {match[COLUMNA_ITEM_CATALOGO]}")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['upc_catalogo'] = str(match[COLUMNA_UPC_CATALOGO])
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = str(match[COLUMNA_ITEM_CATALOGO])
        resultado['url_sku'] = str(match[COLUMNA_URL_CATALOGO])
        resultado['status_match'] = 'MATCH_UNICO'
        resultado['candidatos_codigo'] = str(len(candidatos))
        resultado['candidatos_marca'] = '1'
        resultados_cruce.append(resultado)
        
    else:
        # Múltiples matches - NO ES VÁLIDO, dejar vacío
        print(f"⚠️ Múltiples matches ({len(matches_marca)}) - no es válido, dejando vacío")
        
        # Mostrar los items para debug
        for i, (_, m) in enumerate(matches_marca.iterrows()):
            item_preview = str(m[COLUMNA_ITEM_CATALOGO])[:50]
            print(f"   {i+1}. {m[COLUMNA_UPC_CATALOGO]} - {item_preview}...")
        
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'MATCH_MULTIPLE'
        resultado['candidatos_codigo'] = str(len(candidatos))
        resultado['candidatos_marca'] = str(len(matches_marca))
        resultados_cruce.append(resultado)

# ============================================
# CREAR DATAFRAME Y ORDENAR COLUMNAS
# ============================================
df_cruce = pd.DataFrame(resultados_cruce)

# Asegurar que todas las columnas sean string
for col in df_cruce.columns:
    df_cruce[col] = df_cruce[col].astype(str)
    df_cruce[col] = df_cruce[col].replace('nan', '')

print(f"\n{'='*60}")
print("RESUMEN DEL PROCESO")
print(f"{'='*60}")
print(f"Total productos procesados: {len(df_cruce)}")
print(f"\nDistribución por status:")
print(df_cruce['status_match'].value_counts())

# Contar UPCs válidos (solo MATCH_UNICO)
upcs_validos = (df_cruce['status_match'] == 'MATCH_UNICO').sum()
print(f"\n✅ UPCs válidos encontrados: {upcs_validos}/{len(df_cruce)}")

# Definir orden de columnas final
columnas_finales = [
    'codigos_folleto', 'sku', 'descripcion_producto', 'categoria', 'marca',
    'gramaje', 'unidad_medida', 'promocion', 'vigencia', 'precio_regular',
    'precio_oferta', 'revision', 'observaciones', 'Pagina',
    'upc_catalogo', 'date', 'canal', 'item', 'url_sku'
]

# 1️⃣ Crear columnas faltantes (vacías)
for col in columnas_finales:
    if col not in df_cruce.columns:
        df_cruce[col] = ""

# 2️⃣ Reordenar columnas exactamente como se definió
df_cruce = df_cruce[columnas_finales]

# 3️⃣ Guardar resultado
df_cruce.to_csv(csv_cruce, index=False, encoding="utf-8-sig")
print(f"\n✅ Archivo guardado: {csv_cruce}")


Preparando datos...
Folleto: 511 filas
Catálogo: 13243 filas

Producto 1/511
Código folleto: 1981
Marca folleto: Darrow, Eucerin, Avène, Cetaphil
Descripción: VARIAS_PRESENTACIONES...
Marcas a buscar: ['darrow', 'eucerin', 'avene', 'cetaphil']
Candidatos por código (últimos 4 dígitos): 0
❌ No se encontraron productos con ese código

Producto 2/511
Código folleto: 3602
Marca folleto: Darrow, Eucerin, Avène, Cetaphil
Descripción: VARIAS_PRESENTACIONES...
Marcas a buscar: ['darrow', 'eucerin', 'avene', 'cetaphil']
Candidatos por código (últimos 4 dígitos): 2
Buscando marcas en columna Item...
Candidatos que coinciden en marca: 0
⚠️ Sin match de marca

Producto 3/511
Código folleto: 4870
Marca folleto: Darrow, Eucerin, Avène, Cetaphil
Descripción: VARIAS_PRESENTACIONES...
Marcas a buscar: ['darrow', 'eucerin', 'avene', 'cetaphil']
Candidatos por código (últimos 4 dígitos): 2
Buscando marcas en columna Item...
Candidatos que coinciden en marca: 1
✅ Match único: 3282770394870 - Darrow Actine