In [1]:
import os
import pandas as pd
import json
import base64
from io import StringIO
from google.generativeai import GenerativeModel
import google.generativeai as genai
import pandas as pd
import re

  from .autonotebook import tqdm as notebook_tqdm


# Extracción de Folletos - Benavides

Este notebook procesa imágenes de folletos promocionales y:
1. **Extrae productos** usando Gemini Vision
2. **Expande múltiples SKUs** (cuando un producto tiene varios SKUs como "1048886 - 1048896")
3. **Cruza con catálogo** de Benavides usando SKU exacto para obtener descripción, categoría, marca, etc.

In [2]:
canal_carpeta = "Benavides"
canal = "benavides"
fecha = "03-02-2026"
CANAL_ESTATICO = "Farmacias Benavides"
DATE_ESTATICO = fecha

In [3]:
#output_folder = f"./competitors/{canal_carpeta}/consolidados/"
final_csv_path = f"./competitors/{canal_carpeta}/consolidados/folleto_{canal}_extraccion_{fecha}.csv"
images_folder = f"./competitors/{canal_carpeta}/folletos"
csv_cruce = f"./competitors/{canal_carpeta}/folleto_{canal}_{fecha}.csv"

In [4]:
genai.configure(api_key="AIzaSyBdcW6Drh8dWeZ6wmI77bA1X32lNd11Bcg")
#os.makedirs(output_folder, exist_ok=True)
data_frames = []

## 1. Funciones de Utilidad

In [5]:
def get_image_as_base64(image_path):
    with open(image_path, 'rb') as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def validate_csv_response(csv_content):
    try:
        df = pd.read_csv(StringIO(csv_content))
        return True
    except:
        return False

def validate_json_response(json_content):
    try:
        # Intenta analizar el JSON
        data = json.loads(json_content)
        # Verifica que sea una lista de productos
        if isinstance(data, list):
            return True, data
        return False, None
    except Exception as e:
        print(f"Error al validar JSON: {e}")
        return False, None

def expandir_productos_multiples(df):
    """
    Expande filas que tienen múltiples códigos en la columna 'codigos_folleto'.
    Si un producto tiene códigos '0776, 0790', se crean 2 filas idénticas,
    una con código '0776' y otra con '0790'.
    """
    filas_expandidas = []
    
    for _, row in df.iterrows():
        codigos = str(row.get('codigos_folleto', ''))
        
        # Si hay múltiples códigos separados por coma
        if ',' in codigos:
            lista_codigos = [c.strip() for c in codigos.split(',')]
            for codigo in lista_codigos:
                nueva_fila = row.copy()
                nueva_fila['codigos_folleto'] = codigo
                filas_expandidas.append(nueva_fila)
        else:
            filas_expandidas.append(row)
    
    return pd.DataFrame(filas_expandidas).reset_index(drop=True)

In [6]:
def process_image(image_path, max_retries=5):
    print(f"Procesando la imagen: {image_path}")
    
    for attempt in range(max_retries):
        try:
            # Abrir la imagen como bytes 
            with open(image_path, 'rb') as f:
                image_bytes = f.read()
            
            model = GenerativeModel('gemini-2.5-pro')  # Modelo Gemini
            
            prompt = """IMPORTANTE: Responde ÚNICAMENTE con un formato JSON válido, sin texto adicional ni explicaciones.
Extrae la información de la imagen y devuelve una lista de objetos JSON, donde cada objeto representa un producto con las siguientes propiedades:
{
  "codigos_folleto": "código interno del producto",
  "descripcion_producto": "nombre del producto",
  "categoria": "tipo de producto",
  "marca": "marca del producto",
  "gramaje": "cantidad numérica",
  "unidad_medida": "unidad de medida",
  "promocion": "promoción aplicada",
  "vigencia": "vigencia del producto",
  "precio_regular": "precio antes de promoción (solo número)",
  "precio_oferta": "precio después de promoción (solo número)",
  "revision": "",
  "observaciones": ""
}

Guía para cada propiedad:
- codigos_folleto: Código interno del producto si existe
    IMPORTANTE - Extraer los códigos numéricos que aparecen debajo o a lado del producto.
      * Si hay UN solo código, ejemplo: "24 cápsulas 8167" → codigos_folleto: "8167"
      * Si hay MÚLTIPLES códigos separados por coma, ejemplo: "Varias presentaciones 0776 - 0790" → codigos_folleto: "0776, 0790"
      * Mantener los códigos exactamente como aparecen, separados por coma si son varios
- categoria: Tipo de producto (Medicamentos, Cuidado Personal, Bebé, etc.)
- marca: Marca del producto (ej: "Farmacias del Ahorro", "Genérico", etc.)
- descripcion_producto: Nombre completo del producto como aparece. Si la descripción hace referencia a MÚLTIPLES productos (ejemplos: "Línea Anacastel", "Productos seleccionados", "Variedad de shampoos", "Toda la línea X"), entonces Poner "MULTIPLE_PRODUCTOS"
- precio_oferta: Solo el número sin símbolos (ejemplo: 85), precio de la promoción
  * IMPORTANTE: Si dice "de desc.", "de descuento", "descuento de", "ahorra", "ahorras" → ESO NO ES EL PRECIO, es el monto del descuento
  * En esos casos, dejar precio_oferta VACÍO y poner el descuento en observaciones
  * Ejemplo: "obtén $1,794 de desc.*" → precio_oferta: "", observaciones: "Descuento de $1794 presentando tarjeta Benavides Conmigo"
  * Solo poner precio_oferta cuando sea el precio FINAL a pagar (ej: "a solo $240", "$865")- precio_regular: Solo el número sin símbolos, precio antes de promoción si aparece
- promocion: Descripción de la promoción, si son multiples, agregarlas separadas por comas (ejemplo: "2 x $85", "3 x $100", "2do al 50%")
- gramaje: Presentación numérica de gramaje, mililitraje, cantidad de piezas, etc.
- unidad_medida: Unidad de la presentación (cápsulas, ml, piezas, etc.)
- vigencia: Vigencia del producto si aparece
- observaciones: Información adicional relevante (ej: "*En el mismo ticket")
- revision: Si la imagen está borrosa o no puedes validar la información, marca con "REVISION"

Reglas estrictas:
- Responde ÚNICAMENTE con la lista JSON, sin texto antes o después
- NO incluyas $ ni otros símbolos en precios
- Usa cadenas vacías "" para campos sin datos
- Los códigos en codigos_folleto son CRÍTICOS - extráelos exactamente como aparecen
- Si hay múltiples códigos para un producto, mantenlos todos separados por COMA en codigos_folleto
- Tu respuesta debe comenzar con [ y terminar con ], ser un JSON válido que pueda ser parseado directamente"""
            
            response = model.generate_content([prompt, {"mime_type": "image/jpeg", "data": image_bytes}])
            
            response_content = response.text.strip()
            # Limpia el contenido de posibles bloques de código markdown
            if "```json" in response_content:
                response_content = response_content.replace("```json", "").replace("```", "").strip()
            elif "```" in response_content:
                response_content = response_content.replace("```", "").strip()
            
            print("Respuesta recibida")
            is_valid, json_data = validate_json_response(response_content)
            
            if is_valid and json_data:
                # Crear DataFrame a partir de los datos JSON
                df = pd.DataFrame(json_data)
                
                # Asegurar que todas las columnas necesarias existan
                required_columns = ["codigos_folleto", "descripcion_producto", "categoria", "marca",
                                    "gramaje", "unidad_medida", "promocion", "vigencia",
                                    "precio_regular", "precio_oferta", "revision", "observaciones"]
                
                for col in required_columns:
                    if col not in df.columns:
                        df[col] = ""
                
                # Agregar la ruta de la imagen
                df["Pagina"] = image_path
                
                print(f"JSON procesado correctamente para: {image_path}")
                return df
            else:
                print(f"Intento {attempt + 1}: Formato JSON inválido o vacío")
                print(f"Primeros 200 caracteres de la respuesta: {response_content[:200]}")
                if attempt == max_retries - 1:
                    print("Máximo de intentos alcanzado, pasando a la siguiente imagen")
                    return None
        except Exception as e:
            print(f"Error en intento {attempt + 1}: {e}")
            if attempt == max_retries - 1:
                print("Máximo de intentos alcanzado, pasando a la siguiente imagen")
                return None

## 2. Procesamiento de Imágenes con Gemini

In [7]:
# Procesamiento de imágenes
image_files = [f for f in os.listdir(images_folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
for image_file in image_files:
    image_path = os.path.join(images_folder, image_file)
    data = process_image(image_path)
    if data is not None:
        data_frames.append(data)

# Consolidación de resultados
if data_frames:
    final_data = pd.concat(data_frames, ignore_index=True)
    final_data = final_data.dropna(how="all")
    final_data = final_data.reset_index(drop=True)
    
    # Expandir productos con múltiples códigos (ej: "0776, 0790" → 2 filas)
    #print(f"Productos antes de expansión: {len(final_data)}")
    final_data = expandir_productos_multiples(final_data)
    #print(f"Productos después de expansión: {len(final_data)}")
    
    # Asegurar que las columnas estén en el orden deseado
    column_order = ["codigos_folleto", "descripcion_producto", "categoria", "marca",
                    "gramaje", "unidad_medida", "promocion", "vigencia",
                    "precio_regular", "precio_oferta", "revision", "observaciones", "Pagina"]
    
    final_data = final_data[column_order]
    final_data.to_csv(final_csv_path, index=False, encoding="utf-8-sig")
    print(f"CSV final generado: {final_csv_path}")

else:
    print("No se generaron datos. Verifica las imágenes o las configuraciones.")

Procesando la imagen: ./competitors/Benavides/folletos\folleto-de-febrero_page_10_02-02-2026.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Benavides/folletos\folleto-de-febrero_page_10_02-02-2026.jpg
Procesando la imagen: ./competitors/Benavides/folletos\folleto-de-febrero_page_11_02-02-2026.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Benavides/folletos\folleto-de-febrero_page_11_02-02-2026.jpg
Procesando la imagen: ./competitors/Benavides/folletos\folleto-de-febrero_page_12_02-02-2026.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Benavides/folletos\folleto-de-febrero_page_12_02-02-2026.jpg
Procesando la imagen: ./competitors/Benavides/folletos\folleto-de-febrero_page_13_02-02-2026.jpg
Respuesta recibida
JSON procesado correctamente para: ./competitors/Benavides/folletos\folleto-de-febrero_page_13_02-02-2026.jpg
Procesando la imagen: ./competitors/Benavides/folletos\folleto-de-febrero_page_14_02-02-2026.jpg

## 3. Ejecución de Extracción

## Cruce con Catálogo de Benavides (por SKU exacto)

In [8]:
# Cargar el catálogo de productos de Benavides
# NOTA: Ajustar el nombre del archivo y columnas según corresponda
catalogo_benavides_path = "./farmaciasBenavides_9999_2025-12-15.csv"  # Ruta al catálogo de productos
catalogo_benavides = pd.read_csv(catalogo_benavides_path, dtype = str, encoding="utf-8-sig")

# Cargar el CSV generado del folleto
folleto_data = pd.read_csv(final_csv_path, dtype = str, encoding="utf-8-sig")

print(f"Productos en folleto (expandidos): {len(folleto_data)}")
print(f"Productos en catálogo: {len(catalogo_benavides)}")
print(f"\nColumnas del catálogo: {catalogo_benavides.columns.tolist()}")

Productos en folleto (expandidos): 508
Productos en catálogo: 8180

Columnas del catálogo: ['Date', 'Canal', 'Category', 'Subcategory', 'Subcategory2', 'Subcategory3', 'Marca', 'Modelo', 'SKU', 'UPC', 'Item', 'Item Characteristics', 'URL SKU', 'Image', 'Price', 'Sale Price', 'Shipment Cost', 'Sales Flag', 'Store ID', 'Store Name', 'Store Address', 'Stock', 'UPC WM', 'Final Price']


In [9]:
# ============================================
# CONFIGURACIÓN DE COLUMNAS
# ============================================
# Catálogo
COLUMNA_SKU_CATALOGO = "SKU"
COLUMNA_UPC_CATALOGO = "UPC"
COLUMNA_ITEM_CATALOGO = "Item"
COLUMNA_URL_CATALOGO = "URL SKU"

# Folleto
COLUMNA_CODIGO_FOLLETO = "codigos_folleto"
COLUMNA_PROMOCION_FOLLETO = "promocion"
COLUMNA_PRECIO_OFERTA_FOLLETO = "precio_oferta"

# Variables estáticas
CANAL_ESTATICO = "Farmacias Benavides"
DATE_ESTATICO = "2025-12-15"

# ============================================
# PREPARACIÓN DE DATOS - CONVERTIR TODO A STRING
# ============================================
print("Preparando datos...")

# Convertir todas las columnas del folleto a string
for col in folleto_data.columns:
    folleto_data[col] = folleto_data[col].astype(str)
    folleto_data[col] = folleto_data[col].replace('nan', '')

# Convertir todas las columnas del catálogo a string
for col in catalogo_benavides.columns:
    catalogo_benavides[col] = catalogo_benavides[col].astype(str)
    catalogo_benavides[col] = catalogo_benavides[col].replace('nan', '')

print(f"Folleto: {len(folleto_data)} filas")
print(f"Catálogo: {len(catalogo_benavides)} filas")

# ============================================
# FUNCIONES
# ============================================
def es_promocion_multiple(promocion):
    """
    Detecta si la promoción es tipo "2 x", "3 x", "4 x", etc.
    Ejemplos: "2 x $209", "3x$100", "2 X $50", "2x$140", "1x$72 2x$140"
    """
    if pd.isna(promocion) or promocion is None or str(promocion).strip() == '':
        return False
    
    promocion_str = str(promocion).lower().strip()
    
    # Buscar patrón: número + "x" (con o sin espacios)
    patron = r'\d+\s*x\s*\$?'
    
    return bool(re.search(patron, promocion_str))

# ============================================
# PROCESO PRINCIPAL
# ============================================
resultados_cruce = []

for idx, row in folleto_data.iterrows():
    codigo_folleto = str(row[COLUMNA_CODIGO_FOLLETO]).strip()
    promocion_folleto = str(row[COLUMNA_PROMOCION_FOLLETO]).strip()
    precio_oferta = str(row[COLUMNA_PRECIO_OFERTA_FOLLETO]).strip()
    
    print(f"\n{'='*60}")
    print(f"Producto {idx+1}/{len(folleto_data)}")
    print(f"Código folleto: {codigo_folleto}")
    print(f"Descripción: {row['descripcion_producto'][:50]}...")
    
    # Verificar si precio_oferta debe vaciarse por promoción múltiple
    if es_promocion_multiple(promocion_folleto):
        precio_oferta = ''
        print(f"⚠️ Promoción múltiple detectada ({promocion_folleto}) - vaciando precio_oferta")
    
    # Caso sin código
    if not codigo_folleto or codigo_folleto == '':
        print("⚠️ No hay código para buscar - dejando vacío")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['sku_catalogo'] = ''
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'SIN_CODIGO'
        resultados_cruce.append(resultado)
        continue
    
    # Buscar coincidencia exacta por SKU
    match = catalogo_benavides[catalogo_benavides[COLUMNA_SKU_CATALOGO] == codigo_folleto]
    
    print(f"Matches encontrados: {len(match)}")
    
    if len(match) == 0:
        print("❌ Código no encontrado en catálogo")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['sku_catalogo'] = ''
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'SIN_COINCIDENCIA_CODIGO'
        resultados_cruce.append(resultado)
        
    elif len(match) == 1:
        # Match único - VÁLIDO
        producto = match.iloc[0]
        print(f"✅ Match único: {producto[COLUMNA_SKU_CATALOGO]} - {producto[COLUMNA_ITEM_CATALOGO]}")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['sku_catalogo'] = str(producto[COLUMNA_SKU_CATALOGO])
        resultado['upc_catalogo'] = str(producto[COLUMNA_UPC_CATALOGO])
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = str(producto[COLUMNA_ITEM_CATALOGO])
        resultado['url_sku'] = str(producto[COLUMNA_URL_CATALOGO])
        resultado['status_match'] = 'MATCH_UNICO'
        resultados_cruce.append(resultado)
        
    else:
        # Múltiples matches - dejar vacío
        print(f"⚠️ Múltiples matches ({len(match)}) - dejando vacío")
        resultado = row.to_dict()
        resultado['precio_oferta'] = precio_oferta
        resultado['sku_catalogo'] = ''
        resultado['upc_catalogo'] = ''
        resultado['date'] = DATE_ESTATICO
        resultado['canal'] = CANAL_ESTATICO
        resultado['item'] = ''
        resultado['url_sku'] = ''
        resultado['status_match'] = 'MATCH_MULTIPLE'
        resultados_cruce.append(resultado)

# ============================================
# CREAR DATAFRAME Y ORDENAR COLUMNAS
# ============================================
df_cruce = pd.DataFrame(resultados_cruce)

# Asegurar que todas las columnas sean string
for col in df_cruce.columns:
    df_cruce[col] = df_cruce[col].astype(str)
    df_cruce[col] = df_cruce[col].replace('nan', '')

print(f"\n{'='*60}")
print("RESUMEN DEL PROCESO")
print(f"{'='*60}")
print(f"Total productos procesados: {len(df_cruce)}")
print(f"\nDistribución por status:")
print(df_cruce['status_match'].value_counts())

# Contar UPCs válidos (solo MATCH_UNICO)
upcs_validos = (df_cruce['status_match'] == 'MATCH_UNICO').sum()
print(f"\n✅ UPCs válidos encontrados: {upcs_validos}/{len(df_cruce)}")

# Definir orden de columnas final
columnas_finales = [
    'codigos_folleto', 'sku', 'descripcion_producto', 'categoria', 'marca',
    'gramaje', 'unidad_medida', 'promocion', 'vigencia', 'precio_regular',
    'precio_oferta', 'revision', 'observaciones', 'Pagina',
    'upc_catalogo', 'date', 'canal', 'item', 'url_sku'
]

# 1️⃣ Crear columnas faltantes (vacías)
for col in columnas_finales:
    if col not in df_cruce.columns:
        df_cruce[col] = ""

# 2️⃣ Reordenar columnas exactamente como se definió
df_cruce = df_cruce[columnas_finales]

# 3️⃣ Guardar resultado
df_cruce.to_csv(csv_cruce, index=False, encoding="utf-8-sig")
print(f"\n✅ Archivo guardado: {csv_cruce}")

Preparando datos...
Folleto: 508 filas
Catálogo: 8180 filas

Producto 1/508
Código folleto: 1048715
Descripción: Omega 3 aceite junior limón y adulto limón-menta...
Matches encontrados: 1
✅ Match único: 1048715 - Lysi Junior Aceite de Hígado de Bacalao con Omega 3 Sabor Limón 240 ml

Producto 2/508
Código folleto: 1048716
Descripción: Omega 3 aceite junior limón y adulto limón-menta...
Matches encontrados: 1
✅ Match único: 1048716 - Lysi Aceite de Hígado de Bacalao Sabor Limón-Menta 240 ml

Producto 3/508
Código folleto: 1050365
Descripción: MULTIPLE_PRODUCTOS...
Matches encontrados: 1
✅ Match único: 1050365 - Wu Nutrition Regresa Suplemento Alimenticio Ashwagandha 120 Cápsulas

Producto 4/508
Código folleto: 1050363
Descripción: MULTIPLE_PRODUCTOS...
Matches encontrados: 1
✅ Match único: 1050363 - Wu Nutrition Resveratrol Suplemento Alimenticio Semilla de Uva+Resveratrol+Acai 120 Cápsulas

Producto 5/508
Código folleto: 1050362
Descripción: MULTIPLE_PRODUCTOS...
Matches encontrados: 1