In [2]:
#!/usr/bin/env python3
"""
Script para descargar masivamente archivos de S3 que contengan una fecha específica 
y opcionalmente otra substring en el nombre.
VERSIÓN CORREGIDA - Maneja caracteres especiales en nombres de archivos
"""

import boto3
import os
from datetime import datetime
from pathlib import Path
from concurrent.futures import ThreadPoolExecutor, as_completed
import logging
import unicodedata
import re

# ===========================
# CONFIGURACIÓN - MODIFICA ESTOS VALORES
# ===========================

canal = "farmaciasGDL"
carpeta_canal = "Guadalajara"
fecha = "02-02-2026"

# Configuración básica
BUCKET_NAME = "data-bunker-prod-env"                    # Nombre del bucket de S3
PREFIX = f"images/year=2026/month=02/channel={canal}/"                 # Prefijo dentro del bucket (incluye "/" al final si es carpeta)
DATE_TO_SEARCH = f"{fecha}"              # Fecha a buscar (YYYY-MM-DD, YYYYMMDD, etc.)
OUTPUT_DIR = f"./competitors/{carpeta_canal}/folletos/"                 # Directorio de salida para los archivos
ADDITIONAL_FILTER = "" # Filtro adicional opcional (vacío = sin filtro)
# "Torreón" "Monterrey" "Reynosa"

# Configuración avanzada
AWS_PROFILE = None                          # Perfil de AWS a usar (None = default)
MAX_WORKERS = 3                             # Número de hilos para descarga paralela (reducido)
PRESERVE_STRUCTURE = True                   # Si mantener la estructura de carpetas de S3
VERBOSE_LOGGING = False                     # Habilitar logging detallado (cambiado a False)

# ===========================
# FUNCIONES AUXILIARES
# ===========================

def clean_filename(filename):
    """
    Limpia nombres de archivo eliminando o reemplazando caracteres problemáticos
    """
    # Normalizar unicode y remover acentos
    filename = unicodedata.normalize('NFKD', filename)
    filename = filename.encode('ascii', 'ignore').decode('ascii')
    
    # Reemplazar caracteres problemáticos
    filename = re.sub(r'[<>:"/\\|?*]', '_', filename)
    
    # Remover espacios múltiples y al inicio/final
    filename = re.sub(r'\s+', ' ', filename).strip()
    
    return filename

# ===========================
# CÓDIGO DEL SCRIPT
# ===========================

# Configurar logging
log_level = logging.DEBUG if VERBOSE_LOGGING else logging.INFO
logging.basicConfig(
    level=log_level,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

class S3BulkDownloader:
    def __init__(self, bucket_name, aws_profile=None):
        """
        Inicializa el downloader de S3
        
        Args:
            bucket_name (str): Nombre del bucket de S3
            aws_profile (str): Perfil de AWS a usar (opcional)
        """
        self.bucket_name = bucket_name
        aws_access_key_id = "AKIARTBJEQQ4RJUEYEUN"
        aws_secret_access_key = "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"
        aws_default_region = "us-east-2"
        
        # Crear sesión de boto3
        if aws_profile:
            session = boto3.Session(profile_name=aws_profile)
            self.s3_client = session.client('s3')
        else:
            self.s3_client = boto3.client(
                                's3',
                                aws_access_key_id=aws_access_key_id,
                                aws_secret_access_key= aws_secret_access_key,
                                region_name= aws_default_region
                            )
    
    def list_files_with_date(self, prefix, date_string, additional_filter=None):
        """
        Lista archivos en S3 que contengan la fecha y opcionalmente otra substring en el nombre
        
        Args:
            prefix (str): Prefijo en S3 para buscar
            date_string (str): Fecha a buscar en el nombre del archivo
            additional_filter (str): Substring adicional que debe contener el archivo (opcional)
            
        Returns:
            list: Lista de objetos S3 que coinciden
        """
        matching_files = []
        
        try:
            paginator = self.s3_client.get_paginator('list_objects_v2')
            pages = paginator.paginate(Bucket=self.bucket_name, Prefix=prefix)
            
            for page in pages:
                if 'Contents' in page:
                    for obj in page['Contents']:
                        filename = obj['Key']
                        
                        # Verificar si la fecha está en el nombre del archivo
                        has_date = date_string in filename
                        
                        # Verificar filtro adicional si se proporciona
                        has_additional_filter = True
                        if additional_filter and additional_filter.strip():
                            has_additional_filter = additional_filter in filename
                        
                        # El archivo debe cumplir ambas condiciones
                        if has_date and has_additional_filter:
                            matching_files.append(obj)
                            logger.info(f"Encontrado: {filename}")
            
        except Exception as e:
            logger.error(f"Error listando archivos: {e}")
            return []
        
        logger.info(f"Total de archivos encontrados: {len(matching_files)}")
        return matching_files
    
    def download_file(self, s3_key, local_path):
        """
        Descarga un archivo individual de S3
        
        Args:
            s3_key (str): Key del objeto en S3
            local_path (str): Ruta local donde guardar el archivo
            
        Returns:
            bool: True si la descarga fue exitosa
        """
        try:
            # Crear directorios padre si no existen
            os.makedirs(os.path.dirname(local_path), exist_ok=True)
            
            # Descargar archivo
            self.s3_client.download_file(self.bucket_name, s3_key, local_path)
            logger.info(f"Descargado: {os.path.basename(s3_key)} -> {os.path.basename(local_path)}")
            return True
            
        except Exception as e:
            logger.error(f"Error descargando {s3_key}: {e}")
            return False
    
    def bulk_download(self, prefix, date_string, output_dir, additional_filter=None, max_workers=3, preserve_structure=True):
        """
        Descarga masivamente archivos que contengan la fecha y opcionalmente otra substring
        
        Args:
            prefix (str): Prefijo en S3 para buscar
            date_string (str): Fecha a buscar en nombres de archivo
            output_dir (str): Directorio de salida
            additional_filter (str): Substring adicional que debe contener el archivo (opcional)
            max_workers (int): Número máximo de hilos concurrentes
            preserve_structure (bool): Si mantener la estructura de carpetas de S3
        """
        # Crear directorio de salida si no existe
        Path(output_dir).mkdir(parents=True, exist_ok=True)
        
        # Buscar archivos que coincidan
        matching_files = self.list_files_with_date(prefix, date_string, additional_filter)
        
        if not matching_files:
            logger.warning("No se encontraron archivos que coincidan con los criterios")
            return
        
        # Preparar lista de descargas
        download_tasks = []
        for obj in matching_files:
            s3_key = obj['Key']
            
            if preserve_structure:
                # Mantener estructura de carpetas
                relative_path = s3_key[len(prefix):].lstrip('/')
                # LIMPIAR EL NOMBRE DEL ARCHIVO
                relative_path = clean_filename(relative_path)
                local_path = os.path.join(output_dir, relative_path)
            else:
                # Todos los archivos en el directorio raíz
                filename = os.path.basename(s3_key)
                # LIMPIAR EL NOMBRE DEL ARCHIVO
                filename = clean_filename(filename)
                local_path = os.path.join(output_dir, filename)
            
            download_tasks.append((s3_key, local_path))
        
        # Ejecutar descargas en paralelo
        successful_downloads = 0
        failed_downloads = 0
        
        logger.info(f"Iniciando descarga de {len(download_tasks)} archivos...")
        
        with ThreadPoolExecutor(max_workers=max_workers) as executor:
            # Enviar todas las tareas
            future_to_download = {
                executor.submit(self.download_file, s3_key, local_path): (s3_key, local_path)
                for s3_key, local_path in download_tasks
            }
            
            # Procesar resultados conforme se completan
            for future in as_completed(future_to_download):
                s3_key, local_path = future_to_download[future]
                try:
                    success = future.result()
                    if success:
                        successful_downloads += 1
                    else:
                        failed_downloads += 1
                except Exception as e:
                    logger.error(f"Error en descarga de {s3_key}: {e}")
                    failed_downloads += 1
        
        # Resumen final
        logger.info(f"=== DESCARGA COMPLETADA ===")
        logger.info(f"  - Exitosas: {successful_downloads}")
        logger.info(f"  - Fallidas: {failed_downloads}")
        logger.info(f"  - Total: {len(download_tasks)}")
        logger.info(f"  - Archivos guardados en: {output_dir}")

def parse_date(date_string):
    """
    Valida y formatea la fecha de entrada
    
    Args:
        date_string (str): Fecha en formato YYYY-MM-DD o YYYYMMDD
        
    Returns:
        str: Fecha formateada para búsqueda
    """
    # Si la fecha contiene guiones o barras, usarla tal como está
    # Esto es útil cuando queremos buscar el formato exacto del archivo
    if '-' in date_string or '/' in date_string:
        logger.info(f"Usando fecha tal como está: {date_string}")
        return date_string
    
    # Intentar diferentes formatos solo si es numérico
    formats = ['%Y%m%d', '%d%m%Y']
    
    for fmt in formats:
        try:
            date_obj = datetime.strptime(date_string, fmt)
            # Devolver en formato YYYYMMDD para búsqueda
            return date_obj.strftime('%Y%m%d')
        except ValueError:
            continue
    
    # Si no se puede parsear, usar como está
    logger.warning(f"No se pudo parsear la fecha '{date_string}', usando como está")
    return date_string

def main():
    """
    Función principal que ejecuta la descarga masiva
    """
    # Mostrar configuración
    logger.info("=== CONFIGURACIÓN DE DESCARGA ===")
    logger.info(f"Bucket: {BUCKET_NAME}")
    logger.info(f"Prefijo: {PREFIX}")
    logger.info(f"Fecha: {DATE_TO_SEARCH}")
    logger.info(f"Directorio de salida: {OUTPUT_DIR}")
    
    # Formatear fecha para búsqueda
    search_date = parse_date(DATE_TO_SEARCH)
    logger.info(f"Fecha formateada para búsqueda: {search_date}")
    
    # Mostrar filtros aplicados
    if ADDITIONAL_FILTER and ADDITIONAL_FILTER.strip():
        logger.info(f"Filtro adicional: '{ADDITIONAL_FILTER}'")
    else:
        logger.info("Sin filtro adicional - solo fecha")
    
    if AWS_PROFILE:
        logger.info(f"Perfil AWS: {AWS_PROFILE}")
    else:
        logger.info("Usando credenciales AWS por defecto")
    
    logger.info(f"Hilos concurrentes: {MAX_WORKERS}")
    logger.info("=" * 35)
    
    try:
        # Inicializar downloader
        downloader = S3BulkDownloader(BUCKET_NAME, AWS_PROFILE)
        
        # Ejecutar descarga masiva
        downloader.bulk_download(
            prefix=PREFIX,
            date_string=search_date,
            output_dir=OUTPUT_DIR,
            additional_filter=ADDITIONAL_FILTER,
            max_workers=MAX_WORKERS,
            preserve_structure=PRESERVE_STRUCTURE
        )
        
        logger.info("¡Proceso completado exitosamente!")
        
    except Exception as e:
        logger.error(f"Error durante la ejecución: {e}")
        raise

if __name__ == '__main__':
    main()

2026-02-03 14:07:30,891 - INFO - === CONFIGURACIÓN DE DESCARGA ===
2026-02-03 14:07:30,892 - INFO - Bucket: data-bunker-prod-env
2026-02-03 14:07:30,894 - INFO - Prefijo: images/year=2026/month=02/channel=farmaciasGDL/
2026-02-03 14:07:30,895 - INFO - Fecha: 02-02-2026
2026-02-03 14:07:30,895 - INFO - Directorio de salida: ./competitors/Guadalajara/folletos/
2026-02-03 14:07:30,896 - INFO - Usando fecha tal como está: 02-02-2026
2026-02-03 14:07:30,897 - INFO - Fecha formateada para búsqueda: 02-02-2026
2026-02-03 14:07:30,897 - INFO - Sin filtro adicional - solo fecha
2026-02-03 14:07:30,898 - INFO - Usando credenciales AWS por defecto
2026-02-03 14:07:30,898 - INFO - Hilos concurrentes: 3
2026-02-03 14:07:32,293 - INFO - Encontrado: images/year=2026/month=02/channel=farmaciasGDL/boletin-dermo_page_1_02-02-2026.png
2026-02-03 14:07:32,294 - INFO - Encontrado: images/year=2026/month=02/channel=farmaciasGDL/boletin-dermo_page_2_02-02-2026.png
2026-02-03 14:07:32,295 - INFO - Encontrado: