In [3]:
import os
import hashlib
import shutil

def calcular_hash(ruta_archivo):
    """Calcula el hash SHA-256 del contenido de un archivo."""
    sha256_hash = hashlib.sha256()
    try:
        with open(ruta_archivo, "rb") as f:
            for byte_block in iter(lambda: f.read(4096), b""):
                sha256_hash.update(byte_block)
        return sha256_hash.hexdigest()
    except IOError:
        print(f"No se pudo leer el archivo: {ruta_archivo}")
        return None

def limpiar_y_copiar_unicos(carpeta_entrada, carpeta_salida):
    """
    Identifica archivos únicos y los copia a una nueva carpeta manteniendo la estructura.
    Reporta los archivos que fueron identificados como duplicados.
    """
    hashes = {}
    duplicados_reporte = {}
    
    print(f"Escaneando archivos en: '{carpeta_entrada}'...")

    # 1. PRIMERA PASADA: Identificar todos los archivos únicos y duplicados
    for dirpath, _, filenames in os.walk(carpeta_entrada):
        for nombre_archivo in filenames:
            if nombre_archivo.lower().endswith(".txt"):
                ruta_completa = os.path.join(dirpath, nombre_archivo)
                file_hash = calcular_hash(ruta_completa)
                
                if file_hash:
                    if file_hash in hashes:
                        # Si el hash ya existe, es un duplicado. Lo guardamos para el reporte.
                        original = hashes[file_hash]
                        if original not in duplicados_reporte:
                            duplicados_reporte[original] = []
                        duplicados_reporte[original].append(ruta_completa)
                    else:
                        # Si es un hash nuevo, guardamos la ruta del archivo como el "original".
                        hashes[file_hash] = ruta_completa

    # 2. SEGUNDA PASADA: Copiar solo los archivos únicos a la nueva carpeta
    print(f"\nCopiando archivos únicos a: '{carpeta_salida}'...")
    if not os.path.exists(carpeta_salida):
        os.makedirs(carpeta_salida)

    for ruta_original in hashes.values():
        # Construir la ruta de destino replicando la estructura de carpetas
        ruta_destino = ruta_original.replace(carpeta_entrada, carpeta_salida, 1)
        
        # Crear el directorio de destino si no existe
        directorio_destino = os.path.dirname(ruta_destino)
        os.makedirs(directorio_destino, exist_ok=True)
        
        # Copiar el archivo
        shutil.copy2(ruta_original, ruta_destino)

    print(f"\nCopia de {len(hashes)} archivos únicos completada.")
    return duplicados_reporte

# --- USO ---

if __name__ == "__main__":
    # Carpeta que contiene los archivos originales (con posibles duplicados)
    CARPETA_A_REVISAR = 'Informes_en_Texto'
    
    # Nueva carpeta donde se guardarán solo los archivos únicos
    CARPETA_DESTINO_UNICOS = 'Informes_Unicos'
    
    archivos_duplicados = limpiar_y_copiar_unicos(CARPETA_A_REVISAR, CARPETA_DESTINO_UNICOS)
    
    if not archivos_duplicados:
        print("\n✅ ¡Excelente! No se encontraron archivos duplicados.")
    else:
        print(f"\n🚨 Se encontraron y omitieron los siguientes archivos duplicados:")
        for original, copias in archivos_duplicados.items():
            print("-" * 50)
            print(f"Archivo Original (copiado): {original}")
            for copia in copias:
                print(f"   -> Duplicado (omitido):   {copia}")
        print("-" * 50)

Escaneando archivos en: 'Informes_en_Texto'...

Copiando archivos únicos a: 'Informes_Unicos'...

Copia de 521 archivos únicos completada.

🚨 Se encontraron y omitieron los siguientes archivos duplicados:
--------------------------------------------------
Archivo Original (copiado): Informes_en_Texto\criticos\C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276009622794_134020288259811673.txt
   -> Duplicado (omitido):   Informes_en_Texto\criticos\C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276009622794_134020291966259107.txt
--------------------------------------------------
Archivo Original (copiado): Informes_en_Texto\criticos\C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276011454582_134027196895289706.txt
   -> Duplicado (omitido):   Informes_en_Texto\criticos\C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R92760114