In [9]:
import json
import unicodedata

def normalize(text):
    """
    Normaliza una cadena eliminando tildes y haciendo que sea case insensitive.
    """
    if not isinstance(text, str):
        return text
    # Eliminar tildes y convertir a minúsculas
    return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn').lower()

def filter_documents(file_path, filters):
    """
    Filtra los documentos de un archivo JSON basado en los criterios de 'filters'.
    
    :param file_path: Ruta al archivo JSON.
    :param filters: Lista de tuplas con los filtros (feature, valor).
    :return: Lista de docIDs de los documentos que cumplen con los filtros.
    """
    # Cargar el JSON
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    
    filtered_ids = []
    
    for document in data:
        # Verificar que cada filtro se cumple
        if all(normalize(document.get(key, '')) == normalize(value) for key, value in filters):
            filtered_ids.append(document['docID'])
    
    return filtered_ids

# Configuración
filters = [('letra', 'procesal')]
file_path = 'corpus_data.json'

# Llamada a la función
result = filter_documents(file_path, filters)

# Mostrar resultados
print("Documentos filtrados:", result)

Documentos filtrados: ['CODEA-0018', 'CODEA-0143', 'CODEA-0144', 'CODEA-0177', 'CODEA-0205', 'CODEA-0206', 'CODEA-1331', 'CODEA-1335', 'CODEA-1347', 'CODEA-1355', 'CODEA-1412', 'CODEA-1421', 'CODEA-1422', 'CODEA-1433', 'CODEA-1450', 'CODEA-1761', 'CODEA-1767', 'CODEA-1780', 'CODEA-1781', 'CODEA-1783', 'CODEA-1784', 'CODEA-1785', 'CODEA-1786', 'CODEA-1787', 'CODEA-1788', 'CODEA-1789', 'CODEA-1790', 'CODEA-1791', 'CODEA-1792', 'CODEA-1793', 'CODEA-1797', 'CODEA-1801', 'CODEA-1802', 'CODEA-1803', 'CODEA-1805', 'CODEA-1806', 'CODEA-1807', 'CODEA-1816', 'CODEA-1822', 'CODEA-1830', 'CODEA-1831', 'CODEA-1832', 'CODEA-2025', 'CODEA-2027', 'CODEA-2202', 'CODEA-2218', 'CODEA-2222', 'CODEA-2225', 'CODEA-2272', 'CODEA-2497', 'CODEA-2498', 'CODEA-2501', 'CODEA-2535', 'CODEA-2562', 'CODEA-2564', 'CODEA-2571', 'CODEA-2972', 'CODEA-2973', 'CODEA-2975', 'CODEA-2988', 'CODEA-2989', 'CODEA-3180', 'CODEA-3181', 'CODEA-3418', 'CODEA-3482', 'CODEA-3484', 'CODEA-3485', 'CODEA-3486', 'CODEA-3488', 'CODEA-3587

In [10]:
import os
import shutil

def copy_filtered_documents(filtered_ids, source_dir, output_dir):
    """
    Copia archivos que contienen en su nombre alguno de los IDs filtrados a una carpeta específica.
    
    :param filtered_ids: Lista de IDs filtrados.
    :param source_dir: Directorio donde buscar los archivos.
    :param output_dir: Directorio donde copiar los archivos filtrados.
    """
    # Crear la carpeta de salida si no existe
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Iterar sobre los archivos en el directorio fuente
    for file_name in os.listdir(source_dir):
        # Verificar si el nombre del archivo contiene alguno de los IDs filtrados
        if any(doc_id in file_name for doc_id in filtered_ids):
            # Ruta completa del archivo fuente
            source_path = os.path.join(source_dir, file_name)
            # Ruta completa del archivo destino
            destination_path = os.path.join(output_dir, file_name)
            
            # Copiar archivo
            shutil.copy2(source_path, destination_path)
            print(f"Archivo copiado: {file_name}")

# Configuración
filtered_ids = result
source_dir = 'Documents'  # Directorio fuente donde están los archivos
output_dir = 'Filtered_Documents'  # Carpeta de salida

# Llamada a la función
copy_filtered_documents(filtered_ids, source_dir, output_dir)


Archivo copiado: CODEA-0018.json
Archivo copiado: CODEA-0143.json
Archivo copiado: CODEA-0143_1r.jpg
Archivo copiado: CODEA-0143_1v.jpg
Archivo copiado: CODEA-0144.json
Archivo copiado: CODEA-0144_1r.jpg
Archivo copiado: CODEA-0177.json
Archivo copiado: CODEA-0177_1r.jpg
Archivo copiado: CODEA-0177_1v.jpg
Archivo copiado: CODEA-0205.json
Archivo copiado: CODEA-0205_1r.jpg
Archivo copiado: CODEA-0205_1v.jpg
Archivo copiado: CODEA-0205_2r.jpg
Archivo copiado: CODEA-0205_2v.jpg
Archivo copiado: CODEA-0206.json
Archivo copiado: CODEA-0206_1r.jpg
Archivo copiado: CODEA-0206_1v.jpg
Archivo copiado: CODEA-0206_2r.jpg
Archivo copiado: CODEA-0206_2v.jpg
Archivo copiado: CODEA-1331.json
Archivo copiado: CODEA-1331_1r.jpg
Archivo copiado: CODEA-1335.json
Archivo copiado: CODEA-1347.json
Archivo copiado: CODEA-1347_1r.jpg
Archivo copiado: CODEA-1355.json
Archivo copiado: CODEA-1355_1r.jpg
Archivo copiado: CODEA-1412.json
Archivo copiado: CODEA-1421.json
Archivo copiado: CODEA-1422.json
Archivo cop