In [4]:
import json
import unicodedata

def normalize(text):
    """
    Normaliza una cadena eliminando tildes y haciendo que sea case insensitive.
    """
    if not isinstance(text, str):
        return text
    # Eliminar tildes y convertir a minúsculas
    return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn').lower()

def filter_documents(file_path, filters):
    """
    Filtra los documentos de un archivo JSON basado en los criterios de 'filters'.
    
    :param file_path: Ruta al archivo JSON.
    :param filters: Lista de tuplas con los filtros (feature, valor).
    :return: Lista de docIDs de los documentos que cumplen con los filtros.
    """
    # Cargar el JSON
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    
    filtered_ids = []
    
    for document in data:
        # Verificar que cada filtro se cumple
        if all(normalize(document.get(key, '')) == normalize(value) for key, value in filters):
            filtered_ids.append(document['docID'])
    
    return filtered_ids

# Configuración
filters = [('letra', 'gótica cursiva')]
file_path = 'corpus_data.json'

# Llamada a la función
result = filter_documents(file_path, filters)

# Mostrar resultados
print("Documentos filtrados:", result)

Documentos filtrados: ['CODEA-0005', 'CODEA-0008', 'CODEA-0040', 'CODEA-0041', 'CODEA-0042', 'CODEA-0043', 'CODEA-0044', 'CODEA-0045', 'CODEA-0046', 'CODEA-0049', 'CODEA-0057', 'CODEA-0069', 'CODEA-0071', 'CODEA-0072', 'CODEA-0076', 'CODEA-0078', 'CODEA-0085', 'CODEA-0086', 'CODEA-0087', 'CODEA-0088', 'CODEA-0089', 'CODEA-0090', 'CODEA-0091', 'CODEA-0092', 'CODEA-0093', 'CODEA-0094', 'CODEA-0095', 'CODEA-0096', 'CODEA-0097', 'CODEA-0098', 'CODEA-0099', 'CODEA-0100', 'CODEA-0102', 'CODEA-0103', 'CODEA-0104', 'CODEA-0105', 'CODEA-0106', 'CODEA-0107', 'CODEA-0108', 'CODEA-0109', 'CODEA-0110', 'CODEA-0111', 'CODEA-0112', 'CODEA-0113', 'CODEA-0114', 'CODEA-0115', 'CODEA-0116', 'CODEA-0117', 'CODEA-0118', 'CODEA-0119', 'CODEA-0120', 'CODEA-0121', 'CODEA-0122', 'CODEA-0123', 'CODEA-0124', 'CODEA-0125', 'CODEA-0126', 'CODEA-0127', 'CODEA-0128', 'CODEA-0129', 'CODEA-0130', 'CODEA-0131', 'CODEA-0132', 'CODEA-0133', 'CODEA-0134', 'CODEA-0135', 'CODEA-0136', 'CODEA-0137', 'CODEA-0138', 'CODEA-0139

In [5]:
import os
import shutil

def copy_filtered_documents(filtered_ids, source_dir, output_dir):
    """
    Copia archivos que contienen en su nombre alguno de los IDs filtrados a una carpeta específica.
    
    :param filtered_ids: Lista de IDs filtrados.
    :param source_dir: Directorio donde buscar los archivos.
    :param output_dir: Directorio donde copiar los archivos filtrados.
    """
    # Crear la carpeta de salida si no existe
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Iterar sobre los archivos en el directorio fuente
    for file_name in os.listdir(source_dir):
        # Verificar si el nombre del archivo contiene alguno de los IDs filtrados
        if any(doc_id in file_name for doc_id in filtered_ids):
            # Ruta completa del archivo fuente
            source_path = os.path.join(source_dir, file_name)
            # Ruta completa del archivo destino
            destination_path = os.path.join(output_dir, file_name)
            
            # Copiar archivo
            shutil.copy2(source_path, destination_path)
            print(f"Archivo copiado: {file_name}")

# Configuración
filtered_ids = result
source_dir = 'Documents'  # Directorio fuente donde están los archivos
output_dir = 'Filtered_Documents'  # Carpeta de salida

# Llamada a la función
copy_filtered_documents(filtered_ids, source_dir, output_dir)


Archivo copiado: CODEA-0005.json
Archivo copiado: CODEA-0005_1r.jpg
Archivo copiado: CODEA-0008.json
Archivo copiado: CODEA-0008_1r.jpg
Archivo copiado: CODEA-0040.json
Archivo copiado: CODEA-0040_1r.jpg
Archivo copiado: CODEA-0041.json
Archivo copiado: CODEA-0041_1r.jpg
Archivo copiado: CODEA-0042.json
Archivo copiado: CODEA-0042_1r.jpg
Archivo copiado: CODEA-0043.json
Archivo copiado: CODEA-0043_1r.jpg
Archivo copiado: CODEA-0044.json
Archivo copiado: CODEA-0044_1r.jpg
Archivo copiado: CODEA-0045.json
Archivo copiado: CODEA-0045_1r.jpg
Archivo copiado: CODEA-0046.json
Archivo copiado: CODEA-0046_1r.jpg
Archivo copiado: CODEA-0049.json
Archivo copiado: CODEA-0049_1r.jpg
Archivo copiado: CODEA-0057.json
Archivo copiado: CODEA-0057_1r.jpg
Archivo copiado: CODEA-0069.json
Archivo copiado: CODEA-0069_1r.jpg
Archivo copiado: CODEA-0071.json
Archivo copiado: CODEA-0071_1r.jpg
Archivo copiado: CODEA-0072.json
Archivo copiado: CODEA-0072_1r.jpg
Archivo copiado: CODEA-0076.json
Archivo copiado