In [4]:
import fitz  # PyMuPDF
import os

def extraer_texto_de_pdf(ruta_pdf):
    """Extrae el texto de un archivo PDF."""
    try:
        doc = fitz.open(ruta_pdf)
        texto_completo = ""
        for pagina in doc:
            texto_completo += pagina.get_text("text")
        doc.close()
        return texto_completo
    except Exception as e:
        print(f"  - ERROR al leer el archivo {os.path.basename(ruta_pdf)}: {e}")
        return ""

def procesar_pdfs_recursivamente(carpeta_raiz_entrada, carpeta_raiz_salida):
    """
    Convierte a texto todos los PDFs de una carpeta y sus subcarpetas,
    replicando la estructura en una carpeta de salida.
    """
    print(f"Iniciando conversión recursiva desde: '{carpeta_raiz_entrada}'")
    archivos_procesados = 0

    # os.walk() es el motor que recorre todo el árbol de directorios.
    for dirpath, _, filenames in os.walk(carpeta_raiz_entrada):
        
        # 1. Creamos la estructura de carpetas correspondiente en el destino.
        # Ejemplo: 'PDFs/Torax' se convierte en 'Textos/Torax'
        ruta_salida_actual = dirpath.replace(carpeta_raiz_entrada, carpeta_raiz_salida, 1)
        if not os.path.exists(ruta_salida_actual):
            os.makedirs(ruta_salida_actual)
            print(f"Creando directorio: {ruta_salida_actual}")

        # 2. Procesamos todos los archivos PDF en el directorio actual.
        for nombre_archivo in filenames:
            if nombre_archivo.lower().endswith(".pdf"):
                
                # Construimos las rutas completas de entrada y salida
                ruta_pdf_completa = os.path.join(dirpath, nombre_archivo)
                
                # Cambiamos la extensión de .pdf a .txt para el archivo de salida
                nombre_base = os.path.splitext(nombre_archivo)[0]
                nombre_txt = nombre_base + ".txt"
                ruta_txt_completa = os.path.join(ruta_salida_actual, nombre_txt)
                
                print(f"  - Convirtiendo: {nombre_archivo}")

                # Extraemos el texto y lo guardamos
                texto_extraido = extraer_texto_de_pdf(ruta_pdf_completa)
                
                if texto_extraido:
                    with open(ruta_txt_completa, "w", encoding="utf-8") as archivo_salida:
                        archivo_salida.write(texto_extraido)
                    archivos_procesados += 1

    print(f"\n✅ ¡Proceso completado! Se convirtieron {archivos_procesados} archivos PDF a texto.")
    print(f"Los resultados se guardaron en: '{carpeta_raiz_salida}'")

# ---  USO ---

# Carpeta principal que contiene todos tus informes en PDF (con sus subcarpetas)
CARPETA_RAIZ_PDFS = 'Informes_pdf'

# Carpeta principal donde se guardará la nueva estructura con los archivos de texto
CARPETA_RAIZ_TEXTOS = 'Informes_en_Texto'

# Llamamos a la función principal para iniciar la conversión
procesar_pdfs_recursivamente(CARPETA_RAIZ_PDFS, CARPETA_RAIZ_TEXTOS)

Iniciando conversión recursiva desde: 'Informes_pdf'
Creando directorio: Informes_en_Texto
Creando directorio: Informes_en_Texto\criticos
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276005832311_134027204311172981.pdf
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276006431888_134020288721232893.pdf
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276006613028_134015158506207456.pdf
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276009622794_134020288259811673.pdf
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276009622794_134020291966259107.pdf
  - Convirtiendo: C__Users_sebas_AppData_Roaming_Carestream_RIS_11.3.0.25596_risappn_CSHRIS_WS_Reporting_R9276010524792_134027176755023957.pdf
  - 