## An√°lisis de texto Orfeo con LLM open source

El proceso se organiza en cinco etapas secuenciales:

1. Par√°metros
2. Autenticaci√≥n Onedrive
3. Extracci√≥n del texto desde pdf
4. An√°lisis de texto con LLM: Llama y Mistral
5. Consolidar y guardar los resultados

## 1. Par√°metros

In [20]:
import os

## 1. INPUTS
link = "https://planeacionnacional-my.sharepoint.com/:f:/r/personal/johasuarez_dnp_gov_co/Documents/Consolidado%20Orfeo%20Comunicaciones?csf=1&web=1&e=f37mjQ"
carpeta_procesar='2025/ENTRADAS'


## 2. MODELOS
INSTRUCCION = (
    "Lee el TEXTO y responde en tres items numerados:\n;"
    "1) Tema principal.\n;",
    "2) Cu√°l es el origen de la solicitud.\n;"
    "3) ¬øQu√© tipo de solicitud es?\n;"
    "4) Dame un resumen en 7 palabras.")

MODELOS = [
    {"name": "llama",   "path": r"C:\Users\Sebastian\Documents\DNP\Orfeo\modelos\meta-llama-3-8b-instruct.Q4_K_M.gguf"},
    {"name": "mistral", "path": r"C:\Users\Sebastian\Documents\DNP\Orfeo\modelos\mistral-7b-instruct-v0.1.Q4_K_M.gguf"},]

## 3. OUTPUTS
EXCEL_CONSOLIDADO = "Orfeo_analisis_llm.xlsx"
EXCEL_LLAMA = "Orfeo_llama.xlsx"
EXCEL_MISTRAL = "Orfeo_mistral.xlsx"

## 2. Autenticaci√≥n Onedrive

In [21]:
import base64
import msal
import requests

# ==== 1. Datos base ====
CLIENT_ID = "d3590ed6-52b3-4102-aeff-aad2292ab01c"  # App p√∫blica de Microsoft
AUTHORITY = "https://login.microsoftonline.com/common"
SCOPE = ["Files.Read.All"]

# ==== 2. Iniciar flujo interactivo con MFA ====
app = msal.PublicClientApplication(CLIENT_ID, authority=AUTHORITY)

flow = app.initiate_device_flow(scopes=SCOPE)
print(flow["message"])  # -> Abre la URL que muestra y pega el c√≥digo

result = app.acquire_token_by_device_flow(flow)

if "access_token" not in result:
    raise Exception("Error al autenticar:", result.get("error_description"))

token = result["access_token"]
print("Autenticaci√≥n exitosa ‚úÖ")

# ==== 3. Preparar el enlace compartido ====


# Codificar el link para Graph API
encoded_link = base64.urlsafe_b64encode(link.encode()).decode().rstrip("=")

# Endpoint para listar archivos
url = f"https://graph.microsoft.com/v1.0/shares/u!{encoded_link}/driveItem/children"

headers = {"Authorization": f"Bearer {token}"}

metadata_url = f"https://graph.microsoft.com/v1.0/shares/u!{encoded_link}/driveItem"
meta_resp = requests.get(metadata_url, headers=headers).json()

drive_id = meta_resp["parentReference"]["driveId"]
item_id = meta_resp["id"]

# =========================
# FUNCI√ìN PARA LISTAR LOS ARCHIVOS
# =========================
def listar_hijos(drive_id, item_id):
    url = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{item_id}/children"
    resp = requests.get(url, headers=headers)
    if resp.status_code != 200:
        print("Error al listar hijos:", resp.text)
        return []
    return resp.json().get("value", [])

# =========================
#FILTRAR LOS ARCHIVOS DE EXCEL (HOJAS DE VIDA)
# =========================
def recorrer_recursivo(drive_id, item_id, ruta_base=""):
    archivos = []
    items = listar_hijos(drive_id, item_id)

    for item in items:
        nombre = item["name"]
        nueva_ruta = f"{ruta_base}/{nombre}" if ruta_base else nombre

        if "folder" in item:
            # Recursi√≥n para subcarpetas
            archivos.extend(recorrer_recursivo(drive_id, item["id"], nueva_ruta))
        else:
            # Filtrar solo archivos .xlsx
            if nombre.lower().endswith(".pdf"):
                archivos.append({
                    "nombre": nombre,
                    "ruta": nueva_ruta,
                    "id": item["id"]
                })
    return archivos

# =========================
# LISTA CON TODOS LOS ARCHIVOS EN LA CARPETA
# =========================
todos_los_archivos = recorrer_recursivo(drive_id, item_id)

# Funci√≥n para obtener archivos de una carpeta espec√≠fica
def filtrar_por_carpeta(lista, carpeta_objetivo):
    return [
        archivo for archivo in lista
        if archivo["ruta"].startswith(carpeta_objetivo)]

# Filtrar archivos de cada carpeta
archivos_procesar = filtrar_por_carpeta(todos_los_archivos, carpeta_procesar)

# Convertir a sets de nombres para comparar
nombres_procesar = {a["nombre"] for a in archivos_procesar}

#print(f"Total archivos .xlsx: {len(todos_los_archivos)}")
#Archivo para procesar
print(f"Archivos pdf: {len(nombres_procesar)}")

To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code BJTL5J36K to authenticate.
Autenticaci√≥n exitosa ‚úÖ
Archivos pdf: 198


## 3. Extraccion del texto desde pdf

In [22]:
import pandas as pd
from io import BytesIO
from pdfminer.high_level import extract_text

# ========================================
# FUNCI√ìN PARA DESCARGAR Y EXTRAER TEXTO
# ========================================
def extraer_texto_pdf(item, drive_id, headers):
    """
    item: diccionario con claves {'nombre','ruta','id'}
    drive_id: id de la unidad en OneDrive/SharePoint
    headers: encabezados con el token de acceso
    """
    try:
        # Descargar contenido del PDF
        url_pdf = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{item['id']}/content"
        resp_pdf = requests.get(url_pdf, headers=headers)

        if resp_pdf.status_code != 200:
            print(f"‚ùå Error al descargar {item['nombre']}: {resp_pdf.status_code}")
            return ""

        pdf_bytes = resp_pdf.content

        # Extraer texto sin OCR
        with BytesIO(pdf_bytes) as f:
            texto = extract_text(f)

        return texto
    
    except Exception as e:
        print(f"‚ùå Error procesando {item['nombre']}: {e}")
        return ""


# ========================================
# RECORRER TODOS LOS ARCHIVOS Y EXTRAER TEXTO
# ========================================
registros = []

for item in archivos_procesar[:50]:
    print(f"üìÑ Procesando: {item['nombre']} ...")

    texto = extraer_texto_pdf(item, drive_id, headers)

    registros.append({
        "nombre": item["nombre"],
        "ruta": item["ruta"],
        "id": item["id"],
        "texto": texto
    })

# ========================================
# Convertir a DataFrame
# ========================================
df_pdfs = pd.DataFrame(registros)
df_pdfs.head()


üìÑ Procesando: 120253100125753.pdf ...
üìÑ Procesando: 120253240150443.pdf ...
üìÑ Procesando: 120253240164933.pdf ...
üìÑ Procesando: 120253240165013.pdf ...
üìÑ Procesando: 120253400090033.pdf ...
üìÑ Procesando: 120253400122063.pdf ...
üìÑ Procesando: 120253400184473.pdf ...
üìÑ Procesando: 120254240002993.pdf ...
üìÑ Procesando: 120256000357862.pdf ...
üìÑ Procesando: 120256010132073.pdf ...
üìÑ Procesando: 120256630351032.pdf ...
üìÑ Procesando: 120256630535782.pdf ...
üìÑ Procesando: 120256630585652.pdf ...
üìÑ Procesando: 120256630590672.pdf ...
üìÑ Procesando: 120256630590912.pdf ...
üìÑ Procesando: 120256630592862.pdf ...
üìÑ Procesando: 120256630593132.pdf ...
üìÑ Procesando: 120256630594272.pdf ...
üìÑ Procesando: 120256630630652pdf.pdf ...
üìÑ Procesando: 120256630639192pdf.pdf ...
üìÑ Procesando: 120256630654812pdf.pdf ...
üìÑ Procesando: 200256630384332.pdf ...
üìÑ Procesando: 200256630786752.pdf ...
üìÑ Procesando: 202056630335322.pdf ...
üìÑ Pr

Unnamed: 0,nombre,ruta,id,texto
0,120253100125753.pdf,2025/ENTRADAS/120253100125753.pdf,01WW347OZV7IJRY5L62VCLNZ5OAJXVMS5C,
1,120253240150443.pdf,2025/ENTRADAS/120253240150443.pdf,01WW347OY5SYKMPX6FQBF3C3ASBO5QSEYE,"MEMORANDO \n\nBogot√° D.C., lunes, 07 de julio ..."
2,120253240164933.pdf,2025/ENTRADAS/120253240164933.pdf,01WW347O7ZOO2JCUQ5KFA2F6QN242XY3V2,JUZGADO PROMISCUO MUNICIPAL DE \nCOTORRA-C√ìRD...
3,120253240165013.pdf,2025/ENTRADAS/120253240165013.pdf,01WW347O6BK4HZEFJFNNEZUFQNNK7FVAMM,REP√öBLICA DE COLOMBIA \nRAMA JUDICIAL DEL PODE...
4,120253400090033.pdf,2025/ENTRADAS/120253400090033.pdf,01WW347O5JPRD5WDQUHZF2N7PP3IJMGKLZ,INFORME CONSOLIDADO DEL DESEMPE√ëO DEL ESTADO D...


## 4. An√°lisis de texto con LLM: Llama y Mistral


In [23]:
# ==========================================
# ‚úÖ df_pdfs -> 2 TXT por texto en OneDrive
#    Carpeta: orfeo_salida_llm
# ==========================================

import os, time, gc, platform, json
import pandas as pd
from llama_cpp import Llama
import requests

# Si True, no vuelve a crear si el TXT ya existe en OneDrive
SKIP_IF_EXISTS = True

PARAMS = dict(
    n_ctx=2048,
    max_tokens=160,
    temperature=0.2,
    top_p=0.95,
    repeat_penalty=1.1,
)

# Config GPU/CPU
gpu_ok = os.system("nvidia-smi >NUL 2>&1") == 0 if platform.system().lower().startswith("win") \
         else os.system("nvidia-smi >/dev/null 2>&1") == 0
N_GPU_LAYERS = -1 if gpu_ok else 0
N_BATCH = 512 if gpu_ok else 128

try:
    import multiprocessing as mp
    N_THREADS = max(2, mp.cpu_count() // 2)
except Exception:
    N_THREADS = 4

# -------------------------------
# (0) df_pdfs en memoria
# -------------------------------
# Se asume que df_pdfs ya existe y tiene columnas: nombre, ruta, id, texto
assert {"nombre", "ruta", "id", "texto"}.issubset(df_pdfs.columns)

# -------------------------------
# (1) Helpers OneDrive / Graph
# -------------------------------

def obtener_o_crear_carpeta_salida(nombre_carpeta, drive_id, parent_id_root, headers):
    """
    Busca una carpeta dentro de parent_id_root.
    Si no existe, la crea. Devuelve el item_id de esa carpeta.
    """
    # 1) Buscar si ya existe
    url_list = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{parent_id_root}/children"
    resp = requests.get(url_list, headers=headers)
    if resp.status_code != 200:
        raise Exception(f"Error listando hijos de la ra√≠z: {resp.status_code} - {resp.text}")
    data = resp.json().get("value", [])

    for it in data:
        if it.get("name") == nombre_carpeta and "folder" in it:
            print(f"üìÅ Carpeta '{nombre_carpeta}' ya existe en OneDrive.")
            return it["id"]

    # 2) Crear carpeta si no existe
    print(f"üìÅ Creando carpeta '{nombre_carpeta}' en OneDrive...")
    url_create = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{parent_id_root}/children"
    payload = {
        "name": nombre_carpeta,
        "folder": {},
        "@microsoft.graph.conflictBehavior": "rename"
    }
    resp_create = requests.post(url_create, headers={**headers, "Content-Type": "application/json"},
                                data=json.dumps(payload))
    if resp_create.status_code not in (200, 201):
        raise Exception(f"Error creando carpeta: {resp_create.status_code} - {resp_create.text}")

    carpeta = resp_create.json()
    return carpeta["id"]


def listar_nombres_archivos_en_carpeta(drive_id, carpeta_id, headers):
    """
    Devuelve un set con los nombres de los archivos existentes en esa carpeta.
    (Solo primera p√°gina; normalmente suficiente para este caso)
    """
    url = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{carpeta_id}/children"
    resp = requests.get(url, headers=headers)
    if resp.status_code != 200:
        print(f"‚ö†Ô∏è No se pudieron listar archivos de la carpeta salida: {resp.status_code}")
        return set()

    data = resp.json().get("value", [])
    return {it["name"] for it in data if "file" in it}


def subir_txt_a_onedrive(nombre_archivo, contenido, drive_id, carpeta_id, headers):
    """
    Sube un TXT a OneDrive dentro de la carpeta carpeta_id.
    Si existe, lo sobrescribe.
    """
    url = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{carpeta_id}:/{nombre_archivo}:/content"
    resp = requests.put(
        url,
        headers={**headers, "Content-Type": "text/plain"},
        data=contenido.encode("utf-8")
    )
    if resp.status_code not in (200, 201):
        print(f"‚ùå Error subiendo {nombre_archivo}: {resp.status_code} - {resp.text}")
    else:
        print(f"‚úÖ Subido a OneDrive: {nombre_archivo}")


# -------------------------------
# (2) Funci√≥n para correr modelo
# -------------------------------

def correr_modelo(model_path, texto, instruccion):
    llm = Llama(
        model_path=model_path,
        n_ctx=PARAMS["n_ctx"],
        n_gpu_layers=N_GPU_LAYERS,
        n_batch=N_BATCH,
        n_threads=N_THREADS,
        use_mmap=True,
        verbose=False
    )
    prompt = f"### Instrucci√≥n:\n{instruccion}\n\n### TEXTO:\n{texto}\n\n### Respuesta:"
    resp = llm(prompt=prompt, max_tokens=PARAMS["max_tokens"], temperature=PARAMS["temperature"])
    salida = (resp["choices"][0]["text"] or "").strip()
    del llm
    gc.collect()
    return salida


# -------------------------------
# (3) Preparar carpeta de salida en OneDrive
# -------------------------------

NOMBRE_CARPETA_SALIDA = "orfeo_salida_llm"

# item_id es el ID del driveItem ra√≠z del enlace compartido (ya lo calculaste antes)
carpeta_salida_id = obtener_o_crear_carpeta_salida(
    NOMBRE_CARPETA_SALIDA,
    drive_id,
    item_id,   # ra√≠z del link de Orfeo
    headers
)

# Listar nombres existentes para poder hacer SKIP_IF_EXISTS
nombres_existentes = listar_nombres_archivos_en_carpeta(drive_id, carpeta_salida_id, headers)

# -------------------------------
# (4) Bucle principal usando df_pdfs
# -------------------------------

for idx, row in df_pdfs.iloc[:50].iterrows():
    archivo = str(row["nombre"])   # antes 'archivo'
    texto   = str(row["texto"])

    base_name = f"{archivo}__row{idx}"
    llama_name   = f"{base_name}__llama.txt"
    mistral_name = f"{base_name}__mistral.txt"

    # Si ya existen ambos en OneDrive, saltar
    if SKIP_IF_EXISTS and (llama_name in nombres_existentes) and (mistral_name in nombres_existentes):
        print(f"‚Ü™Ô∏è Ya existen ambos TXT para fila {idx} en OneDrive, se omite.")
        continue

    # Procesar cada modelo
    for modelo in MODELOS:
        nombre_modelo = modelo["name"]   # "llama" o "mistral"
        path_modelo   = modelo["path"]
        out_name = llama_name if nombre_modelo == "llama" else mistral_name

        if SKIP_IF_EXISTS and out_name in nombres_existentes:
            print(f"‚Ü™Ô∏è Ya existe {nombre_modelo} TXT para fila {idx} en OneDrive, se omite.")
            continue

        if not os.path.exists(path_modelo):
            print(f"‚ö†Ô∏è Modelo no encontrado: {path_modelo}")
            continue

        try:
            print(f"üß† Procesando {nombre_modelo} en fila {idx}...")
            respuesta = correr_modelo(path_modelo, texto, INSTRUCCION)

            # Subir respuesta a OneDrive
            subir_txt_a_onedrive(out_name, respuesta, drive_id, carpeta_salida_id, headers)
            # A√±adir al set local para evitar re-subir en esta misma corrida
            nombres_existentes.add(out_name)

        except Exception as e:
            print(f"‚ùå Error en modelo {nombre_modelo} para fila {idx}: {e}")

print(f"\n‚úÖ Listo. Archivos TXT generados en la carpeta '{NOMBRE_CARPETA_SALIDA}' de OneDrive.")


üìÅ Carpeta 'orfeo_salida_llm' ya existe en OneDrive.
‚Ü™Ô∏è Ya existen ambos TXT para fila 0 en OneDrive, se omite.
‚Ü™Ô∏è Ya existen ambos TXT para fila 1 en OneDrive, se omite.
‚Ü™Ô∏è Ya existen ambos TXT para fila 2 en OneDrive, se omite.
üß† Procesando llama en fila 3...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 3: Requested tokens (10086) exceed context window of 2048
üß† Procesando mistral en fila 3...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 3: Requested tokens (11966) exceed context window of 2048
üß† Procesando llama en fila 4...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 4: Requested tokens (14453) exceed context window of 2048
üß† Procesando mistral en fila 4...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 4: Requested tokens (18073) exceed context window of 2048
üß† Procesando llama en fila 5...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 5: Requested tokens (4278) exceed context window of 2048
üß† Procesando mistral en fila 5...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 5: Requested tokens (5183) exceed context window of 2048
üß† Procesando llama en fila 6...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 6: Requested tokens (54614) exceed context window of 2048
üß† Procesando mistral en fila 6...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 6: Requested tokens (66569) exceed context window of 2048
üß† Procesando llama en fila 7...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 7: Requested tokens (21942) exceed context window of 2048
üß† Procesando mistral en fila 7...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 7: Requested tokens (28078) exceed context window of 2048
üß† Procesando llama en fila 8...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256000357862.pdf__row8__llama.txt
üß† Procesando mistral en fila 8...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256000357862.pdf__row8__mistral.txt
üß† Procesando llama en fila 9...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 9: Requested tokens (20711) exceed context window of 2048
üß† Procesando mistral en fila 9...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 9: Requested tokens (25449) exceed context window of 2048
üß† Procesando llama en fila 10...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630351032.pdf__row10__llama.txt
üß† Procesando mistral en fila 10...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630351032.pdf__row10__mistral.txt
üß† Procesando llama en fila 11...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 11: Requested tokens (3674) exceed context window of 2048
üß† Procesando mistral en fila 11...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 11: Requested tokens (4418) exceed context window of 2048
üß† Procesando llama en fila 12...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630585652.pdf__row12__llama.txt
üß† Procesando mistral en fila 12...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630585652.pdf__row12__mistral.txt
üß† Procesando llama en fila 13...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 13: Requested tokens (12795) exceed context window of 2048
üß† Procesando mistral en fila 13...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 13: Requested tokens (15380) exceed context window of 2048
üß† Procesando llama en fila 14...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 14: Requested tokens (2395) exceed context window of 2048
üß† Procesando mistral en fila 14...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 14: Requested tokens (2771) exceed context window of 2048
üß† Procesando llama en fila 15...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 15: Requested tokens (3633) exceed context window of 2048
üß† Procesando mistral en fila 15...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 15: Requested tokens (4227) exceed context window of 2048
üß† Procesando llama en fila 16...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 16: Requested tokens (6165) exceed context window of 2048
üß† Procesando mistral en fila 16...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 16: Requested tokens (7282) exceed context window of 2048
üß† Procesando llama en fila 17...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 17: Requested tokens (4761) exceed context window of 2048
üß† Procesando mistral en fila 17...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 17: Requested tokens (6410) exceed context window of 2048
üß† Procesando llama en fila 18...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 18: Requested tokens (2225) exceed context window of 2048
üß† Procesando mistral en fila 18...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 18: Requested tokens (2668) exceed context window of 2048
üß† Procesando llama en fila 19...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630639192pdf.pdf__row19__llama.txt
üß† Procesando mistral en fila 19...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 120256630639192pdf.pdf__row19__mistral.txt
üß† Procesando llama en fila 20...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 20: Requested tokens (3300) exceed context window of 2048
üß† Procesando mistral en fila 20...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 20: Requested tokens (3969) exceed context window of 2048
üß† Procesando llama en fila 21...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 21: Requested tokens (2398) exceed context window of 2048
üß† Procesando mistral en fila 21...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 21: Requested tokens (2698) exceed context window of 2048
üß† Procesando llama en fila 22...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 22: Requested tokens (2734) exceed context window of 2048
üß† Procesando mistral en fila 22...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 22: Requested tokens (3119) exceed context window of 2048
üß† Procesando llama en fila 23...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202056630335322.pdf__row23__llama.txt
üß† Procesando mistral en fila 23...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202056630335322.pdf__row23__mistral.txt
üß† Procesando llama en fila 24...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202256630389412.pdf__row24__llama.txt
üß† Procesando mistral en fila 24...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202256630389412.pdf__row24__mistral.txt
üß† Procesando llama en fila 25...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 25: Requested tokens (3363) exceed context window of 2048
üß† Procesando mistral en fila 25...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 25: Requested tokens (4081) exceed context window of 2048
üß† Procesando llama en fila 26...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202506630434142.pdf__row26__llama.txt
üß† Procesando mistral en fila 26...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202506630434142.pdf__row26__mistral.txt
üß† Procesando llama en fila 27...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202506630434262.pdf__row27__llama.txt
üß† Procesando mistral en fila 27...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 27: Requested tokens (2214) exceed context window of 2048
üß† Procesando llama en fila 28...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚úÖ Subido a OneDrive: 202506630434322.pdf__row28__llama.txt
üß† Procesando mistral en fila 28...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 202506630434322.pdf__row28__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T09:47:34","request-id":"7805bcfb-9fba-4aba-8398-0e8474e6b259","client-request-id":"7805bcfb-9fba-4aba-8398-0e8474e6b259"}}}
üß† Procesando llama en fila 29...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253100144763.pdf__row29__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T09:50:48","request-id":"ec7e79e6-71be-4ba5-b032-4143ffee0d80","client-request-id":"ec7e79e6-71be-4ba5-b032-4143ffee0d80"}}}
üß† Procesando mistral en fila 29...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253100144763.pdf__row29__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T09:53:31","request-id":"b056c47b-807a-44b3-9207-7dafa412d139","client-request-id":"b056c47b-807a-44b3-9207-7dafa412d139"}}}
üß† Procesando llama en fila 30...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 30: Requested tokens (2281) exceed context window of 2048
üß† Procesando mistral en fila 30...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 30: Requested tokens (2764) exceed context window of 2048
üß† Procesando llama en fila 31...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253140105073.pdf__row31__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T09:59:22","request-id":"9e722a99-f462-4441-9112-5c0df29ca294","client-request-id":"9e722a99-f462-4441-9112-5c0df29ca294"}}}
üß† Procesando mistral en fila 31...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 31: Requested tokens (2375) exceed context window of 2048
üß† Procesando llama en fila 32...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 32: Requested tokens (3504) exceed context window of 2048
üß† Procesando mistral en fila 32...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 32: Requested tokens (4216) exceed context window of 2048
üß† Procesando llama en fila 33...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 33: Requested tokens (2269) exceed context window of 2048
üß† Procesando mistral en fila 33...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 33: Requested tokens (2679) exceed context window of 2048
üß† Procesando llama en fila 34...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253200075343.pdf__row34__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:04:59","request-id":"96d33139-a506-4d8a-aa25-0a82231abc08","client-request-id":"96d33139-a506-4d8a-aa25-0a82231abc08"}}}
üß† Procesando mistral en fila 34...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253200075343.pdf__row34__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:08:55","request-id":"bc2bd44a-3f61-4100-b8d6-2425df4d25c1","client-request-id":"bc2bd44a-3f61-4100-b8d6-2425df4d25c1"}}}
üß† Procesando llama en fila 35...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 35: Requested tokens (10223) exceed context window of 2048
üß† Procesando mistral en fila 35...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 35: Requested tokens (11911) exceed context window of 2048
üß† Procesando llama en fila 36...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253200097603.pdf__row36__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:13:11","request-id":"a75d5356-5705-4488-9d9b-62b621553cae","client-request-id":"a75d5356-5705-4488-9d9b-62b621553cae"}}}
üß† Procesando mistral en fila 36...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253200097603.pdf__row36__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:15:45","request-id":"e2e7df6c-b596-4404-a1d8-4b43aa827e45","client-request-id":"e2e7df6c-b596-4404-a1d8-4b43aa827e45"}}}
üß† Procesando llama en fila 37...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 37: Requested tokens (8535) exceed context window of 2048
üß† Procesando mistral en fila 37...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 37: Requested tokens (10171) exceed context window of 2048
üß† Procesando llama en fila 38...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240032413.pdf__row38__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:21:57","request-id":"9e825661-1a4d-4644-8842-372eb99cccc4","client-request-id":"9e825661-1a4d-4644-8842-372eb99cccc4"}}}
üß† Procesando mistral en fila 38...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240032413.pdf__row38__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:28:01","request-id":"e8ef6293-36e3-4eff-8df6-a2ebd91d1358","client-request-id":"e8ef6293-36e3-4eff-8df6-a2ebd91d1358"}}}
üß† Procesando llama en fila 39...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240098153.pdf__row39__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:35:24","request-id":"5893836e-52d2-419e-b9b9-aa6b765caaec","client-request-id":"5893836e-52d2-419e-b9b9-aa6b765caaec"}}}
üß† Procesando mistral en fila 39...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 39: Requested tokens (2324) exceed context window of 2048
üß† Procesando llama en fila 40...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 40: Requested tokens (10100) exceed context window of 2048
üß† Procesando mistral en fila 40...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 40: Requested tokens (11692) exceed context window of 2048
üß† Procesando llama en fila 41...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240143313.pdf__row41__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:39:35","request-id":"ff62f560-66d1-4911-94f5-7971e566d0ca","client-request-id":"ff62f560-66d1-4911-94f5-7971e566d0ca"}}}
üß† Procesando mistral en fila 41...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240143313.pdf__row41__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:43:05","request-id":"1b0c72dd-0a30-4bd7-afb6-c7b222abe1f4","client-request-id":"1b0c72dd-0a30-4bd7-afb6-c7b222abe1f4"}}}
üß† Procesando llama en fila 42...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240149273.pdf__row42__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:48:10","request-id":"e3023703-805d-4b87-b1fe-3516b9d44759","client-request-id":"e3023703-805d-4b87-b1fe-3516b9d44759"}}}
üß† Procesando mistral en fila 42...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240149273.pdf__row42__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:55:09","request-id":"8a1e20c9-d954-4643-bf22-2776849289ec","client-request-id":"8a1e20c9-d954-4643-bf22-2776849289ec"}}}
üß† Procesando llama en fila 43...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240152673.pdf__row43__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T10:59:02","request-id":"1466a9d6-b655-47d6-b430-807d2a4d576c","client-request-id":"1466a9d6-b655-47d6-b430-807d2a4d576c"}}}
üß† Procesando mistral en fila 43...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240152673.pdf__row43__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:02:34","request-id":"97c9c6df-dd14-4ed1-b695-053c7ac7ed0b","client-request-id":"97c9c6df-dd14-4ed1-b695-053c7ac7ed0b"}}}
üß† Procesando llama en fila 44...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 44: Requested tokens (2214) exceed context window of 2048
üß† Procesando mistral en fila 44...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 44: Requested tokens (2623) exceed context window of 2048
üß† Procesando llama en fila 45...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240164693pdf.pdf__row45__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:07:59","request-id":"534228b0-5514-4583-bd1d-4164d839160a","client-request-id":"534228b0-5514-4583-bd1d-4164d839160a"}}}
üß† Procesando mistral en fila 45...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240164693pdf.pdf__row45__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:12:32","request-id":"cc23c9f1-d3c0-4e25-a7eb-ce1888555f88","client-request-id":"cc23c9f1-d3c0-4e25-a7eb-ce1888555f88"}}}
üß† Procesando llama en fila 46...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240166523pdf.pdf__row46__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:15:06","request-id":"5a18f500-6529-45ee-bff3-fdc3a3b2787f","client-request-id":"5a18f500-6529-45ee-bff3-fdc3a3b2787f"}}}
üß† Procesando mistral en fila 46...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253240166523pdf.pdf__row46__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:18:31","request-id":"eee5fe57-54db-4707-bb40-f5d7f782bfd0","client-request-id":"eee5fe57-54db-4707-bb40-f5d7f782bfd0"}}}
üß† Procesando llama en fila 47...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error en modelo llama para fila 47: Requested tokens (3015) exceed context window of 2048
üß† Procesando mistral en fila 47...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error en modelo mistral para fila 47: Requested tokens (3740) exceed context window of 2048
üß† Procesando llama en fila 48...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253300051423.pdf__row48__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:23:55","request-id":"67d7edaa-3380-4f01-b438-4d9e5b226a06","client-request-id":"67d7edaa-3380-4f01-b438-4d9e5b226a06"}}}
üß† Procesando mistral en fila 48...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253300051423.pdf__row48__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:28:38","request-id":"6293b04b-e3fa-4dbd-bb93-5d2d4af1451e","client-request-id":"6293b04b-e3fa-4dbd-bb93-5d2d4af1451e"}}}
üß† Procesando llama en fila 49...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (8192) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253300095293.pdf__row49__llama.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:30:58","request-id":"b9574c03-954f-441e-aa42-4d72354b09aa","client-request-id":"b9574c03-954f-441e-aa42-4d72354b09aa"}}}
üß† Procesando mistral en fila 49...


llama_context: n_ctx_per_seq (2048) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


‚ùå Error subiendo 20253300095293.pdf__row49__mistral.txt: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:32:54","request-id":"98fb7de2-7ac1-4cc0-974c-a0da5837aeb9","client-request-id":"98fb7de2-7ac1-4cc0-974c-a0da5837aeb9"}}}

‚úÖ Listo. Archivos TXT generados en la carpeta 'orfeo_salida_llm' de OneDrive.


## 5. Consolidar y guardar los resultados

In [25]:

import requests
import pandas as pd
import re

# ================================================================
# 1. LISTAR Y DESCARGAR ARCHIVOS TXT DESDE ONEDRIVE
# ================================================================

def listar_txt_en_carpeta(drive_id, carpeta_id, headers):
    url = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{carpeta_id}/children"
    resp = requests.get(url, headers=headers)

    if resp.status_code != 200:
        raise Exception(f"Error listando TXT: {resp.status_code} - {resp.text}")

    data = resp.json().get("value", [])
    return [item for item in data if "file" in item and item["name"].endswith(".txt")]


def descargar_txt_onedrive(drive_id, item_id, headers):
    url = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{item_id}/content"
    resp = requests.get(url, headers=headers)

    if resp.status_code != 200:
        print(f"‚ùå Error descargando TXT {item_id}: {resp.status_code}")
        return ""

    # Garantizar UTF-8
    try:
        return resp.content.decode("utf-8", errors="replace").strip()
    except:
        return resp.text.strip()


# ================================================================
# 2. SEPARAR RESPUESTAS SEG√öN NUEVA INSTRUCCI√ìN (4 RESPUESTAS)
# ================================================================

def separar_respuestas(texto):
    """
    Extrae:
    1) Tema principal
    2) Origen de la solicitud
    3) Tipo de solicitud
    4) Resumen en 7 palabras
    """

    tema = origen = tipo = resumen = ""

    r1 = re.search(r"1\).*?:\s*(.*)", texto)
    r2 = re.search(r"2\).*?:\s*(.*)", texto)
    r3 = re.search(r"3\).*?:\s*(.*)", texto)
    r4 = re.search(r"4\).*?:\s*(.*)", texto)

    if r1: tema = r1.group(1).strip()
    if r2: origen = r2.group(1).strip()
    if r3: tipo = r3.group(1).strip()
    if r4: resumen = r4.group(1).strip()

    return tema, origen, tipo, resumen


# ================================================================
# 3. LEER TODOS LOS TXT Y CONSTRUIR EL CONSOLIDADO
# ================================================================

print("üìÅ Listando archivos TXT en OneDrive...")
archivos_txt = listar_txt_en_carpeta(drive_id, carpeta_salida_id, headers)

filas = []

for item in archivos_txt:
    nombre = item["name"]
    file_id = item["id"]

    # Detectar modelo
    if "__llama" in nombre:
        base = nombre.replace("__llama.txt", "")
        modelo = "llama"
    else:
        base = nombre.replace("__mistral.txt", "")
        modelo = "mistral"

    # Descargar contenido
    contenido = descargar_txt_onedrive(drive_id, file_id, headers)

    # Separar respuestas
    tema, origen, tipo, resumen = separar_respuestas(contenido)

    # Buscar fila existente
    fila = next((x for x in filas if x["nombre_archivo"] == base), None)

    if not fila:
        fila = {
            "nombre_archivo": base,
            "llama": "",
            "mistral": "",
            "llama_tema": "",
            "llama_origen": "",
            "llama_tipo": "",
            "llama_resumen": "",
            "mistral_tema": "",
            "mistral_origen": "",
            "mistral_tipo": "",
            "mistral_resumen": ""
        }
        filas.append(fila)

    # Guardar contenido
    fila[modelo] = contenido
    fila[f"{modelo}_tema"] = tema
    fila[f"{modelo}_origen"] = origen
    fila[f"{modelo}_tipo"] = tipo
    fila[f"{modelo}_resumen"] = resumen


# ================================================================
# 4. CREAR DATAFRAMES
# ================================================================
df = pd.DataFrame(filas)

df_llama = df[[
    "nombre_archivo", "llama",
    "llama_tema", "llama_origen", "llama_tipo", "llama_resumen"
]]

df_mistral = df[[
    "nombre_archivo", "mistral",
    "mistral_tema", "mistral_origen", "mistral_tipo", "mistral_resumen"
]]


# ================================================================
# 5. GUARDAR LOS 3 EXCELS Y SUBIRLOS A ONEDRIVE (UTF-8)
# ================================================================

df.to_excel(EXCEL_CONSOLIDADO, index=False, engine="xlsxwriter")
df_llama.to_excel(EXCEL_LLAMA, index=False, engine="xlsxwriter")
df_mistral.to_excel(EXCEL_MISTRAL, index=False, engine="xlsxwriter")


def subir_a_onedrive(nombre_archivo):
    url_upload = f"https://graph.microsoft.com/v1.0/drives/{drive_id}/items/{item_id}:/{nombre_archivo}:/content"
    with open(nombre_archivo, "rb") as f:
        resp = requests.put(url_upload, headers=headers, data=f.read())

    if resp.status_code not in (200, 201):
        print(f"‚ùå Error subiendo {nombre_archivo}:", resp.status_code, resp.text)
    else:
        print(f"‚úÖ Subido correctamente a OneDrive: {nombre_archivo}")


# Subir archivos
subir_a_onedrive(EXCEL_CONSOLIDADO)
subir_a_onedrive(EXCEL_LLAMA)
subir_a_onedrive(EXCEL_MISTRAL)

print("üéâ Todo listo: excels creados, separados, limpios y subidos a OneDrive.")


üìÅ Listando archivos TXT en OneDrive...


Exception: Error listando TXT: 401 - {"error":{"code":"InvalidAuthenticationToken","message":"Lifetime validation failed, the token is expired.","innerError":{"date":"2025-12-14T11:46:17","request-id":"3de319df-3555-4249-86c8-1d526ded382f","client-request-id":"3de319df-3555-4249-86c8-1d526ded382f"}}}