In [13]:
import transformers
from transformers import AutoTokenizer
import torch
import os
print(f"number of GPUs: torch.cuda.device_count()")
print(torch.__version__)

number of GPUs: torch.cuda.device_count()
2.6.0+rocm6.1


In [14]:
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" 

if  torch.cuda.is_available():
    device = "cuda"
else:
    raise ValueError("No se reconoció GPU.")

pipeline = transformers.pipeline(
	"text-generation", 
	model=model_id,
	model_kwargs={"torch_dtype": torch.bfloat16},
	device=device
)

# Tokenizer necesario para contar tokens
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Device set to use cuda


In [None]:
# Directorios de entrada y salida
input_dir = "test/"
output_dir = "out/"
os.makedirs(output_dir, exist_ok=True)

# Instrucciones para el modelo
prompt = [
    {"role": "system", 
     "content": 
        """ 
        Quiero que identifiques entidades nombradas que requieren ser anonimizadas en el informe clínico que copio entre comillas al final de esta instrucción. Quiero que me des el resultado en formato .xml in-line, donde las entidades sean identificadas por etiquetas en el mismo texto. Quiero que etiquetes con los criterios MEDDOCAN. A continuación, te muestro un ejemplo que contiene:
        - El texto original del informe en formato plano (.txt)
        - La representación estructurada del mismo en XML con etiquetas semánticas detalladas y posiciones de texto (atributos start, end, text, TYPE, etc.).
        Tu tarea será generar un XML con las mismas reglas de estructura y etiquetado a partir de cada texto clínico. Instrucciones:
        - Conserva el formato exacto del XML del ejemplo.
        - Cada etiqueta tiene que tener el tipo de entidad (`TYPE`) del inventario de MEDDOCAN. Los tipos de entidad que puedes usar son los siguientes: 
            NOMBRE_SUJETO_ASISTENCIA
            EDAD_SUJETO_ASISTENCIA
            SEXO_SUJETO_ASISTENCIA
            FAMILIARES_SUJETO_ASISTENCIA
            NOMBRE_PERSONAL_SANITARIO
            FECHAS
            PROFESION
            HOSPITAL
            CENTRO_SALUD
            INSTITUCION
            CALLE
            TERRITORIO
            PAIS
            NUMERO_TELEFONO
            NUMERO_FAX
            CORREO_ELECTRONICO
            ID_SUJETO_ASISTENCIA
            ID_CONTACTO_ASISTENCIAL
            ID_ASEGURAMIENTO
            ID_TITULACION_PERSONAL_SANITARIO
            ID_EMPLEO_PERSONAL_SANITARIO
            IDENTIF_VEHICULOS_NRSERIE_PLACAS
            IDENTIF_DISPOSITIVOS_NRSERIE
            DIREC_PROT_INTERNET
            URL_WEB
            IDENTIF_BIOMETRICOS
            OTRO_NUMERO_IDENTIF
            OTROS_SUJETO_ASISTENCIA
          - y un campo de comentario (`comment`) vacío
        Cuando te dé un nuevo texto, responde solo con el XML, sin explicaciones adicionales.
    
        Ejemplo - Informe en formato .txt: 
        Datos del paciente.
        Nombre:  Ernesto.
        Apellidos: Rivera Bueno.
        NHC: 368503.
        NASS: 26 63514095.
        Domicilio:  Calle Miguel Benitez 90.
        Localidad/ Provincia: Madrid.
        CP: 28016.
        Datos asistenciales.
        Fecha de nacimiento: 03/03/1946.
        País: España.
        Edad: 70 años Sexo: H.
        Fecha de Ingreso: 12/12/2016.
        Médico:  Ignacio Navarro Cuéllar NºCol: 28 28 70973.
        Informe clínico del paciente: Paciente de 70 años de edad, minero jubilado, sin alergias medicamentosas conocidas, que presenta como antecedentes personales: accidente laboral antiguo con fracturas vertebrales y costales; intervenido de enfermedad de Dupuytren en mano derecha y by-pass iliofemoral izquierdo; Diabetes Mellitus tipo II, hipercolesterolemia e hiperuricemia; enolismo activo, fumador de 20 cigarrillos / día.
        Es derivado desde Atención Primaria por presentar hematuria macroscópica postmiccional en una ocasión y microhematuria persistente posteriormente, con micciones normales.
        En la exploración física presenta un buen estado general, con abdomen y genitales normales; tacto rectal compatible con adenoma de próstata grado I/IV.
        En la analítica de orina destaca la existencia de 4 hematíes/ campo y 0-5 leucocitos/campo; resto de sedimento normal.
        Hemograma normal; en la bioquímica destaca una glucemia de 169 mg/dl y triglicéridos de 456 mg/dl; función hepática y renal normal. PSA de 1.16 ng/ml.
        Las citologías de orina son repetidamente sospechosas de malignidad.
        En la placa simple de abdomen se valoran cambios degenerativos en columna lumbar y calcificaciones vasculares en ambos hipocondrios y en pelvis.
        La ecografía urológica pone de manifiesto la existencia de quistes corticales simples en riñón derecho, vejiga sin alteraciones con buena capacidad y próstata con un peso de 30 g.
        En la UIV se observa normofuncionalismo renal bilateral, calcificaciones sobre silueta renal derecha y uréteres arrosariados con imágenes de adición en el tercio superior de ambos uréteres, en relación a pseudodiverticulosis ureteral. El cistograma demuestra una vejiga con buena capacidad, pero paredes trabeculadas en relación a vejiga de esfuerzo. La TC abdominal es normal.
        La cistoscopia descubre la existencia de pequeñas tumoraciones vesicales, realizándose resección transuretral con el resultado anatomopatológico de carcinoma urotelial superficial de vejiga.
        Remitido por: Ignacio Navarro Cuéllar c/ del Abedul 5-7, 2º dcha 28036 Madrid, España E-mail: nnavcu@hotmail.com.
    
        Ejemplo - Informe en formato .xml: lo que debes generar
        <?xml version='1.0' encoding='UTF-8'?>
        <MEDDOCAN>
          <TEXT>
        Ejemplo - Informe en formato .txt: 
        Datos del paciente.
        Nombre:  <TAG TYPE="NOMBRE_SUJETO_ASISTENCIA">Ernesto</TAG>.
        Apellidos: <TAG TYPE="NOMBRE_SUJETO_ASISTENCIA">Rivera Bueno</TAG>.
        NHC: <TAG TYPE="ID_SUJETO_ASISTENCIA">368503</TAG>.
        NASS: <TAG TYPE="ID_ASEGURAMIENTO">26 63514095</TAG>.
        Domicilio:  <TAG TYPE="CALLE">Calle Miguel Benitez 90</TAG>.
        Localidad/ Provincia: <TAG TYPE="TERRITORIO">Madrid</TAG>.
        CP: <TAG TYPE="TERRITORIO">28016</TAG>.
        Datos asistenciales.
        Fecha de nacimiento: <TAG TYPE="FECHAS">03/03/1946</TAG>.
        País: <TAG TYPE="PAIS">España</TAG>.
        Edad: <TAG TYPE="EDAD_SUJETO_ASISTENCIA">70 años</TAG> Sexo: <TAG TYPE="SEXO_SUJETO_ASISTENCIA">H</TAG>.
        Fecha de Ingreso: <TAG TYPE="FECHAS">12/12/2016</TAG>.
        Médico:  <TAG TYPE="NOMBRE_PERSONAL_SANITARIO">Ignacio</TAG> <TAG TYPE="NOMBRE_PERSONAL_SANITARIO">Navarro Cuéllar</TAG> NºCol: <TAG TYPE="ID_TITULACION_PERSONAL_SANITARIO">28 28 70973</TAG>.
        Informe clínico del paciente: Paciente de <TAG TYPE="EDAD_SUJETO_ASISTENCIA">70 años</TAG> de edad, minero jubilado, sin alergias medicamentosas conocidas, que presenta como antecedentes personales: accidente laboral antiguo con fracturas vertebrales y costales; intervenido de enfermedad de Dupuytren en mano derecha y by-pass iliofemoral izquierdo; Diabetes Mellitus tipo II, hipercolesterolemia e hiperuricemia; enolismo activo, fumador de 20 cigarrillos / día.
        Es derivado desde Atención Primaria por presentar hematuria macroscópica postmiccional en una ocasión y microhematuria persistente posteriormente, con micciones normales.
        En la exploración física presenta un buen estado general, con abdomen y genitales normales; tacto rectal compatible con adenoma de próstata grado I/IV.
        En la analítica de orina destaca la existencia de 4 hematíes/ campo y 0-5 leucocitos/campo; resto de sedimento normal.
        Hemograma normal; en la bioquímica destaca una glucemia de 169 mg/dl y triglicéridos de 456 mg/dl; función hepática y renal normal. PSA de 1.16 ng/ml.
        Las citologías de orina son repetidamente sospechosas de malignidad.
        En la placa simple de abdomen se valoran cambios degenerativos en columna lumbar y calcificaciones vasculares en ambos hipocondrios y en pelvis.
        La ecografía urológica pone de manifiesto la existencia de quistes corticales simples en riñón derecho, vejiga sin alteraciones con buena capacidad y próstata con un peso de 30 g.
        En la UIV se observa normofuncionalismo renal bilateral, calcificaciones sobre silueta renal derecha y uréteres arrosariados con imágenes de adición en el tercio superior de ambos uréteres, en relación a pseudodiverticulosis ureteral. El cistograma demuestra una vejiga con buena capacidad, pero paredes trabeculadas en relación a vejiga de esfuerzo. La TC abdominal es normal.
        La cistoscopia descubre la existencia de pequeñas tumoraciones vesicales, realizándose resección transuretral con el resultado anatomopatológico de carcinoma urotelial superficial de vejiga.
        Remitido por: <TAG TYPE="NOMBRE_PERSONAL_SANITARIO">Ignacio</TAG> <TAG TYPE="NOMBRE_PERSONAL_SANITARIO">Navarro Cuéllar</TAG> <TAG TYPE="CALLE">c/ del Abedul 5-7, 2º dcha</TAG> <TAG TYPE="TERRITORIO" >28036</TAG> <TAG TYPE="TERRITORIO" >Madrid</TAG>, <TAG TYPE="PAIS">España</TAG> E-mail: <TAG TYPE="CORREO_ELECTRONICO">nnavcu@hotmail.com</TAG>.
        </TEXT>
        </MEDDOCAN>
    
        Recordá que en ningún caso debes incluir advertencias, explicaciones ni descripciones sobre la tarea, sobre la instrucción que te he dado o sobre cuestiones de funcionamiento del modelo de lenguaje.
        """},
     ]

# Configuración de tokens
MAX_CONTEXT_TOKENS = 8192
MAX_GENERATION_TOKENS = 4000
MAX_INPUT_TOKENS = MAX_CONTEXT_TOKENS - MAX_GENERATION_TOKENS



# Procesar cada archivo .txt
for filename in os.listdir(input_dir):
    if filename.endswith(".txt"):
        filepath = os.path.join(input_dir, filename)
        with open(filepath, "r", encoding="utf-8") as f:
            texto = f.read()

        # Crear mensaje estilo chat
        prompt_text = prompt[0]["content"]
        messages = [
            {"role": "system", "content": prompt_text},
            {"role": "user", "content": texto}
        ]

        # Calcular tokens de entrada
        full_prompt = prompt_text + texto
        total_tokens = len(tokenizer.encode(full_prompt))
        print(f"{filename}: Tokens de entrada: {total_tokens}")

        # Truncar el prompt si se pasa del límite permitido
        if total_tokens > MAX_INPUT_TOKENS:
            print(f"Truncando prompt: {filename}")
            # Calcular los tokens disponibles para el prompt
            max_tokens_prompt = MAX_INPUT_TOKENS - len(tokenizer.encode(texto))
            
            # Truncar el prompt para ajustarlo al límite de tokens
            prompt_tokens = tokenizer.encode(prompt[0]["content"])
            truncated_prompt_tokens = prompt_tokens[:max_tokens_prompt]
            
            # Decodificar los tokens truncados y actualizar el prompt
            truncated_prompt = tokenizer.decode(truncated_prompt_tokens, skip_special_tokens=True)
            messages[0]["content"] = truncated_prompt

        # Generar texto
        output = pipeline(messages, max_new_tokens=MAX_GENERATION_TOKENS)

        # Extraer solo el contenido generado por el modelo
        respuesta = output[0]["generated_text"][2]["content"]

        # Guardar en .xml
        output_filename = os.path.splitext(filename)[0] + ".xml"
        output_path = os.path.join(output_dir, output_filename)
        with open(output_path, "w", encoding="utf-8") as out_f:
            out_f.write(respuesta)

        print(f"Procesado: {filename} → {output_filename}")

print("Proceso completado.")

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


S1134-80462005000300004-1.txt: Tokens de entrada: 3852


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462005000300004-1.txt → S1134-80462005000300004-1.xml
S0211-69952015000600014-2.txt: Tokens de entrada: 2855


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952015000600014-2.txt → S0211-69952015000600014-2.xml
S1137-66272006000300009-1.txt: Tokens de entrada: 3357


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272006000300009-1.txt → S1137-66272006000300009-1.xml
S0376-78922009000200008-1.txt: Tokens de entrada: 3221


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922009000200008-1.txt → S0376-78922009000200008-1.xml
S0004-06142009000200013-1.txt: Tokens de entrada: 3079


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142009000200013-1.txt → S0004-06142009000200013-1.xml
S0004-06142009000300014-1.txt: Tokens de entrada: 3026


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142009000300014-1.txt → S0004-06142009000300014-1.xml
S0365-66912007000900010-1.txt: Tokens de entrada: 3574


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912007000900010-1.txt → S0365-66912007000900010-1.xml
S1130-05582010000200004-1.txt: Tokens de entrada: 3375


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582010000200004-1.txt → S1130-05582010000200004-1.xml
S0211-69952016000300015-1.txt: Tokens de entrada: 3654


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952016000300015-1.txt → S0211-69952016000300015-1.xml
S1134-80462014000500004-1.txt: Tokens de entrada: 4117


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462014000500004-1.txt → S1134-80462014000500004-1.xml
S0210-56912006000300007-2.txt: Tokens de entrada: 2946


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912006000300007-2.txt → S0210-56912006000300007-2.xml
S0210-48062003001000009-1.txt: Tokens de entrada: 4238
Truncando prompt: S0210-48062003001000009-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062003001000009-1.txt → S0210-48062003001000009-1.xml
S0211-69952012000500016-1.txt: Tokens de entrada: 4085


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952012000500016-1.txt → S0211-69952012000500016-1.xml
S0378-48352006000400006-1.txt: Tokens de entrada: 3284


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0378-48352006000400006-1.txt → S0378-48352006000400006-1.xml
S1130-01082008000800010-1.txt: Tokens de entrada: 3049


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008000800010-1.txt → S1130-01082008000800010-1.xml
S0004-06142006000900015-1.txt: Tokens de entrada: 3230


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000900015-1.txt → S0004-06142006000900015-1.xml
S0004-06142008000500015-1.txt: Tokens de entrada: 3122


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000500015-1.txt → S0004-06142008000500015-1.xml
S2254-28842014000200009-1.txt: Tokens de entrada: 3675


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S2254-28842014000200009-1.txt → S2254-28842014000200009-1.xml
S1130-14732006000500005-1.txt: Tokens de entrada: 3448


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-14732006000500005-1.txt → S1130-14732006000500005-1.xml
S1698-44472004000100009-1.txt: Tokens de entrada: 3687


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1698-44472004000100009-1.txt → S1698-44472004000100009-1.xml
S1130-14732005000400006-1.txt: Tokens de entrada: 3333


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-14732005000400006-1.txt → S1130-14732005000400006-1.xml
S1130-05582011000300005-1.txt: Tokens de entrada: 3250


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582011000300005-1.txt → S1130-05582011000300005-1.xml
S0210-48062006000400012-1.txt: Tokens de entrada: 3566


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062006000400012-1.txt → S0210-48062006000400012-1.xml
S1130-05582013000400006-1.txt: Tokens de entrada: 3175


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582013000400006-1.txt → S1130-05582013000400006-1.xml
S0210-48062007001000004-4.txt: Tokens de entrada: 3391


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062007001000004-4.txt → S0210-48062007001000004-4.xml
S0210-48062009000600016-1.txt: Tokens de entrada: 3130


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000600016-1.txt → S0210-48062009000600016-1.xml
S0376-78922016000300005-1.txt: Tokens de entrada: 3142


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922016000300005-1.txt → S0376-78922016000300005-1.xml
S1889-836X2015000200005-2.txt: Tokens de entrada: 3523


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1889-836X2015000200005-2.txt → S1889-836X2015000200005-2.xml
S1699-695X2017000100011-1.txt: Tokens de entrada: 3166


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2017000100011-1.txt → S1699-695X2017000100011-1.xml
S1699-695X2014000200007-1.txt: Tokens de entrada: 3338


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2014000200007-1.txt → S1699-695X2014000200007-1.xml
S1887-85712015000200004-1.txt: Tokens de entrada: 3851


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1887-85712015000200004-1.txt → S1887-85712015000200004-1.xml
S1130-05582008000600006-1.txt: Tokens de entrada: 3584


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582008000600006-1.txt → S1130-05582008000600006-1.xml
S1130-63432013000600017-1.txt: Tokens de entrada: 3157


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432013000600017-1.txt → S1130-63432013000600017-1.xml
S1130-01082008001000008-1.txt: Tokens de entrada: 2843


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008001000008-1.txt → S1130-01082008001000008-1.xml
S1130-01082005000500013-1.txt: Tokens de entrada: 3244


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082005000500013-1.txt → S1130-01082005000500013-1.xml
S1137-66272012000300021-1.txt: Tokens de entrada: 3274


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272012000300021-1.txt → S1137-66272012000300021-1.xml
S0365-66912004000800009-1.txt: Tokens de entrada: 3068


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912004000800009-1.txt → S0365-66912004000800009-1.xml
S1134-80462005000100007-1.txt: Tokens de entrada: 3513


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462005000100007-1.txt → S1134-80462005000100007-1.xml
S0210-56912008000200007-1.txt: Tokens de entrada: 3238


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912008000200007-1.txt → S0210-56912008000200007-1.xml
S1130-05582017000300150-3.txt: Tokens de entrada: 2753


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582017000300150-3.txt → S1130-05582017000300150-3.xml
S1130-01082008000900016-1.txt: Tokens de entrada: 2983


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008000900016-1.txt → S1130-01082008000900016-1.xml
S0004-06142006000900014-1.txt: Tokens de entrada: 3467


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000900014-1.txt → S0004-06142006000900014-1.xml
S0211-69952017000200225-1.txt: Tokens de entrada: 3209


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952017000200225-1.txt → S0211-69952017000200225-1.xml
S0210-48062004000300007-1.txt: Tokens de entrada: 3667


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000300007-1.txt → S0210-48062004000300007-1.xml
S0004-06142007000900013-1.txt: Tokens de entrada: 2961


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000900013-1.txt → S0004-06142007000900013-1.xml
S1139-76322009000700014-2.txt: Tokens de entrada: 3371


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322009000700014-2.txt → S1139-76322009000700014-2.xml
S1130-01082006000700014-1.txt: Tokens de entrada: 3223


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082006000700014-1.txt → S1130-01082006000700014-1.xml
S0004-06142008000600011-1.txt: Tokens de entrada: 3566


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000600011-1.txt → S0004-06142008000600011-1.xml
S0211-69952014000400020-1.txt: Tokens de entrada: 2931


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952014000400020-1.txt → S0211-69952014000400020-1.xml
S0365-66912012000500005-1.txt: Tokens de entrada: 3330


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912012000500005-1.txt → S0365-66912012000500005-1.xml
S1137-66272012000100018-1.txt: Tokens de entrada: 3700


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272012000100018-1.txt → S1137-66272012000100018-1.xml
S0210-56912007000200007-3.txt: Tokens de entrada: 3295


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912007000200007-3.txt → S0210-56912007000200007-3.xml
S0212-16112009000300015-1.txt: Tokens de entrada: 3010


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-16112009000300015-1.txt → S0212-16112009000300015-1.xml
S1134-80462009000800005-1.txt: Tokens de entrada: 3572


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462009000800005-1.txt → S1134-80462009000800005-1.xml
S0211-69952014000600016-1.txt: Tokens de entrada: 2887


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952014000600016-1.txt → S0211-69952014000600016-1.xml
S0210-48062009001000019-1.txt: Tokens de entrada: 3323


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009001000019-1.txt → S0210-48062009001000019-1.xml
S0212-71992006000600008-1.txt: Tokens de entrada: 3088


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992006000600008-1.txt → S0212-71992006000600008-1.xml
S0378-48352006000300005-1.txt: Tokens de entrada: 3715


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0378-48352006000300005-1.txt → S0378-48352006000300005-1.xml
S0365-66912007000700011-1.txt: Tokens de entrada: 3051


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912007000700011-1.txt → S0365-66912007000700011-1.xml
S0004-06142008000700003-1.txt: Tokens de entrada: 3281


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000700003-1.txt → S0004-06142008000700003-1.xml
S1130-63432013000400011-2.txt: Tokens de entrada: 3032


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432013000400011-2.txt → S1130-63432013000400011-2.xml
S1699-695X2016000200010-1.txt: Tokens de entrada: 3224


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2016000200010-1.txt → S1699-695X2016000200010-1.xml
S0004-06142007000100015-1.txt: Tokens de entrada: 3525


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000100015-1.txt → S0004-06142007000100015-1.xml
S0378-48352004000300007-1.txt: Tokens de entrada: 3453


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0378-48352004000300007-1.txt → S0378-48352004000300007-1.xml
S0004-06142009000900011-1.txt: Tokens de entrada: 3107


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142009000900011-1.txt → S0004-06142009000900011-1.xml
S1139-76322017000200009-1.txt: Tokens de entrada: 3118


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322017000200009-1.txt → S1139-76322017000200009-1.xml
S1130-01082008000900015-1.txt: Tokens de entrada: 3074


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008000900015-1.txt → S1130-01082008000900015-1.xml
S1130-01082007001100010-1.txt: Tokens de entrada: 3079


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082007001100010-1.txt → S1130-01082007001100010-1.xml
S0365-66912012000700004-1.txt: Tokens de entrada: 2913


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912012000700004-1.txt → S0365-66912012000700004-1.xml
S1139-76322013000100009-1.txt: Tokens de entrada: 2950


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322013000100009-1.txt → S1139-76322013000100009-1.xml
S1130-01082007001000017-1.txt: Tokens de entrada: 3461


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082007001000017-1.txt → S1130-01082007001000017-1.xml
S0210-48062006000200017-1.txt: Tokens de entrada: 3405


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062006000200017-1.txt → S0210-48062006000200017-1.xml
S0213-12852006000600002-1.txt: Tokens de entrada: 3931


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0213-12852006000600002-1.txt → S0213-12852006000600002-1.xml
S0365-66912006000100010-1.txt: Tokens de entrada: 3252


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912006000100010-1.txt → S0365-66912006000100010-1.xml
S1139-76322016000400012-1.txt: Tokens de entrada: 3142


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322016000400012-1.txt → S1139-76322016000400012-1.xml
S1135-76062011000200009-1.txt: Tokens de entrada: 2806


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1135-76062011000200009-1.txt → S1135-76062011000200009-1.xml
S0212-71992006000100005-1.txt: Tokens de entrada: 3419


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992006000100005-1.txt → S0212-71992006000100005-1.xml
S0376-78922016000300010-1.txt: Tokens de entrada: 3885


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922016000300010-1.txt → S0376-78922016000300010-1.xml
S0212-71992007000200007-1.txt: Tokens de entrada: 3218


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992007000200007-1.txt → S0212-71992007000200007-1.xml
S1139-76322017000200016-3.txt: Tokens de entrada: 2761


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322017000200016-3.txt → S1139-76322017000200016-3.xml
S0211-69952013000200025-1.txt: Tokens de entrada: 3215


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952013000200025-1.txt → S0211-69952013000200025-1.xml
S0004-06142007000900010-1.txt: Tokens de entrada: 3330


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000900010-1.txt → S0004-06142007000900010-1.xml
S0004-06142007000600014-1.txt: Tokens de entrada: 3123


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000600014-1.txt → S0004-06142007000600014-1.xml
S1130-01082007000400015-1.txt: Tokens de entrada: 3000


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082007000400015-1.txt → S1130-01082007000400015-1.xml
S1130-01082009000900012-1.txt: Tokens de entrada: 3151


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082009000900012-1.txt → S1130-01082009000900012-1.xml
S0210-48062004000800009-1.txt: Tokens de entrada: 3156


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000800009-1.txt → S0210-48062004000800009-1.xml
S0210-48062009000600018-1.txt: Tokens de entrada: 3427


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000600018-1.txt → S0210-48062009000600018-1.xml
S1134-80462005000300007-1.txt: Tokens de entrada: 3459


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462005000300007-1.txt → S1134-80462005000300007-1.xml
S0365-66912011000400005-1.txt: Tokens de entrada: 3132


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912011000400005-1.txt → S0365-66912011000400005-1.xml
S1139-76322016000300012-1.txt: Tokens de entrada: 3056


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322016000300012-1.txt → S1139-76322016000300012-1.xml
S1137-66272013000200023-1.txt: Tokens de entrada: 3779


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272013000200023-1.txt → S1137-66272013000200023-1.xml
S1130-01082010000100021-1.txt: Tokens de entrada: 2858


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082010000100021-1.txt → S1130-01082010000100021-1.xml
S0004-06142010000500011-1.txt: Tokens de entrada: 3469


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142010000500011-1.txt → S0004-06142010000500011-1.xml
S1130-01082008000800009-1.txt: Tokens de entrada: 3080


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008000800009-1.txt → S1130-01082008000800009-1.xml
S1137-66272012000300023-1.txt: Tokens de entrada: 3012


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272012000300023-1.txt → S1137-66272012000300023-1.xml
S1134-80462009000800008-1.txt: Tokens de entrada: 3125


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462009000800008-1.txt → S1134-80462009000800008-1.xml
S0210-48062004000400008-1.txt: Tokens de entrada: 3295


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000400008-1.txt → S0210-48062004000400008-1.xml
S1134-80462008000800003-1.txt: Tokens de entrada: 3256


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462008000800003-1.txt → S1134-80462008000800003-1.xml
S0004-06142009000100010-3.txt: Tokens de entrada: 2920


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142009000100010-3.txt → S0004-06142009000100010-3.xml
S1130-05582017000200099-1.txt: Tokens de entrada: 3040


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582017000200099-1.txt → S1130-05582017000200099-1.xml
S0210-48062005000800014-1.txt: Tokens de entrada: 2918


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062005000800014-1.txt → S0210-48062005000800014-1.xml
S0004-06142010000100015-1.txt: Tokens de entrada: 2898


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142010000100015-1.txt → S0004-06142010000100015-1.xml
S1135-76062013000200010-1.txt: Tokens de entrada: 3476


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1135-76062013000200010-1.txt → S1135-76062013000200010-1.xml
S1699-695X2015000300013-1.txt: Tokens de entrada: 3486


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2015000300013-1.txt → S1699-695X2015000300013-1.xml
S0376-78922013000300013-1.txt: Tokens de entrada: 3616


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922013000300013-1.txt → S0376-78922013000300013-1.xml
S1130-14732006000200011-1.txt: Tokens de entrada: 3407


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-14732006000200011-1.txt → S1130-14732006000200011-1.xml
S0004-06142009000500011-1.txt: Tokens de entrada: 3254


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142009000500011-1.txt → S0004-06142009000500011-1.xml
S0004-06142007000900011-1.txt: Tokens de entrada: 3373


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000900011-1.txt → S0004-06142007000900011-1.xml
S0210-48062009000900015-3.txt: Tokens de entrada: 3036


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000900015-3.txt → S0210-48062009000900015-3.xml
S1130-05582016000100005-1.txt: Tokens de entrada: 3195


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582016000100005-1.txt → S1130-05582016000100005-1.xml
S1134-80462008000200008-1.txt: Tokens de entrada: 3327


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462008000200008-1.txt → S1134-80462008000200008-1.xml
S0376-78922015000100011-1.txt: Tokens de entrada: 4332
Truncando prompt: S0376-78922015000100011-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922015000100011-1.txt → S0376-78922015000100011-1.xml
S0210-48062004000500008-1.txt: Tokens de entrada: 3381


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000500008-1.txt → S0210-48062004000500008-1.xml
S0210-56912006000800008-1.txt: Tokens de entrada: 3410


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912006000800008-1.txt → S0210-56912006000800008-1.xml
S0376-78922009000100005-1.txt: Tokens de entrada: 2939


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922009000100005-1.txt → S0376-78922009000100005-1.xml
S1130-63432016000100007-1.txt: Tokens de entrada: 3305


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432016000100007-1.txt → S1130-63432016000100007-1.xml
S0212-71992006000700009-1.txt: Tokens de entrada: 3451


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992006000700009-1.txt → S0212-71992006000700009-1.xml
S1139-76322010000300008-1.txt: Tokens de entrada: 2923


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322010000300008-1.txt → S1139-76322010000300008-1.xml
S0376-78922009000400010-1.txt: Tokens de entrada: 2916


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922009000400010-1.txt → S0376-78922009000400010-1.xml
S1137-66272007000500016-1.txt: Tokens de entrada: 3240


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272007000500016-1.txt → S1137-66272007000500016-1.xml
S0211-69952013000200018-1.txt: Tokens de entrada: 3631


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952013000200018-1.txt → S0211-69952013000200018-1.xml
S1137-66272011000100013-2.txt: Tokens de entrada: 3070


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272011000100013-2.txt → S1137-66272011000100013-2.xml
S1137-66272014000200013-1.txt: Tokens de entrada: 3544


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272014000200013-1.txt → S1137-66272014000200013-1.xml
S1130-05582008000500006-1.txt: Tokens de entrada: 3095


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582008000500006-1.txt → S1130-05582008000500006-1.xml
S0376-78922012000300005-1.txt: Tokens de entrada: 3838


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922012000300005-1.txt → S0376-78922012000300005-1.xml
S0210-56912006000600007-1.txt: Tokens de entrada: 4061


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912006000600007-1.txt → S0210-56912006000600007-1.xml
S0213-12852005000400003-1.txt: Tokens de entrada: 3298


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0213-12852005000400003-1.txt → S0213-12852005000400003-1.xml
S1139-76322014000500011-1.txt: Tokens de entrada: 3358


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322014000500011-1.txt → S1139-76322014000500011-1.xml
S0004-06142007000700015-1.txt: Tokens de entrada: 2921


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000700015-1.txt → S0004-06142007000700015-1.xml
S1130-05582012000300005-1.txt: Tokens de entrada: 3079


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582012000300005-1.txt → S1130-05582012000300005-1.xml
S0004-06142008000600014-1.txt: Tokens de entrada: 3343


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000600014-1.txt → S0004-06142008000600014-1.xml
S0004-06142008000400011-2.txt: Tokens de entrada: 2926


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000400011-2.txt → S0004-06142008000400011-2.xml
S1130-14732005000200009-1.txt: Tokens de entrada: 2840


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-14732005000200009-1.txt → S1130-14732005000200009-1.xml
S1137-66272009000100013-1.txt: Tokens de entrada: 3421


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272009000100013-1.txt → S1137-66272009000100013-1.xml
S0378-48352006000500005-1.txt: Tokens de entrada: 3188


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0378-48352006000500005-1.txt → S0378-48352006000500005-1.xml
S0365-66912004001200010-2.txt: Tokens de entrada: 3022


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912004001200010-2.txt → S0365-66912004001200010-2.xml
S0212-71992005000400009-1.txt: Tokens de entrada: 3941


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992005000400009-1.txt → S0212-71992005000400009-1.xml
S0210-48062009000200017-1.txt: Tokens de entrada: 3348


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000200017-1.txt → S0210-48062009000200017-1.xml
S0365-66912004001100012-1.txt: Tokens de entrada: 3344


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912004001100012-1.txt → S0365-66912004001100012-1.xml
S0210-56912009000900008-1.txt: Tokens de entrada: 3413


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912009000900008-1.txt → S0210-56912009000900008-1.xml
S0210-48062007000500016-1.txt: Tokens de entrada: 3821


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062007000500016-1.txt → S0210-48062007000500016-1.xml
S0365-66912005001100009-2.txt: Tokens de entrada: 2832


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912005001100009-2.txt → S0365-66912005001100009-2.xml
S0212-16112012000500042-1.txt: Tokens de entrada: 3943


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-16112012000500042-1.txt → S0212-16112012000500042-1.xml
S1137-66272010000300010-1.txt: Tokens de entrada: 3274


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272010000300010-1.txt → S1137-66272010000300010-1.xml
S0212-71992006000900007-1.txt: Tokens de entrada: 3275


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992006000900007-1.txt → S0212-71992006000900007-1.xml
S0365-66912011000900005-1.txt: Tokens de entrada: 2979


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912011000900005-1.txt → S0365-66912011000900005-1.xml
S1130-01082010000700016-1.txt: Tokens de entrada: 3105


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082010000700016-1.txt → S1130-01082010000700016-1.xml
S1889-836X2015000100003-1.txt: Tokens de entrada: 3599


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1889-836X2015000100003-1.txt → S1889-836X2015000100003-1.xml
S0212-71992007000600008-1.txt: Tokens de entrada: 4221
Truncando prompt: S0212-71992007000600008-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992007000600008-1.txt → S0212-71992007000600008-1.xml
S1130-63432014000100012-1.txt: Tokens de entrada: 4487
Truncando prompt: S1130-63432014000100012-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432014000100012-1.txt → S1130-63432014000100012-1.xml
S0211-69952013000200019-1.txt: Tokens de entrada: 3133


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952013000200019-1.txt → S0211-69952013000200019-1.xml
S0210-48062007000100004-1.txt: Tokens de entrada: 2983


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062007000100004-1.txt → S0210-48062007000100004-1.xml
S0004-06142006000900006-1.txt: Tokens de entrada: 2966


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000900006-1.txt → S0004-06142006000900006-1.xml
S0365-66912008000100007-2.txt: Tokens de entrada: 2919


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912008000100007-2.txt → S0365-66912008000100007-2.xml
S1130-63432014000600009-1.txt: Tokens de entrada: 3658


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432014000600009-1.txt → S1130-63432014000600009-1.xml
S0365-66912004000600009-2.txt: Tokens de entrada: 2860


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912004000600009-2.txt → S0365-66912004000600009-2.xml
S0210-48062007000700014-1.txt: Tokens de entrada: 2938


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062007000700014-1.txt → S0210-48062007000700014-1.xml
S0365-66912009000300009-1.txt: Tokens de entrada: 2925


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912009000300009-1.txt → S0365-66912009000300009-1.xml
S1887-85712015000100005-1.txt: Tokens de entrada: 3442


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1887-85712015000100005-1.txt → S1887-85712015000100005-1.xml
S1698-69462006000100017-1.txt: Tokens de entrada: 3083


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1698-69462006000100017-1.txt → S1698-69462006000100017-1.xml
S1130-14732006000400007-1.txt: Tokens de entrada: 3763


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-14732006000400007-1.txt → S1130-14732006000400007-1.xml
S0004-06142006000500011-1.txt: Tokens de entrada: 3422


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000500011-1.txt → S0004-06142006000500011-1.xml
S1130-01082009000900015-1.txt: Tokens de entrada: 2911


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082009000900015-1.txt → S1130-01082009000900015-1.xml
S0211-69952013000500035-1.txt: Tokens de entrada: 3249


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952013000500035-1.txt → S0211-69952013000500035-1.xml
S1134-80462004000400007-1.txt: Tokens de entrada: 3105


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462004000400007-1.txt → S1134-80462004000400007-1.xml
S1698-69462006000400002-1.txt: Tokens de entrada: 3390


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1698-69462006000400002-1.txt → S1698-69462006000400002-1.xml
S1139-76322013000500010-1.txt: Tokens de entrada: 3153


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322013000500010-1.txt → S1139-76322013000500010-1.xml
S0212-71992005001200008-1.txt: Tokens de entrada: 3165


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992005001200008-1.txt → S0212-71992005001200008-1.xml
S0210-48062007000100012-1.txt: Tokens de entrada: 3084


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062007000100012-1.txt → S0210-48062007000100012-1.xml
S0365-66912008000100009-3.txt: Tokens de entrada: 2992


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912008000100009-3.txt → S0365-66912008000100009-3.xml
S1889-836X2016000100006-1.txt: Tokens de entrada: 3441


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1889-836X2016000100006-1.txt → S1889-836X2016000100006-1.xml
S0004-06142006000600014-1.txt: Tokens de entrada: 2980


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000600014-1.txt → S0004-06142006000600014-1.xml
S0004-06142006000700013-1.txt: Tokens de entrada: 3260


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000700013-1.txt → S0004-06142006000700013-1.xml
S1698-44472004000200012-1.txt: Tokens de entrada: 3088


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1698-44472004000200012-1.txt → S1698-44472004000200012-1.xml
S0378-48352005000100005-1.txt: Tokens de entrada: 3089


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0378-48352005000100005-1.txt → S0378-48352005000100005-1.xml
S1139-76322015000100013-1.txt: Tokens de entrada: 2982


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322015000100013-1.txt → S1139-76322015000100013-1.xml
S0365-66912006001100007-1.txt: Tokens de entrada: 2983


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912006001100007-1.txt → S0365-66912006001100007-1.xml
S1130-63432014000100011-1.txt: Tokens de entrada: 3670


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432014000100011-1.txt → S1130-63432014000100011-1.xml
S1130-01082005001200013-1.txt: Tokens de entrada: 2909


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082005001200013-1.txt → S1130-01082005001200013-1.xml
S0212-71992007000400005-1.txt: Tokens de entrada: 3210


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992007000400005-1.txt → S0212-71992007000400005-1.xml
S0365-66912007000900016-1.txt: Tokens de entrada: 3543


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912007000900016-1.txt → S0365-66912007000900016-1.xml
S0365-66912004000900009-1.txt: Tokens de entrada: 3145


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912004000900009-1.txt → S0365-66912004000900009-1.xml
S0004-06142010000500014-1.txt: Tokens de entrada: 3333


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142010000500014-1.txt → S0004-06142010000500014-1.xml
S1130-05582009000400004-1.txt: Tokens de entrada: 2945


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582009000400004-1.txt → S1130-05582009000400004-1.xml
S1130-05582016000400228-1.txt: Tokens de entrada: 3029


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582016000400228-1.txt → S1130-05582016000400228-1.xml
S0365-66912009000100008-1.txt: Tokens de entrada: 3280


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912009000100008-1.txt → S0365-66912009000100008-1.xml
S0365-66912012000200003-1.txt: Tokens de entrada: 3201


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912012000200003-1.txt → S0365-66912012000200003-1.xml
S1130-05582015000400010-1.txt: Tokens de entrada: 3424


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582015000400010-1.txt → S1130-05582015000400010-1.xml
S0004-06142008000300015-1.txt: Tokens de entrada: 2959


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142008000300015-1.txt → S0004-06142008000300015-1.xml
S1130-63432015000500008-1.txt: Tokens de entrada: 2899


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432015000500008-1.txt → S1130-63432015000500008-1.xml
S1130-63432016000400010-1.txt: Tokens de entrada: 3454


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432016000400010-1.txt → S1130-63432016000400010-1.xml
S1137-66272014000300016-1.txt: Tokens de entrada: 3597


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272014000300016-1.txt → S1137-66272014000300016-1.xml
S0212-71992007001000007-1.txt: Tokens de entrada: 3539


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-71992007001000007-1.txt → S0212-71992007001000007-1.xml
S1130-05582011000200005-1.txt: Tokens de entrada: 3108


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582011000200005-1.txt → S1130-05582011000200005-1.xml
S0210-48062009001000016-2.txt: Tokens de entrada: 2915


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009001000016-2.txt → S0210-48062009001000016-2.xml
S1699-695X2014000300011-1.txt: Tokens de entrada: 3033


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2014000300011-1.txt → S1699-695X2014000300011-1.xml
S1135-76062014000100006-1.txt: Tokens de entrada: 3035


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1135-76062014000100006-1.txt → S1135-76062014000100006-1.xml
S0376-78922009000100011-1.txt: Tokens de entrada: 4313
Truncando prompt: S0376-78922009000100011-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922009000100011-1.txt → S0376-78922009000100011-1.xml
S1134-80462015000500005-1.txt: Tokens de entrada: 2987


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462015000500005-1.txt → S1134-80462015000500005-1.xml
S0212-16112012000300028-1.txt: Tokens de entrada: 3872


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0212-16112012000300028-1.txt → S0212-16112012000300028-1.xml
S0004-06142007000900014-1.txt: Tokens de entrada: 3503


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000900014-1.txt → S0004-06142007000900014-1.xml
S0210-48062009000200019-1.txt: Tokens de entrada: 3381


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000200019-1.txt → S0210-48062009000200019-1.xml
S1130-01082009000700015-1.txt: Tokens de entrada: 3013


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082009000700015-1.txt → S1130-01082009000700015-1.xml
S0376-78922011000500012-1.txt: Tokens de entrada: 3612


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922011000500012-1.txt → S0376-78922011000500012-1.xml
S1137-66272011000100013-3.txt: Tokens de entrada: 2991


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272011000100013-3.txt → S1137-66272011000100013-3.xml
S0211-69952014000200016-1.txt: Tokens de entrada: 3106


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952014000200016-1.txt → S0211-69952014000200016-1.xml
S0365-66912005001200012-1.txt: Tokens de entrada: 2969


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912005001200012-1.txt → S0365-66912005001200012-1.xml
S0210-48062006000300014-1.txt: Tokens de entrada: 4151


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062006000300014-1.txt → S0210-48062006000300014-1.xml
S1130-05582013000200007-1.txt: Tokens de entrada: 3443


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582013000200007-1.txt → S1130-05582013000200007-1.xml
S1130-63432013000300013-1.txt: Tokens de entrada: 3294


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-63432013000300013-1.txt → S1130-63432013000300013-1.xml
S0210-48062010000100019-4.txt: Tokens de entrada: 2973


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062010000100019-4.txt → S0210-48062010000100019-4.xml
S0210-48062010000100019-3.txt: Tokens de entrada: 2966


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062010000100019-3.txt → S0210-48062010000100019-3.xml
S1130-01082008000500017-2.txt: Tokens de entrada: 2941


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008000500017-2.txt → S1130-01082008000500017-2.xml
S0210-48062004000500010-1.txt: Tokens de entrada: 3166


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000500010-1.txt → S0210-48062004000500010-1.xml
S0365-66912012000500005-2.txt: Tokens de entrada: 3114


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912012000500005-2.txt → S0365-66912012000500005-2.xml
S0213-12852016000500002-1.txt: Tokens de entrada: 4271
Truncando prompt: S0213-12852016000500002-1.txt


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0213-12852016000500002-1.txt → S0213-12852016000500002-1.xml
S1132-62552015000100006-1.txt: Tokens de entrada: 3804


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1132-62552015000100006-1.txt → S1132-62552015000100006-1.xml
S0365-66912011000700004-1.txt: Tokens de entrada: 3096


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912011000700004-1.txt → S0365-66912011000700004-1.xml
S1139-76322010000100009-1.txt: Tokens de entrada: 3116


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322010000100009-1.txt → S1139-76322010000100009-1.xml
S1130-05582010000200003-1.txt: Tokens de entrada: 3374


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582010000200003-1.txt → S1130-05582010000200003-1.xml
S0465-546X2014000400012-1.txt: Tokens de entrada: 2977


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0465-546X2014000400012-1.txt → S0465-546X2014000400012-1.xml
S0210-56912011000500009-3.txt: Tokens de entrada: 2942


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912011000500009-3.txt → S0210-56912011000500009-3.xml
S1699-695X2014000300006-1.txt: Tokens de entrada: 3345


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2014000300006-1.txt → S1699-695X2014000300006-1.xml
S1139-76322011000300007-2.txt: Tokens de entrada: 2811


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322011000300007-2.txt → S1139-76322011000300007-2.xml
S1130-05582009000400005-1.txt: Tokens de entrada: 3556


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582009000400005-1.txt → S1130-05582009000400005-1.xml
S0004-06142006000500002-2.txt: Tokens de entrada: 3108


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142006000500002-2.txt → S0004-06142006000500002-2.xml
S1887-85712011000200007-1.txt: Tokens de entrada: 3490


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1887-85712011000200007-1.txt → S1887-85712011000200007-1.xml
S1130-05582007000500003-1.txt: Tokens de entrada: 2962


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582007000500003-1.txt → S1130-05582007000500003-1.xml
S1134-80462006000600005-1.txt: Tokens de entrada: 3626


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1134-80462006000600005-1.txt → S1134-80462006000600005-1.xml
S1139-76322011000200007-1.txt: Tokens de entrada: 3202


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1139-76322011000200007-1.txt → S1139-76322011000200007-1.xml
S0376-78922009000200008-2.txt: Tokens de entrada: 2963


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0376-78922009000200008-2.txt → S0376-78922009000200008-2.xml
S0365-66912007001200011-1.txt: Tokens de entrada: 3145


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912007001200011-1.txt → S0365-66912007001200011-1.xml
S1699-695X2014000300010-1.txt: Tokens de entrada: 3393


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2014000300010-1.txt → S1699-695X2014000300010-1.xml
S1137-66272012000200017-1.txt: Tokens de entrada: 3189


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272012000200017-1.txt → S1137-66272012000200017-1.xml
S0211-69952011000500011-3.txt: Tokens de entrada: 2988


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-69952011000500011-3.txt → S0211-69952011000500011-3.xml
S0365-66912005001000011-1.txt: Tokens de entrada: 3184


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912005001000011-1.txt → S0365-66912005001000011-1.xml
S1130-01082008001200016-1.txt: Tokens de entrada: 2850


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082008001200016-1.txt → S1130-01082008001200016-1.xml
S1130-05582012000300006-1.txt: Tokens de entrada: 3438


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-05582012000300006-1.txt → S1130-05582012000300006-1.xml
S0210-48062009000200018-1.txt: Tokens de entrada: 3679


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062009000200018-1.txt → S0210-48062009000200018-1.xml
S1130-01082009000600013-1.txt: Tokens de entrada: 2895


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1130-01082009000600013-1.txt → S1130-01082009000600013-1.xml
S0211-57352015000100011-2.txt: Tokens de entrada: 3781


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0211-57352015000100011-2.txt → S0211-57352015000100011-2.xml
S0004-06142007000500014-1.txt: Tokens de entrada: 2911


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0004-06142007000500014-1.txt → S0004-06142007000500014-1.xml
S0365-66912012000800005-1.txt: Tokens de entrada: 3097


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0365-66912012000800005-1.txt → S0365-66912012000800005-1.xml
S0210-56912008000100008-1.txt: Tokens de entrada: 3104


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-56912008000100008-1.txt → S0210-56912008000100008-1.xml
S1137-66272011000300022-1.txt: Tokens de entrada: 3243


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1137-66272011000300022-1.txt → S1137-66272011000300022-1.xml
S0210-48062004000500011-1.txt: Tokens de entrada: 3204


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062004000500011-1.txt → S0210-48062004000500011-1.xml
S1699-695X2015000200010-1.txt: Tokens de entrada: 3238


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S1699-695X2015000200010-1.txt → S1699-695X2015000200010-1.xml
S0210-48062005001000013-1.txt: Tokens de entrada: 3777


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Procesado: S0210-48062005001000013-1.txt → S0210-48062005001000013-1.xml
S1698-44472004000500007-1.txt: Tokens de entrada: 3367
