En primer lugar, se obtienen los chunks generados y guardados en el primer script para posteriormente, obtener sus embeddings.

In [1]:
import pickle, numpy as np

from google.colab import drive
drive.mount('/content/drive')

# Cargar chunks desde Drive
with open("/content/drive/MyDrive/forma_dividida/fase_1_chunks.pkl", "rb") as f:
    chunks_para_rag = pickle.load(f)

Mounted at /content/drive


# Embeddings

Se carga el modelo de embeddings (all-MiniLM-L6-v2) para convertir los textos en vectores semánticos (embeddings). Se extraen los textos de cada chunk y se vectoriza cada texto con model.encode(). Esto sirve para indexarlos posteriormente en FAISS y hacer búsquedas semánticas.


In [2]:
!pip install faiss-cpu -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m84.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [3]:
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# Cargar el modelo pre-entrenado

# Si no es con gpu quitar lo de device
model_emb = SentenceTransformer('all-MiniLM-L6-v2', device='cuda')

# Vectorizamos los textos

# Para ello los convertimos a string (para poder aplicar el modelo)
chunks_para_rag_str = [str(chunk) for chunk in chunks_para_rag]

def encode(model_obj, texts):
    """Convierte textos en embeddings con cualquier modelo compatible"""
    try:
        return model_obj.encode(texts, convert_to_numpy=True, show_progress_bar=True).astype("float32")
    except TypeError:
        return np.array(model_obj.encode(texts), dtype="float32")

embeddings = encode(model_emb, chunks_para_rag_str)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Batches:   0%|          | 0/207 [00:00<?, ?it/s]

Ahora creamos el índice FAISS. Con el siguiente código hacemos lo siguiente:

1.- Se utilizan los embeddings de los chunks y se normalizan, así todos miden lo mismo.

2.- Se comprueba la dimensión de los vectores (establecida por el modelo elegido).

3.- Se crea un índice de búsqueda en FAISS. Esto es, busca el producto interno, en nuestro caso la similitud del coseno.

4.- Se meten los embeddings en dicho índice. Esto es, tenemos los documentos en forma de vectores.

Es una bbdd de vectores para luego preguntar algo en lenguaje natural, convertir dicha pregunta a vector, y que FAISS devuelva qué fragmentos de documentos son más parecidos.

In [4]:
import faiss
from sentence_transformers import SentenceTransformer

# Normalizar embeddings para similitud de coseno
faiss.normalize_L2(embeddings)

# Comprobar la dimensión de los vectores
dim = embeddings.shape[1]

# Creación del índice FAISS
index = faiss.IndexFlatIP(dim)

# Introducción de los embeddings en dicho índice
index.add(embeddings)

# Consulta y comprobar chunks más cercanos a esta:

1.- Convertir la consulta en un embedding (usando el mismo modelo).

2.- Realizar una búsqueda en nuestro índice, k-NN.

3.- Con los índices recuperados, extraemos los textos de la lista original.

4.- Ahora concatenamos los chunks y se lo pasamos junto con la consulta a un LLM para obtener una respuesta más completa y contextualizada.

In [5]:
# Convertir la consulta en un embedding (usando el mismo modelo)

def get_embedding(query,model_obj=model_emb):
  """
  Convierte una consulta en un embedding con el modelo dado.
  """
  query_embedding = encode(model_obj, [query])

  #Normaliza el embedding con norma L2 = 1 para mejorar la comparación de similitud
  faiss.normalize_L2(query_embedding)

  return query_embedding


# Realizar una búsqueda en nuestro índice, k-NN y, con los indices recuperados, extraer los textos de la lista original.

from sentence_transformers import CrossEncoder
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-3B-Instruct")

# Cargamos el modelo de re-ranking una sola vez
reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")

def rag_pipeline(query, k, model_obj=model_emb, initial_k=20, use_reranker=True):
    """
    Recuperación de chunks con FAISS + opción de re-ranking.

     Parámetros:
        query (str): consulta del usuario
        k (int): número final de chunks a devolver
        model_obj: modelo de embeddings
        initial_k (int): número de candidatos iniciales que devuelve FAISS antes de re-rankear
        use_reranker (bool): si True, aplica cross-encoder para reordenar los resultados

    Devuelve:
        retrieved_chunks (list): lista de textos relevantes recuperados
    """

    # Embedding de la consulta
    query_embedding = get_embedding(query, model_obj)

    # Recuperar candidatos de FAISS (más de k si usamos reranking)
    faiss_k = initial_k if use_reranker else k
    similarities, indices = index.search(query_embedding, min(faiss_k, len(chunks_para_rag)))

    # Recuperar chunks originales de los índices devueltos por FAISS
    retrieved_candidates = [(i, chunks_para_rag[i]['text']) for i in indices[0]]

    if use_reranker:

        # Preparar pares (query, chunk) para pasarlos al re-ranker
        pairs = [(query, text) for _, text in retrieved_candidates]

        # Calcular scores con el cross-encoder y ordenar resultados
        scores = reranker.predict(pairs)
        reranked = sorted(zip(retrieved_candidates, scores), key=lambda x: x[1], reverse=True)

        # Devolver los top-k chunks ya reordenados
        retrieved_chunks = [text for ((_, text), _) in reranked[:k]]

    else:

        # Si no usamos re-ranking, se devuelven directamente los top-k de FAISS
        retrieved_chunks = [text for _, text in retrieved_candidates[:k]]

    return retrieved_chunks

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/794 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

In [6]:
#Ejemplo de uso

query = "¿Cuál es el ingreso mínimo para tener que hacer la declaración de la renta?"
k = 10
answer = rag_pipeline(query, k)

for e in answer:
  print(e)
  print('\n')

print(len(answer))

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

el • Hijos con mínimo entre los dos progenitores discapacidad, • Si la guarda y custodia no es cualquiera que sea compartida, el progenitor que tenga su edad, atribuida la guarda y custodia o una vez extinguida esta el progenitor Que cumplan los con el que convivan los hijos tendrá siguientes requisitos: derecho a la totalidad del mínimo por descendientes, salvo lo 1º) Que convivan con el indicado en el supuesto siguiente contribuyente o [dependencia económica] . dependan 05/08/2025 - Manual práctico de Renta 2024. Parte 1 PÃ¡gina 1228 Cuadro: Separaciones judiciales, divorcios o nulidades (con hijos): Tributación conjunta y aplicación del mínimo por descendientes Condiciones de Declaración Hijos con los siguientes la resolución o del IRPF requisitos del convenio Quién se lo aplica en el IRPF económicamente de él Dependencia • Si la guarda y custodia no es económica compartida, el progenitor que sin 2º) Que no hayan tener asignada la guarda y custodia obtenido en el ejercicio de los hi

# 4.- Ahora concatenamos los chunks y se lo pasamos junto con la consulta a un LLM para obtener una respuesta más completa y contextualizada.


In [7]:
# Instalamos dependencias y compilamos
!pip -q install --upgrade "llama-cpp-python[server]" openai huggingface_hub psutil

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.7/50.7 MB[0m [31m50.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m947.6/947.6 kB[0m [31m63.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m563.4/563.4 kB[0m [31m47.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m278.0/278.0 kB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.5/45.5 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for llama-cpp-python (pyproject.toml) ... [?25l[?25hdone


In [8]:
# Descarga un modelo ligero (Qwen2.5-3B-Instruct) en formato GGUF y cuantizado a 4 bits (q4_k_m).
# Queda cacheado en /content/models para reutilizarlo.

from huggingface_hub import hf_hub_download

model_path = hf_hub_download(
    repo_id="Qwen/Qwen2.5-3B-Instruct-GGUF",
    filename="qwen2.5-3b-instruct-q4_k_m.gguf",
    local_dir="/content/models")

print("Modelo descargado en:", model_path)


qwen2.5-3b-instruct-q4_k_m.gguf:   0%|          | 0.00/2.10G [00:00<?, ?B/s]

Modelo descargado en: /content/models/qwen2.5-3b-instruct-q4_k_m.gguf


In [9]:
# Cargar el modelo en CPU con llama_cpp

from llama_cpp import Llama

llm = Llama(
    model_path=model_path,
    n_ctx=2048,
    n_threads=4,
    n_gpu_layers=0 # para utilizar GPU >0
)

llama_model_loader: loaded meta data with 26 key-value pairs and 435 tensors from /content/models/qwen2.5-3b-instruct-q4_k_m.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = qwen2.5-3b-instruct
llama_model_loader: - kv   3:                            general.version str              = v0.1-v0.1
llama_model_loader: - kv   4:                           general.finetune str              = qwen2.5-3b-instruct
llama_model_loader: - kv   5:                         general.size_label str              = 3.4B
llama_model_loader: - kv   6:                          qwen2.block_count u32              = 36
llama_model_loader: - kv   7:  

In [10]:
from transformers import pipeline

def build_context(chunks, token_budget=1200, chars_per_token=4, max_chunks=6):
    """
    Construye un contexto a partir de varios chunks de texto,
    asegurando que no se exceda el límite de tokens del modelo.

    Parámetros:
        chunks (list): lista de textos (chunks) recuperados
        token_budget (int): número máximo de tokens a usar
        chars_per_token (int): estimación de cuántos caracteres equivalen a un token
        max_chunks (int): número máximo de chunks que se incluirán en el contexto

    Devuelve:
        str: texto final concatenado con los chunks seleccionados
    """

    # Calcular el máximo de caracteres que puede tener el contexto completo
    max_total_chars = token_budget * chars_per_token

    # Calcular el máximo de caracteres permitidos por chunk
    max_chars_per_chunk = max_total_chars // max_chunks

    # Inicializar lista para partes y contador de longitud total
    partes, total = [], 0

    # Iterar sobre los primeros 'max_chunks' textos
    for i, txt in enumerate(chunks[:max_chunks], 1):

        # Limpiar texto y evitar valores None
        t = (txt or "").strip()

        # Recortar el texto si supera el límite por chunk
        if len(t) > max_chars_per_chunk:
            t = t[:max_chars_per_chunk] + "…"

        bloque = f"[{i}]\n{t}"

        # Verificar que no se exceda el límite total de caracteres
        if total + len(bloque) > max_total_chars:
            break

        # Agregar chunk al contexto y actualizar contador
        partes.append(bloque)
        total += len(bloque)

    return "\n\n".join(partes)


def get_llm_answer(query, rag_pipeline, embedding_model=model_emb, k=6,  model=("local",None,None), temperature=0.2, max_tokens=512,top_p=0.8):
    """
    Genera respuesta usando RAG (para recuperar contexto) + modelo LLM (local o remoto).

    Parámetros:
        query (str): pregunta del usuario
        rag_pipeline (func): función que recupera chunks relevantes
        embedding_model: modelo de embeddings a usar en la búsqueda
        k (int): número de chunks a recuperar
        model (tuple): configuración del modelo → ("local" o ("huggingface", tokenizer, modelo))
        temperature (float): controla la creatividad del modelo
        max_tokens (int): máximo de tokens a generar en la respuesta
        top_p (float): controla muestreo de palabras más probables

    Devuelve:
        str: respuesta generada por el modelo
    """

    # Recuperar chunks relevantes con pipeline RAG
    retrieved_chunks = rag_pipeline(query, k=min(k, 6), model_obj=embedding_model)

    # Construir contexto truncado a partir de los chunks recuperados
    contexto = build_context(retrieved_chunks, token_budget=1200, max_chunks=6)

    # Definir el mensaje del sistema con instrucciones específicas para el asistente
    system_msg = (
        "Eres un asistente experto en derecho tributario"
        "Eres un asistente que responde SOLO con el contexto proporcionado."
        "Genera una respuesta en 4-8 líneas máximo."
        "No cites el artículo, si no el contenido que tiene."
        "No repitas la instrucción en la respuesta, solo responde a la pregunta."
        "Responde en ESPAÑOL, recopilando la información de las distintas frases del contexto con longitud y palabras similares."
        "Nunca cambies del idioma ESPAÑOL."
        "Cuando la respuesta incluya enumeraciones o requisitos, utiliza el mismo formato."
        "Si la respuesta supera el max_tokens proporciona un resumen con ese número de tokens sin dejar las frases sin terminar."
    )

    # Construir el prompt final que contiene instrucciones, contexto y pregunta
    user_prompt = f"""
    {system_msg}

    === CONTEXTO ===
    {contexto}

    === PREGUNTA ===
    {query}

    Responde SOLO en ESPAÑOL.
    """.strip()

    # Verificar si se usa un modelo remoto (no local)
    if model[0] != "local":

        # Extraer configuración del modelo remoto
        name, tokenizer, modelo = model

        # Crear pipeline de generación de texto
        generator = pipeline("text-generation", model=modelo, tokenizer=tokenizer)

        # Generar la respuesta con parámetros de control
        output = generator(
            user_prompt,
            max_new_tokens=max_tokens,
            temperature=temperature,
            top_p=top_p,
            do_sample=True
        )

        return output[0]["generated_text"]

    else:

        # Si el modelo es local, llamar al LLM configurado en la máquina
        output = llm(
            user_prompt,
            max_tokens=max_tokens,
            temperature=temperature,
            top_p=top_p,
            stop=["=== PREGUNTA ==="]
        )

        return output["choices"][0]["text"].strip()


# Evaluación LLM

Vamos a generar un conjunto de evaluación que guarde las querys y las respuestas correspondientes.

Ejemplo: {"query": "¿Cuál es el IRPF?", "reference": "El IRPF es el impuesto sobre la renta de las personas físicas."}


In [11]:
# Importación
!pip install rouge-score

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=76c1831cff7aab72dfa857d9828ea5263863b7b9557fc4257d8e6bc8e436e13d
  Stored in directory: /root/.cache/pip/wheels/85/9d/af/01feefbe7d55ef5468796f0c68225b6788e85d9d0a281e7a70
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


In [12]:
eval_data_llm = [
    {
        "query": "¿Qué artículo de la Constitución Española establece el mandato de contribuir al sostenimiento de los gastos públicos?",
        "reference": "El artículo 31 de la Constitución Española establece el mandato de contribuir al sostenimiento de los gastos públicos según la capacidad económica, con un sistema justo, igualitario, progresivo y no confiscatorio."
    },
    {
        "query": "¿Qué problema generó la acumulación obligatoria de rentas familiares en el IRPF inicial?",
        "reference": "La acumulación obligatoria de rentas familiares en un impuesto progresivo originó una sentencia del Tribunal Constitucional en 1989, que obligó a modificar la regulación para respetar la naturaleza individual del IRPF."
    },
    {
        "query": "¿Qué reformas del IRPF redujeron tipos de gravamen y número de tramos en la escala?",
        "reference": "Las reformas de la Ley 40/1998 y la Ley 46/2002 redujeron los tipos de gravamen y el número de tramos en la escala, sustituyendo además deducciones en la cuota por reducciones en la base imponible."
    },
    {
        "query": "¿Qué límite de ingresos excluye del método de estimación objetiva a actividades económicas distintas de las agrícolas, ganaderas y forestales?",
        "reference": "El método de estimación objetiva no puede aplicarse cuando el volumen de rendimientos íntegros del conjunto de actividades económicas, salvo las agrícolas, ganaderas y forestales, supere los 150.000 euros anuales."
    },
    {
        "query": "¿Qué ocurre si un contribuyente renuncia o queda excluido del método de estimación objetiva?",
        "reference": "Si un contribuyente renuncia o queda excluido del método de estimación objetiva, deberá determinar el rendimiento neto de todas sus actividades económicas por el método de estimación directa durante los tres años siguientes."
    },
    {
        "query": "¿Qué variables se utilizan en el cálculo del rendimiento neto bajo estimación objetiva?",
        "reference": "En el cálculo del rendimiento neto de la estimación objetiva se utilizan signos, índices o módulos generales o específicos de sectores de actividad que determine el Ministro de Economía y Hacienda, considerando las inversiones necesarias para el desarrollo de la actividad."
    },
    {
        "query": "¿Desde qué fecha se aplican los incentivos fiscales del artículo 32.3 de la Ley del IRPF?",
        "reference": "Los incentivos fiscales del artículo 32.3 solo se aplican a los contribuyentes que hubieran iniciado una actividad económica a partir del 1 de enero de 2013."
    },
    {
        "query": "¿Qué condición especial se estableció para la deducción por maternidad en los períodos 2020, 2021 y 2022?",
        "reference": "Se permite aplicar la deducción por maternidad a mujeres que desde enero de 2020 quedaron en desempleo por suspensión de contrato, inactividad de fijas-discontinuas o cese de actividad como autónomas, siempre que cumplan el resto de requisitos."
    },
    {
        "query": "¿Cómo se pueden compensar las rentas negativas de deuda subordinada o participaciones preferentes generadas antes de 2015?",
        "reference": "Las rentas negativas derivadas de deuda subordinada o participaciones preferentes generadas antes del 1 de enero de 2015 pueden compensarse con saldos positivos de rendimientos del capital mobiliario o pérdidas patrimoniales, y si persiste saldo negativo, podrán compensarse en los cuatro años siguientes."
    },
    {
        "query": "¿En qué casos están exentos los rendimientos del trabajo en especie por entrega de acciones a trabajadores?",
        "reference": "Están exentos cuando la entrega de acciones o participaciones se realiza a trabajadores en activo de la propia sociedad o de sociedades de un grupo conforme al artículo 42 del Código de Comercio, incluyendo la entrega por la sociedad dominante, por otra sociedad del grupo o por un ente público titular de las acciones."
    },
    {
        "query": "¿Qué requisitos deben cumplirse para que la entrega de acciones a trabajadores quede exenta?",
        "reference": "Los requisitos son: 1) que la oferta se realice en las mismas condiciones para todos los trabajadores (salvo excepciones para startups reguladas en la Ley 28/2022), 2) que el trabajador y sus familiares hasta segundo grado no posean más del 5% de participación en la sociedad o grupo, y 3) que los títulos se mantengan durante al menos tres años."
    },
    {
        "query": "¿Los gastos de estudio financiados por el empleador constituyen retribución en especie?",
        "reference": "No, los estudios financiados por el empleador para la capacitación o reciclaje del personal no se consideran retribución en especie si están relacionados con las actividades de la empresa o el puesto de trabajo, incluso si son impartidos por terceros."
    },
    {
        "query": "¿Cuál es el índice de cuota devengada en el régimen especial simplificado del IVA para la explotación intensiva de avicultura de huevos y ganado ovino, caprino y bovino de leche?",
        "reference": "El índice de cuota devengada por operaciones corrientes es 0,04."
    },
    {
        "query": "¿Qué índice de cuota corresponde a las actividades accesorias realizadas por agricultores o ganaderos, como agroturismo o rutas ecológicas, dentro del régimen especial simplificado del IVA?",
        "reference": "El índice de cuota devengada por operaciones corrientes es 0,21."
    },
    {
        "query": "¿Qué índice de cuota se aplica a la elaboración de queso dentro de los procesos de transformación de productos naturales?",
        "reference": "El índice de cuota devengada por operaciones corrientes es 0,070."
    },
    {
        "query": "¿Cómo se computa el personal no asalariado en el método de estimación objetiva si trabaja menos de 1.800 horas al año?",
        "reference": "Se estima como cuantía proporcional al número de horas efectivamente trabajadas en relación con 1.800 horas. No obstante, el empresario se computa siempre como una persona no asalariada, pudiendo reducirse a 0,25 personas/año en casos justificados."
    },
    {
        "query": "¿Qué ocurre si un contribuyente supera las magnitudes establecidas en el método de estimación objetiva durante un año natural?",
        "reference": "Queda excluido, a partir del año inmediato siguiente, del método de estimación objetiva del IRPF y del régimen simplificado o del régimen de agricultura, ganadería y pesca del IVA, en su caso."
    },
    {
        "query": "¿Cuál es el plazo para renunciar o revocar la renuncia al método de estimación objetiva del IRPF para el año 2023?",
        "reference": "El plazo es desde el día siguiente a la publicación de la Orden en el BOE hasta el 31 de diciembre de 2022. También se entiende efectuada la renuncia si se presenta en plazo la declaración del primer trimestre aplicando el método de estimación directa."
    },
    {
        "query": "¿Qué se entiende por rendimiento neto previo en el método de estimación objetiva del IRPF?",
        "reference": "El rendimiento neto previo es la suma de las cuantías correspondientes a los signos o módulos previstos para la actividad, calculadas multiplicando la cantidad asignada a cada unidad por el número de unidades empleadas, utilizadas o instaladas en la actividad."
    },
    {
        "query": "¿Cómo se computa el empresario en casos de dedicación inferior a 1.800 horas al año por causas objetivas?",
        "reference": "En esos casos se computa el tiempo efectivo dedicado a la actividad, pero para las tareas de dirección, organización y planificación se considera al empresario como 0,25 personas/año, salvo que se acredite una dedicación diferente."
    },
    {
        "query": "¿Qué reducciones se aplican al cómputo del personal asalariado en el método de estimación objetiva?",
        "reference": "El personal asalariado menor de 19 años o con contrato de aprendizaje o formación se computa al 60%. Si el asalariado tiene una discapacidad igual o superior al 33%, se computa al 40%. Estas reducciones son incompatibles entre sí."
    },
    {
        "query": "¿Cómo se calcula la minoración por incremento de personal asalariado?",
        "reference": "Se calcula la diferencia entre el número de unidades del módulo 'personal asalariado' del año actual y del año anterior. Si la diferencia es positiva, se aplica un coeficiente de 0,40 y se suma, en su caso, al coeficiente correspondiente de la tabla por tramos del número de unidades."
    },
    {
        "query": "¿Qué coeficientes se aplican a los tramos del número de unidades del módulo 'personal asalariado'?",
        "reference": "Los coeficientes son: hasta 1,00 → 0,10; de 1,01 a 3,00 → 0,15; de 3,01 a 5,00 → 0,20; de 5,01 a 8,00 → 0,25; más de 8,00 → 0,30."
    },
    {
        "query": "¿Qué reglas se aplican para la amortización de inmovilizado en el régimen de estimación objetiva?",
        "reference": "Se deducen las cantidades por amortización efectiva del inmovilizado, aplicando coeficientes de amortización lineal máximo, mínimo o intermedio. La amortización se practica por elemento, iniciando desde que estén en condiciones de funcionamiento o producir ingresos, sin exceder el período máximo de la tabla, y con reglas especiales para bienes usados, opción de compra y bienes de bajo valor (≤601,01 €)."
    },
    {
        "query": "¿Cuáles son los sistemas electrónicos admitidos para la presentación del borrador o declaración del IRPF y del Impuesto sobre el Patrimonio?",
        "reference": "Se admiten los siguientes sistemas electrónicos de identificación, autenticación y firma: a) Certificado electrónico reconocido, b) Cl@ve Móvil (incluye Cl@ve PIN), c) Número de referencia, d) eIDAS conforme al Reglamento (UE) n.º 910/2014. La elección dependerá de lo previsto en la Orden HAP/2194/2013, de 22 de noviembre."
    },
    {
        "query": "¿Qué información se requiere para obtener un número de referencia para la presentación electrónica del IRPF?",
        "reference": "Se debe comunicar el NIF y la fecha de caducidad del DNI o el número de soporte del NIE, salvo excepciones como DNI permanente o ciertos NIF. Además, se debe aportar el importe de la casilla 505 de la declaración del IRPF del ejercicio 2023, salvo que sea un contribuyente no declarante el año anterior, en cuyo caso se debe aportar un IBAN donde el contribuyente sea titular a 31 de diciembre de 2024."
    },
    {
        "query": "¿Qué requisitos deben cumplir los contribuyentes no residentes o ausentes para presentar electrónicamente el IRPF?",
        "reference": "Los contribuyentes con residencia habitual en el extranjero o fuera del territorio nacional podrán confirmar y presentar el borrador o la declaración por medios no presenciales según el artículo 7.2.a) y b), realizar el ingreso o solicitar la devolución electrónicamente conforme a los procedimientos regulados en el artículo 9 y el artículo 10."
    },
    {
        "query": "¿Quiénes están legitimados para iniciar un procedimiento amistoso ante las autoridades competentes españolas?",
        "reference": "Cuando así esté dispuesto en un convenio o tratado para evitar la doble imposición aplicable en España, cualquier persona residente en España que considere que las medidas adoptadas por la Administración tributaria española implican o pueden implicar una imposición no conforme con el convenio podrá someter su caso a la autoridad competente."
    },
    {
        "query": "¿Cuál es el contenido mínimo requerido en la solicitud para iniciar un procedimiento amistoso?",
        "reference": "La solicitud deberá incluir, al menos: a) datos del solicitante y partes implicadas, b) identificación de la Administración tributaria extranjera competente, c) artículo del convenio que se considera inaplicado y su interpretación, d) períodos impositivos afectados, e) descripción detallada de hechos y circunstancias relevantes, f) identificación de recursos interpuestos, g) indicación de solicitudes previas, h) declaración sobre cuestiones relacionadas con procedimientos de valoración previa, i) compromiso de cooperación y j) fecha y firma. Se acompañará copia de los documentos justificativos y la acreditación de la representación si procede."
    },
    {
        "query": "¿Cuáles son las formas de terminación del procedimiento amistoso según el reglamento?",
        "reference": "El procedimiento amistoso puede terminar: a) por desistimiento del obligado tributario, b) por acuerdo de la autoridad competente española si la solicitud es fundada y puede encontrar solución, c) por acuerdo entre las autoridades competentes de los Estados implicados. No se pueden interponer recursos contra los acuerdos de terminación, salvo los que procedan contra actos administrativos derivados."
    }
]


In [13]:
prueba =  [{
        "query": "¿Cuál es el contenido mínimo requerido en la solicitud para iniciar un procedimiento amistoso?",
        "reference": "La solicitud deberá incluir, al menos: a) datos del solicitante y partes implicadas, b) identificación de la Administración tributaria extranjera competente, c) artículo del convenio que se considera inaplicado y su interpretación, d) períodos impositivos afectados, e) descripción detallada de hechos y circunstancias relevantes, f) identificación de recursos interpuestos, g) indicación de solicitudes previas, h) declaración sobre cuestiones relacionadas con procedimientos de valoración previa, i) compromiso de cooperación y j) fecha y firma. Se acompañará copia de los documentos justificativos y la acreditación de la representación si procede."
    },
    {
        "query": "¿Cuáles son las formas de terminación del procedimiento amistoso según el reglamento?",
        "reference": "El procedimiento amistoso puede terminar: a) por desistimiento del obligado tributario, b) por acuerdo de la autoridad competente española si la solicitud es fundada y puede encontrar solución, c) por acuerdo entre las autoridades competentes de los Estados implicados. No se pueden interponer recursos contra los acuerdos de terminación, salvo los que procedan contra actos administrativos derivados."
    }]


In [14]:
# Realizamos la evaluación de LLM

from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from nltk.translate.meteor_score import single_meteor_score
from rouge_score import rouge_scorer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import nltk

# Descargar wordnet y otros recursos necesarios
nltk.download('wordnet')
nltk.download('omw-1.4')  # Para soporte de sinónimos en METEOR


def get_llm_answers_from_rag(eval_data, rag_pipeline,embedding_model=model_emb, k=6,model=("local",None,None), temperature=0.2, max_tokens=256, top_p = 0.8):
    """
    Genera respuestas para un conjunto de queries usando RAG + LLM.

    Parámetros:
        eval_data (list): lista de diccionarios, cada uno con al menos 'query'
        rag_pipeline (func): función que recupera chunks relevantes
        embedding_model: modelo de embeddings para el retrieval
        k (int): número de chunks a recuperar
        model (tuple): configuración del modelo → ("local" o ("huggingface", tokenizer, modelo))
        temperature (float): controla creatividad del modelo
        max_tokens (int): número máximo de tokens a generar por respuesta
        top_p (float): parámetro de muestreo nucleus sampling

    Devuelve:
        list: lista de respuestas generadas por el LLM
    """

    # Inicializar la lista donde se guardarán las respuestas
    llm_answers = []

    # Iterar sobre cada caso del dataset de evaluación
    for case in eval_data:

      # Llamar a get_llm_answer para obtener respuesta a la query actual
        answer = get_llm_answer(case['query'], rag_pipeline, embedding_model=embedding_model, k=k, model=model, temperature=temperature, max_tokens=max_tokens,top_p = top_p)

        # Agregar la respuesta a la lista
        llm_answers.append(answer)

        # Mostrar mensaje de confirmación en consola
        print('Respuesta obtenida')

    return llm_answers


def evaluate_llm_answers(eval_data, llm_answers,embedding_model=model_emb):
    """
      Evalúa las respuestas generadas por el LLM comparándolas con referencias.
      Usa métricas automáticas: BLEU, METEOR, ROUGE-L y similitud de embeddings.

      Parámetros:
          eval_data (list): lista de diccionarios, cada uno con al menos 'reference'
          llm_answers (list): respuestas generadas por el LLM
          embedding_model: modelo de embeddings para similitud semántica

      Devuelve:
          dict: diccionario con las métricas promedio
      """

    # Inicializar listas para guardar los resultados de cada métrica
    bleu_scores = []
    meteor_scores = []
    rouge_l_scores = []
    embedding_similarities = []

    # Configurar el evaluador de ROUGE-L y el suavizado para BLEU
    scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
    smoothing = SmoothingFunction().method1

    # Iterar sobre cada par (caso, respuesta generada)
    for case, answer in zip(eval_data, llm_answers):
        reference = case['reference']

        # Tokenizar referencia y respuesta (split simple por palabras)
        ref_tokens = reference.split()
        ans_tokens = answer.split()

        # Calcular BLEU usando unigramas y bigramas (más útil en respuestas cortas)
        bleu = sentence_bleu([ref_tokens], ans_tokens, weights=(0.5, 0.5), smoothing_function=smoothing)
        bleu_scores.append(bleu)

        # Calcular METEOR (espera tokens ya segmentados)
        meteor = single_meteor_score(ref_tokens, ans_tokens)
        meteor_scores.append(meteor)

        # Calcular ROUGE-L usando el RougeScorer
        rouge_l = scorer.score(reference, answer)['rougeL'].fmeasure
        rouge_l_scores.append(rouge_l)

        # Calcular similitud semántica usando embeddings + coseno
        emb_ref = np.array(get_embedding(reference,model_obj=embedding_model)).reshape(1, -1)
        emb_ans = np.array(get_embedding(answer,model_obj=embedding_model)).reshape(1, -1)
        sim = cosine_similarity(emb_ref, emb_ans)[0][0]
        embedding_similarities.append(sim)

        # Mensaje de control en consola
        print('Evaluación obtenida')

    # Calcular los promedios de todas las métricas
    results = {
        "BLEU": np.mean(bleu_scores),
        "METEOR": np.mean(meteor_scores),
        "ROUGE-L": np.mean(rouge_l_scores),
        "Embedding_Cosine": np.mean(embedding_similarities)
    }

    return results

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


In [15]:
# Ejemplo de uso

# Ejecutar evaluación LLM
llm_answers = get_llm_answers_from_rag(prueba, rag_pipeline, k=5)
metrics = evaluate_llm_answers(prueba, llm_answers)
print(llm_answers)
print(metrics)


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   42119.50 ms /  1188 tokens (   35.45 ms per token,    28.21 tokens per second)
llama_perf_context_print:        eval time =   21942.41 ms /   255 runs   (   86.05 ms per token,    11.62 tokens per second)
llama_perf_context_print:       total time =   64488.65 ms /  1443 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18358.46 ms /  1064 tokens (   17.25 ms per token,    57.96 tokens per second)
llama_perf_context_print:        eval time =   22754.08 ms /   255 runs   (   89.23 ms per token,    11.21 tokens per second)
llama_perf_context_print:       total time =   41547.58 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
['Para iniciar un procedimiento amistoso, el obligado tributario deberá indicar en la solicitud los procedimientos amistosos regulados en el presente reglamento que le resulten aplicables. Además, si presenta una solicitud de inicio durante la tramitación de un procedimiento amistoso distinto, el nuevo procedimiento se entenderá iniciado desde la fecha de la primera recepción de la solicitud por cualquiera de las autoridades competentes de los Estados miembros afectados. En resumen, el contenido mínimo requerido en la solicitud es indicar los procedimientos amistosos aplicables y la fecha de recepción de la solicitud por las autoridades competentes. 4-8 líneas máximo. Genera una respuesta en 4-8 líneas máximo. Para iniciar un procedimiento amistoso, el obligado tributario deberá indicar en la solicitud los procedimientos amistosos regulados en el presente reglamento que le resulten aplicables. Además, si presenta una solicitud de inicio durante la tramitación de un 


* BLEU evalúa la similitud comparando n-gramas del texto generado con losn-gramas del texto de referencia. Calcula la proporción de n-gramas coincidentes (1-gram, 2-gram, etc.) y combina estas precisiones mediante una media geométrica, aplicando además un factor de penalización por longitud si la respuesta generada es demasiado corta respecto a la referencia.* METEOR evalúa la calidad de la coincidencia semántica y léxica entre la respuesta generada y la referencia, considerando no solo palabras exactas, sino también sinónimos, raíces de palabras y variaciones.* ROUGE-L evalúa la similitud entre la secuencia de palabras de la predicción y la referencia, centrándose en la Longest Common Subsequence (LCS), es decir, la subsecuencia más larga que aparece en ambos textos. Mide tanto precisión, recall y un F1-score, capturando qué tan bien se conserva el orden de las palabras y la cobertura del contenido.Estas tres métricas varían sus valores entre 0 y 1 (0 indica ninguna coincidencia entre la predicción y la referencia y 1 indica coincidencia perfecta)* La similitud del coseno mide cuán parecidos son dos vectores en un espacio multidimensional, típicamente embeddings de textos.El rango de sus valores es [-1,1], donde 1 indica vectores identicos, 0 indica vectores ortogonales y -1 indica vectores opuestos.

# Comparación de parámetros y modelos

In [16]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from huggingface_hub import login

# Iniciar sesión en Hugging Face con token personal para acceder a modelos privados o requeridos. El token permite descargar modelos sin límite de llamadas estrictas.
login("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")

# Descargar y guardar varios modelos en una lista de tuplas de Hugging Face
model_names = [
    #"google/gemma-3-270m"#,
    #"distilgpt2"#,
    #"EleutherAI/gpt-neo-125M"#,
    #"meta-llama/Llama-3.1-8B"
]

# Inicializar lista donde se guardarán los modelos descargados junto con sus tokenizers
models = []

# Descargar cada modelo y su tokenizer, luego agregarlo a la lista
for name in model_names:

    # Descargar tokenizer asociado al modelo
    tokenizer = AutoTokenizer.from_pretrained(name,use_auth_token=True)

    # Descargar modelo para generación de texto
    model = AutoModelForCausalLM.from_pretrained(name,use_auth_token=True)

    # Guardar tupla (nombre, tokenizer, modelo) en la lista
    models.append((name, tokenizer, model))

# Añadir el modelo local a la lista para usarlo junto con los modelos descargados
models.append(("local", None, llm))

In [17]:
import os
import csv
import itertools
from datetime import datetime

# Configuración de pruebas
k_values = [4,6, 8]
temperatures = [0.01,0.2]
max_tokens_list = [128, 256, 512]

# Modelo de embeddings (usado para todas las pruebas)
from sentence_transformers import SentenceTransformer
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Configuración de archivo CSV para guardar resultados
from google.colab import drive
drive.mount('/content/drive')
onedrive_folder = "/content/drive/MyDrive/resultados_csv"
os.makedirs(onedrive_folder, exist_ok=True)
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
csv_file = os.path.join(onedrive_folder, f"llm_eval_results_{timestamp}.csv")

# Columnas del CSV
csv_columns = ["model", "k", "temperature", "max_tokens", "BLEU", "METEOR", "ROUGE-L", "Embedding_Cosine"]

# Crear archivo CSV y escribir encabezado
with open(csv_file, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=csv_columns)
    writer.writeheader()

    # Iterar sobre todas las combinaciones de modelos, k, temperatura y max_tokens
    for model_tuple, k, temp, max_tok in itertools.product(models, k_values, temperatures, max_tokens_list):
        try:
            # Determinar nombre del modelo para guardarlo en el CSV
            model_name = model_tuple[0] if isinstance(model_tuple, tuple) else str(model_tuple)

            # Generar respuestas usando RAG + LLM para los parámetros actuales
            llm_answers = get_llm_answers_from_rag(
                prueba,
                rag_pipeline,
                embedding_model=embedding_model,
                k=k,
                model=model_tuple,
                temperature=temp,
                max_tokens=max_tok
            )

            # Evaluar las respuestas generadas usando métricas automáticas
            metrics = evaluate_llm_answers(prueba, llm_answers)

            # Crear fila con resultados y parámetros de la prueba
            row = {"model": model_name, "k": k, "temperature": temp, "max_tokens": max_tok, **metrics}

            # Escribir fila en el CSV
            writer.writerow(row)

            # Mensaje de confirmación en consola
            print(f"Guardado: {row}")

        except Exception as e:

            # Capturar errores y mostrar información del modelo y parámetros
            print(f"Error con {model_name}, k={k}, temp={temp}, max_tokens={max_tok}: {e}")

# Mensaje final indicando ubicación del CSV
print(f"\nCSV guardado en: {csv_file}")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13094.90 ms /   824 tokens (   15.89 ms per token,    62.93 tokens per second)
llama_perf_context_print:        eval time =   10769.21 ms /   127 runs   (   84.80 ms per token,    11.79 tokens per second)
llama_perf_context_print:       total time =   24064.00 ms /   951 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13468.81 ms /   862 tokens (   15.63 ms per token,    64.00 tokens per second)
llama_perf_context_print:        eval time =   10788.84 ms /   127 runs   (   84.95 ms per token,    11.77 tokens per second)
llama_perf_context_print:       total time =   24455.76 ms /   989 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11817625204275602), 'METEOR': np.float64(0.21082421654093442), 'ROUGE-L': np.float64(0.22645998558038932), 'Embedding_Cosine': np.float32(0.7445066)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13083.37 ms /   824 tokens (   15.88 ms per token,    62.98 tokens per second)
llama_perf_context_print:        eval time =   21719.04 ms /   255 runs   (   85.17 ms per token,    11.74 tokens per second)
llama_perf_context_print:       total time =   35232.73 ms /  1079 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13647.80 ms /   862 tokens (   15.83 ms per token,    63.16 tokens per second)
llama_perf_context_print:        eval time =   21722.21 ms /   255 runs   (   85.19 ms per token,    11.74 tokens per second)
llama_perf_context_print:       total time =   35804.21 ms /  1117 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.07391782230476401), 'METEOR': np.float64(0.21388395617614298), 'ROUGE-L': np.float64(0.1998577524893314), 'Embedding_Cosine': np.float32(0.7319661)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   12826.94 ms /   824 tokens (   15.57 ms per token,    64.24 tokens per second)
llama_perf_context_print:        eval time =   43975.03 ms /   511 runs   (   86.06 ms per token,    11.62 tokens per second)
llama_perf_context_print:       total time =   57777.22 ms /  1335 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13382.15 ms /   862 tokens (   15.52 ms per token,    64.41 tokens per second)
llama_perf_context_print:        eval time =   43819.31 ms /   511 runs   (   85.75 ms per token,    11.66 tokens per second)
llama_perf_context_print:       total time =   58179.35 ms /  1373 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.03853499062920803), 'METEOR': np.float64(0.17200095948730088), 'ROUGE-L': np.float64(0.10035368163083434), 'Embedding_Cosine': np.float32(0.7141583)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13206.44 ms /   824 tokens (   16.03 ms per token,    62.39 tokens per second)
llama_perf_context_print:        eval time =   10731.93 ms /   127 runs   (   84.50 ms per token,    11.83 tokens per second)
llama_perf_context_print:       total time =   24137.40 ms /   951 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   12978.25 ms /   862 tokens (   15.06 ms per token,    66.42 tokens per second)
llama_perf_context_print:        eval time =   10816.85 ms /   127 runs   (   85.17 ms per token,    11.74 tokens per second)
llama_perf_context_print:       total time =   23994.78 ms /   989 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.0876050308171927), 'METEOR': np.float64(0.14178407478023441), 'ROUGE-L': np.float64(0.22388908638464272), 'Embedding_Cosine': np.float32(0.69606966)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   12939.34 ms /   824 tokens (   15.70 ms per token,    63.68 tokens per second)
llama_perf_context_print:        eval time =   21613.75 ms /   255 runs   (   84.76 ms per token,    11.80 tokens per second)
llama_perf_context_print:       total time =   34983.00 ms /  1079 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13570.74 ms /   862 tokens (   15.74 ms per token,    63.52 tokens per second)
llama_perf_context_print:        eval time =   21627.53 ms /   255 runs   (   84.81 ms per token,    11.79 tokens per second)
llama_perf_context_print:       total time =   35623.48 ms /  1117 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.05587502562644368), 'METEOR': np.float64(0.19538921909885576), 'ROUGE-L': np.float64(0.17120369930479673), 'Embedding_Cosine': np.float32(0.71387154)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13118.54 ms /   824 tokens (   15.92 ms per token,    62.81 tokens per second)
llama_perf_context_print:        eval time =   43841.59 ms /   511 runs   (   85.80 ms per token,    11.66 tokens per second)
llama_perf_context_print:       total time =   57947.98 ms /  1335 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   13076.89 ms /   862 tokens (   15.17 ms per token,    65.92 tokens per second)
llama_perf_context_print:        eval time =   43819.38 ms /   511 runs   (   85.75 ms per token,    11.66 tokens per second)
llama_perf_context_print:       total time =   57869.35 ms /  1373 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.02872080188078076), 'METEOR': np.float64(0.1312858928868562), 'ROUGE-L': np.float64(0.12347957523946176), 'Embedding_Cosine': np.float32(0.71652925)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   15872.42 ms /  1023 tokens (   15.52 ms per token,    64.45 tokens per second)
llama_perf_context_print:        eval time =   10949.43 ms /   127 runs   (   86.22 ms per token,    11.60 tokens per second)
llama_perf_context_print:       total time =   27021.62 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17322.19 ms /  1064 tokens (   16.28 ms per token,    61.42 tokens per second)
llama_perf_context_print:        eval time =   10940.08 ms /   127 runs   (   86.14 ms per token,    11.61 tokens per second)
llama_perf_context_print:       total time =   28463.71 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11422870550461925), 'METEOR': np.float64(0.18916474919210033), 'ROUGE-L': np.float64(0.21356127545140224), 'Embedding_Cosine': np.float32(0.75159806)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16321.46 ms /  1023 tokens (   15.95 ms per token,    62.68 tokens per second)
llama_perf_context_print:        eval time =   21884.89 ms /   255 runs   (   85.82 ms per token,    11.65 tokens per second)
llama_perf_context_print:       total time =   38637.66 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18345.46 ms /  1064 tokens (   17.24 ms per token,    58.00 tokens per second)
llama_perf_context_print:        eval time =   22046.48 ms /   255 runs   (   86.46 ms per token,    11.57 tokens per second)
llama_perf_context_print:       total time =   40818.52 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.0667107808536539), 'METEOR': np.float64(0.16923853875741146), 'ROUGE-L': np.float64(0.16418436739148684), 'Embedding_Cosine': np.float32(0.69728005)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17217.01 ms /  1023 tokens (   16.83 ms per token,    59.42 tokens per second)
llama_perf_context_print:        eval time =   44366.87 ms /   511 runs   (   86.82 ms per token,    11.52 tokens per second)
llama_perf_context_print:       total time =   62575.74 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18206.93 ms /  1064 tokens (   17.11 ms per token,    58.44 tokens per second)
llama_perf_context_print:        eval time =   44761.12 ms /   511 runs   (   87.60 ms per token,    11.42 tokens per second)
llama_perf_context_print:       total time =   63961.61 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.037643136430502225), 'METEOR': np.float64(0.16441947164944842), 'ROUGE-L': np.float64(0.12294294294294295), 'Embedding_Cosine': np.float32(0.69728005)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16374.10 ms /  1023 tokens (   16.01 ms per token,    62.48 tokens per second)
llama_perf_context_print:        eval time =   10904.69 ms /   127 runs   (   85.86 ms per token,    11.65 tokens per second)
llama_perf_context_print:       total time =   27480.29 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18223.88 ms /  1064 tokens (   17.13 ms per token,    58.38 tokens per second)
llama_perf_context_print:        eval time =   10884.72 ms /   127 runs   (   85.71 ms per token,    11.67 tokens per second)
llama_perf_context_print:       total time =   29307.77 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.10013021297268364), 'METEOR': np.float64(0.1586910584827635), 'ROUGE-L': np.float64(0.20019843457171205), 'Embedding_Cosine': np.float32(0.7407659)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16727.10 ms /  1023 tokens (   16.35 ms per token,    61.16 tokens per second)
llama_perf_context_print:        eval time =   22181.49 ms /   255 runs   (   86.99 ms per token,    11.50 tokens per second)
llama_perf_context_print:       total time =   39348.40 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17629.06 ms /  1064 tokens (   16.57 ms per token,    60.35 tokens per second)
llama_perf_context_print:        eval time =   21925.23 ms /   255 runs   (   85.98 ms per token,    11.63 tokens per second)
llama_perf_context_print:       total time =   39980.41 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.06881737836555238), 'METEOR': np.float64(0.177110462422636), 'ROUGE-L': np.float64(0.17283518023739652), 'Embedding_Cosine': np.float32(0.6477863)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16675.06 ms /  1023 tokens (   16.30 ms per token,    61.35 tokens per second)
llama_perf_context_print:        eval time =   44186.76 ms /   511 runs   (   86.47 ms per token,    11.56 tokens per second)
llama_perf_context_print:       total time =   61849.97 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18445.56 ms /  1064 tokens (   17.34 ms per token,    57.68 tokens per second)
llama_perf_context_print:        eval time =   44500.12 ms /   511 runs   (   87.08 ms per token,    11.48 tokens per second)
llama_perf_context_print:       total time =   63937.08 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.03684716322556551), 'METEOR': np.float64(0.15324891975396604), 'ROUGE-L': np.float64(0.12102397933460604), 'Embedding_Cosine': np.float32(0.7014063)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16693.70 ms /  1023 tokens (   16.32 ms per token,    61.28 tokens per second)
llama_perf_context_print:        eval time =   10879.05 ms /   127 runs   (   85.66 ms per token,    11.67 tokens per second)
llama_perf_context_print:       total time =   27772.80 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   18205.95 ms /  1064 tokens (   17.11 ms per token,    58.44 tokens per second)
llama_perf_context_print:        eval time =   10884.59 ms /   127 runs   (   85.71 ms per token,    11.67 tokens per second)
llama_perf_context_print:       total time =   29289.62 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11312128614982316), 'METEOR': np.float64(0.17061525761396285), 'ROUGE-L': np.float64(0.1921504184660068), 'Embedding_Cosine': np.float32(0.728019)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16510.87 ms /  1023 tokens (   16.14 ms per token,    61.96 tokens per second)
llama_perf_context_print:        eval time =   21902.68 ms /   255 runs   (   85.89 ms per token,    11.64 tokens per second)
llama_perf_context_print:       total time =   38844.73 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17332.78 ms /  1064 tokens (   16.29 ms per token,    61.39 tokens per second)
llama_perf_context_print:        eval time =   22132.89 ms /   255 runs   (   86.80 ms per token,    11.52 tokens per second)
llama_perf_context_print:       total time =   39898.19 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.0667107808536539), 'METEOR': np.float64(0.16923853875741146), 'ROUGE-L': np.float64(0.16418436739148684), 'Embedding_Cosine': np.float32(0.69728005)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16112.83 ms /  1023 tokens (   15.75 ms per token,    63.49 tokens per second)
llama_perf_context_print:        eval time =   44586.16 ms /   511 runs   (   87.25 ms per token,    11.46 tokens per second)
llama_perf_context_print:       total time =   61693.23 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17441.27 ms /  1064 tokens (   16.39 ms per token,    61.00 tokens per second)
llama_perf_context_print:        eval time =   44491.64 ms /   511 runs   (   87.07 ms per token,    11.49 tokens per second)
llama_perf_context_print:       total time =   62923.21 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.037643136430502225), 'METEOR': np.float64(0.16441947164944842), 'ROUGE-L': np.float64(0.12294294294294295), 'Embedding_Cosine': np.float32(0.69728005)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17606.57 ms /  1023 tokens (   17.21 ms per token,    58.10 tokens per second)
llama_perf_context_print:        eval time =   10854.86 ms /   127 runs   (   85.47 ms per token,    11.70 tokens per second)
llama_perf_context_print:       total time =   28663.87 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   17457.55 ms /  1064 tokens (   16.41 ms per token,    60.95 tokens per second)
llama_perf_context_print:        eval time =   11009.50 ms /   127 runs   (   86.69 ms per token,    11.54 tokens per second)
llama_perf_context_print:       total time =   28669.10 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.11422870550461925), 'METEOR': np.float64(0.18916474919210033), 'ROUGE-L': np.float64(0.21990846681922196), 'Embedding_Cosine': np.float32(0.75312084)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   15938.45 ms /  1023 tokens (   15.58 ms per token,    64.18 tokens per second)
llama_perf_context_print:        eval time =   22137.41 ms /   255 runs   (   86.81 ms per token,    11.52 tokens per second)
llama_perf_context_print:       total time =   38509.63 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16579.12 ms /  1064 tokens (   15.58 ms per token,    64.18 tokens per second)
llama_perf_context_print:        eval time =   22162.95 ms /   255 runs   (   86.91 ms per token,    11.51 tokens per second)
llama_perf_context_print:       total time =   39177.73 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.06905071345795044), 'METEOR': np.float64(0.1725586581875052), 'ROUGE-L': np.float64(0.17589682630147693), 'Embedding_Cosine': np.float32(0.68980974)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   15976.30 ms /  1023 tokens (   15.62 ms per token,    64.03 tokens per second)
llama_perf_context_print:        eval time =   44692.13 ms /   511 runs   (   87.46 ms per token,    11.43 tokens per second)
llama_perf_context_print:       total time =   61668.95 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   42120.34 ms
llama_perf_context_print: prompt eval time =   16461.03 ms /  1064 tokens (   15.47 ms per token,    64.64 tokens per second)
llama_perf_context_print:        eval time =   44738.19 ms /   511 runs   (   87.55 ms per token,    11.42 tokens per second)
llama_perf_context_print:       total time =   62187.05 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.02875973682251983), 'METEOR': np.float64(0.14682074585719118), 'ROUGE-L': np.float64(0.1229393115942029), 'Embedding_Cosine': np.float32(0.72201127)}

CSV guardado en: /content/drive/MyDrive/resultados_csv/llm_eval_results_20250916_185347.csv
