## Instalación de dependencias y recuperación de funciones RAG y LLM

In [1]:
# Instalamos las dependencias. Podemos observar que saltan conflictos de dependencias cruzadas pero la instalación clave es correcta y se puede continuar con el código.

!pip install -q gradio==4.44.0 sentence-transformers faiss-cpu python-dotenv
!pip install -q "websockets>=13,<15" # Útil para comunicación en tiempo real.
!pip install -q llama-cpp-python # Para emplear llama.

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.1/18.1 MB[0m [31m97.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.7/318.7 kB[0m [31m29.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m80.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.5/4.5 MB[0m [31m117.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m131.2/131.2 kB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
yfinance 0.2.65 requires websockets>=13.0, but you have websockets 12.0 which is incompatible.
google-genai 1.34.0 requires websockets<15.1.0,>=13.0.0, but you have websockets 12.0 which is incompatible.
dataproc-spa

In [2]:
# Realizamos conexión con google drive para poder ejecutar los notebooks.

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [3]:
# En esta parte del código se realiza lo siguiente:
# Si tiene GPU utilizará la GPU. En caso contrario, se utiliza la CPU sin proporcionar errores.

import torch
from sentence_transformers import SentenceTransformer

try:
    # Detecta si hay GPU
    device = "cuda" if torch.cuda.is_available() else "cpu"
    print(f"Usando dispositivo: {device}")

    # Carga el modelo en GPU si está disponible
    model_emb = SentenceTransformer("all-MiniLM-L6-v2", device=device)

    # Test rápido
    _ = model_emb.encode(["prueba"])
    print("Modelo cargado correctamente empleando GPU.")

except Exception as e:
    print("Error en GPU, reasignando a CPU…", e)
    model_emb = SentenceTransformer("all-MiniLM-L6-v2", device="cpu")

Usando dispositivo: cuda


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Modelo cargado correctamente empleando GPU.


In [4]:
# Convertimos los .ipynb a .py.

BASE = "/content/drive/MyDrive/forma_dividida"

!jupyter nbconvert --to python "{BASE}/Fase_1_limpieza_chunks.ipynb" --output "Fase_1_limpieza_chunks" --output-dir "{BASE}"
!jupyter nbconvert --to python "{BASE}/Fase_2_embeddings_local.ipynb" --output "Fase_2_embeddings_local.ipynb" --output-dir "{BASE}"

print("Notebooks convertidos a .py correctamente.")



[NbConvertApp] Converting notebook /content/drive/MyDrive/forma_dividida/Fase_1_limpieza_chunks.ipynb to python
[NbConvertApp] Writing 12118 bytes to /content/drive/MyDrive/forma_dividida/Fase_1_limpieza_chunks.py
[NbConvertApp] Converting notebook /content/drive/MyDrive/forma_dividida/Fase_2_embeddings_local.ipynb to python
[NbConvertApp] Writing 35644 bytes to /content/drive/MyDrive/forma_dividida/Fase_2_embeddings_local.ipynb.py
Notebooks convertidos a .py correctamente.


In [5]:
import os, sys, re, types, inspect
from pathlib import Path
import importlib.util

BASE = "/content/drive/MyDrive/forma_dividida"
src_path = Path(BASE) / "Fase_2_embeddings_local.ipynb.py" # Cargamos el fichero de origen.
tmp_path = Path("/content/Fase_2_embeddings_cpu_stable.py") # Ruta donde escribimos la versión temporal.
assert src_path.exists(), f"No existe: {src_path}"

# Leemos el fichero

print("Leyendo y parcheando a CPU…")
with open(src_path, "r", encoding="utf-8") as f:
    src = f.read()

# Parche mínimo y seguro a CPU
# 1) device='cuda' / "cuda" → 'cpu'
src = re.sub(r"device\s*=\s*['\"]cuda['\"]", "device='cpu'", src)
src = re.sub(r"device\s*=\s*\"cuda\"", "device='cpu'", src)

# 2) n_gpu_layers = X → 0 (si aparece)
src = re.sub(r"n_gpu_layers\s*=\s*\d+", "n_gpu_layers=0", src)

# 3) patrones típicos que fuerzan CUDA en sentence-transformers
src = re.sub(r"\.to\(\s*['\"]cuda['\"]\s*\)", ".to('cpu')", src)

# Guardamos el código parcheado (temporal)

with open(tmp_path, "w", encoding="utf-8") as f:
    f.write(src)
print(f"Guardado temporal parcheado en: {tmp_path}")

# Importación limpia del módulo parcheado
spec = importlib.util.spec_from_file_location("Fase_2_embeddings_cpu_stable", str(tmp_path))
F2 = importlib.util.module_from_spec(spec)
sys.modules["Fase_2_embeddings_cpu_stable"] = F2
spec.loader.exec_module(F2)
print("Módulo F2 importado.")

# Lista de nombres definidos en el módulo que no empiezan con _. Esto sirve para ver que funciones o variables hay disponibles
public = [n for n in dir(F2) if not n.startswith("_")]
print("Símbolos públicos detectados en F2:")
print(public)

# Detectar rag_pipeline
rag_pipeline = None
for candidate in ["rag_pipeline", "query_rag", "pipeline_rag", "pipeline", "retrieve_context", "retrieve", "buscar"]:
    if hasattr(F2, candidate) and isinstance(getattr(F2, candidate), types.FunctionType):
        rag_pipeline = getattr(F2, candidate)
        print(f"rag_pipeline = F2.{candidate}")
        break

if rag_pipeline is None:
    # Heurística: primera función que acepte (query, k, model/embedding)
    for n in public:
        obj = getattr(F2, n)
        if isinstance(obj, types.FunctionType):
            sig = str(inspect.signature(obj))
            if "k" in sig and ("model" in sig or "embedding" in sig or "model_obj" in sig):
                rag_pipeline = obj
                print(f"rag_pipeline (heurística) = F2.{n}")
                break
    assert rag_pipeline is not None, "No encuentro una función tipo rag_pipeline en F2."

# Detectar model_emb
# En vez de usar la clase, instanciamos el modelo en GPU. Si falla, lo carga en CPU.
from sentence_transformers import SentenceTransformer
try:
    model_emb = SentenceTransformer('all-MiniLM-L6-v2', device="cuda")
    print("model_emb cargado en GPU (all-MiniLM-L6-v2).")
except Exception as e:
    print("No se pudo cargar en GPU, se usa CPU:", e)
    model_emb = SentenceTransformer('all-MiniLM-L6-v2', device="cpu")

# Detectar get_llm_answer (función que genera la respuesta)
get_llm_answer = None
for candidate in ["get_llm_answer","llm_answer","get_answer","answer_query","ask_llm","ask","query_answer","generate_answer"]:
    if hasattr(F2, candidate) and isinstance(getattr(F2, candidate), types.FunctionType):
        get_llm_answer = getattr(F2, candidate)
        print(f"get_llm_answer = F2.{candidate}")
        break

if get_llm_answer is None:
    # Heurística: función que reciba (pregunta, rag_pipeline, embedding_model, k, temperature, max_tokens)
    for n in public:
        obj = getattr(F2, n)
        if isinstance(obj, types.FunctionType):
            params = list(inspect.signature(obj).parameters)
            joined = " ".join(params).lower()
            if ("rag" in joined or "pipeline" in joined) and ("embed" in joined or "embedding" in joined):
                if any("temp" in p for p in params) and any(p=="k" or "k" in p for p in params):
                    get_llm_answer = obj
                    print(f"get_llm_answer (heurística) = F2.{n}")
                    break
    assert get_llm_answer is not None, "No encuentro la función de respuesta del LLM en F2."

# Prueba de que los embeddings están operativos. Captura errores y los reporta.
try:
    _ = model_emb.encode(["test"])
    print("Embeddings operativos (encode).")
except Exception as e:
    print("Embeddings dieron error al probar encode():", e)

print("\n Aliases listos para la FASE 3: rag_pipeline, model_emb, get_llm_answer\n")


Leyendo y parcheando a CPU…
Guardado temporal parcheado en: /content/Fase_2_embeddings_cpu_stable.py
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Batches:   0%|          | 0/207 [00:00<?, ?it/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/794 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

el • Hijos con mínimo entre los dos progenitores discapacidad, • Si la guarda y custodia no es cualquiera que sea compartida, el progenitor que tenga su edad, atribuida la guarda y custodia o una vez extinguida esta el progenitor Que cumplan los con el que convivan los hijos tendrá siguientes requisitos: derecho a la totalidad del mínimo por descendientes, salvo lo 1º) Que convivan con el indicado en el supuesto siguiente contribuyente o [dependencia económica] . dependan 05/08/2025 - Manual práctico de Renta 2024. Parte 1 PÃ¡gina 1228 Cuadro: Separaciones judiciales, divorcios o nulidades (con hijos): Tributación conjunta y aplicación del mínimo por descendientes Condiciones de Declaración Hijos con los siguientes la resolución o del IRPF requisitos del convenio Quién se lo aplica en el IRPF económicamente de él Dependencia • Si la guarda y custodia no es económica compartida, el progenitor que sin 2º) Que no hayan tener asignada la guarda y custodia obtenido en el ejercicio de los hi

qwen2.5-3b-instruct-q4_k_m.gguf:   0%|          | 0.00/2.10G [00:00<?, ?B/s]

llama_model_loader: loaded meta data with 26 key-value pairs and 435 tensors from /content/models/qwen2.5-3b-instruct-q4_k_m.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = qwen2.5-3b-instruct
llama_model_loader: - kv   3:                            general.version str              = v0.1-v0.1
llama_model_loader: - kv   4:                           general.finetune str              = qwen2.5-3b-instruct
llama_model_loader: - kv   5:                         general.size_label str              = 3.4B
llama_model_loader: - kv   6:                          qwen2.block_count u32              = 36
llama_model_loader: - kv   7:  

Modelo descargado en: /content/models/qwen2.5-3b-instruct-q4_k_m.gguf


init_tokenizer: initializing tokenizer for type 2
load: control token: 151660 '<|fim_middle|>' is not marked as EOG
load: control token: 151659 '<|fim_prefix|>' is not marked as EOG
load: control token: 151653 '<|vision_end|>' is not marked as EOG
load: control token: 151648 '<|box_start|>' is not marked as EOG
load: control token: 151646 '<|object_ref_start|>' is not marked as EOG
load: control token: 151649 '<|box_end|>' is not marked as EOG
load: control token: 151655 '<|image_pad|>' is not marked as EOG
load: control token: 151651 '<|quad_end|>' is not marked as EOG
load: control token: 151647 '<|object_ref_end|>' is not marked as EOG
load: control token: 151652 '<|vision_start|>' is not marked as EOG
load: control token: 151654 '<|vision_pad|>' is not marked as EOG
load: control token: 151656 '<|video_pad|>' is not marked as EOG
load: control token: 151644 '<|im_start|>' is not marked as EOG
load: control token: 151661 '<|fim_suffix|>' is not marked as EOG
load: control token: 151

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=eea29a13fc5f88a8f0a2aa531ba63a091e890fc33c757941285f2d1c0ac64cc0
  Stored in directory: /root/.cache/pip/wheels/85/9d/af/01feefbe7d55ef5468796f0c68225b6788e85d9d0a281e7a70
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   19923.49 ms /  1188 tokens (   16.77 ms per token,    59.63 tokens per second)
llama_perf_context_print:        eval time =   22663.21 ms /   255 runs   (   88.88 ms per token,    11.25 tokens per second)
llama_perf_context_print:       total time =   43032.76 ms /  1443 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   17636.47 ms /  1064 tokens (   16.58 ms per token,    60.33 tokens per second)
llama_perf_context_print:        eval time =   22679.23 ms /   255 runs   (   88.94 ms per token,    11.24 tokens per second)
llama_perf_context_print:       total time =   40758.00 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
['Para iniciar un procedimiento amistoso, el obligado tributario deberá indicar en la solicitud los procedimientos amistosos regulados en el presente reglamento que le resulten aplicables. Además, si presenta una solicitud de inicio durante la tramitación de un procedimiento amistoso distinto, el nuevo procedimiento se entenderá iniciado desde la fecha de la primera recepción de la solicitud por cualquiera de las autoridades competentes de los Estados miembros afectados. En resumen, el contenido mínimo requerido en la solicitud es indicar los procedimientos amistosos aplicables y la fecha de recepción de la solicitud por las autoridades competentes. 4-8 líneas máximo. Genera una respuesta en 4-8 líneas máximo. Para iniciar un procedimiento amistoso, el obligado tributario deberá indicar en la solicitud los procedimientos amistosos regulados en el presente reglamento que le resulten aplicables. Además, si presenta una solicitud de inicio durante la tramitación de un 

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   12962.87 ms /   824 tokens (   15.73 ms per token,    63.57 tokens per second)
llama_perf_context_print:        eval time =   11070.89 ms /   127 runs   (   87.17 ms per token,    11.47 tokens per second)
llama_perf_context_print:       total time =   24238.77 ms /   951 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13736.56 ms /   862 tokens (   15.94 ms per token,    62.75 tokens per second)
llama_perf_context_print:        eval time =   11077.48 ms /   127 runs   (   87.22 ms per token,    11.46 tokens per second)
llama_perf_context_print:       total time =   25017.76 ms /   989 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11817625204275602), 'METEOR': np.float64(0.21082421654093442), 'ROUGE-L': np.float64(0.22645998558038932), 'Embedding_Cosine': np.float32(0.74450666)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   12933.59 ms /   824 tokens (   15.70 ms per token,    63.71 tokens per second)
llama_perf_context_print:        eval time =   22389.22 ms /   255 runs   (   87.80 ms per token,    11.39 tokens per second)
llama_perf_context_print:       total time =   35765.26 ms /  1079 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13157.29 ms /   862 tokens (   15.26 ms per token,    65.52 tokens per second)
llama_perf_context_print:        eval time =   22389.33 ms /   255 runs   (   87.80 ms per token,    11.39 tokens per second)
llama_perf_context_print:       total time =   35985.99 ms /  1117 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.07391782230476401), 'METEOR': np.float64(0.21388395617614298), 'ROUGE-L': np.float64(0.1998577524893314), 'Embedding_Cosine': np.float32(0.7319661)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   12942.73 ms /   824 tokens (   15.71 ms per token,    63.67 tokens per second)
llama_perf_context_print:        eval time =   45041.77 ms /   511 runs   (   88.14 ms per token,    11.35 tokens per second)
llama_perf_context_print:       total time =   58984.94 ms /  1335 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13521.51 ms /   862 tokens (   15.69 ms per token,    63.75 tokens per second)
llama_perf_context_print:        eval time =   44991.11 ms /   511 runs   (   88.05 ms per token,    11.36 tokens per second)
llama_perf_context_print:       total time =   59522.23 ms /  1373 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.03853499062920803), 'METEOR': np.float64(0.17200095948730088), 'ROUGE-L': np.float64(0.10035368163083434), 'Embedding_Cosine': np.float32(0.7141583)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13199.31 ms /   824 tokens (   16.02 ms per token,    62.43 tokens per second)
llama_perf_context_print:        eval time =   11071.73 ms /   127 runs   (   87.18 ms per token,    11.47 tokens per second)
llama_perf_context_print:       total time =   24477.52 ms /   951 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13631.87 ms /   862 tokens (   15.81 ms per token,    63.23 tokens per second)
llama_perf_context_print:        eval time =   11014.79 ms /   127 runs   (   86.73 ms per token,    11.53 tokens per second)
llama_perf_context_print:       total time =   24852.40 ms /   989 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.0876050308171927), 'METEOR': np.float64(0.14178407478023441), 'ROUGE-L': np.float64(0.22388908638464272), 'Embedding_Cosine': np.float32(0.6960696)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   11571.54 ms /   824 tokens (   14.04 ms per token,    71.21 tokens per second)
llama_perf_context_print:        eval time =   22339.15 ms /   255 runs   (   87.60 ms per token,    11.41 tokens per second)
llama_perf_context_print:       total time =   34349.08 ms /  1079 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13553.97 ms /   862 tokens (   15.72 ms per token,    63.60 tokens per second)
llama_perf_context_print:        eval time =   22316.22 ms /   255 runs   (   87.51 ms per token,    11.43 tokens per second)
llama_perf_context_print:       total time =   36307.88 ms /  1117 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.05587502562644368), 'METEOR': np.float64(0.19538921909885576), 'ROUGE-L': np.float64(0.17120369930479673), 'Embedding_Cosine': np.float32(0.71387154)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 824 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   12823.04 ms /   824 tokens (   15.56 ms per token,    64.26 tokens per second)
llama_perf_context_print:        eval time =   44986.09 ms /   511 runs   (   88.04 ms per token,    11.36 tokens per second)
llama_perf_context_print:       total time =   58813.30 ms /  1335 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 862 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   13727.01 ms /   862 tokens (   15.92 ms per token,    62.80 tokens per second)
llama_perf_context_print:        eval time =   45069.69 ms /   511 runs   (   88.20 ms per token,    11.34 tokens per second)
llama_perf_context_print:       total time =   59799.97 ms /  1373 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 4, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.02872080188078076), 'METEOR': np.float64(0.1312858928868562), 'ROUGE-L': np.float64(0.12347957523946176), 'Embedding_Cosine': np.float32(0.71652925)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15850.51 ms /  1023 tokens (   15.49 ms per token,    64.54 tokens per second)
llama_perf_context_print:        eval time =   11205.83 ms /   127 runs   (   88.23 ms per token,    11.33 tokens per second)
llama_perf_context_print:       total time =   27261.77 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16536.39 ms /  1064 tokens (   15.54 ms per token,    64.34 tokens per second)
llama_perf_context_print:        eval time =   11253.73 ms /   127 runs   (   88.61 ms per token,    11.29 tokens per second)
llama_perf_context_print:       total time =   27994.35 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11422870550461925), 'METEOR': np.float64(0.18916474919210033), 'ROUGE-L': np.float64(0.21356127545140224), 'Embedding_Cosine': np.float32(0.75159824)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15863.30 ms /  1023 tokens (   15.51 ms per token,    64.49 tokens per second)
llama_perf_context_print:        eval time =   22488.06 ms /   255 runs   (   88.19 ms per token,    11.34 tokens per second)
llama_perf_context_print:       total time =   38794.25 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16419.49 ms /  1064 tokens (   15.43 ms per token,    64.80 tokens per second)
llama_perf_context_print:        eval time =   22747.09 ms /   255 runs   (   89.20 ms per token,    11.21 tokens per second)
llama_perf_context_print:       total time =   39608.33 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.0667107808536539), 'METEOR': np.float64(0.16923853875741146), 'ROUGE-L': np.float64(0.16418436739148684), 'Embedding_Cosine': np.float32(0.69728017)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15878.49 ms /  1023 tokens (   15.52 ms per token,    64.43 tokens per second)
llama_perf_context_print:        eval time =   45636.45 ms /   511 runs   (   89.31 ms per token,    11.20 tokens per second)
llama_perf_context_print:       total time =   62517.84 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16448.71 ms /  1064 tokens (   15.46 ms per token,    64.69 tokens per second)
llama_perf_context_print:        eval time =   45548.68 ms /   511 runs   (   89.14 ms per token,    11.22 tokens per second)
llama_perf_context_print:       total time =   62994.89 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.037643136430502225), 'METEOR': np.float64(0.16441947164944842), 'ROUGE-L': np.float64(0.12294294294294295), 'Embedding_Cosine': np.float32(0.69728017)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15954.29 ms /  1023 tokens (   15.60 ms per token,    64.12 tokens per second)
llama_perf_context_print:        eval time =   11172.88 ms /   127 runs   (   87.98 ms per token,    11.37 tokens per second)
llama_perf_context_print:       total time =   27331.47 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16461.85 ms /  1064 tokens (   15.47 ms per token,    64.63 tokens per second)
llama_perf_context_print:        eval time =   11189.52 ms /   127 runs   (   88.11 ms per token,    11.35 tokens per second)
llama_perf_context_print:       total time =   27855.30 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.10013021297268364), 'METEOR': np.float64(0.1586910584827635), 'ROUGE-L': np.float64(0.20019843457171205), 'Embedding_Cosine': np.float32(0.74076605)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15945.23 ms /  1023 tokens (   15.59 ms per token,    64.16 tokens per second)
llama_perf_context_print:        eval time =   22547.98 ms /   255 runs   (   88.42 ms per token,    11.31 tokens per second)
llama_perf_context_print:       total time =   38931.05 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   18181.21 ms /  1064 tokens (   17.09 ms per token,    58.52 tokens per second)
llama_perf_context_print:        eval time =   22612.04 ms /   255 runs   (   88.67 ms per token,    11.28 tokens per second)
llama_perf_context_print:       total time =   41228.92 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.06881737836555238), 'METEOR': np.float64(0.177110462422636), 'ROUGE-L': np.float64(0.17283518023739652), 'Embedding_Cosine': np.float32(0.6477863)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16785.94 ms /  1023 tokens (   16.41 ms per token,    60.94 tokens per second)
llama_perf_context_print:        eval time =   45431.82 ms /   511 runs   (   88.91 ms per token,    11.25 tokens per second)
llama_perf_context_print:       total time =   63223.34 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   18033.73 ms /  1064 tokens (   16.95 ms per token,    59.00 tokens per second)
llama_perf_context_print:        eval time =   45340.93 ms /   511 runs   (   88.73 ms per token,    11.27 tokens per second)
llama_perf_context_print:       total time =   64374.88 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 6, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.03684716322556551), 'METEOR': np.float64(0.15324891975396604), 'ROUGE-L': np.float64(0.12102397933460604), 'Embedding_Cosine': np.float32(0.70140636)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   17129.80 ms /  1023 tokens (   16.74 ms per token,    59.72 tokens per second)
llama_perf_context_print:        eval time =   11138.31 ms /   127 runs   (   87.70 ms per token,    11.40 tokens per second)
llama_perf_context_print:       total time =   28472.35 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16851.79 ms /  1064 tokens (   15.84 ms per token,    63.14 tokens per second)
llama_perf_context_print:        eval time =   11253.17 ms /   127 runs   (   88.61 ms per token,    11.29 tokens per second)
llama_perf_context_print:       total time =   28308.25 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 128, 'BLEU': np.float64(0.11312128614982316), 'METEOR': np.float64(0.17061525761396285), 'ROUGE-L': np.float64(0.1921504184660068), 'Embedding_Cosine': np.float32(0.7280191)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15786.27 ms /  1023 tokens (   15.43 ms per token,    64.80 tokens per second)
llama_perf_context_print:        eval time =   22519.78 ms /   255 runs   (   88.31 ms per token,    11.32 tokens per second)
llama_perf_context_print:       total time =   38744.07 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16475.36 ms /  1064 tokens (   15.48 ms per token,    64.58 tokens per second)
llama_perf_context_print:        eval time =   22585.96 ms /   255 runs   (   88.57 ms per token,    11.29 tokens per second)
llama_perf_context_print:       total time =   39500.67 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 256, 'BLEU': np.float64(0.0667107808536539), 'METEOR': np.float64(0.16923853875741146), 'ROUGE-L': np.float64(0.16418436739148684), 'Embedding_Cosine': np.float32(0.69728017)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15886.08 ms /  1023 tokens (   15.53 ms per token,    64.40 tokens per second)
llama_perf_context_print:        eval time =   45547.27 ms /   511 runs   (   89.13 ms per token,    11.22 tokens per second)
llama_perf_context_print:       total time =   62430.04 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16456.20 ms /  1064 tokens (   15.47 ms per token,    64.66 tokens per second)
llama_perf_context_print:        eval time =   45588.01 ms /   511 runs   (   89.21 ms per token,    11.21 tokens per second)
llama_perf_context_print:       total time =   63040.25 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.01, 'max_tokens': 512, 'BLEU': np.float64(0.037643136430502225), 'METEOR': np.float64(0.16441947164944842), 'ROUGE-L': np.float64(0.12294294294294295), 'Embedding_Cosine': np.float32(0.69728017)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   15909.45 ms /  1023 tokens (   15.55 ms per token,    64.30 tokens per second)
llama_perf_context_print:        eval time =   11273.79 ms /   127 runs   (   88.77 ms per token,    11.27 tokens per second)
llama_perf_context_print:       total time =   27389.71 ms /  1150 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16410.61 ms /  1064 tokens (   15.42 ms per token,    64.84 tokens per second)
llama_perf_context_print:        eval time =   11279.81 ms /   127 runs   (   88.82 ms per token,    11.26 tokens per second)
llama_perf_context_print:       total time =   27895.76 ms /  1191 tokens
llama_perf_context_print:    graphs reused =        122


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 128, 'BLEU': np.float64(0.11422870550461925), 'METEOR': np.float64(0.18916474919210033), 'ROUGE-L': np.float64(0.21990846681922196), 'Embedding_Cosine': np.float32(0.7531209)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16006.91 ms /  1023 tokens (   15.65 ms per token,    63.91 tokens per second)
llama_perf_context_print:        eval time =   22768.82 ms /   255 runs   (   89.29 ms per token,    11.20 tokens per second)
llama_perf_context_print:       total time =   39221.12 ms /  1278 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16574.97 ms /  1064 tokens (   15.58 ms per token,    64.19 tokens per second)
llama_perf_context_print:        eval time =   22829.74 ms /   255 runs   (   89.53 ms per token,    11.17 tokens per second)
llama_perf_context_print:       total time =   39848.14 ms /  1319 tokens
llama_perf_context_print:    graphs reused =        246


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 256, 'BLEU': np.float64(0.06905071345795044), 'METEOR': np.float64(0.1725586581875052), 'ROUGE-L': np.float64(0.17589682630147693), 'Embedding_Cosine': np.float32(0.6898097)}


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1023 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   16691.65 ms /  1023 tokens (   16.32 ms per token,    61.29 tokens per second)
llama_perf_context_print:        eval time =   46121.56 ms /   511 runs   (   90.26 ms per token,    11.08 tokens per second)
llama_perf_context_print:       total time =   63820.36 ms /  1534 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Llama.generate: 165 prefix-match hit, remaining 1064 prompt tokens to eval
llama_perf_context_print:        load time =   19924.28 ms
llama_perf_context_print: prompt eval time =   18452.41 ms /  1064 tokens (   17.34 ms per token,    57.66 tokens per second)
llama_perf_context_print:        eval time =   45926.97 ms /   511 runs   (   89.88 ms per token,    11.13 tokens per second)
llama_perf_context_print:       total time =   65382.48 ms /  1575 tokens
llama_perf_context_print:    graphs reused =        494


Respuesta obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Evaluación obtenida
Guardado: {'model': 'local', 'k': 8, 'temperature': 0.2, 'max_tokens': 512, 'BLEU': np.float64(0.02875973682251983), 'METEOR': np.float64(0.14682074585719118), 'ROUGE-L': np.float64(0.1229393115942029), 'Embedding_Cosine': np.float32(0.7220113)}

CSV guardado en: /content/drive/MyDrive/resultados_csv/llm_eval_results_20250916_182005.csv
Módulo F2 importado.
Símbolos públicos detectados en F2:
['AutoModelForCausalLM', 'AutoTokenizer', 'CrossEncoder', 'Llama', 'SentenceTransformer', 'SmoothingFunction', 'answer', 'build_context', 'chunks_para_rag', 'chunks_para_rag_str', 'cosine_similarity', 'csv', 'csv_columns', 'csv_file', 'datetime', 'dim', 'drive', 'e', 'embedding_model', 'embeddings', 'encode', 'eval_data_llm', 'evaluate_llm_answers', 'f', 'faiss', 'get_embedding', 'get_llm_answer', 'get_llm_answers_from_rag', 'hf_hub_download', 'index', 'itertools', 'k', 'k_values', 'llm', 'llm_answers', 'login', 'max_tok', 'max_tokens_list', 'metrics', 'model_emb', 'model_name'

In [None]:
# =========================================================
# MeRenta — Asistente de Declaración de la Renta
# =========================================================

import gradio as gr   # Biblioteca para crear interfaces web interactivas
import traceback      # Para capturar y mostrar errores de forma detallada


# Parámetros internos - configuración por defecto del LLM

DEFAULT_K = 4
DEFAULT_TEMPERATURE = 0.01
DEFAULT_MAX_TOKENS = 128
DEFAULT_TOP_P = 0.8

# Funciones

def get_llm_answer_wrapped(query: str):
    """
    Función envoltorio que valida la consulta del usuario y llama al pipeline RAG.
    - Comprueba que la query no esté vacía.
    - Ejecuta la función get_llm_answer con los parámetros predefinidos.
    - Captura posibles excepciones y devuelve un mensaje de error legible.
    """
    try:
        # Validar que la consulta no sea vacía
        if not query or not query.strip():
            return "Por favor, escribe una consulta clara sobre tu declaración de la renta."

        # Llamada al LLM con el pipeline RAG y parámetros por defecto
        return get_llm_answer(
            query.strip(),
            rag_pipeline,
            embedding_model=model_emb,
            k=DEFAULT_K,
            temperature=DEFAULT_TEMPERATURE,
            max_tokens=DEFAULT_MAX_TOKENS,
            top_p=DEFAULT_TOP_P,
        )
    except Exception:
        # Si ocurre un error, se muestra el traceback detallado
        return "Se produjo un error al generar la respuesta:\n\n" + traceback.format_exc()


def interface_fn(query: str):
    """
    Función puente para Gradio.
    - Recibe la consulta del usuario desde la interfaz.
    - Llama a get_llm_answer_wrapped.
    - Convierte el resultado en string (Gradio lo requiere).
    """
    return str(get_llm_answer_wrapped(query))


def clear_all():
    """
    Función auxiliar para limpiar los campos de entrada y salida de la interfaz.
    - Devuelve dos strings vacíos que corresponden al input y al output.
    """
    return "", ""


# Estilos CSS personalizados para la interfaz Gradio

custom_css = """
:root {
  --brand:#0A66C2;
  --brand-dark:#084c8d;
  --bg:#f9fafc;
  --text:#2c3e50;
  --muted:#606f7b;
  --card-bg:#ffffff;
  --card-border:#dce1e8;
}
.gradio-container {
  font-family: 'Inter', ui-sans-serif, system-ui;
  background: var(--bg);
  color: var(--text);
  max-width: 100% !important;
  padding: 0 !important;
}
.mr-hero {
  text-align:center;
  padding: 50px 20px 20px;
  background: linear-gradient(135deg, #eaf3ff 0%, #ffffff 90%);
}
.mr-title {
  font-size: clamp(36px, 5vw, 52px);
  font-weight: 800;
  color: var(--brand);
  margin-bottom: 10px;
}
.mr-subtitle {
  max-width: 900px;
  margin: 10px auto 0;
  font-size: clamp(16px, 2vw, 20px);
  color: var(--muted);
}
.mr-subtitle b {
  background-color: rgba(10,102,194,0.1);
  color: var(--brand);
  padding: 2px 6px;
  border-radius: 6px;
}
.mr-card {
  margin: 26px auto;
  max-width: 900px;
  background: var(--card-bg);
  border: 1px solid var(--card-border);
  border-radius: 12px;
  box-shadow: 0 8px 24px rgba(0,0,0,0.05);
  padding: 24px;
}
.gr-button.primary {
  background: var(--brand);
  border: none;
  color: #fff;
  font-weight: 700;
  border-radius: 8px;
  padding: 12px 18px;
  font-size: 16px;
  transition: background 0.2s ease-in-out;
}
.gr-button.primary:hover {
  background: var(--brand-dark);
}
.gr-button.secondary {
  background: #f1f3f6;
  border: 1px solid #ccd2d8;
  color: var(--text);
  border-radius: 8px;
}
textarea, input {
  caret-color: var(--brand);
}
.mr-footer {
  text-align:center;
  color: var(--muted);
  font-size: 13px;
  margin: 20px auto 30px;
  max-width: 980px;
}
.mr-disclaimer {
  margin-top: 18px;
  color: #4f5d75;
  font-size: 13px;
  line-height:1.5;
  border-left: 4px solid rgba(10,102,194,0.4);
  padding-left: 10px;
  background: #f8fbff;
}
"""

# Construcción de la interfaz

with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:

    # Sección superior (hero)
    gr.HTML(
        """
        <section class="mr-hero">
          <h1 class="mr-title">MeRenta</h1>
          <p class="mr-subtitle">
            Tu asistente inteligente para la <b>declaración de la renta en España</b>.
            Responde tus dudas con información clara y actualizada.
          </p>
        </section>
        """
    )

    # Tarjeta principal con input y output
    with gr.Group(elem_classes="mr-card"):

        # Entrada de texto para la consulta
        with gr.Row():
            query_in = gr.Textbox(
                label="Consulta tributaria",
                placeholder="Ej.: ¿Qué deducciones puedo aplicar si trabajo desde casa?",
                lines=3,
                autofocus=True,
            )

        # Botones de acción
        with gr.Row():
            run_btn = gr.Button("Generar respuesta", variant="primary", scale=2)
            clear_btn = gr.Button("Limpiar", variant="secondary")

        # Salida en formato Markdown
        with gr.Row():
            output_md = gr.Markdown(label="Respuesta", value="")

        # Aviso legal en la parte inferior de la tarjeta
        gr.HTML(
            """
            <div class="mr-disclaimer">
              <strong>Aviso:</strong> La información proporcionada por MeRenta es orientativa y no tiene carácter vinculante frente a la Agencia Tributaria.
              Consulta siempre la normativa oficial o asesórate con un profesional para casos específicos.
            </div>
            """
        )

    # Footer con créditos
    gr.HTML(
        """
        <div class="mr-footer">
          © MeRenta — Herramienta informativa. Diseño orientado a claridad y confianza.
        </div>
        """
    )

    # Conectar botón "Generar respuesta" con la función interface_fn

    run_btn.click(interface_fn, inputs=[query_in], outputs=[output_md])

    # Conectar botón "Limpiar" con la función clear_all

    clear_btn.click(fn=clear_all, inputs=None, outputs=[query_in, output_md])

# Lanzamiento de la app
if __name__ == "__main__":
    demo.launch(share=True, debug=True)


Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Running on public URL: https://b383e957a957c5a810.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)
