In [6]:
from unsloth import FastLanguageModel
from datasets import load_from_disk
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from transformers import DataCollatorForLanguageModeling
from trl import SFTTrainer, SFTConfig
import torch

SEED = 42

In [7]:
model_name = "Qwen/Qwen3-0.6B"

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = 8192,
    load_in_4bit = False,
    load_in_8bit = False,
)
RANK = 64
model = FastLanguageModel.get_peft_model(
    model,
    r = RANK,           # Choose any number > 0! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = RANK*2,  # Best to choose alpha = rank or rank*2
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = SEED,
    use_rslora = False,   # We support rank stabilized LoRA
    loftq_config = None,  # And LoftQ
)

==((====))==  Unsloth 2025.9.6: Fast Qwen3 patching. Transformers: 4.55.4. vLLM: 0.10.2.
   \\   /|    NVIDIA GeForce RTX 4070 SUPER. Num GPUs = 1. Max memory: 11.994 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.8.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.4.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.32.post1. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


In [8]:
embedding_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
    model_kwargs={"device": "cuda"},
)

db = FAISS.load_local(
    "../data/db/parliament_db/parliament_all_docs_embeddings_sentence-transformers_paraphrase-multilingual-mpnet-base-v2",
    embedding_model,
    allow_dangerous_deserialization=True,
)

In [9]:
#quiero la lista de documentos
docs = db.docstore._dict.values()
documents = list(docs)
print(f"Number of documents: {len(documents)}")

Number of documents: 11162


In [10]:
FOLDER_AUTORE = "../data/processed/parliament_qa"
dataset = load_from_disk(FOLDER_AUTORE)

## Data preparation

In [11]:
def prepare_prompt_for_indexing(documents: list):
    prompt = """
    Este documento tiene el DOCID:{doc_id}.
    Contenido del documento:
    {doc}
    """
    for doc in documents:
        document = doc.page_content
        doc_id = doc.metadata.get("id", "unknown")
        yield prompt.format(doc=document, doc_id=doc_id)

In [12]:
def build_prompt_it(tokenizer, system_prompt: str, prompt: str) -> str:
    """Builds the chat prompt for a single example using the tokenizer chat template."""
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user",   "content": prompt},
    ]
    return tokenizer.apply_chat_template(
        messages,
        tokenize=False,
    )

In [13]:
def prepare_prompts_for_retrieval(dataset, tokenizer):
    system_prompt = """Eres un módulo de recuperación. Tu única tarea es devolver el identificador del documento correspondiente a la consulta dada.
Sigue estrictamente estas reglas:
1) Devuelve EXACTAMENTE una línea con el formato: DOCID:{<id>}.
2) No incluyas palabras, explicaciones o puntuación extra antes o después de las llaves.
3) Si múltiples documentos son plausibles, elige el mejor ID.
4) Nunca inventes un ID fuera del espacio permitido. Mantente dentro de los prefijos válidos.
5) No respondas a la pregunta; solo devuelve el docid."
"""
    prompts = []
    for item in dataset:
        prompt = """
        Dada la siguiente consulta, recupera los identificadores de los documentos relevantes. 
        Consulta: {QUERY}
        Proporciona los identificadores de los documentos en el siguiente formato, uno por línea:
        """
        docid_prompt = "DOCID:{docid}"
        question = item["question"]
        prompt = prompt.format(QUERY=question)
        prompt += docid_prompt.format(docid=item["id"]) + "\n"
        prompts.append(build_prompt_it(tokenizer, system_prompt, prompt))
    return prompts

In [14]:
prompts = list(prepare_prompt_for_indexing(documents))
print(f"Number of prompts: {len(prompts)}")

Number of prompts: 11162


In [15]:
# create dataset from prompts
from datasets import Dataset
indexing_dataset = Dataset.from_dict({"text": prompts})
indexing_dataset

Dataset({
    features: ['text'],
    num_rows: 11162
})

In [16]:
indexing_dataset["text"][0]

'\n    Este documento tiene el DOCID:6596_4.\n    Contenido del documento:\n    Esta sesión del parlamento se realizó el 2024-05-07. 11L/PO/P-0750 PREGUNTA DEL SEÑOR DIPUTADO DON NICASIO JESÚS GALVÁN SASIA, DEL GRUPO PARLAMENTARIO VOX, SOBRE MEDIDAS QUE SE VAN A LLEVAR A CABO PARA DEMOCRATIZAR Y REDISTRIBUIR LA RIQUEZA DEL SECTOR TURÍSTICO, DIRIGIDA A LA PRESIDENCIA DEL GOBIERNO La señora PRESIDENTA: Siguiente pregunta, del señor diputado don Nicasio Galván Sasia, del Grupo Parlamentario VOX, sobre medidas que se van a llevar a cabo para democratizar y redistribuir la riqueza del sector turístico, dirigida al señor presidente del Gobierno. Cuando quiera. El señor GALVÁN SASIA (desde su escaño): Buenos días, señor Clavijo, buenos días. Escuchándole en la rueda de prensa posterior a la Conferencia de Presidentes nos han surgido varias preguntas, y nos consta que no solo a nosotros. Se le oía escuchar hablar de la democratización y la redistribución de la riqueza del sector turístico y cu

In [17]:
prompts_retrieval_train = prepare_prompts_for_retrieval(dataset["train"], tokenizer)
prompts_retrieval_val = prepare_prompts_for_retrieval(dataset["validation"], tokenizer)

print(f"Number of retrieval prompts: {len(prompts_retrieval_train)}")
print(f"Number of retrieval prompts: {len(prompts_retrieval_val)}")

Number of retrieval prompts: 614
Number of retrieval prompts: 161


In [18]:
prompts_retrieval_train[0]

'<|im_start|>system\nEres un módulo de recuperación. Tu única tarea es devolver el identificador del documento correspondiente a la consulta dada.\nSigue estrictamente estas reglas:\n1) Devuelve EXACTAMENTE una línea con el formato: DOCID:{<id>}.\n2) No incluyas palabras, explicaciones o puntuación extra antes o después de las llaves.\n3) Si múltiples documentos son plausibles, elige el mejor ID.\n4) Nunca inventes un ID fuera del espacio permitido. Mantente dentro de los prefijos válidos.\n5) No respondas a la pregunta; solo devuelve el docid."\n<|im_end|>\n<|im_start|>user\n\n        Dada la siguiente consulta, recupera los identificadores de los documentos relevantes. \n        Consulta: ¿Qué argumentos presentó el grupo parlamentario que intervino en la sesión del 22 de octubre de 2024, en relación con la propuesta de alteración del orden del día y su impacto en el desarrollo de las comparecencias del Gobierno?\n        Proporciona los identificadores de los documentos en el siguie

In [19]:
# create dataset from prompts train, val, test
retrieval_train_dataset = Dataset.from_dict({"text": prompts_retrieval_train})
retrieval_val_dataset = Dataset.from_dict({"text": prompts_retrieval_val})

retrieval_dataset = {
    "train": retrieval_train_dataset,
    "validation": retrieval_val_dataset,
}

In [20]:
def tokenize_function_autoregressive(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=2048)

In [21]:
indexing_dataset_tokenizer = indexing_dataset.map(tokenize_function_autoregressive, batched=True)

Map: 100%|██████████| 11162/11162 [00:09<00:00, 1169.20 examples/s]


## Train

In [22]:
# sft training
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
auto_config = SFTConfig(
    per_device_train_batch_size = 2,
    gradient_accumulation_steps = 4, # Use GA to mimic batch size!
    save_steps=10,
    warmup_steps = 5,
    #num_train_epochs = 1, # Set this for 1 full training run.
    max_steps = 60,
    learning_rate = 2e-4, # Reduce to 2e-5 for long training runs
    logging_steps = 1,
    optim = "adamw_8bit",
    weight_decay = 0.01,
    lr_scheduler_type = "linear",
    seed = SEED,
    report_to = "none", # Use this for WandB etc
    output_dir="../models/qwen3-0.6b-rag-indexer",
)

it_config = SFTConfig(
    dataset_text_field="text",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,         # <-- añade eval batch size
    gradient_accumulation_steps=4,
    warmup_steps=5,
    save_steps=5,
    eval_steps=5,
    eval_strategy="steps",         # <-- activa evaluación periódica
    #num_train_epochs=1,             # <-- opcional: usa epochs en lugar de max_steps
    max_steps=60,
    learning_rate=2e-4,
    logging_steps=1,
    optim="adamw_8bit",
    weight_decay=0.01,
    lr_scheduler_type="cosine",
    seed=SEED,
    report_to="none",
    output_dir="../models/qwen3-0.6b-rag-retriever",
    load_best_model_at_end=True,          # <-- opcional
    metric_for_best_model="eval_loss",    # <-- opcional
    greater_is_better=False,              # <-- opcional
)

trainer_auto = SFTTrainer(
    model=model,
    train_dataset=indexing_dataset_tokenizer,
    tokenizer=tokenizer,
    args=auto_config,
)

trainer_it = SFTTrainer(
    model=model,
    train_dataset=retrieval_dataset["train"],
    eval_dataset=retrieval_dataset["validation"],
    tokenizer=tokenizer,
    args=it_config,
)

Unsloth: Tokenizing ["text"] (num_proc=32): 100%|██████████| 614/614 [00:04<00:00, 151.56 examples/s]
Unsloth: Tokenizing ["text"] (num_proc=32): 100%|██████████| 161/161 [00:02<00:00, 62.52 examples/s] 


In [23]:
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = NVIDIA GeForce RTX 4070 SUPER. Max memory = 11.994 GB.
2.438 GB of memory reserved.


In [24]:
EPOCHS = 2
for _ in range(EPOCHS):
    trainer_sft_stats = trainer_auto.train()
    trainer_it_stats = trainer_it.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 11,162 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 40,370,176 of 636,420,096 (6.34% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
1,6.2912
2,6.0979
3,4.4692
4,5.8037
5,3.4088
6,2.9508
7,4.7147
8,3.6997
9,3.3412
10,2.8652


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 614 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 40,370,176 of 636,420,096 (6.34% trained)


Step,Training Loss,Validation Loss
5,1.7939,1.377428
10,0.5595,0.542438
15,0.5412,0.479699
20,0.453,0.448664
25,0.4359,0.431838
30,0.4295,0.417642
35,0.4249,0.410696
40,0.3632,0.402644
45,0.4479,0.396807
50,0.3883,0.393479


Unsloth: Not an error, but Qwen3ForCausalLM does not accept `num_items_in_batch`.
Using gradient accumulation will be very slightly less accurate.
Read more on gradient accumulation issues here: https://unsloth.ai/blog/gradient
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 11,162 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 40,370,176 of 636,420,096 (6.34% trained)


Step,Training Loss
1,5.6318
2,5.3358
3,3.6937
4,4.4775
5,2.9033
6,2.5178
7,4.2193
8,3.3156
9,2.9976
10,2.5525


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 614 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 40,370,176 of 636,420,096 (6.34% trained)


Step,Training Loss,Validation Loss
5,0.364,0.416069
10,0.3142,0.403918
15,0.3688,0.404568
20,0.3357,0.400162
25,0.3249,0.390632
30,0.35,0.380925
35,0.3412,0.374968
40,0.3154,0.368071
45,0.3624,0.362807
50,0.3286,0.360062


In [25]:
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory / max_memory * 100, 3)
lora_percentage = round(used_memory_for_lora / max_memory * 100, 3)
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

Peak reserved memory = 5.129 GB.
Peak reserved memory for training = 2.691 GB.
Peak reserved memory % of max memory = 42.763 %.
Peak reserved memory for training % of max memory = 22.436 %.


In [26]:
def prepare_prompts_for_testing(dataset, tokenizer):
    system_prompt = """Eres un módulo de recuperación. Tu única tarea es devolver el identificador del documento correspondiente a la consulta dada.
Sigue estrictamente estas reglas:
1) Devuelve EXACTAMENTE una línea con el formato: DOCID:{<id>}.
2) No incluyas palabras, explicaciones o puntuación extra antes o después de las llaves.
3) Si múltiples documentos son plausibles, elige el mejor ID.
4) Nunca inventes un ID fuera del espacio permitido. Mantente dentro de los prefijos válidos.
5) No respondas a la pregunta; solo devuelve el docid."
"""
    def build_prompt_it(tokenizer, system_prompt: str, prompt: str) -> str:
        """Builds the chat prompt for a single example using the tokenizer chat template."""
        messages = [
            {"role": "system", "content": system_prompt},
            {"role": "user",   "content": prompt},
        ]
        return tokenizer.apply_chat_template(
            messages,
            add_generation_prompt=True,
            tokenize=False,
        )
    prompts = []
    for item in dataset:
        prompt = """
        Dada la siguiente consulta, recupera los identificadores de los documentos relevantes. 
        Consulta: {QUERY}
        Proporciona los identificadores de los documentos en el siguiente formato, uno por línea:
        """
        question = item["question"]
        prompt = prompt.format(QUERY=question)
        prompts.append(
            ( 
                build_prompt_it(tokenizer, system_prompt, prompt),
                item["id"],
            )
        )
    return prompts

In [27]:
prompts_retrieval_test = prepare_prompts_for_testing(dataset["test"], tokenizer)


In [28]:
text = prompts_retrieval_test[0][0]
doc_id_targets = prompts_retrieval_test[0][1]
print(doc_id_targets)

5402_2


In [34]:
# test the model in streaming mode
from transformers import TextStreamer

streamer = TextStreamer(tokenizer, skip_prompt=False, skip_special_tokens=True)
_ = model.generate(
    **tokenizer(text, return_tensors = "pt").to("cuda"),
    max_new_tokens = 64, # Increase for longer outputs!
    temperature = 0.001,
    streamer = streamer,
)

system
Eres un módulo de recuperación. Tu única tarea es devolver el identificador del documento correspondiente a la consulta dada.
Sigue estrictamente estas reglas:
1) Devuelve EXACTAMENTE una línea con el formato: DOCID:{<id>}.
2) No incluyas palabras, explicaciones o puntuación extra antes o después de las llaves.
3) Si múltiples documentos son plausibles, elige el mejor ID.
4) Nunca inventes un ID fuera del espacio permitido. Mantente dentro de los prefijos válidos.
5) No respondas a la pregunta; solo devuelve el docid."

user

        Dada la siguiente consulta, recupera los identificadores de los documentos relevantes. 
        Consulta: ¿Cuántas votaciones se realizaron en la sesión plenaria del 29 de marzo de 2007 sobre la proposición no de ley del Grupo Parlamentario Popular relativa al sector vitivinícola, y cuál fue el resultado de dicha votación?
        Proporciona los identificadores de los documentos en el siguiente formato, uno por línea:
        
assistant


        Gracias por tu pregunta. Recuperamos los identificadores de los documentos relevantes. El documento correspondiente a la proposición no de ley del Grupo Parlamentario Popular sobre el sector vitivinícola es el siguiente identificador: 6000_10.

