# Components RAG Chain

- Context: vectordb
- Prompt: question
- LLM: model to run the query with
- OutputParser: output format

```python
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)
```

## Vector DB

### Instantiate vectordb

In [1]:
from modules.vectordb.bocyl import get_vectordb_bocyl
vectordb = get_vectordb_bocyl(persist_directory=True)

vectordb

<modules.vectordb.bocyl.BOCYLVectorDB at 0x771a4b44d160>

### [X] Insert documents

If you want to insert new documents, you can add the urls to the list below.

In [None]:
urls = [
    'https://bocyl.jcyl.es/boletines/2025/04/21/xml/BOCYL-D-21042025-1.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/14/xml/BOCYL-D-14042025-56.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/11/xml/BOCYL-D-11042025-15.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/07/xml/BOCYL-D-07042025-29.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/02/xml/BOCYL-D-02042025-23.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/02/xml/BOCYL-D-02042025-45.xml',
    'https://bocyl.jcyl.es/boletines/2025/04/02/xml/BOCYL-D-02042025-48.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-1.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-2.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-9.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-21.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-22.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-23.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-24.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-25.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-26.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/07/xml/BOCYL-D-07032025-16.xml',
    'https://bocyl.jcyl.es/boletines/2025/03/07/xml/BOCYL-D-07032025-17.xml',
    'https://bocyl.jcyl.es/boletines/2025/02/26/xml/BOCYL-D-26022025-18.xml',
    'https://bocyl.jcyl.es/boletines/2025/02/10/xml/BOCYL-D-10022025-2.xml',
]

In [3]:
from pathlib import Path
folder_documents = Path("/workspace/data/documents/BOCYL")

In [4]:
from modules.preprocessing import BOCYLMarkdownExporter
exporter = BOCYLMarkdownExporter(folder_documents)

In [5]:
paths = []

for url in urls:
    exporter.export(url)
    filename = url.split('/')[-1].split('.')[0]
    path = folder_documents / f"{filename}.md"
    paths.append(path)

paths

[PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21042025-1.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-14042025-56.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-11042025-15.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-07042025-29.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-02042025-23.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-02042025-45.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-02042025-48.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-1.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-2.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-9.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-21.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-22.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-23.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-24.md'),
 PosixPath('/workspace/d

In [6]:
vectordb.upsert_documents(paths)

Document BOCYL-D-21042025-1 not found
Added BOCYL-D-21042025-1 with 4 sections and metadata: {'doc_id': 'BOCYL-D-21042025-1', 'date': '2025-04-21', 'doc_number': 1, 'source': 'BOCYL', 'type': 'official_document', 'area': 'AGRARIA', 'consejeria': 'AGRICULTURA Y PESCA', 'title': 'ORDEN SAN/378/2025, de 4 de abril, por la que se resuelve convocatoria pública para cubrir, mediante el sistema de libre designación, el puesto de trabajo que se cita.'}
Document BOCYL-D-14042025-56 not found
Added BOCYL-D-14042025-56 with 11 sections and metadata: {'doc_id': 'BOCYL-D-14042025-56', 'date': '2025-04-14', 'doc_number': 56, 'source': 'BOCYL', 'type': 'official_document', 'area': 'AGRARIA', 'consejeria': 'AGRICULTURA Y PESCA', 'title': 'RESOLUCIÓN de 7 de abril de 2025, del Servicio Territorial de Agricultura, Ganadería y Desarrollo Rural de Zamora, por la que se convoca asamblea única para la elección de los miembros que van a formar parte del grupo auxiliar de trabajo y de la comisión local, en re

[{'doc_id': 'BOCYL-D-21042025-1',
  'sections': 4,
  'metadata': {'doc_id': 'BOCYL-D-21042025-1',
   'date': '2025-04-21',
   'doc_number': 1,
   'source': 'BOCYL',
   'type': 'official_document',
   'area': 'AGRARIA',
   'consejeria': 'AGRICULTURA Y PESCA',
   'title': 'ORDEN SAN/378/2025, de 4 de abril, por la que se resuelve convocatoria pública para cubrir, mediante el sistema de libre designación, el puesto de trabajo que se cita.'},
  'section_metadata': [{'doc_id': 'BOCYL-D-21042025-1',
    'date': '2025-04-21',
    'doc_number': 1,
    'source': 'BOCYL',
    'type': 'official_document',
    'area': 'AGRARIA',
    'consejeria': 'AGRICULTURA Y PESCA',
    'title': 'ORDEN SAN/378/2025, de 4 de abril, por la que se resuelve convocatoria pública para cubrir, mediante el sistema de libre designación, el puesto de trabajo que se cita.',
    'heading_level': 1,
    'heading_hierarchy': 'ORDEN SAN/378/2025, de 4 de abril, por la que se resuelve convocatoria pública para cubrir, mediante

### Vectordb as retriever

In [7]:
retriever = vectordb.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 4}
)

### Template for the context

In [8]:
template = """Answer the question based only on the following context:

{context}

Question: {question}

Answer in Spanish. If the answer cannot be found in the context, say "No encuentro información sobre esto en los documentos proporcionados."
"""

In [9]:
from langchain.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_template(template)

prompt

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='Answer the question based only on the following context:\n\n{context}\n\nQuestion: {question}\n\nAnswer in Spanish. If the answer cannot be found in the context, say "No encuentro información sobre esto en los documentos proporcionados."\n'), additional_kwargs={})])

### Instantiate LLM

In [10]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="chatgpt-4o-latest")

### Compose RAG Chain

In [11]:
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

def format_docs(docs):
    return "\n\n".join([doc.page_content for doc in docs])

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

## Test the RAG Chain


### [X] Query

In [12]:
query = "Ultima normativa agraria publicada en BOCYL, dame un resumen con lo mas importante."

In [13]:
response = rag_chain.invoke(query)
print(response)

La última normativa agraria publicada en el Boletín Oficial de Castilla y León (BOCYL) mencionada en el contexto se refiere a una orden que deroga la Orden AYG/565/2004, de 13 de abril, y regula de manera unificada:

- La formación sobre bienestar animal.
- La formación en bioseguridad, higiene y sanidad animal para operadores y profesionales que trabajan con animales de producción.
- El procedimiento de registro de las entidades de formación.
- La comunicación de las distintas ediciones de los cursos.
- La obtención de certificados de competencia en las materias mencionadas.

Esta nueva normativa responde a la experiencia adquirida con la anterior regulación, y a la creciente sensibilidad social por la protección animal, el respeto al medio ambiente y la salud pública.

Además, establece que las entidades y personas formadoras, debido a su cualificación técnica y acceso a medios electrónicos, deben comunicarse electrónicamente con la administración y recibir notificaciones en ese form

In [14]:
vectordb.vectorstore.similarity_search(query, k=4)

[Document(id='BOCYL-D-21032025-2_2', metadata={'area': 'AGRARIA', 'chunk_id': 2, 'chunk_total': 3, 'consejeria': 'AGRICULTURA Y PESCA', 'date': '2025-03-21', 'doc_id': 'BOCYL-D-21032025-2', 'doc_number': 2, 'heading': 'RESUELVE', 'heading_hierarchy': 'Introduction | RESUELVE', 'heading_level': 3, 'parent_heading': 'Introduction', 'source': 'BOCYL', 'subsection': 'Part 2/2', 'title': 'RESOLUCIÓN de 13 de marzo de 2025, de la Secretaria General de la Consejería de Agricultura, Ganadería y Desarrollo Rural, por la que se aprueba y publica la relación definitiva de candidatos de la bolsa de empleo temporal del Cuerpo de Ayudantes Facultativos (Inspectores de Campo) de la Administración de la Comunidad de Castilla y León, convocada por Orden PRE/556/2024, de 7 de junio.', 'type': 'official_document'}, page_content='Cuarto.  La relación definitiva de candidatos de esta bolsa de empleo temporal del Cuerpo de Ayudantes Facultativos (Inspectores de Campo) de la Administración de la Comunidad de

### Save outputs

In [15]:
import datetime
import hashlib

current_datetime = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

response_hash = hashlib.md5(response.encode()).hexdigest()

filename = f"outputs/{current_datetime}_{response_hash}.md"

with open(filename, 'w') as f:
    f.write(response)