# Components RAG Chain

- Context: vectordb
- Prompt: question
- LLM: model to run the query with
- OutputParser: output format

```python
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)
```

## Vector DB

### Instantiate vectordb

In [1]:
from modules.vectordb.bocyl import get_vectordb_bocyl
vectordb = get_vectordb_bocyl(remove_existing=True, persist_directory=True)

vectordb

Error deleting collection: At least one of ids, where, or where_document must be provided in delete.


<modules.vectordb.bocyl.BOCYLVectorDB at 0x7f34833a7f80>

### [X] Insert documents

If you want to insert new documents, you can add the urls to the list below.

In [2]:
urls = [
    "https://bocyl.jcyl.es/boletines/2025/04/11/xml/BOCYL-D-11042025-15.xml",
    "https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-21.xml",
    "https://bocyl.jcyl.es/boletines/2025/03/21/xml/BOCYL-D-21032025-26.xml",
    "https://bocyl.jcyl.es/boletines/2025/03/07/xml/BOCYL-D-07032025-16.xml",
    "https://bocyl.jcyl.es/boletines/2025/03/07/xml/BOCYL-D-07032025-17.xml",
    "https://bocyl.jcyl.es/boletines/2025/02/26/xml/BOCYL-D-26022025-18.xml",
    "https://bocyl.jcyl.es/boletines/2025/02/10/xml/BOCYL-D-10022025-2.xml",
    "https://bocyl.jcyl.es/boletines/2025/02/10/xml/BOCYL-D-10022025-11.xml",
    "https://bocyl.jcyl.es/boletines/2025/02/10/xml/BOCYL-D-10022025-12.xml",
    "https://bocyl.jcyl.es/boletines/2025/02/10/xml/BOCYL-D-10022025-13.xml",
]


In [3]:
from pathlib import Path
folder_documents = Path("/workspace/data/documents/BOCYL")

In [4]:
from modules.preprocessing import BOCYLMarkdownExporter
exporter = BOCYLMarkdownExporter(folder_documents)

In [5]:
paths = []

for url in urls:
    exporter.export(url)
    filename = url.split('/')[-1].split('.')[0]
    path = folder_documents / f"{filename}.md"
    paths.append(path)

paths

File /workspace/data/documents/BOCYL/BOCYL-D-11042025-15.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-21032025-21.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-21032025-26.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-07032025-16.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-07032025-17.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-26022025-18.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-10022025-2.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-10022025-11.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-10022025-12.md already exists. Skipping export.
File /workspace/data/documents/BOCYL/BOCYL-D-10022025-13.md already exists. Skipping export.


[PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-11042025-15.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-21.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-21032025-26.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-07032025-16.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-07032025-17.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-26022025-18.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-10022025-2.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-10022025-11.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-10022025-12.md'),
 PosixPath('/workspace/data/documents/BOCYL/BOCYL-D-10022025-13.md')]

In [6]:
vectordb.upsert_documents(paths)

Deleted document BOCYL-D-11042025-15 with 3 chunks
Added BOCYL-D-11042025-15 with 2 sections and metadata: {'doc_id': 'BOCYL-D-11042025-15', 'date': '2025-04-11', 'doc_number': 15, 'source': 'BOCYL', 'type': 'official_document', 'area': 'AGRARIA', 'consejeria': 'AGRICULTURA Y PESCA', 'title': 'EXTRACTO de la Orden de 8 de abril de 2025, de la Consejería de Agricultura, Ganadería y Desarrollo Rural, por la que se convocan las ayudas a la cosecha en verde de viñedos en la Comunidad de Castilla y León para la vendimia 2025.'}
Deleted document BOCYL-D-21032025-21 with 6 chunks
Added BOCYL-D-21032025-21 with 5 sections and metadata: {'doc_id': 'BOCYL-D-21032025-21', 'date': '2025-03-21', 'doc_number': 21, 'source': 'BOCYL', 'type': 'official_document', 'area': 'AGRARIA', 'consejeria': 'AGRICULTURA Y PESCA', 'title': 'ORDEN AGR/263/2025, de 11 de marzo, por la que se resuelve la aprobación del plan de obras de la infraestructura rural de la zona regable del Canal de San José-Sector I (Zamora

[{'doc_id': 'BOCYL-D-11042025-15',
  'sections': 2,
  'metadata': {'doc_id': 'BOCYL-D-11042025-15',
   'date': '2025-04-11',
   'doc_number': 15,
   'source': 'BOCYL',
   'type': 'official_document',
   'area': 'AGRARIA',
   'consejeria': 'AGRICULTURA Y PESCA',
   'title': 'EXTRACTO de la Orden de 8 de abril de 2025, de la Consejería de Agricultura, Ganadería y Desarrollo Rural, por la que se convocan las ayudas a la cosecha en verde de viñedos en la Comunidad de Castilla y León para la vendimia 2025.'},
  'section_metadata': [{'doc_id': 'BOCYL-D-11042025-15',
    'date': '2025-04-11',
    'doc_number': 15,
    'source': 'BOCYL',
    'type': 'official_document',
    'area': 'AGRARIA',
    'consejeria': 'AGRICULTURA Y PESCA',
    'title': 'EXTRACTO de la Orden de 8 de abril de 2025, de la Consejería de Agricultura, Ganadería y Desarrollo Rural, por la que se convocan las ayudas a la cosecha en verde de viñedos en la Comunidad de Castilla y León para la vendimia 2025.',
    'heading_leve

### Vectordb as retriever

In [7]:
retriever = vectordb.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 4}
)

### Template for the context

In [8]:
template = """Answer the question based only on the following context:

{context}

Question: {question}

Answer in Spanish. If the answer cannot be found in the context, say "No encuentro información sobre esto en los documentos proporcionados."
"""

In [9]:
from langchain.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_template(template)

prompt

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='Answer the question based only on the following context:\n\n{context}\n\nQuestion: {question}\n\nAnswer in Spanish. If the answer cannot be found in the context, say "No encuentro información sobre esto en los documentos proporcionados."\n'), additional_kwargs={})])

### Instantiate LLM

In [10]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="chatgpt-4o-latest")

### Compose RAG Chain

In [11]:
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

def format_docs(docs):
    return "\n\n".join([doc.page_content for doc in docs])

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

## Test the RAG Chain


### [X] Query

In [12]:
query = "Ultima normativa agraria publicada en BOCYL, dame un resumen con lo mas importante."

In [13]:
response = rag_chain.invoke(query)
print(response)

La última normativa agraria publicada en el BOCYL, según el contexto proporcionado, establece una nueva regulación que sustituye a la Orden AYG/565/2004 en materia de formación en bienestar animal. Los aspectos más importantes son:

- Se unifica en una sola norma la formación en bienestar animal, bioseguridad, higiene y sanidad animal para operadores y profesionales que trabajen con animales de producción.
- Se regulan los procedimientos de registro de entidades formadoras, comunicación de las ediciones de los cursos y obtención de certificados de competencia.
- Se establece que tanto las entidades de formación como las personas físicas formadoras deberán relacionarse electrónicamente con la administración.
- La norma busca adaptarse a los principios de accesibilidad, proporcionalidad y responsabilidad, identificando claramente los órganos responsables del control, inspección y expedición de certificados.
- Se simplifican los procedimientos administrativos mediante el uso de la declara

In [14]:
vectordb.vectorstore.similarity_search(query, k=4)

[Document(id='BOCYL-D-26022025-18_1', metadata={'area': 'AGRARIA', 'chunk_id': 1, 'chunk_total': 3, 'consejeria': 'AGRICULTURA Y PESCA', 'date': '2025-02-26', 'doc_id': 'BOCYL-D-26022025-18', 'doc_number': 18, 'heading': 'ANUNCIO del Servicio Territorial de Agricultura, Ganadería y Desarrollo Rural de León, relativo a la apertura del trámite de información pública de la aprobación de las bases provisionales de la concentración parcelaria de la zona de Almanza II (León).', 'heading_hierarchy': 'ANUNCIO del Servicio Territorial de Agricultura, Ganadería y Desarrollo Rural de León, relativo a la apertura del trámite de información pública de la aprobación de las bases provisionales de la concentración parcelaria de la zona de Almanza II (León).', 'heading_level': 1, 'parent_heading': 'None', 'source': 'BOCYL', 'subsection': 'Part 2/3', 'title': 'ANUNCIO del Servicio Territorial de Agricultura, Ganadería y Desarrollo Rural de León, relativo a la apertura del trámite de información pública 

### Save outputs

In [15]:
import datetime
import hashlib

current_datetime = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

response_hash = hashlib.md5(response.encode()).hexdigest()

filename = f"outputs/{current_datetime}_{response_hash}.md"

with open(filename, 'w') as f:
    f.write(response)