# Smart Consultation of Colombia National Development Plan

### Setup

1. Run the following command to install the required dependencies.

In [None]:
!pip install langchain langchain_openai  langchain_community langchain_text_splitters pypdf langchain_chroma

2. The data used for this project is the Colombia's National Development Plan (2022-2026). Download it from this [link](https://colaboracion.dnp.gov.co/CDT/Prensa/Publicaciones/plan-nacional-de-desarrollo-2022-2026-colombia-potencia-mundial-de-la-vida.pdf) and put it in the same folder as this notebook.

3. Set the API keys for the embeddings and LLM model.

In [4]:
OPENAI_API_KEY = "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"  # Replace with your OpenAI API key

### Loading the document

In [3]:
from langchain_community.document_loaders import PyPDFLoader

file = "plan-nacional-de-desarrollo-2022-2026-colombia-potencia-mundial-de-la-vida.pdf"
loader = PyPDFLoader(file)
doc = loader.load()

print(len(doc)) # Number of pages in the PDF

848


### Split the document for vectorization

In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

chunks = text_splitter.split_documents(doc)

### Create the embeddings model

In [5]:
from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY, model = "text-embedding-3-large")

### Vectorize the chunks and save them in a local Chroma database

In [8]:
from langchain_chroma import Chroma
import chromadb

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings_model,
    persist_directory="./vectordb"
)

### Retrieve information from the vectorstore

In [17]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

retriever.invoke("Que se planea hacer para proteger a los ciudadanos del desempleo?")

[Document(id='1371de1b-8031-4fb3-a1b8-8cd8e36bb3c9', metadata={'creationdate': '2023-12-27T17:04:13-05:00', 'creator': 'Adobe InDesign 16.4 (Windows)', 'moddate': '2024-02-12T14:56:59+00:00', 'page': 81, 'page_label': '82', 'producer': 'iLovePDF', 'source': 'plan-nacional-de-desarrollo-2022-2026-colombia-potencia-mundial-de-la-vida.pdf', 'total_pages': 848, 'trapped': '/False'}, page_content='82\nPLAN NACIONAL DE DESARROLLO • 2022-2026\nd.  Esquema de protección al desempleo\nSe diseñará un esquema de protección contra el desempleo redefiniendo el Mecanismo \nde Protección al Cesante (MPC), que responderá a las necesidades de la población \ndesempleada y cesante, incluyendo trabajadores formales e informales. Se tendrán \nen cuenta las brechas que existen en las distintas poblaciones (como jóvenes, \nmujeres, personas mayores, con discapacidad y personas LGBTIQ+, entre otras). \nDicho esquema contemplará: (i) La exploración de nuevas formas de financiamiento \npara quienes no acceden a

### Create the LLM to chat with the document

In [None]:
from langchain_openai import ChatOpenAI

llm_model = ChatOpenAI(model="gpt-4o-mini", temperature=0.2, openai_api_key=OPENAI_API_KEY)

### Define the prompt for the LLM model

In [39]:
from langchain_core.prompts import ChatPromptTemplate  
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

system_message = (
    '''Eres un asistente experto en políticas públicas encargado de responder preguntas de los ciudadanos 
    con respecto al plan de desarrollo de colombia. 
    A partir de la siguiente informacion extraída del plan de desarrollo:

    {context}

    Responde de manera clara y concisa, utilizando un lenguaje accesible para el público en general, las preguntas de un ciudadano.

    '''
)


prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_message), 
        ("human", "{input}"),
     ]
)

chain = create_stuff_documents_chain(llm_model,prompt)
rag_chain = create_retrieval_chain(retriever, chain)



### Chat with the document

In [47]:
user_input = "Que se planea hacer para proteger a los ciudadanos del desempleo?"

results = rag_chain.invoke({"input": user_input})

In [48]:
results

{'input': 'Que se planea hacer para proteger a los ciudadanos del desempleo?',
 'context': [Document(id='1371de1b-8031-4fb3-a1b8-8cd8e36bb3c9', metadata={'creationdate': '2023-12-27T17:04:13-05:00', 'creator': 'Adobe InDesign 16.4 (Windows)', 'moddate': '2024-02-12T14:56:59+00:00', 'page': 81, 'page_label': '82', 'producer': 'iLovePDF', 'source': 'plan-nacional-de-desarrollo-2022-2026-colombia-potencia-mundial-de-la-vida.pdf', 'total_pages': 848, 'trapped': '/False'}, page_content='82\nPLAN NACIONAL DE DESARROLLO • 2022-2026\nd.  Esquema de protección al desempleo\nSe diseñará un esquema de protección contra el desempleo redefiniendo el Mecanismo \nde Protección al Cesante (MPC), que responderá a las necesidades de la población \ndesempleada y cesante, incluyendo trabajadores formales e informales. Se tendrán \nen cuenta las brechas que existen en las distintas poblaciones (como jóvenes, \nmujeres, personas mayores, con discapacidad y personas LGBTIQ+, entre otras). \nDicho esquema con

In [49]:
print(f"Respuesta: {results["answer"]}")
#imprime salto de linea
print("\n")
pages = ""
for doc in results["context"]:
    pages += doc.metadata.get("page_label", "") + " "
print(f"Tomado de las páginas: {pages}")



Respuesta: El Plan Nacional de Desarrollo 2022-2026 propone un esquema de protección al desempleo que incluye varias medidas para apoyar a la población desempleada y cesante, tanto en el sector formal como informal. Algunas de las acciones clave son:

1. **Redefinición del Mecanismo de Protección al Cesante (MPC)**: Se ajustará este mecanismo para responder mejor a las necesidades de las personas desempleadas, considerando las brechas que existen en diferentes grupos poblacionales, como jóvenes, mujeres, personas mayores, con discapacidad y personas LGBTIQ+.

2. **Nuevas formas de financiamiento**: Se explorarán opciones de financiamiento para aquellos que no tienen acceso al Sistema de Subsidio Familiar.

3. **Apoyos universales**: Se implementarán apoyos que cubran ingresos y servicios para los desempleados, así como políticas activas y pasivas para facilitar la inserción laboral.

4. **Generación de empleo**: Se dará prioridad a la creación de empleo, complementada con transferencia