In [1]:
import os
import pprint

from langchain_groq import ChatGroq
from langchain_community.document_loaders import WebBaseLoader
from langchain.embeddings import OllamaEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.document_loaders import PyPDFDirectoryLoader
from langchain.chains import create_retrieval_chain
from langchain_community.vectorstores import FAISS
from dotenv import load_dotenv
from langchain_community.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA
from langchain_community.embeddings import HuggingFaceBgeEmbeddings


load_dotenv()
groq_api_key=os.environ['GROQ_API_KEY']

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [2]:
huggingface_embeddings = HuggingFaceBgeEmbeddings(
    model_name="jaimevera1107/all-MiniLM-L6-v2-similarity-es",
    #model_name="jinaai/jina-embeddings-v2-base-es",
    model_kwargs={'device':'cpu', 'trust_remote_code': True}, 
    encode_kwargs={'normalize_embeddings': False, 'attn_implementation': "eager"},
)

In [3]:
from langchain_postgres.vectorstores import PGVector

connection_string = "postgresql://postgres:postgres@localhost:5432/db_subvenciones"

db = PGVector(
    collection_name="subvenciones",
    connection=connection_string,
    embeddings=huggingface_embeddings,
)
#retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 10})

In [4]:
# collection = client.get_collection("subvenciones")

# query = """ Se establece un máximo de hasta 4 vehículos DEMO por beneficiario."""  
#          # Sample question, change to other questions you are interested in.
# # Ejemplo de búsqueda

# results = collection.query(
#     # query_embeddings = np.array(huggingface_embeddings.embed_query(query)),
#     query_texts = [query],

    
    
#     n_results=5,
#     )
# pprint.pp(results)


In [None]:
#llm=ChatGroq(groq_api_key=groq_api_key,
#model_name="gemma2-9b-it")
from langchain_community.llms import Ollama
#llm = Ollama(model="gemma2:9b", base_url="http://127.0.0.1:11434")
llm=ChatGroq(groq_api_key=groq_api_key,
model_name="llama3-8b-8192")

  llm = Ollama(model="gemma2:9b", base_url="http://127.0.0.1:11434")


In [None]:
multiQueryLLM = Ollama(model="llama2-7b-chat", base_url="http://127.0.0.1:11434")

In [None]:
""" #MULTIQUERY RETRIEVER

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

multiquery_retriever = MultiQueryRetriever.from_llm(
    retriever=db.as_retriever(search_kwargs={"k": 6}), llm=llm
) """

' #MULTIQUERY RETRIEVER\n\nfrom langchain.retrievers.multi_query import MultiQueryRetriever\nfrom langchain_openai import ChatOpenAI\n\nmultiquery_retriever = MultiQueryRetriever.from_llm(\n    retriever=db.as_retriever(search_kwargs={"k": 6}), llm=llm\n) '

In [7]:
# Set logging for the queries
import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

In [8]:

from langchain.chains.query_constructor.base import AttributeInfo

metadata_field_info = [
    AttributeInfo(
        name="Destinatarios",
        description="Empresas, organizaciones o personas que reciben la ayuda",
        type="string",
    ),
    AttributeInfo(
        name="Organismo",
        description="Organismo que da la ayuda (Ayuntamiento, Consejería, etc.)",
        type="string",
    ),
    AttributeInfo(
        name="Referencia",
        description="Número de referencia y título de la convocatoria (breve descripción)",
        type="string",
    ),
    AttributeInfo(
        name="Sector", 
        description="Sector al que se destina la convocatoria, puede ser uno de estos valores: "+
        "[Turismo,Investigación y desarrollo,Artesano,Comercio,Agroalimentario,Industria,Cultura y comunicación,"+
        "Agrario,Pesquero]", 
        type="string"
    ),
    AttributeInfo(
        name="Subsector", 
        description="Subsector dentro del Sector, completa la información del atributo Sector.", 
        type="string"
    ),
    AttributeInfo(
        name="Tipo", 
        description="Tipo de ayudas", 
        type="string"
    ),
    AttributeInfo(
        name="AmbitoGeografico", 
        description="Define en qué territorio (ciudad, comunidad o región), se concede la ayuda.", 
        type="string"
    )    
]

In [9]:

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever

selfqueryRetriever = SelfQueryRetriever.from_llm(
    llm,
    db,
    "Subvenciones y ayudas",
    metadata_field_info
)

In [10]:
#docs = selfqueryRetriever.invoke("Qué subvenciones da el Ayuntamiento de Cilleros")
#pprint.pp(docs)

In [11]:
retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 20})

In [12]:
# docs = retriever.invoke("Consejería de Economía, Empleo y Transformación Digital")
# pprint.pp(docs)

In [13]:
from langchain.retrievers import MergerRetriever

mergeRetriever = MergerRetriever(retrievers=[selfqueryRetriever, retriever])



In [14]:
# docs = mergeRetriever.invoke("Extremadura")
# pprint.pp(docs)

In [15]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

#Reranker, to select the best 5 documents

model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")
compressor = CrossEncoderReranker(model=model, top_n=2)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=mergeRetriever
)

# compressed_docs = compression_retriever.invoke("Referencia 115300")
# pprint.pp(compressed_docs)

In [17]:
from langchain.chains import ReduceDocumentsChain

qa_template = """Eres un asistente para responder a preguntas en español "
    " basándote en los documentos proporcionados más abajo. "
    "Debes reproducir exactamente el fragmento de texto donde viene la respuesta"
    "Ordena todas las respuestas que encuentres en diferentes líneas."
    "Traduce la respuesta al español antes de mostrarla.
    "Si en algún documento no se menciona la respuesta, ignóralo."
    "\n\n"
    "{context}"

Pregunta: {question}
Respuesta:"""

prompt = PromptTemplate(template=qa_template,
                            input_variables=['context','question'])
combine_custom_prompt='''
Responde con todas las respuestas que encuentres en diferentes documentos.

Text:`{context}`
'''
""" 
""" 
combine_prompt_template = PromptTemplate(
    template=combine_custom_prompt, 
    input_variables=['context']
)
qa_chain = RetrievalQA.from_chain_type(llm, retriever=compression_retriever, chain_type="map_reduce",return_source_documents=True,
 chain_type_kwargs= {
        "verbose": False,
        "question_prompt": prompt,
        "combine_prompt": combine_prompt_template,
        "combine_document_variable_name": "context"})

""" qa_chain = RetrievalQA.from_chain_type(llm=llm,
                                          chain_type="stuff",
                                          retriever=compression_retriever,
                                          return_source_documents=True) """


query = """ Plazo de presentación de solicitudes para las subvenciones para pymes en Cantabria.   """  
question = query

result=qa_chain.invoke(question)
pprint.pp(result)

{'query': ' Plazo de presentación de solicitudes para las subvenciones para '
          'pymes en Cantabria.   ',
 'result': 'La respuesta a la pregunta "Deadline for submitting applications '
           'for grants for SMEs in Cantabria" es **14/02/2025**. \n'
           '\n'
           '\n'
           'Se puede encontrar esta información en ambos documentos '
           'proporcionados. \n',
 'source_documents': [Document(id='80c71a2d-fd2e-4e8a-b856-6db57e7ebc26', metadata={'Tipo': 'Subvención', 'page': 0, 'Sector': 'Comercio', 'source': 'ayudas/texto/Guia de Ayudas Sector Comercio.pdf/Page_25/ad84cb56-ff03-4385-b55b-b901b09565c3.pdf', 'Organismo': 'Consejería de Desarrollo Rural, Ganadería, Pesca y Alimentación', 'Subsector': '', 'Referencia': '115656 Título Se convocan para el año 2025 ayudas a la promoción de productos alimentarios de  Cantabria', 'Destinatarios': 'Pymes que sean titulares de industrias alimentarías, así como corporaciones locales,  entidades asociativas y agrupac

In [None]:
relevant_docs = result['source_documents']
print(f'There are {len(relevant_docs)} documents retrieved which are relevant to the query.')
print("*" * 100)
for i, doc in enumerate(relevant_docs):
    print(f"Relevant Document #{i+1}:\nSource file: {doc.metadata['source']}, Page: {doc.metadata['page']}\nContent: {doc.page_content}")
    print("-"*100)
    print(f'There are {len(relevant_docs)} documents retrieved which are relevant to the query.')

In [None]:
print (relevant_docs)