# Question Answering with LangChain, OpenAI, and MultiQuery Retriever

This interactive workbook demonstrates example of Elasticsearch's [MultiQuery Retriever](https://api.python.langchain.com/en/latest/retrievers/langchain.retrievers.multi_query.MultiQueryRetriever.html) to generate similar queries for a given user input and apply all queries to retrieve a larger set of relevant documents from a vectorstore.

Before we begin, we first split the fictional workplace documents into passages with `langchain` and uses OpenAI to transform these passages into embeddings and then store these into Elasticsearch.

We will then ask a question, generate similar questions using langchain and OpenAI, retrieve relevant passages from the vector store, and use langchain and OpenAI again to provide a summary for the questions.

## Install packages and import modules

In [None]:
#!python3 -m pip install -qU jq lark langchain langchain-elasticsearch langchain_openai tiktoken

from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_elasticsearch import ElasticsearchStore
from langchain_openai.llms import OpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever
from getpass import getpass
from dotenv import load_dotenv
import os

## Connect to Elasticsearch

‚ÑπÔ∏è We're using an Elastic Cloud deployment of Elasticsearch for this notebook. If you don't have an Elastic Cloud deployment, sign up [here](https://cloud.elastic.co/registration?utm_source=github&utm_content=elasticsearch-labs-notebook) for a free trial. 

We'll use the **Cloud ID** to identify our deployment, because we are using Elastic Cloud deployment. To find the Cloud ID for your deployment, go to https://cloud.elastic.co/deployments and select your deployment.

We will use [ElasticsearchStore](https://api.python.langchain.com/en/latest/vectorstores/langchain.vectorstores.elasticsearch.ElasticsearchStore.html) to connect to our elastic cloud deployment, This would help create and index data easily.  We would also send list of documents that we created in the previous step

In [None]:
# Cargar variables de entorno
load_dotenv()

# Obtener las variables de entorno
ELASTIC_CLOUD_ID = os.getenv("ELASTIC_CLOUD_ID")
ELASTIC_API_KEY = os.getenv("ELASTIC_API_KEY")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
"""
# https://www.elastic.co/search-labs/tutorials/install-elasticsearch/elastic-cloud#finding-your-cloud-id
ELASTIC_CLOUD_ID = getpass("Elastic Cloud ID ")

# https://www.elastic.co/search-labs/tutorials/install-elasticsearch/elastic-cloud#creating-an-api-key
ELASTIC_API_KEY = getpass("Elastic Api Key: ")

# https://platform.openai.com/api-keys
OPENAI_API_KEY = getpass("OpenAI API key: ")

"""
# Verificar que tenemos todas las claves necesarias
if not OPENAI_API_KEY:
    raise ValueError("No se encontr√≥ OPENAI_API_KEY en las variables de entorno")
if not ELASTIC_CLOUD_ID:
    raise ValueError("No se encontr√≥ ELASTIC_CLOUD_ID en las variables de entorno")
if not ELASTIC_API_KEY:
    raise ValueError("No se encontr√≥ ELASTIC_API_KEY en las variables de entorno")

# Configurar OpenAI
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY

# Inicializar embeddings y vectorstore
embeddings = OpenAIEmbeddings()

try:
    vectorstore = ElasticsearchStore(
        es_cloud_id=ELASTIC_CLOUD_ID,
        es_api_key=ELASTIC_API_KEY,
        index_name="my_index", #give it a meaningful name,
        embedding=embeddings,
    )
    print("‚úÖ Conexi√≥n exitosa a Elasticsearch")
    print(f"üîó Conectado al √≠ndice: my_index")
except Exception as e:
    print("‚ùå Error al conectar con Elasticsearch:")
    print(f"Error: {str(e)}")

## Indexing Data into Elasticsearch
Let's download the sample dataset and deserialize the document.

In [None]:
from urllib.request import urlopen
import json

url = "https://raw.githubusercontent.com/elastic/elasticsearch-labs/main/example-apps/chatbot-rag-app/data/data.json"

response = urlopen(url)
data = json.load(response)

with open("temp.json", "w") as json_file:
    json.dump(data, json_file)

### Split Documents into Passages

We‚Äôll chunk documents into passages in order to improve the retrieval specificity and to ensure that we can provide multiple passages within the context window of the final question answering prompt.

Here we are chunking documents into 800 token passages with an overlap of 400 tokens.

Here we are using a simple splitter but Langchain offers more advanced splitters to reduce the chance of context being lost.

In [None]:
!pip install -U langchain-community




In [None]:
from langchain.document_loaders import JSONLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter


def metadata_func(record: dict, metadata: dict) -> dict:
    #Populate the metadata dictionary with keys name, summary, url, category, and updated_at.
    # Usar .get() con valores por defecto para manejar campos faltantes
    metadata["name"] = record.get("name", "")
    metadata["summary"] = record.get("summary", "")
    metadata["url"] = record.get("url", "")
    metadata["category"] = record.get("category", "")
    metadata["updated_at"] = record.get("updated_at", "")
    return metadata


# For more loaders https://python.langchain.com/docs/modules/data_connection/document_loaders/
# And 3rd party loaders https://python.langchain.com/docs/modules/data_connection/document_loaders/#third-party-loaders
loader = JSONLoader(
    file_path="temp.json",
    jq_schema=".[]",
    content_key="content",
    metadata_func=metadata_func,
)

text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=800, chunk_overlap=400 #define chunk size and chunk overlap
)
docs = loader.load_and_split(text_splitter=text_splitter)

### Bulk Import Passages

Now that we have split each document into the chunk size of 800, we will now index data to elasticsearch using [ElasticsearchStore.from_documents](https://api.python.langchain.com/en/latest/vectorstores/langchain.vectorstores.elasticsearch.ElasticsearchStore.html#langchain.vectorstores.elasticsearch.ElasticsearchStore.from_documents).

We will use Cloud ID, Password and Index name values set in the `Create cloud deployment` step.

In [None]:
from elasticsearch import Elasticsearch

# Crear el cliente de Elasticsearch
es_client = Elasticsearch(
    cloud_id=ELASTIC_CLOUD_ID,
    api_key=ELASTIC_API_KEY,
)

# Definir el mapeo correcto para el √≠ndice
index_mapping = {
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "metadata": {
                "properties": {
                    "name": {"type": "keyword"},
                    "summary": {"type": "text"},
                    "url": {"type": "keyword"},
                    "category": {"type": "keyword"},
                    "updated_at": {"type": "date", "ignore_malformed": True}
                }
            },
            "vector": {
                "type": "dense_vector",
                "dims": 1536,  # Dimensi√≥n para embeddings de OpenAI
                "index": True,
                "similarity": "cosine"
            }
        }
    }
}

# Eliminar el √≠ndice si existe
if es_client.indices.exists(index="my_index"):
    es_client.indices.delete(index="my_index")

# Crear el √≠ndice con el mapeo
es_client.indices.create(index="my_index", body=index_mapping)



ObjectApiResponse({'acknowledged': True, 'shards_acknowledged': True, 'index': 'my_index'})

In [None]:
# Inicializar el vectorstore con m√°s par√°metros
vectorstore = ElasticsearchStore(
    es_cloud_id=ELASTIC_CLOUD_ID,
    es_api_key=ELASTIC_API_KEY,
    index_name="my_index",
    embedding=embeddings,
    distance_strategy="COSINE",
)

# Intentar indexar los documentos con manejo de errores y configuraci√≥n correcta
try:
    documents = vectorstore.from_documents(
        docs,
        embeddings,
        index_name="my_index",
        es_cloud_id=ELASTIC_CLOUD_ID,
        es_api_key=ELASTIC_API_KEY,
        bulk_kwargs={
            "timeout": "100s",
            "request_timeout": 100,
            "chunk_size": 50,  # Reducir el tama√±o del chunk
            "max_retries": 3
        }
    )
    print("‚úÖ Documentos indexados correctamente")
except Exception as e:
    print(f"‚ùå Error al indexar documentos: {str(e)}")
    if hasattr(e, 'errors'):
        print("\nDetalles del error:")
        for error in e.errors[:3]:
            print(f"- {error}")

‚úÖ Documentos indexados correctamente


In [None]:
llm = OpenAI(temperature=0, openai_api_key=OPENAI_API_KEY)

retriever = MultiQueryRetriever.from_llm(vectorstore.as_retriever(), llm)

# Question Answering with MultiQuery Retriever

Now that we have the passages stored in Elasticsearch, we can now ask a question to get the relevant passages.

In [None]:
from langchain.schema.runnable import RunnableParallel, RunnablePassthrough
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain.schema import format_document

import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

LLM_CONTEXT_PROMPT = ChatPromptTemplate.from_template(
    """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Be as verbose and educational in your response as possible. 
    
    context: {context}
    Question: "{question}"
    Answer:
    """
)

LLM_DOCUMENT_PROMPT = PromptTemplate.from_template(
    """
---
SOURCE: {name}
{page_content}
---
"""
)


def _combine_documents(
    docs, document_prompt=LLM_DOCUMENT_PROMPT, document_separator="\n\n"
):
    doc_strings = [format_document(doc, document_prompt) for doc in docs]
    return document_separator.join(doc_strings)


_context = RunnableParallel(
    context=retriever | _combine_documents,
    question=RunnablePassthrough(),
)

chain = _context | LLM_CONTEXT_PROMPT | llm

ans = chain.invoke("what is the nasa sales team?")

print("---- Answer ----")
print(ans)

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Can you provide information on the sales team at NASA?', '2. How does the sales team operate within NASA?', '3. What are the responsibilities of the NASA sales team?']


---- Answer ----
The NASA sales team is a part of the Americas region in the sales organization of the company. It is led by two Area Vice-Presidents, Laura Martinez for North America and Gary Johnson for South America. The team is responsible for promoting and selling the company's products and services in the North and South American markets. They work closely with other departments, such as marketing, product development, and customer support, to ensure the company's success in these regions.


**Generate at least two new iteratioins of the previous cells - Be creative.** Did you master Multi-
Query Retriever concepts through this lab?

In [None]:
# Primera iteraci√≥n - Pol√≠ticas de empresa
from langchain.schema.runnable import RunnableParallel, RunnablePassthrough
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain.schema import format_document

import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

# Prompt template para pol√≠ticas
POLICY_PROMPT = ChatPromptTemplate.from_template(
    """Eres un asistente especializado en pol√≠ticas empresariales. 
    Utiliza el siguiente contexto para responder la pregunta de manera detallada y profesional.
    Si no encuentras la informaci√≥n espec√≠fica, ind√≠calo claramente.
    
    Contexto: {context}
    Pregunta: "{question}"
    Respuesta:
    """
)

# Configuraci√≥n del chain
_context = RunnableParallel(
    context=retriever | _combine_documents,
    question=RunnablePassthrough(),
)

policy_chain = _context | POLICY_PROMPT | llm

# Probar con una pregunta sobre pol√≠ticas
print("üîç Consultando pol√≠ticas de trabajo remoto...")
response = policy_chain.invoke("¬øCu√°les son las pol√≠ticas de trabajo remoto en la empresa?")
print("\nüìã Respuesta:")
print(response)

üîç Consultando pol√≠ticas de trabajo remoto...


INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¬øQu√© medidas se han implementado en la empresa para facilitar el trabajo remoto?', '2. ¬øC√≥mo ha adaptado la empresa sus pol√≠ticas de trabajo ante la situaci√≥n actual?', '3. ¬øExisten pol√≠ticas espec√≠ficas para el trabajo remoto en la empresa y cu√°les son?']



üìã Respuesta:

La pol√≠tica de trabajo remoto de nuestra empresa se implement√≥ en marzo de 2020 con el prop√≥sito de proporcionar pautas y apoyo a los empleados para realizar su trabajo de manera remota durante la pandemia de COVID-19 y en el futuro. Esta pol√≠tica se aplica a todos los empleados elegibles, quienes deben obtener la aprobaci√≥n de su supervisor directo y el departamento de recursos humanos para trabajar desde casa. Se proporcionar√° el equipo y los recursos necesarios para el trabajo remoto, y se espera que los empleados mantengan una comunicaci√≥n efectiva con sus supervisores y colegas. Tambi√©n se espera que los empleados mantengan el mismo nivel de rendimiento y productividad que si estuvieran trabajando en la oficina. Adem√°s, se deben seguir las pol√≠ticas de confidencialidad y seguridad de datos, y se alienta a los empleados a priorizar su salud y bienestar mientras trabajan desde casa. Esta pol√≠tica se revisar√° peri√≥dicamente y se actualizar√° seg√∫n sea 

In [None]:
# Segunda iteraci√≥n - Especificaciones t√©cnicas
# Prompt template para an√°lisis t√©cnico
TECHNICAL_PROMPT = ChatPromptTemplate.from_template(
    """Eres un experto t√©cnico. Analiza la siguiente informaci√≥n y proporciona una respuesta 
    detallada y t√©cnicamente precisa. Incluye especificaciones cuando sea posible.
    
    Informaci√≥n disponible: {context}
    Consulta t√©cnica: "{question}"
    
    An√°lisis t√©cnico:
    """
)

# Configuraci√≥n del chain t√©cnico
technical_chain = _context | TECHNICAL_PROMPT | llm

# Funci√≥n para realizar m√∫ltiples consultas t√©cnicas
def analyze_technical_aspects(product_name: str):
    print(f"üî¨ An√°lisis t√©cnico completo para: {product_name}")
    print("=" * 50)
    
    # Lista de aspectos t√©cnicos a consultar
    aspects = [
        f"¬øCu√°les son las especificaciones t√©cnicas de {product_name}?",
        f"¬øQu√© requisitos de sistema tiene {product_name}?",
        f"¬øCu√°les son las caracter√≠sticas de seguridad de {product_name}?"
    ]
    
    for aspect in aspects:
        print(f"\nüìä Consultando: {aspect}")
        response = technical_chain.invoke(aspect)
        print(f"Resultado:\n{response}\n")
        print("-" * 30)

# Probar el an√°lisis t√©cnico
analyze_technical_aspects("el sistema de gesti√≥n de documentos")

üî¨ An√°lisis t√©cnico completo para: el sistema de gesti√≥n de documentos

üìä Consultando: ¬øCu√°les son las especificaciones t√©cnicas de el sistema de gesti√≥n de documentos?


INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¬øQu√© caracter√≠sticas t√©cnicas tiene el sistema de gesti√≥n de documentos?', '2. ¬øPuedes darme detalles sobre las especificaciones t√©cnicas del sistema de gesti√≥n de documentos?', '3. ¬øCu√°les son las especificaciones t√©cnicas m√°s importantes del sistema de gesti√≥n de documentos?']


Resultado:

Las especificaciones t√©cnicas de un sistema de gesti√≥n de documentos pueden variar dependiendo del proveedor y las necesidades espec√≠ficas de la empresa. Sin embargo, algunas de las caracter√≠sticas y requisitos comunes incluyen:

1. Almacenamiento en la nube: El sistema debe permitir el almacenamiento de documentos en la nube para facilitar el acceso y la colaboraci√≥n en tiempo real.

2. Seguridad: El sistema debe contar con medidas de seguridad robustas para proteger la informaci√≥n confidencial y evitar accesos no autorizados.

3. Integraci√≥n con otros sistemas: Es importante que el sistema pueda integrarse con otros sistemas utilizados en la empresa, como el correo electr√≥nico o el sistema de gesti√≥n de clientes.

4. Control de versiones: El sistema debe permitir la gesti√≥n de versiones de los documentos, para poder realizar un seguimiento de los cambios y revertir a versiones anteriores si es necesario.

5. B√∫squeda avanzada: El sistema debe contar con una fun

INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¬øCu√°les son los requerimientos de hardware para el sistema de gesti√≥n de documentos?', '2. ¬øQu√© especificaciones t√©cnicas son necesarias para el sistema de gesti√≥n de documentos?', '3. ¬øCu√°les son los componentes necesarios para el sistema de gesti√≥n de documentos?']


Resultado:

El sistema de gesti√≥n de documentos puede tener diferentes requisitos de sistema dependiendo de su funcionalidad y caracter√≠sticas espec√≠ficas. Sin embargo, algunos requisitos comunes pueden incluir:

1. Sistema operativo: El sistema de gesti√≥n de documentos puede requerir un sistema operativo espec√≠fico, como Windows, Mac o Linux, para funcionar correctamente.

2. Espacio de almacenamiento: Dependiendo del tama√±o y la cantidad de documentos que se gestionen, el sistema puede requerir un cierto espacio de almacenamiento en disco para guardar los archivos.

3. Memoria RAM: El sistema puede requerir una cantidad m√≠nima de memoria RAM para funcionar de manera eficiente y procesar grandes cantidades de datos.

4. Procesador: Un procesador r√°pido y potente puede ser necesario para manejar grandes cantidades de documentos y realizar tareas de b√∫squeda y organizaci√≥n de manera eficiente.

5. Conexi√≥n a internet: Si el sistema de gesti√≥n de documentos es basado en la nu

INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¬øQu√© medidas de seguridad se implementan en el sistema de gesti√≥n de documentos?', '2. ¬øC√≥mo se protegen los documentos en el sistema de gesti√≥n de documentos?', '3. ¬øCu√°les son las funciones de seguridad incorporadas en el sistema de gesti√≥n de documentos?']


Resultado:

El sistema de gesti√≥n de documentos es una herramienta esencial para cualquier empresa u organizaci√≥n, ya que permite almacenar, organizar y gestionar de manera eficiente y segura toda la informaci√≥n y documentos importantes. Por lo tanto, es importante que este sistema cuente con caracter√≠sticas de seguridad s√≥lidas para proteger la informaci√≥n confidencial y sensible de la empresa.

Algunas de las caracter√≠sticas de seguridad que debe tener un sistema de gesti√≥n de documentos son:

1. Acceso restringido: El sistema debe permitir restringir el acceso a ciertos documentos o carpetas solo a usuarios autorizados. Esto se puede lograr mediante la asignaci√≥n de permisos y roles a cada usuario, lo que garantiza que solo puedan acceder a la informaci√≥n que necesitan para realizar sus tareas.

2. Autenticaci√≥n de usuarios: Es importante que el sistema cuente con un sistema de autenticaci√≥n s√≥lido para garantizar que solo los usuarios autorizados puedan acceder al sist