# **QA Chatbot**

In [2]:
# %pip -q install langchain openai tiktoken chromadb google-search-results langchainhub
# %pip show langchain

In [38]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationBufferMemory, ReadOnlySharedMemory
from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
from langchain.tools import BaseTool
from langchain import SerpAPIWrapper
from langchain.utilities import SerpAPIWrapper
from langchain import hub
from langchain.agents import create_openai_functions_agent
from langchain import LLMMathChain
import os
import config

In [4]:
API_KEY = os.environ["OPENAI_API_KEY"] = config.OPENAI_API_KEY

In [5]:
# Definir constantes
CHROMA_PATH = "chroma"  # Ruta para la base de datos de Chroma
DATA_PATH = "./"  # Ruta al directorio que contiene los datos

In [6]:
file_pattern = 'embeddings.md'

## **Embeddings**

In [7]:
# Instanciación del cargador de directorio con el patrón de archivo especificado
loader = DirectoryLoader(DATA_PATH, glob=file_pattern,
                         loader_cls=lambda path: TextLoader(path, encoding='utf-8'))

# Carga de documentos utilizando el cargador
documents = loader.load()

In [8]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

In [9]:
len(texts)

141

In [10]:
texts[0]

Document(page_content='# Plan de Estudios: Ingeniería en Datos e Inteligencia Organizacional (Plan 2016)\n\n## Créditos Totales\n\n404 créditos\n\n## Descripción General', metadata={'source': 'embeddings.md'})

In [11]:
# Directorio de persistencia para almacenar la base de datos
persist_directory = 'db'

# Seleccionamos OpenAI embeddings para la generación de vectores
embedding = OpenAIEmbeddings()

# Creamos una instancia de Chroma para generar vectores a partir de documentos
vectordb = Chroma.from_documents(
    documents=texts,  # Los documentos de texto a procesar para la generación de vectores
    embedding=embedding,  # El método de embedding a utilizar para generar vectores
    persist_directory=persist_directory  # Directorio donde se almacenará la base de datos de vectores
)

  warn_deprecated(


In [12]:
vectordb.persist()
vectordb = None

In [13]:
# Creación de una nueva instancia de Chroma, para cargar una base de datos existente
vectordb = Chroma(
    persist_directory=persist_directory,  # Directorio de persistencia de la base de datos de vectores
    embedding_function=embedding  # Función de embedding a utilizar
)

In [14]:
# Convertir la base de datos de vectores en un objeto retriever
retriever = vectordb.as_retriever()

In [15]:
# Usando el objeto retriever para obtener documentos relevantes para una consulta específica
docs = retriever.get_relevant_documents("Total de creditos de la carrera")

In [16]:
docs

[Document(page_content='404 créditos\n\n## Descripción General\n\nTodas las materias de la Ingeniería en Datos e Inteligencia Organizacional tienen un ciclo, una clave, un nombre, un número de créditos, un tipo y una academia.', metadata={'source': 'embeddings.md'}),
 Document(page_content='# Plan de Estudios: Ingeniería en Datos e Inteligencia Organizacional (Plan 2016)\n\n## Créditos Totales\n\n404 créditos\n\n## Descripción General', metadata={'source': 'embeddings.md'}),
 Document(page_content='el plan de estudios, los 2 talleres (uno artístico/cucural y uno deportivo), tópicos 2, nivel 6 del tercer idioma y el servicio social liberado. Es importante cubrir el total de créditos por sección.', metadata={'source': 'embeddings.md'}),
 Document(page_content='Durante el tercer ciclo debes cargar y aprobar todas las materias basicas.\n\nLas materias de Elección Libre se juntan en el ciclo 3 y 4, se deben reunir 48 creditos de las materias de Elección Libre.', metadata={'source': 'embeddi

In [17]:
len(docs)

4

In [18]:
retriever = vectordb.as_retriever(search_kwargs={"k": 2})

In [19]:
retriever.search_type

'similarity'

In [20]:
retriever.search_kwargs

{'k': 2}

In [21]:
# Creación de un objeto RetrievalQA a partir de un tipo de cadena específico
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(),  # Modelo de lenguaje a utilizar para la generación de respuestas
    chain_type="stuff",  # Tipo de cadena (podría ser una configuración específica para el QA)
    retriever=retriever,  # Objeto retriever utilizado para recuperar documentos relevantes
    return_source_documents=True  # Especifica si se deben devolver los documentos de origen junto con las respuestas
)

  warn_deprecated(


In [22]:
def process_llm_response(llm_response):
    # Imprimir la respuesta generada por el modelo de lenguaje
    print(llm_response['result'])

    # Imprimir la sección de fuentes de la respuesta
    print('\n\nSources:')

    # Iterar sobre cada fuente en los documentos de origen asociados con la respuesta
    for source in llm_response["source_documents"]:
        # Imprimir la fuente de cada documento de origen
        print(source.metadata['source'])

### Pruebas

In [23]:
# Consulta específica
query = "Quiero cargar Electricidad y magnetismo, ¿qué debo hacer?"

# Obtener la respuesta del modelo de pregunta-respuesta
llm_response = qa_chain(query)

# Procesar la respuesta utilizando la función process_llm_response
process_llm_response(llm_response)

  warn_deprecated(



Debes cargar primero y aprobar Física Clásica antes de Electricidad y Magnetismo, ya que es una recomendación para el orden de carga en Ciencias Básicas.


Sources:
embeddings.md
embeddings.md


In [24]:
query = "Quiero  cargar Calculo Integral, que debo hacer?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Se recomienda cargar primero y aprobar "Cálculo Diferencial" antes de "Cálculo Integral".


Sources:
embeddings.md
embeddings.md


In [25]:
query = "cuantos ciclos son?"
llm_response = qa_chain(query)
process_llm_response(llm_response)


Existen 4 ciclos: Ciclo 1, Ciclo 2, Ciclo 3 y Ciclo 4.


Sources:
embeddings.md
embeddings.md


In [26]:
query = "cual es la clave de la materia Pensamiento crítico para ingeniería y de que ciclo es?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 La clave de la materia Pensamiento crítico para ingeniería es ID0160 y pertenece al ciclo 1.


Sources:
embeddings.md
embeddings.md


In [27]:
query = "¿cuantas materias y cuales debo aprobar antes de cargar Aprendizaje Estadistico?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Durante el primer ciclo debes aprobar todas las materias básicas y al menos 2 de Elección Libre antes de cargar Aprendizaje Estadístico. Durante el segundo ciclo, debes hacer lo mismo antes de cargar Aprendizaje Estadístico.


Sources:
embeddings.md
embeddings.md


In [28]:
query = "¿cuantas materias y cuales debo aprobar antes de cargar Ecuaciones Diferenciales?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 En cada ciclo debes aprobar todas las materias basicas y al menos 2 de Eleccion Libre antes de cargar Ecuaciones Diferenciales. Por lo tanto, en total debes aprobar 6 materias basicas y 2 de Eleccion Libre antes de cargar Ecuaciones Diferenciales. Las materias basicas de ciclo 2 y ciclo 3 se desconocen, pero es posible que Ecuaciones Diferenciales sea una materia del ciclo 4 o superior. 


Sources:
embeddings.md
embeddings.md


In [29]:
query = "cuantos son los creditos totales de la carrera?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 No sé, necesito más información.


Sources:
embeddings.md
embeddings.md


In [30]:
query = " Hablame de la materia de Aprendizaje Estadistico"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 La materia de Aprendizaje Estadístico es una asignatura básica en el Ciclo 3, con una clave de materia ID0309 y un valor de 6 créditos. Esta materia se enfoca en el aprendizaje de técnicas estadísticas avanzadas para la toma de decisiones y análisis de datos. Es una continuación de la materia de Estadística Analítica en el Ciclo 2, con clave de materia IL0204 y 8 créditos.


Sources:
embeddings.md
embeddings.md


In [31]:
query = " cual es la clave de esa materia?"
llm_response = qa_chain(query)
process_llm_response(llm_response)


La clave de esa materia es IT0322.


Sources:
embeddings.md
embeddings.md


## **Agente: Google Search Results**

In [32]:
llm = ChatOpenAI(temperature=0, max_tokens=1000, model="gpt-3.5-turbo")

  warn_deprecated(


In [33]:
os.environ["SERPAPI_API_KEY"] = config.SERPAPI_API_KEY

In [34]:
prompt = hub.pull("hwchase17/openai-functions-agent")

In [35]:
prompt

ChatPromptTemplate(input_variables=['agent_scratchpad', 'input'], input_types={'chat_history': typing.List[typing.Union[langchain_core.messages.ai.AIMessage, langchain_core.messages.human.HumanMessage, langchain_core.messages.chat.ChatMessage, langchain_core.messages.system.SystemMessage, langchain_core.messages.function.FunctionMessage, langchain_core.messages.tool.ToolMessage]], 'agent_scratchpad': typing.List[typing.Union[langchain_core.messages.ai.AIMessage, langchain_core.messages.human.HumanMessage, langchain_core.messages.chat.ChatMessage, langchain_core.messages.system.SystemMessage, langchain_core.messages.function.FunctionMessage, langchain_core.messages.tool.ToolMessage]]}, metadata={'lc_hub_owner': 'hwchase17', 'lc_hub_repo': 'openai-functions-agent', 'lc_hub_commit_hash': 'a1655024b06afbd95d17449f21316291e0726f13dcfaf990cc0d18087ad689a5'}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='You are a helpful assistant')), MessagesPlace

## **Agente: LLM MathChain**

In [36]:
llm_math_chain = LLMMathChain.from_llm(llm=llm, verbose=True)

In [37]:
tools = [
    Tool(
        name="QA System",
        func=qa_chain.run,
        description="Útil cuando necesitas responder preguntas sobre El mapa curricular de IDeIO. La entrada debe ser una pregunta completamente formulada."
    ),

    Tool(
        name="Backup QA Google Search",
        func=search.run,
        description="Útil cuando necesitas responder preguntas sobre El mapa curricular de IDeIO, pero solo cuando el Sistema de Preguntas y Respuestas de El mapa curricular de IDeIO no pudo responder la consulta. La entrada debe ser una pregunta completamente formulada."
    ),
    Tool(
        func=llm_math_chain.run,
        name="Calculadora",
        description="Herramienta que suma las materias y suma los creditos de las materias ",
    ),
]

NameError: name 'search' is not defined