**ASISTENTE VIRTUAL EN EL AMBITO ACADEMICO**

Introducción al desarrollo 


En esta notebook, desarrollaremos un asistente virtual a desempeñarse en el ámbito educativo utilizando tres herramientas clave: LLaMA, un modelo de lenguaje de gran tamaño (LLM) capaz de generar respuestas naturales y coherentes; el framework RAG (Retrieval-Augmented Generation), que combina generación y recuperación de información para mejorar la precisión de las respuestas; y Chroma, una base de datos vectorial que permitirá almacenar y buscar eficientemente los documentos relevantes. Estas herramientas juntas nos permitirán crear un asistente capaz de responder preguntas educativas con información contextualizada y precisa.

In [6]:
''' Se importa la libreria Langchain_community y se instancia la clase o modulo OllaMa, el modelo de Large Language Models. Langchain es un
framework que permite interactuar bases y flujos de datos, con modelos de LLMs'''

from langchain_community.llms import Ollama

llm = Ollama(model="llama3")



In [7]:
''' La libreria Langchain posee un modelo que se llama "documents_loaders" que basicamente permite descargar y obtener un archivo
desde un path declarado. El modulo documents_loaders, posee distintas clases para obtener y leer archivos (CSV,TXT,Word) y PyMuPDFLoader es una
de ellas. Se descarga el archivo Data Governance 2024 desde el directorio documents, y se aloja o persiste en la variable data_pdf'''

from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader("documents/Data_Governance_2024.docx")
data = loader.load()
data[0]


Document(metadata={'source': 'documents/Data_Governance_2024.docx', 'file_path': 'documents/Data_Governance_2024.docx', 'page': 0, 'total_pages': 6, 'format': 'Office documen', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': '', 'producer': '', 'creationDate': '', 'modDate': '', 'trapped': '', 'encryption': ''}, page_content='PROFESORES RESPONSABLES de la ASIGNATURA GOBIERNO DEL\nDATO: Kevin Canova - Gustavo Favaro - Nicolas Martins\nEn los últimos años, en especial desde el advenimiento de las\ntecnologías cloud, las organizaciones han implementado de forma\ncreciente iniciativas basadas en datos. No obstante, los problemas\nde gobernanza de tales procesos, tradicionalmente han sido\nrelegados a un segundo plano dentro de las prioridades\norganizacionales. Sólo con la complejización técnica reciente este\nproblema ha ganado notoriedad y la academia, las organizaciones y\nempresas proveedoras de servicios han comenzado a tratarlo\nactivamente. Bajo esta nueva conce

In [8]:
'''Utilizamos la clase RecursiveCharacterTextSplitter de la librería LangChain para dividir el contenido del documento en fragmentos más pequeños y manejables.
Definimos un tamaño de fragmento de 2000 caracteres (chunk_size=2000) con un solapamiento de 500 caracteres entre ellos (chunk_overlap=500). 
Este solapamiento asegura que se mantenga parte del contexto entre los fragmentos consecutivos, lo que es útil en tareas de procesamiento de lenguaje natural (NLP). 
Finalmente, el contenido del documento cargado se divide y se almacena en la variable "docs", que contiene los fragmentos generados.'''

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=500)
docs = text_splitter.split_documents(data)

In [12]:
'''Se utiliza la clase HuggingFaceEmbeddings` de la librería LangChain para crear un modelo de incrustaciones (embeddings). 
El modelo que se utiliza es `sentence-transformers/all-MiniLM-L6-v2`, un modelo preentrenado de Hugging Face que genera representaciones vectoriales de oraciones o fragmentos de texto. 
Estas representaciones vectoriales (embeddings) son útiles para realizar búsquedas semánticas, clasificaciones o tareas que involucren similitudes entre textos. 
La variable `embed_model` almacena el modelo de embeddings que será usado posteriormente para convertir el texto en vectores numéricos.'''

from langchain_huggingface import HuggingFaceEmbeddings

embed_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


In [13]:
'''Hacemos uso de la clase `Chroma` de la librería LangChain Community para almacenar y gestionar una base de datos de vectores. 
El flujo es el siguiente:
- from_documents(): Crea una base de datos a partir de los documentos procesados (almacenados en la variable docs), los cuales se dividen en fragmentos de texto previamente.
- embedding=embed_model: Se utiliza el modelo de embeddings (embed_model) para convertir los fragmentos de texto en vectores.
- persist_directory: Define un directorio local, chroma_db_dir_Governace, para almacenar la base de datos de forma persistente.
- collection_name: La colección de documentos y sus embeddings se almacena bajo el nombre "Data_Governance_2024".

Este paso es esencial para utilizar las representaciones vectoriales de los documentos en tareas como búsquedas semánticas o generación de texto aumentada por recuperación (RAG).'''


from langchain_community.vectorstores import Chroma

vs = Chroma.from_documents(
    documents=docs,
    embedding=embed_model,
    persist_directory="chroma_db_dir_Governace", 
    collection_name="Data_Governance_2024"
)

In [14]:
'''Se inicializa una instancia de Chroma para crear un motor de recuperación de información a partir de los vectores previamente almacenados:
- Chroma: Se crea un vectorstore utilizando el modelo de embeddings (embed_model), con la base de datos almacenada en el directorio "chroma_db_dir_Governace" y bajo la colección "Data_Governance_2024".
- as_retriever(): Convierte el vectorstore en un recuperador de información que permite realizar búsquedas semánticas. 
La opción "search_kwargs={'k': 3}" establece que se recuperarán los 3 documentos más relevantes en cada búsqueda.

Este código es clave para la recuperación de información en sistemas que utilizan RAG (Retrieval-Augmented Generation).'''



vectorstore = Chroma(embedding_function=embed_model,
                     persist_directory="chroma_db_dir_Governace",
                     collection_name="Data_Governance_2024")
retriever=vectorstore.as_retriever(search_kwargs={'k': 3})


  vectorstore = Chroma(embedding_function=embed_model,


In [15]:
'''Se crea un prompt personalizado utilizando la clase PromptTemplate de la librería LangChain. 
El propósito de este prompt es configurar las respuestas de un asistente virtual diseñado para la asignatura de Gobierno del Dato en el ámbito educativo. 
El flujo es el siguiente:
- custom_prompt_template: Define el texto del prompt, donde se indica que el asistente debe responder consultas administrativas y operativas sobre el curso, sin inventar información si no conoce la respuesta.
- Variables {context} y {question}: Estas son variables que se sustituyen con la información del contexto y la pregunta realizada por el usuario, respectivamente.
- PromptTemplate: Se utiliza para estructurar el prompt de manera que se integre fácilmente en el flujo de preguntas y respuestas del asistente, asegurando que siempre responda en español.

Este prompt guía al modelo para proporcionar respuestas precisas y relevantes dentro del contexto educativo.'''


from langchain.prompts import PromptTemplate

custom_prompt_template = """ Tu eres un asistente de la asignatura del Gobierno del dato, en el ambito educativo. Responderas consultas
administrativas y operativas respecto al curso.
Usa la siguiente información para responder a la pregunta del usuario.
Si no sabes la respuesta, simplemente di que no lo sabes, no intentes inventar una respuesta.

Contexto: {context}
Pregunta: {question}

Solo devuelve la respuesta útil a continuación y nada más y responde siempre en español
Respuesta útil:
"""
prompt = PromptTemplate(template=custom_prompt_template,
                        input_variables=['context', 'question'])


In [16]:
'''Se crea una instancia de una cadena de preguntas y respuestas (RetrievalQA) utilizando LangChain, donde el modelo de lenguaje responde a consultas basadas en información recuperada de documentos. 
El flujo es el siguiente:
- RetrievalQA: Se crea una cadena que combina un modelo de lenguaje grande (LLM) con un mecanismo de recuperación de información (retriever). 
El asistente podrá responder preguntas utilizando tanto su capacidad de generación como los documentos relevantes recuperados.
- llm=llm: El modelo de lenguaje (LLM) es el encargado de generar las respuestas.
- retriever=retriever: Este objeto se encarga de buscar los documentos más relevantes que contienen la información necesaria para responder.
- chain_type="stuff": Se define el tipo de cadena, en este caso el modelo "stuff", que integra los documentos recuperados directamente en la respuesta.
- return_source_documents=True: Además de la respuesta, la cadena también devuelve los documentos fuente utilizados.
- chain_type_kwargs={"prompt": prompt}: Se incorpora el prompt personalizado definido previamente para guiar al modelo a responder de manera adecuada y en español.

Este código es clave para construir el sistema de preguntas y respuestas basado en RAG (Retrieval-Augmented Generation).'''


from langchain.chains import RetrievalQA

qa = RetrievalQA.from_chain_type(llm=llm,
                                 chain_type="stuff",
                                 retriever=retriever,
                                 return_source_documents=True,
                                 chain_type_kwargs={"prompt": prompt})


In [18]:
''' A continuacion comenzamos a interactuar con el asistente. Se ejecuta una consulta sobre el sistema de preguntas y respuestas creado anteriormente:
- qa.invoke(): Llama al método invoke del objeto RetrievalQA para realizar una consulta.
- "query": "¿Cuáles son los profesores responsables del curso Gobierno del dato?"}: El diccionario contiene la pregunta del usuario, en este caso, sobre los profesores responsables del curso de Gobierno del Dato.
- El sistema busca la respuesta en la base de datos de documentos previamente cargada y procesada, devolviendo tanto la respuesta como los documentos fuente si están disponibles.

Este paso ejecuta la búsqueda y generación de la respuesta en el sistema de asistencia virtual para el curso.'''

' A continuacion comenzamos a interactuar con el asistente. Se ejecuta una consulta sobre el sistema de preguntas y respuestas creado anteriormente:\n- qa.invoke(): Llama al método invoke del objeto RetrievalQA para realizar una consulta.\n- "query": "¿Cuáles son los profesores responsables del curso Gobierno del dato?"}: El diccionario contiene la pregunta del usuario, en este caso, sobre los profesores responsables del curso de Gobierno del Dato.\n- El sistema busca la respuesta en la base de datos de documentos previamente cargada y procesada, devolviendo tanto la respuesta como los documentos fuente si están disponibles.\n\nEste paso ejecuta la búsqueda y generación de la respuesta en el sistema de asistencia virtual para el curso.'

In [16]:
response = qa.invoke({"query": "Cualos son los profesores responsables del curso Gobierno del dato ?"})

In [17]:
response['result']

'Los profesores responsables del curso de Gobierno del Dato son Kevin Canova, Gustavo Favaro y Nicolas Martins.'

In [18]:
response = qa.invoke({"query": "Cual es son las unidades tematicas de la asignatura Gobierno del dato?"})
response['result']

'Las unidades temáticas de la asignatura "Gobierno del Dato" son:\n\nUnidad 1: El Gobierno del Dato como generador de ventajas competitivas en nuestro negocio.\nUnidad 2: Generando una visión a la práctica del Gobierno del Dato.\nUnidad 3: Organizaciones Data Driven orientadas al impacto.\nUnidad 4: Framework de Desarrollo de un Producto de Datos.\nUnidad 5: Arquitecturas Modernas para la gestión de ciclo de vida del dato.\nUnidad 6: Modelado de datos en una Organización.\nUnidad 7: Relevancia de la calidad de los datos, y su impacto en el negocio.\nUnidad 8: Potenciando el dato con la Metadata.\nUnidad 9: Instaurando una Cultura Data Driven.\nUnidad 10: Cumplimiento Regulatorio y normas internas en las organizaciones.\nUnidad 11: Seguridad en los datos.\nUnidad 12: Integración del Gobierno del dato con IA.'

In [19]:
response = qa.invoke({"query": "Cuando es la fecha en que se va a rendir el examen de la asignatura?"})
response['result']


'La fecha del examen final es el 06 de Diciembre de 2024.'

In [22]:
response = qa.invoke({"query": "Cual es el link de conexion del curso ?"})
response['result']

'El link de conexión del curso es: https://us02web.zoom.us/j/2197512947'

In [23]:
response = qa.invoke({"query": "Que se entiendo por Gobierno del dato?"})
response['result']

'El término "Gobierno del Dato" se refiere al proceso de planificación, supervisión y control que se aplica a los datos y procesos relacionados con ellos dentro de una organización, con el objetivo de garantizar la calidad, integridad y seguridad de los datos, así como su uso efectivo y sostenible para tomar decisiones informadas.'