In [1]:
from langchain_community.llms import Ollama

llm = Ollama(model="llama3")

llm.invoke("Hola, quien eres?")

'¡hola! Soy LLaMA, un modelo de lenguaje inteligente desarrollado por Meta AI. Mi función es entender y responder a preguntas, mantener conversaciones y generar texto basado en el patrón y estilo de la entrada que recibo. Estoy aquí para ayudarte con cualquier cosa que necesites, desde hacer preguntas hasta proporcionar información general. ¿En qué puedo ayudarte hoy?'

In [4]:
from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader("documents/Data_Governance_2024.docx")
data_pdf = loader.load()
data_pdf[0]


Document(metadata={'source': 'documents/Data_Governance_2024.docx', 'file_path': 'documents/Data_Governance_2024.docx', 'page': 1, 'total_pages': 6, 'format': 'Office documen', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': '', 'producer': '', 'creationDate': '', 'modDate': '', 'trapped': '', 'encryption': ''}, page_content='nuevos desafíos en el área de gobernanza de los procesos de datos.\nLogre conceptualizar al dato como un activo de la organización.\nReconozca la centralidad que ocupan dentro de las incumbencias de\ndata governance los problemas relativos a propiedad y calidad de\nlos datos y responsabilidad de los procesos.\nComprenda los problemas derivados de la falta de coordinación de\niniciativas de datos entre departamentos y equipos.\nAdquiera conocimientos para evaluar la conveniencia de la\ncentralización y coordinación en la gestión de las iniciativas de\ndatos.\nProblematice las implicancias de centralizar o descentralizar\nequipos, responsabilida

In [5]:
data_pdf[0]

Document(metadata={'source': 'documents/Data_Governance_2024.docx', 'file_path': 'documents/Data_Governance_2024.docx', 'page': 0, 'total_pages': 6, 'format': 'Office documen', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': '', 'producer': '', 'creationDate': '', 'modDate': '', 'trapped': '', 'encryption': ''}, page_content='PROFESORES RESPONSABLES de la ASIGNATURA GOBIERNO DEL\nDATO: Kevin Canova - Gustavo Favaro - Nicolas Martins\nEn los últimos años, en especial desde el advenimiento de las\ntecnologías cloud, las organizaciones han implementado de forma\ncreciente iniciativas basadas en datos. No obstante, los problemas\nde gobernanza de tales procesos, tradicionalmente han sido\nrelegados a un segundo plano dentro de las prioridades\norganizacionales. Sólo con la complejización técnica reciente este\nproblema ha ganado notoriedad y la academia, las organizaciones y\nempresas proveedoras de servicios han comenzado a tratarlo\nactivamente. Bajo esta nueva conce

In [6]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=500)
docs = text_splitter.split_documents(data_pdf)

In [11]:
from langchain.embeddings import HuggingFaceEmbeddings

embed_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")



  embed_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


In [12]:
from langchain_community.vectorstores import Chroma

vs = Chroma.from_documents(
    documents=docs,
    embedding=embed_model,
    persist_directory="chroma_db_dir_Governace",  # Local mode with in-memory storage only
    collection_name="Data_Governance_2024"
)

In [13]:
vectorstore = Chroma(embedding_function=embed_model,
                     persist_directory="chroma_db_dir_Governace",
                     collection_name="Data_Governance_2024")
retriever=vectorstore.as_retriever(search_kwargs={'k': 3})


  vectorstore = Chroma(embedding_function=embed_model,


In [14]:
from langchain.prompts import PromptTemplate

custom_prompt_template = """ Tu eres un asistente de la asignatura del Gobierno del dato, en el ambito educativo. Responderas consultas
administrativas y operativas respecto al curso.
Usa la siguiente información para responder a la pregunta del usuario.
Si no sabes la respuesta, simplemente di que no lo sabes, no intentes inventar una respuesta.

Contexto: {context}
Pregunta: {question}

Solo devuelve la respuesta útil a continuación y nada más y responde siempre en español
Respuesta útil:
"""
prompt = PromptTemplate(template=custom_prompt_template,
                        input_variables=['context', 'question'])


In [15]:
from langchain.chains import RetrievalQA

qa = RetrievalQA.from_chain_type(llm=llm,
                                 chain_type="stuff",
                                 retriever=retriever,
                                 return_source_documents=True,
                                 chain_type_kwargs={"prompt": prompt})


In [16]:
response = qa.invoke({"query": "Cualos son los profesores responsables del curso Gobierno del dato ?"})

In [17]:
response['result']

'Los profesores responsables del curso de Gobierno del Dato son Kevin Canova, Gustavo Favaro y Nicolas Martins.'

In [18]:
response = qa.invoke({"query": "Cual es son las unidades tematicas de la asignatura Gobierno del dato?"})
response['result']

'Las unidades temáticas de la asignatura "Gobierno del Dato" son:\n\nUnidad 1: El Gobierno del Dato como generador de ventajas competitivas en nuestro negocio.\nUnidad 2: Generando una visión a la práctica del Gobierno del Dato.\nUnidad 3: Organizaciones Data Driven orientadas al impacto.\nUnidad 4: Framework de Desarrollo de un Producto de Datos.\nUnidad 5: Arquitecturas Modernas para la gestión de ciclo de vida del dato.\nUnidad 6: Modelado de datos en una Organización.\nUnidad 7: Relevancia de la calidad de los datos, y su impacto en el negocio.\nUnidad 8: Potenciando el dato con la Metadata.\nUnidad 9: Instaurando una Cultura Data Driven.\nUnidad 10: Cumplimiento Regulatorio y normas internas en las organizaciones.\nUnidad 11: Seguridad en los datos.\nUnidad 12: Integración del Gobierno del dato con IA.'

In [19]:
response = qa.invoke({"query": "Cuando es la fecha en que se va a rendir el examen de la asignatura?"})
response['result']


'La fecha del examen final es el 06 de Diciembre de 2024.'

In [22]:
response = qa.invoke({"query": "Cual es el link de conexion del curso ?"})
response['result']

'El link de conexión del curso es: https://us02web.zoom.us/j/2197512947'

In [23]:
response = qa.invoke({"query": "Que se entiendo por Gobierno del dato?"})
response['result']

'El término "Gobierno del Dato" se refiere al proceso de planificación, supervisión y control que se aplica a los datos y procesos relacionados con ellos dentro de una organización, con el objetivo de garantizar la calidad, integridad y seguridad de los datos, así como su uso efectivo y sostenible para tomar decisiones informadas.'