<a href="https://colab.research.google.com/github/alarcon7a/Langchain-con-Ollama/blob/main/local_rag.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# pip install fastembed langchain langchain_community PyMuPDF chromadb 

## Ollama from langchain

In [3]:
from langchain_community.llms import Ollama

llm = Ollama(model="llama3")

In [2]:
llm.invoke("Hola, quien eres?")

'Hola! Soy LLaMA, un modelo de lenguaje artificialmente inteligente (AI) desarrollado por Meta AI. Mi función es entender y responder a preguntas o conversar con personas en forma natural, como si fuera una persona real. Me encanta aprender sobre diferentes temas y cultura, así que estoy aquí para escucharte y ayudarte de alguna manera. ¿De dónde eres?'

In [3]:
llm.invoke("puedes contarme algo acerca del Databricks AI Security Framework (DASF) ")

'¡Claro!\n\nEl Databricks AI Security Framework (DASF) es un conjunto de herramientas y prácticas para ayudar a las organizaciones a implementar una seguridad efectiva en sus aplicaciones y servicios de inteligencia artificial (IA). Fue desarrollado por Databricks, una empresa líder en soluciones de análisis y procesamiento de datos basados en la nube.\n\nEl objetivo principal del DASF es proporcionar un marco sólido para garantizar la integridad y confidencialidad de los datos y sistemas de IA. Esto se logra mediante la implementación de controles de seguridad efectivos en cada nivel del proceso de desarrollo, ejecución y monitoreo de aplicaciones de IA.\n\nEl DASF consta de tres componentes clave:\n\n1. **Data Handling**: Establece políticas y procedimientos para el manejo seguro de datos, incluyendo la autenticación, autorización y acceso controlado a los datos.\n2. **Model Training and Deployment**: Proporciona guías y herramientas para la capacitación y despliegue seguros de model

In [4]:
llm.invoke("puedes contarme que novedades hay respecto al Databricks AI Security Framework (DASF) en 2024 ")

"What a great topic!\n\nAs of my knowledge cutoff in late 2023, I can provide some insights on the Databricks AI Security Framework (DASF). Please note that information might have changed since then.\n\n**What is Databricks AI Security Framework (DASF)?**\n\nThe Databricks AI Security Framework is an open-source framework designed to help organizations build and maintain trust in their AI systems. It's a comprehensive framework for securing AI pipelines, ensuring the reliability and integrity of AI-driven decision-making processes. The goal is to create transparency, explainability, and accountability throughout the AI development lifecycle.\n\n**Novedades en 2024 (2024 Updates)**\n\nAs of my knowledge cutoff, here are some potential updates you might expect in 2024:\n\n1. **Enhanced Explainability**: Databricks may focus on improving the explainability aspects of the framework to better enable organizations to understand AI-driven decisions and outcomes.\n2. **Increased Transparency**

## RAG

### Load Document

In [4]:
from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader("../../Info_data/databricks-whitepaper.pdf")

In [5]:
data_pdf = loader.load()
len(data_pdf)

84

In [8]:
data_pdf[1]

Document(page_content='DATABRICKS \nAI SECURITY \nFRAMEWORK \n(DASF) \nVERSION 1.0\nTable of Contents\nExecutive Summary \t\n 3\n1   Introduction \t\n 5\n1.1 \t\nIntended audience \t\n 6\n1.2 \t\nHow to use this document \t\n 7\n2   Risks in AI System Components \t\n 9\n2.1 \t\nRaw Data \t\n 13\n2.2 \t\nData Prep \t\n 16\n2.3 \t\nDatasets \t\n 19\n2.4 \t\nData Catalog Governance \t\n 20\n2.5 \t\nMachine Learning Algorithms \t\n 22\n2.6 \t\nEvaluation \t\n 24\n2.7 \t\nMachine Learning Models \t\n 25\n2.8 \t\nModel Management \t\n 27\n2.9 \t\nModel Serving and Inference Requests \t\n 29\n2.10 \t Model Serving and Inference Response \t\n 37\n2.11 \t\nMachine Learning Operations (MLOps) \t\n 41\n2.12 \t Data and AI Platform Security \t\n 42\n3   Understanding Databricks Data Intelligence Platform AI Risk Mitigation Controls \t\n 44\n3.1 \t\nThe Databricks Data Intelligence Platform \t\n 44\nMosaic AI \t\n 46\nDatabricks Unity Catalog \t\n 47\nDatabricks Platform Architecture \t\n 48\nDatab

In [6]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=500)
docs = text_splitter.split_documents(data_pdf)
len(docs)

139

In [10]:
docs[2]

Document(page_content='3\nDATABRICKS \nAI SECURITY \nFRAMEWORK \n(DASF) \nVERSION 1.0\nExecutive Summary\nMachine learning (ML) and generative AI (GenAI) are transforming the \nfuture of work by enhancing innovation, competitiveness and employee \nproductivity. However, organizations are grappling with the dual challenge \nof leveraging artificial intelligence (AI) technologies for opportunities while \nmanaging potential security and privacy risks, such as data breaches and \nregulatory compliance.\nAdopting AI also raises regulatory considerations, exemplified by President Joe Biden’s \nExecutive Order (E.O. 14110) and NIST’s AI Risk Management Framework, underlining the \nimportance of responsible governance and oversight. The evolving legal and regulatory \nlandscape, combined with uncertainties around ownership accountability, leaves data, IT \nand security leaders navigating how to effectively harness generative AI for organizational \nbenefits while addressing perceived risks.\n

In [7]:
from langchain_community.embeddings.fastembed import FastEmbedEmbeddings
embed_model = FastEmbedEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

  from .autonotebook import tqdm as notebook_tqdm
Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 15947.92it/s]


In [8]:
from langchain_community.vectorstores import Chroma

vs = Chroma.from_documents(
    documents=docs,
    embedding=embed_model,
    persist_directory="vector_databricks",  # Local mode with in-memory storage only
    collection_name="DASF"
)

In [9]:
vectorstore = Chroma(embedding_function=embed_model,
                     persist_directory="vector_databricks",
                     collection_name="DASF")
retriever=vectorstore.as_retriever(search_kwargs={'k': 4})


In [10]:
from langchain.prompts import PromptTemplate

custom_prompt_template = """Usa la siguiente información para responder a las preguntas del usuario.
Si no sabes la respuesta, simplemente di que no lo sabes, no intentes inventar algun tipo de respuesta.

Contexto: {context}
Pregunta: {question}

Responde siempre en español y solo devuelve la respuesta útil a continuación y nada más.
Respuesta útil:
"""
prompt = PromptTemplate(template=custom_prompt_template,
                        input_variables=['context', 'question'])

In [11]:
from langchain.chains import RetrievalQA

qa = RetrievalQA.from_chain_type(llm=llm,
                                 chain_type="stuff",
                                 retriever=retriever,
                                 return_source_documents=True,
                                 chain_type_kwargs={"prompt": prompt})

In [15]:
response = qa.invoke({"query": "Cuales son los temas mas reelevantes presentados en el Databricks AI Security Framework (DASF) en 2024 ?"})
response['result']

'Los temas más relevantes presentados en el Databricks AI Security Framework (DASF) son:\n\n* Componentes de un sistema de inteligencia artificial (AI): raw data, data prep, datasets, data and AI governance, machine learning algorithms, evaluation, machine learning models, model management, model serving and inference, inference response, machine learning operations y data and AI platform security.\n* Riesgos técnicos asociados a estos componentes: 55 riesgos técnicos identificados que pueden surgir en la implementación de sistemas de inteligencia artificial.\n* Control de riesgos: recomendaciones para mitigar los riesgos técnicos identificados, incluyendo el papel compartido entre Databricks y la organización.\n\nEn resumen, el DASF se centra en proporcionar una guía práctica para desarrollar, implementar y mantener modelos de inteligencia artificial de manera segura y eficaz.'

In [16]:
response = qa.invoke({"query": "De acuerdo al archivo de DASF en 2024 que tema me recomendarias apdrender ? que parece ser lo mas reelevante ?"})
response['result']

'La recomendación más relevante según el archivo DASF (Data and AI Security Framework) en 2024 es aprender sobre **AI Risk Mitigation Controls**. Este tema es crucial para garantizar la seguridad de los sistemas de aprendizaje automático y proteger contra ataques y riesgos como jailbreaking, black-box attacks, infer training data membership y source code control attack.\n\nEs importante mencionar que el DASF 2024 proporciona una amplia gama de recomendaciones y controles para mitigar riesgos en diferentes áreas relacionadas con la inteligencia artificial, incluyendo model serving, inference requests, model operations y más. Sin embargo, aprendiendo sobre AI Risk Mitigation Controls es fundamental para proteger contra los peligros mencionados anteriormente.'

In [17]:
metadata = []
for _ in response['source_documents']:
    metadata.append((_.metadata['page'], _.metadata['file_path']))
metadata

[(23, '../../Info_data/databricks-whitepaper.pdf'),
 (39, '../../Info_data/databricks-whitepaper.pdf'),
 (32, '../../Info_data/databricks-whitepaper.pdf'),
 (25, '../../Info_data/databricks-whitepaper.pdf')]

In [18]:
response = qa.invoke({"query": "cual es el objetivo principal para el DASF en 2024 ?"})
response['result']


'El objetivo principal del DATABRICKS AI SECURITY FRAMEWORK (DASF) en 2024 es proteger los modelos de aprendizaje automático (ML) y lenguaje natural grande (LLM) de ataques y riesgos, garantizando la seguridad y integridad de la información y los procesos que involucran el uso de modelos ML/LLM.'

In [19]:
metadata = []
for _ in response['source_documents']:
    metadata.append((_.metadata['page'], _.metadata['file_path']))
metadata

[(23, '../../Info_data/databricks-whitepaper.pdf'),
 (25, '../../Info_data/databricks-whitepaper.pdf'),
 (16, '../../Info_data/databricks-whitepaper.pdf'),
 (39, '../../Info_data/databricks-whitepaper.pdf')]

# Integracion con Gradio

In [20]:
# Iniciar una interfaz
import gradio as gr 

def Pregunta(question):
    response = qa.invoke(qa.invoke({"query": question}))
    return response['result']

In [21]:
titulo= "Asesor - DATABRICKS AI SECURITY FRAMEWORK (DASF)"
descripcion= "Intento de RAG con DASF 2024 pdf"

demo = gr.Interface(
    fn=Pregunta,
    inputs=gr.Textbox(lines=10, placeholder="Cual es tu pregunta:"),
    outputs="text",
    title=titulo,
    description=descripcion
)

demo.launch()  

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




In [43]:
demo.close()

Closing server running on port: 7862
