# RAG

## Loaders

### JSON

In [None]:
%pip install langchain-chroma langchain langchain-core langchain-community langchain-experimental langchain_openai langchainhub jq sentence_transformers langchain_huggingface langgraph langchain-google-genai

In [26]:
from langchain.tools.retriever import create_retriever_tool
from langchain_chroma import Chroma
from langchain_community.document_loaders import JSONLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [None]:
import json
from pathlib import Path
from pprint import pprint


file_path='../json-example.json'
data = json.loads(Path(file_path).read_text())

In [None]:
pprint(data)

{'documents': [{'content': 'La Inteligencia Artificial (IA) es un campo de la '
                           'informática que se centra en la creación de '
                           'máquinas inteligentes que pueden realizar tareas '
                           'que típicamente requieren inteligencia humana. '
                           'Esto incluye el aprendizaje, la resolución de '
                           'problemas y el reconocimiento de patrones.',
                'id': 'doc1',
                'metadata': {'author': 'Dr. Ana García',
                             'category': 'Tecnología',
                             'date': '2023-05-15'},
                'title': 'Introducción a la Inteligencia Artificial'},
               {'content': 'El ejercicio regular ofrece numerosos beneficios '
                           'para la salud, incluyendo la mejora de la salud '
                           'cardiovascular, el fortalecimiento de los músculos '
                           'y huesos, 

In [None]:
loader_json = JSONLoader(
    file_path=file_path,
    jq_schema='.documents[].content',
    text_content=False)

docs_json = loader_json.load()

In [None]:
pprint(docs_json)

[Document(metadata={'source': '/mnt/c/Users/Chris/Desktop/updt/Programacion/ia projects/MultiAgent-SecondBrain-AI/rag-example-json.json', 'seq_num': 1}, page_content='La Inteligencia Artificial (IA) es un campo de la informática que se centra en la creación de máquinas inteligentes que pueden realizar tareas que típicamente requieren inteligencia humana. Esto incluye el aprendizaje, la resolución de problemas y el reconocimiento de patrones.'),
 Document(metadata={'source': '/mnt/c/Users/Chris/Desktop/updt/Programacion/ia projects/MultiAgent-SecondBrain-AI/rag-example-json.json', 'seq_num': 2}, page_content='El ejercicio regular ofrece numerosos beneficios para la salud, incluyendo la mejora de la salud cardiovascular, el fortalecimiento de los músculos y huesos, y la reducción del estrés. Se recomienda al menos 150 minutos de actividad física moderada por semana para adultos.'),
 Document(metadata={'source': '/mnt/c/Users/Chris/Desktop/updt/Programacion/ia projects/MultiAgent-SecondBr

### Emails

In [None]:
%pip install --upgrade --quiet unstructured

Note: you may need to restart the kernel to use updated packages.


In [None]:
from langchain.document_loaders import UnstructuredEmailLoader

file_path='../src/data/e-mail-example.eml'
loader_email = UnstructuredEmailLoader(file_path)
data_email = loader_email.load()
data_email

[Document(metadata={'source': '../src/data/e-mail-example.eml'}, page_content='Celebremos el vigésimo aniversario de Ruby on Rails.\n\n\t\n\t\t\t\n\t\t\t\t Rails , el popular framework de Ruby cumple 20 años . ¿Sabías que gigantes de tecnología\xa0como GitHub, Shopify, Apple Music y Figma utilizan Rails en 2024? En Código Facilito, no solo utilizamos Rails en nuestra plataforma, también tenemos más de una década enseñándolo , creando uno de los primeros cursos en Español. Te invitamos a aprender Rails con nosotros en nuestra amplio catálogo que incluye Rails desde cero , talleres, cursos, conferencias (Día Rails) y más. Además, cada semana publicamos en nuestra plataforma una clase nueva del programa de Rails Avanzado , donde contamos con instructores como Stella Miranda, Senior Software Engineer en Shopify y Guillermo Iguaran, miembro del Rails Core Team ,\xa0el selecto grupo internacional que se encarga de encaminar el framework y las nuevas funcionalidades. ¡Celebra el cumpleaños 20

### PDF

In [None]:
%pip install --upgrade --quiet pypdf

Note: you may need to restart the kernel to use updated packages.


In [None]:
from langchain_community.document_loaders import PyPDFLoader

file_path = '../src/data/pdf-example.pdf'
loader_pdf = PyPDFLoader(file_path)
data_pdf = loader_pdf.load_and_split()
data_pdf

[Document(metadata={'source': '../src/data/pdf-example.pdf', 'page': 0}, page_content='Bootcamp de LLMs e IA Lineamiento del proyecto final \nCamilo Chacón Sartori \n14/06/2024'),
 Document(metadata={'source': '../src/data/pdf-example.pdf', 'page': 2}, page_content='¡Práctica!'),
 Document(metadata={'source': '../src/data/pdf-example.pdf', 'page': 3}, page_content='¿Cómo se han sentido en el \nBootcamp?'),
 Document(metadata={'source': '../src/data/pdf-example.pdf', 'page': 4}, page_content='Proyecto: Asistente Personal de "Segundo Cerebro" Basado en LLM \nDescripción: \nEl objetivo de este proyecto es desarrollar un asistente personal  avanzado basado en LLM \nque actúe como un "segundo cerebro" para el usuario. El asistente utilizará un sistema de \nRetrieval-Augmented Generation  (RAG,  clase 10 ) y agentes múltiples (clase 11, 12, 13) , \npara proporcionar apoyo personalizado, gestión de información y generación de ideas en \ndiversos ámbitos de la vida personal y profesional del u

### CSV

In [None]:
from langchain_community.document_loaders.csv_loader import CSVLoader

file_path = '../src/data/csv-example.csv'
loader_csv = CSVLoader(
    file_path=file_path,
    csv_args={
        "delimiter": ";",
        "fieldnames": ["ID Cliente","Zona","País","Tipo de producto","Canal de venta","Prioridad","Fecha pedido","ID Pedido","Fecha envío Unidades","Precio Unitario","Coste unitario","Importe venta total","Importe Coste total"]
        }
    )

data_csv = loader_csv.load()

print(data_csv)

[Document(metadata={'source': '../src/data/csv-example.csv', 'row': 0}, page_content='ID Cliente: \ufeffID Cliente\nZona: Zona\nPaís: País\nTipo de producto: Tipo de producto\nCanal de venta: Canal de venta\nPrioridad: Prioridad\nFecha pedido: Fecha pedido\nID Pedido: ID Pedido\nFecha envío Unidades: Fecha envío\nPrecio Unitario: Unidades\nCoste unitario: Precio Unitario\nImporte venta total: Coste unitario\nImporte Coste total: Importe venta total\nNone: Importe Coste total'), Document(metadata={'source': '../src/data/csv-example.csv', 'row': 1}, page_content='ID Cliente: C2421\nZona: Europa\nPaís: United Kingdom\nTipo de producto: Snacks\nCanal de venta: Offline\nPrioridad: Crítica\nFecha pedido: 12/10/2020\nID Pedido: 242113196\nFecha envío Unidades: 30/11/2020\nPrecio Unitario: 5530\nCoste unitario: 152,58 €\nImporte venta total: 97,44 €\nImporte Coste total: 843.767,40 €\nNone: 538.843,20 €'), Document(metadata={'source': '../src/data/csv-example.csv', 'row': 2}, page_content='ID 

### Markdown

In [None]:
%pip install "unstructured[md]"

In [None]:
from langchain_community.document_loaders import UnstructuredMarkdownLoader

file_path = '../src/data/markdown-example.md'
loader_md = UnstructuredMarkdownLoader(file_path)

data_md = loader_md.load()
data_md

[Document(metadata={'source': '../src/data/markdown-example.md'}, page_content='Project Title\n\nSimple overview of use/purpose.\n\nDescription\n\nAn in-depth paragraph about your project and overview of use.\n\nGetting Started\n\nDependencies\n\nDescribe any prerequisites, libraries, OS version, etc., needed before installing program.\n\nex. Windows 10\n\nInstalling\n\nHow/where to download your program\n\nAny modifications needed to be made to files/folders\n\nExecuting program\n\nHow to run the program\n\nStep-by-step bullets code blocks for commands\n\nHelp\n\nAny advise for common problems or issues. command to run if program contains helper info\n\nAuthors\n\nContributors names and contact info\n\nex. Dominique Pizzie ex. @DomPizzie\n\nVersion History\n\n0.2\n\nVarious bug fixes and optimizations\n\nSee commit change or See release history\n\n0.1\n\nInitial Release\n\nLicense\n\nThis project is licensed under the [NAME HERE] License - see the LICENSE.md file for details\n\nAcknow

### Python

In [None]:
from langchain_community.document_loaders import PythonLoader

file_path = '../src/data/python-example.py'
loader_py = PythonLoader(file_path)

data_py = loader_py.load()
data_py

[Document(metadata={'source': '../src/data/python-example.py'}, page_content='## Example Python File\ndef main():\n    print("Hello world")\n\nif __name__ == "__main__":\n    main()')]

## Embedding

In [None]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

model_name = "sentence-transformers/paraphrase-distilroberta-base-v2"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

## Splitter

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs_json)

## Retriever

In [36]:

vectorstore = Chroma.from_documents(documents=splits, embedding=embedding)
retriever = vectorstore.as_retriever()

## Agentes

In [33]:
from langchain.tools.retriever import create_retriever_tool

tool = create_retriever_tool(
    retriever,
    "Recuperador_Informacion",
    "Busca y devuelve extractos",
)
tools = [tool]



In [10]:
tool.invoke("2023-08-05")

'La Inteligencia Artificial (IA) es un campo de la informática que se centra en la creación de máquinas inteligentes que pueden realizar tareas que típicamente requieren inteligencia humana. Esto incluye el aprendizaje, la resolución de problemas y el reconocimiento de patrones.\n\nEl ejercicio regular ofrece numerosos beneficios para la salud, incluyendo la mejora de la salud cardiovascular, el fortalecimiento de los músculos y huesos, y la reducción del estrés. Se recomienda al menos 150 minutos de actividad física moderada por semana para adultos.\n\nLas energías renovables, como la solar y la eólica, son fuentes de energía limpia que se renuevan naturalmente. Su adopción es crucial para combatir el cambio climático y reducir la dependencia de los combustibles fósiles.\n\nLa cocina mediterránea se caracteriza por el uso abundante de aceite de oliva, vegetales frescos, pescado y granos integrales. Esta dieta es conocida por sus beneficios para la salud, incluyendo la reducción del ri

In [13]:
from src.utils.open_router import ChatOpenRouter

model_name = 'openchat/openchat-7b:free'
model = ChatOpenRouter(model_name=model_name)

In [14]:
from langchain import hub

prompt = hub.pull("hwchase17/openai-functions-agent")

In [15]:
from langchain.agents import create_tool_calling_agent

agent = create_tool_calling_agent(model, tools, prompt)

In [36]:
from langchain.agents import AgentExecutor

agent_executor = AgentExecutor(agent=agent, tools=tools)

In [37]:
agent_executor.invoke({"input": "Hola!"})

{'input': 'Hola!', 'output': 'Hola! ¿En qué puedo ayudarte hoy?'}

In [38]:
agent_executor.invoke({"input": "En que se centra la inteligencia Artificial? "})

{'input': 'En que se centra la inteligencia Artificial? ',
 'output': 'La Inteligencia Artificial se centra en crear sistemas y algoritmos que pueden realizar tareas que normalmente requerirían inteligencia humana. Esto incluye procesar grandes cantidades de datos, aprender de los patrones y relaciones en esos datos, y tomar decisiones basadas en esa información. Algunos de los campos más importantes en la IA incluyen el aprendizaje automático, el procesamiento del lenguaje natural, la visión por computadora, la robótica y la optimización. La IA se aplica en una amplia variedad de industrias y campos, desde la medicina hasta la industria y el comercio electrónico.'}

In [39]:
agent_executor.invoke({"input": "que es la cocina mediterránea?"})

{'input': 'que es la cocina mediterránea?',
 'output': 'La cocina mediterránea es un estilo de cocina que se originó en la región mediterránea, que incluye países como España, Italia, Grecia, Turquía y Marruecos. Esta cocina se caracteriza por el uso de ingredientes frescos, frutas y verduras, aceite de oliva, pescado y mariscos, y carnes magras. También se destaca por la preparación de platos ligeros y saludables, con un enfoque en la calidad y la sabor natural de los ingredientes. Algunos de los platos típicos de la cocina mediterránea incluyen ensaladas, sopas, pizzas, pastas, pescados a la parrilla y dulces como baklava y pastel de manzana.'}

In [40]:
agent_executor.invoke({"input": "que informacion me puedes brindar acerca de los documentos que tienes?"})

{'input': 'que informacion me puedes brindar acerca de los documentos que tienes?',
 'output': 'Hola, como soy un asistente de inteligencia artificial, no tengo documentos personales. Sin embargo, puedo proporcionarte información general sobre los documentos que una persona podría tener. Algunos ejemplos de documentos comunes incluyen:\n\n1. Documentos de identificación: pasaporte, cédula de identidad, licencia de conducir, etc.\n2. Documentos de estudios: diplomas, títulos, certificados, transcripciones, etc.\n3. Documentos fiscales: declaraciones de impuestos, recibos de pago, comprobantes de ingresos, etc.\n4. Documentos de salud: historiales médicos, recetas médicas, resultados de exámenes, etc.\n5. Documentos de propiedad: títulos de propiedad, contratos de alquiler, facturas de servicios, etc.\n6. Documentos legales: contratos, testamentos, poderes, etc.\n7. Documentos personales: cartas, diarios, fotografías, etc.\n\nSi necesitas información específica sobre un tipo de documento

In [44]:
from langgraph.prebuilt import create_react_agent
from langgraph.checkpoint.sqlite import SqliteSaver

memory = SqliteSaver.from_conn_string(":memory:")

llm = ChatOpenRouter(model_name='qwen/qwen-2-7b-instruct:free')
agent_executor = create_react_agent(llm, tools, checkpointer=memory)

In [46]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-pro",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
)

agent_executor = create_react_agent(llm, tools, checkpointer=memory)

Key 'title' is not supported in schema, ignoring
Key 'title' is not supported in schema, ignoring


In [47]:
from langchain_core.messages import HumanMessage

config = {"configurable": {"thread_id": "abc123"}}

query = "Que dice el documento acerca de los 'Beneficios del Ejercicio Regular'?"

for s in agent_executor.stream(
    {"messages": [HumanMessage(content=query)]}, config=config
):
    print(s)
    print("----")

{'agent': {'messages': [AIMessage(content='', additional_kwargs={'function_call': {'name': 'Recuperador_Informacion', 'arguments': '{"query": "Beneficios del Ejercicio Regular"}'}}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'safety_ratings': [{'category': 'HARM_CATEGORY_DANGEROUS_CONTENT', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_HATE_SPEECH', 'probability': 'NEGLIGIBLE', 'blocked': False}, {'category': 'HARM_CATEGORY_HARASSMENT', 'probability': 'NEGLIGIBLE', 'blocked': False}]}, id='run-bb430286-1914-4bea-ba4a-4028c9309a03-0', tool_calls=[{'name': 'Recuperador_Informacion', 'args': {'query': 'Beneficios del Ejercicio Regular'}, 'id': '003b4951-59d8-44aa-8830-b5c8a33f6e17', 'type': 'tool_call'}], usage_metadata={'input_tokens': 374, 'output_tokens': 20, 'total_tokens': 394})]}}
----
{'tools': {