LangChain representa una revolución en el desarrollo de aplicaciones basadas en Inteligencia Artificial, específicamente en la integración y utilización de Modelos de Lenguaje de Gran Escala (LLMs). Este marco de trabajo innovador ha transformado la manera en que desarrolladores y organizaciones implementan soluciones de IA.

## Fundamentos y Arquitectura

**Conceptos Básicos**
LangChain se construye sobre el principio de componibilidad, permitiendo la creación de aplicaciones complejas mediante la combinación de componentes más simples. Su arquitectura modular facilita la integración con diversos modelos de lenguaje, bases de datos y servicios externos.

**Componentes Principales**
- Prompts: Plantillas y sistemas de gestión para la generación de instrucciones efectivas
- Chains: Secuencias de operaciones que combinan diferentes componentes
- Agents: Entidades autónomas que pueden tomar decisiones y ejecutar acciones
- Memory: Sistemas para mantener el contexto en conversaciones y procesos
- Indexes: Estructuras para organizar y acceder a datos de manera eficiente

## Casos de Uso Prácticos

**Análisis de Documentos**
LangChain destaca en el procesamiento y análisis de documentos extensos. Por ejemplo:

```python
from langchain.document_loaders import PyPDFLoader
from langchain.indexes import VectorstoreIndexCreator

loader = PyPDFLoader("documento.pdf")
index = VectorstoreIndexCreator().from_loaders([loader])
response = index.query("¿Cuáles son los puntos principales del documento?")
```

**Asistentes Virtuales Personalizados**
La creación de chatbots avanzados se simplifica mediante el uso de cadenas conversacionales:

```python
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

conversation = ConversationChain(
    llm=llm,
    memory=ConversationBufferMemory()
)
```

## Capacidades Avanzadas

**Integración con Bases de Datos**
LangChain permite la interacción directa con bases de datos, facilitando consultas en lenguaje natural:

```python
from langchain.agents import create_sql_agent
from langchain.agents.agent_toolkits import SQLDatabaseToolkit

agent = create_sql_agent(
    llm=llm,
    toolkit=SQLDatabaseToolkit(db=db),
    verbose=True
)
```

**Procesamiento de Conocimiento**
El framework sobresale en la gestión y utilización de bases de conocimiento:

```python
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(documents, embeddings)
```

## Aplicaciones Empresariales

**Automatización de Procesos**
- Análisis automático de contratos y documentos legales
- Generación de informes y resúmenes ejecutivos
- Clasificación y routing de correos electrónicos
- Extracción de información de documentos no estructurados

**Interacción con Clientes**
- Sistemas de atención al cliente 24/7
- Asistentes virtuales para ventas
- Sistemas de recomendación personalizados
- Chatbots multilingües

## Características Técnicas Avanzadas

**Gestión de Memoria**
LangChain implementa diversos tipos de memoria:
- Buffer Memory: Almacenamiento simple de mensajes
- Summary Memory: Resúmenes de conversaciones anteriores
- Vector Memory: Almacenamiento basado en embeddings

**Herramientas de Desarrollo**
- Debugging avanzado de cadenas y agentes
- Monitorización de tokens y costos
- Sistemas de logging y trazabilidad
- Herramientas de testing y evaluación

## Integración y Escalabilidad

**Compatibilidad con Proveedores**
LangChain se integra con múltiples proveedores de LLMs:
- OpenAI (GPT-3.5, GPT-4)
- Anthropic (Claude)
- Google (PaLM)
- Hugging Face (modelos open source)

**Optimización de Recursos**
- Caching inteligente de respuestas
- Gestión eficiente de tokens
- Balanceo de carga entre diferentes modelos
- Estrategias de fallback

## Consideraciones de Implementación

**Mejores Prácticas**
- Diseño modular de cadenas y agentes
- Implementación de sistemas de retry y error handling
- Monitorización de costos y uso de recursos
- Validación y testing de prompts

**Seguridad y Privacidad**
- Manejo seguro de credenciales
- Sanitización de inputs
- Control de acceso granular
- Cumplimiento de normativas de privacidad

## Futuro y Evolución

LangChain continúa evolucionando rápidamente, con nuevas características y mejoras constantes:
- Soporte para modelos multimodales
- Mejoras en la eficiencia de procesamiento
- Nuevas integraciones con herramientas y servicios
- Expansión de capacidades de razonamiento

## Conclusión

LangChain representa un salto cualitativo en el desarrollo de aplicaciones de IA, proporcionando una infraestructura robusta y flexible para la creación de soluciones sofisticadas. Su arquitectura modular, junto con su amplia gama de funcionalidades, lo convierte en una herramienta indispensable para cualquier desarrollador o organización que busque implementar soluciones basadas en LLMs.

La combinación de su facilidad de uso, potencia y flexibilidad hace de LangChain una elección óptima para proyectos que requieren procesamiento avanzado de lenguaje natural, desde simples chatbots hasta complejos sistemas de análisis y automatización empresarial.

## Paso 0.

Obtener los siguientes API Keys (Ambos son gratuitos).

- API Key de Google AI Studio Para acceder al modelo de Gemini de Google.
- API Key de Langchain

## Paso 1. Instalación de Librerías y utilitarios

Instalamos las librerías necesarias y las importamos en el notebook/script que utilizaremos.

In [6]:
# !pip install --upgrade -q langchain
# !pip install google-generativeai langchain-google-genai
# !pip install chromadb pypdf2 python-dotenv
# !pip install PyPDF
# !pip install -U langchain-community
# !pip install sentence-transformers
# !pip install langchainhub    

In [5]:
# pip install ipywidgets

In [7]:

import os
from IPython.display import Markdown

# Librerías para la preparación de datos
from langchain.document_loaders import PyPDFDirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings

# Librerías para el proceso de Retrieval
from langchain import hub
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_google_genai import ChatGoogleGenerativeAI

## Paso 2. Configuración inicial de carpetas

Crearemos dos carpetas:

- MisDatos: Aquí se almacenarán los archivos adicionales que utilizaremos para ampliar la base de conocimiento del modelo.
- VectorDB: En esta carpeta se almacenará la base de datos Vectorial.

In [17]:
import os
os.mkdir("content")
os.mkdir("content/MisDatos")
os.mkdir("content/VectorDB")


Carga en la carpeta MisDatos, los PDFs que quieres utilizar para personalizar las respuestas generadas.

In [18]:
from dotenv import load_dotenv
load_dotenv()

True

In [19]:
os.environ["LANGCHAIN_TRACING_V2"] = "true"

## Paso 3. Preparación de los datos

Leeremos los archivos PDF de la carpeta Mis Datos y los convertiremos en embeddings.

https://www.lostiempos.com/sites/default/files/edicion_online/las_delicias_de_mi_llajta.pdf

In [25]:
source_data_folder = "./content/MisDatos"
# Leyendo los PDFs del directorio configurado
loader = PyPDFDirectoryLoader(source_data_folder)
data_on_pdf = loader.load()
# cantidad de data cargada
len(data_on_pdf)


# Particionando los datos. Con un tamaño delimitado (chunks) y 
# 200 caracters de overlapping para preservar el contexto
text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", ". ", " ", ""],
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(data_on_pdf)
# Cantidad de chunks obtenidos
len(splits)

226

In [26]:
data_on_pdf

[Document(metadata={'source': 'content\\MisDatos\\chiquitania.pdf', 'page': 0}, page_content='1\nGuía de \nFrutos Silvestres Comestibles \nde la Chiquitania\nDiego Javier Coimbra Molina\n'),
 Document(metadata={'source': 'content\\MisDatos\\chiquitania.pdf', 'page': 1}, page_content='2\nRevisión taxonómica:  \nDaniel Villarroel Segarra\nEditor: \nFCBC\nFotografías de portada:\nPrincipal:    Guinda, Annona sp,\nLaterales:    Guayabas, Psidium guajava\nIsiga, Protium heptaphyllum\nAguaí grande, Pouteria caimito\nTodas de Diego Javier Coimbra Molina\n© 2016 Editorial FCBC\nTodos los derechos reservados/All rights reserved\nFundación para la Conservación del Bosque Chiquitano (FCBC)\nBarrio Las Palmas, Av. Ibérica calle 6 oeste Nº 95\nTelf/fax.: (591-3) 3572441 - 3552242\ne-mail: fcbc@fcbc.org.bo\njcoimbra@fcbc.org.bo\nwww.fcbc.org.bo\nSanta Cruz - Bolivia\n \nDiseño y diagramación: Aimara Barrero\nDepósito Legal: 8-1-1658-16\nImpreso en Bolivia\nImprenta El Deber\nSegunda Edición, julio d

In [30]:
# pip install cohere

In [57]:
# pip install --upgrade langchain

Ahora vamos a generar los embeddings y almacenarlos en Chroma DB.

In [34]:
from langchain.vectorstores import Chroma
from langchain.embeddings import CohereEmbeddings

# Crea la instancia de embeddings con Cohere
embeddings_model = CohereEmbeddings(cohere_api_key=os.environ["COHERE_API_KEY"], user_agent="antonio")

path_db = "./content/VectorDB"  # Ruta a la base de datos del vector store

# Crear el vector store a partir de tus documentos 'splits'
vectorstore = Chroma.from_documents(
    documents=splits, 
    embedding=embeddings_model, 
    persist_directory=path_db
)

## Paso 4: Configuración del Retrieval

El LLM que usaremos para estructurar las respuestas será Gemini.

In [51]:
llm = ChatGoogleGenerativeAI(model="gemini-1.5-pro", google_api_key=os.environ["GOOGLE_CUSTOM_SEARCH_API"])

La fuente para el retriever será la base de datos de Chroma

In [52]:
retriever = vectorstore.as_retriever()

Usaremos uno de los templates de prompts básicos de LangChain

In [53]:
# https://smith.langchain.com/hub/rlm/rag-prompt
prompt = hub.pull("rlm/rag-prompt")

Finalmente definimos la variable rag_chain en la que pedimos a Langchain que reciba la pregunta, busque la respuesta en Chroma DB (utilizando el retriever) y solicite a Gemini que genere la respuesta en lenguaje natural.

In [55]:
def format_docs(docs):
    # Funcion auxiliar para enviar el contexto al modelo como parte del prompt
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [None]:
# @title Preguntas al Documento
pregunta = "Que es la pacobilla? " # @param {type:"string"}
response = rag_chain.invoke(pregunta )
Markdown(response)

La pacobilla (Capparidastrum coimbranum) is a small fruit native to the Chiquitania region.  It is also known as platanillo in San Ignacio.  The fruit comes from a tree with ornamental potential.


In [66]:
prompt.messages[0].prompt.template = "You are a Bolivian kitcken expert assistant for question-answering tasks (thus you might wanna answer in Spanish). Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:"


In [67]:
# @title Preguntas al Documento
pregunta = "Que es la pacobilla? " # @param {type:"string"}
response = rag_chain.invoke(pregunta )
Markdown(response)

La pacobilla (Capparidastrum coimbranum) es una fruta chiquitana.  También se la conoce como platanillo en San Ignacio. Su aroma es más intenso que su sabor y el árbol se considera ornamental.


Desde LangSmith también puedes ver el proceso de razonamiento completo cada vez que haces una pregunta usando LangChain: