# Bases de datos Vectoriales - Uso en LLM con Retrieval Augmented Generation (RAG) usando LangChain

### Introducción

En esta notebook, exploraremos un flujo de trabajo completo que combina técnicas avanzadas de procesamiento de lenguaje natural y recuperación de información para extraer datos de documentos PDF, cargar estos datos en forma de embedding en una base de datos vectorial, y generar respuestas contextuales a través de un modelo de lenguaje de tipo LLM.

Utilizaremos herramientas como PDFMiner para la extracción de datos, e5-base para la creación de embeddings representativos de los datos, y FAISS para la gestión de la base de datos vectorial. Finalmente, implementaremos un sistema de Generación Aumentada por Recuperación (RAG) utilizando LangChain para mejorar significativamente la precisión de las respuestas generadas.

### Flujo de Trabajo

1. **Extracción de Metadatos de PDF**: Utilizaremos PDFMiner para extraer texto y metadatos relevantes de documentos en formato PDF. Esto nos permitirá obtener información estructurada a partir de documentos no estructurados.

2. **Creación de Embeddings con e5-base**: Transformaremos el texto extraído en vectores de características usando el modelo e5-base, que es eficiente para generar embeddings que capturan el significado semántico del texto.

3. **Carga en FAISS**: Los embeddings generados se cargarán en FAISS, una base de datos vectorial especializada en la búsqueda rápida de similitudes, lo que facilita la recuperación eficiente de información basada en el contenido semántico.

4. **Recuperación de Información**: Practicaremos operaciones de retrieve sobre la vectorDB para encontrar los vectores más relevantes en respuesta a consultas específicas, lo cual es fundamental para sistemas de recomendación y respuesta a preguntas.

5. **Generación de Respuestas con RAG y LangChain**: Integraremos un modelo de lenguaje preentrenado en un sistema RAG para generar respuestas. Este enfoque utiliza la información recuperada para informar y contextualizar la generación de texto, resultando en respuestas más precisas y relevantes.

### Beneficios

El uso de RAG junto con LangChain permite combinar la potencia de los modelos de lenguaje con técnicas de recuperación de información, superando las limitaciones de los modelos que generan respuestas basándose únicamente en el texto de entrada. Esto no solo mejora la precisión de las respuestas, sino que también permite una adaptabilidad y personalización mucho mayores en aplicaciones de AI.

Al final de esta notebook, se tendrá un entendimiento práctico de cómo implementar y utilizar estas tecnologías avanzadas para mejorar la interacción entre humanos y máquinas a través de interfaces de lenguaje natural.

### Caso de estudio: Recopilacion de normas de regulacion y control del sistema financiero - Circular N° 2473



En este caso de estudio, utilizaremos el modelo Llama-3 junto con la técnica RAG (Retrieval Augmented Generation) para responder preguntas específicas sobre la normas de regulacion y control del sistema financiero uruguayo. Este documento, emitida por el Banco Central del Uruguay, reúne disposiciones legales y reglamentarias que regulan la autorización, funcionamiento, supervisión y control de las instituciones del sistema financiero uruguayo.


<img src="https://miro.medium.com/v2/resize:fit:1200/1*ZDyi0kb1iHbiCvbCQkzlpw.jpeg" width="600">

**Método**

1. **Recuperación de Información**: Primero, utilizaremos un sistema de recuperación para identificar y extraer segmentos relevantes del texto de la circular que sean pertinentes a las preguntas formuladas.
2. **Generación de Respuestas**: Luego, alimentaremos estos segmentos y la pregunta formulada al modelo Llama-3, configurado con RAG, para generar una respuesta contextual y fundamentada legalmente.

**Ejemplo de Pregunta**

"¿En que fecha se presenta el informe de auditor externo en prevencion de lavado de activos para las casas financieras de acuerdo a las normas y la regulacion incluidas en la circular N° 2473?"

Este caso de estudio no solo servirá para validar la eficacia del modelo en generar respuestas relevantes y precisas, sino también para explorar las limitaciones y consideraciones éticas de la inteligencia artificial en el ámbito legal.

# Extracción y organización de datos del PDF

In [None]:
# Instalación de dependencias necesarias

!pip install pdfminer.six
!pip install langchain
!pip install sentence-transformers
!pip install huggingface-hub
!pip install -U langchain-community
!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes

Collecting pdfminer.six
  Downloading pdfminer_six-20250506-py3-none-any.whl.metadata (4.2 kB)
Downloading pdfminer_six-20250506-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m57.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pdfminer.six
Successfully installed pdfminer.six-20250506
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-tr

In [None]:
!pip install --upgrade transformers



In [None]:
# Instalación de dependencia FAISS (Bases de datos vectoriales)

import subprocess
import sys

def install_faiss():
    try:
        # Check if a GPU is available
        gpu_available = subprocess.check_output("nvidia-smi", shell=True)
        # Install faiss-gpu if GPU is available
        subprocess.check_call([sys.executable, "-m", "pip", "install", "faiss-gpu"])
    except subprocess.CalledProcessError:
        # If no GPU is available, install faiss-cpu
        subprocess.check_call([sys.executable, "-m", "pip", "install", "faiss-cpu"])

install_faiss()

### PDFMiner

PDFMiner es una herramienta escrita en Python destinada a la extracción de información de documentos en formato PDF. Permite obtener el texto, las coordenadas de los caracteres, los tamaños de fuente y otros metadatos presentes en los documentos PDF. Es especialmente útil para la conversión de PDFs a formatos más manejables como texto plano o HTML.


### Expresiones regulares

Las expresiones regulares son una herramienta poderosa para la búsqueda y manipulación de cadenas de texto basadas en patrones. En el contexto de extracción de datos, podemos utilizar expresiones regulares para identificar y extraer secciones específicas o 'chunks' de texto que cumplen con ciertos criterios, lo que es crucial para la preparación de datos en tareas de procesamiento de lenguaje natural.

In [None]:
# Importación de dependencias para extracción y matcheo de texto

from pdfminer.high_level import extract_text
import re

### Definción de funciones custom para extraer de forma apropiada datos del PDF

In [None]:
!pip install pymupdf

Collecting pymupdf
  Downloading pymupdf-1.25.5-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Downloading pymupdf-1.25.5-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (20.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m79.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymupdf
Successfully installed pymupdf-1.25.5


In [None]:
import fitz  # PyMuPDF

In [None]:
def limpiar_encabezados_pies(texto):
    # Patrón para detectar y eliminar circulares y antecedentes
    patrones = [
        # Encabezado específico
        r'Última circular:\s*Nº\s*\d+\s*de\s*\d{2}\s*de\s*\w+\s*de\s*\d{4}',

        # Líneas de circulares y resoluciones con fechas y vigencias
        r'Circular\s+\d+\s*-\s*Resolución\s+del\s+\d{2}\.\d{2}\.\d{4}\s*-\s*Vigencia\s+Diario\s+Oficial\s+\d{2}\.\d{2}\.\d{4}\s*-\s*\(\d{4}/\d{4}\)',

        # Línea de "Antecedentes del artículo"
        r'Antecedentes del artículo',
    ]

    for patron in patrones:
        texto = re.sub(patron, '', texto, flags=re.IGNORECASE)

    # Eliminar líneas que quedaron vacías
    texto = re.sub(r'\n\s*\n', '\n\n', texto)

    return texto


def extraer_articulos_con_titulos_capitulos(pdf_path):
    doc = fitz.open(pdf_path)
    texto = "\n".join([page.get_text() for page in doc])
    texto = limpiar_encabezados_pies(texto)

    # Encabezados principales en mayúsculas al inicio de línea
    encabezado_regex = r'^(LIBRO|T[ÍI]TULO|CAP[ÍI]TULO|SECCI[ÓO]N|ART[ÍI]CULO)\s+[^\n]*'
    encabezados = list(re.finditer(encabezado_regex, texto, re.MULTILINE))

    articulos = []
    libro = titulo = capitulo = seccion = None

    for i, match in enumerate(encabezados):
        tipo = match.group(1)
        contenido = match.group(0).strip()
        inicio = match.end()

        fin = encabezados[i + 1].start() if i + 1 < len(encabezados) else len(texto)
        bloque = texto[inicio:fin].strip()

        if tipo == "LIBRO":
            libro = contenido
        elif tipo.startswith("T"):
            titulo = contenido
        elif tipo.startswith("CAP"):
            capitulo = contenido
        elif tipo.startswith("SECCI"):
            seccion = contenido
        elif tipo.startswith("ART"):
            # Capturar el encabezado del artículo como clave
            articulo = contenido
            articulos.append({
                "libro": libro,
                "titulo": titulo,
                "capitulo": capitulo,
                "seccion": seccion,
                "articulo": articulo,
                "contenido": bloque.strip()
            })

    return articulos

### Extracción de datos del PDF mediante funciones customizadas

In [None]:
# Uso de la función definida previamente

import requests

# URL del PDF
url = "https://www.bcu.gub.uy/Acerca-de-BCU/Normativa/Documents/Reordenamiento%20de%20la%20Recopilación/Sistema%20Financiero/RNRCSF.pdf"

# Descargar el PDF
response = requests.get(url, verify=False)
nombre_archivo = "RNRCSF.pdf"

with open(nombre_archivo, "wb") as f:
    f.write(response.content)

# Ejecutar la función sobre el archivo descargado
articulos_con_metadatos = extraer_articulos_con_titulos_capitulos(nombre_archivo)



### Visualización de datos extraídos (artículos) con metadatos asociados

In [None]:
# Mostrar algunos artículos extraído con sus metadatos

for i, articulo in enumerate(articulos_con_metadatos[25:28]):
    print(f"libro: {articulo['libro']}")
    print(f"titulo: {articulo['titulo']}")
    print(f"capitulo: {articulo['capitulo']}")
    print(f"seccion: {articulo['seccion']}")
    print(f"articulo: {articulo['articulo']}:")
    print(f"contenido: {articulo['contenido']}")
    print(f"\n----------------------------------------------------------------------------------------------\n")

libro: None
titulo: TÍTULO I – INSTITUCIONES DE INTERMEDIACIÓN FINANCIERA
capitulo: CAPÍTULO IV –
seccion: SECCIÓN II – HABILITACIÓN
articulo: ARTÍCULO 26 (AUTORIZACIÓN PARA LA CONTRATACIÓN DE AUDITORES:
contenido: EXTERNOS Y FIRMAS DE AUDITORES EXTERNOS). 
Los bancos, bancos de inversión, casas financieras, instituciones financieras externas,
cooperativas de intermediación financiera y administradoras de grupos de ahorro previo
deberán solicitar la autorización previa de la Superintendencia de Servicios Financieros
para la contratación de auditores externos y firmas de auditores externos a que refiere el
artículo 145.
El auditor externo o la firma de auditores externos a contratar deberá contar con la
organización y los conocimientos adecuados respecto al tamaño y especificidad del
negocio de la empresa a auditar, así como experiencia en auditoría de entidades del
sector financiero.
A  efectos  de  otorgar  la  autorización,  la  Superintendencia  de  Servicios  Financieros
evaluará e

In [None]:
# Mostrar el articulo 35 que es uno complicado por sus sub secciones

for i, articulo in enumerate(articulos_con_metadatos[35:41]):
    print(f"libro: {articulo['libro']}")
    print(f"titulo: {articulo['titulo']}")
    print(f"capitulo: {articulo['capitulo']}")
    print(f"seccion: {articulo['seccion']}")
    print(f"articulo: {articulo['articulo']}:")
    print(f"contenido: {articulo['contenido']}")
    print(f"\n----------------------------------------------------------------------------------------------\n")

libro: None
titulo: TÍTULO I – INSTITUCIONES DE INTERMEDIACIÓN FINANCIERA
capitulo: CAPÍTULO VI - EMISIÓN Y TRANSFERENCIA DE ACCIONES
seccion: SECCIÓN II – HABILITACIÓN
articulo: ARTÍCULO 35 (AUTORIZACIÓN PARA EMITIR ACCIONES COOPERATIVAS):
contenido: Las  cooperativas  de  intermediación  financiera  deberán  requerir  la  autorización  del
Banco Central del Uruguay para emitir acciones cooperativas previstas por el artículo 12
de la Ley N° 17.613 de 27 de diciembre de 2002.

----------------------------------------------------------------------------------------------

libro: None
titulo: TÍTULO I – INSTITUCIONES DE INTERMEDIACIÓN FINANCIERA
capitulo: CAPÍTULO VI – BIS – TERCERIZACIÓN DE SERVICIOS
seccion: SECCIÓN II – HABILITACIÓN
articulo: ARTÍCULO 35.1 (TERCERIZACIÓN DE SERVICIOS).:
contenido: Las instituciones deberán solicitar la autorización de la Superintendencia de Servicios
Financieros para la contratación de terceros para la prestación en su favor de aquellos
servicios de t

In [None]:
# Visualizar cantidad de artículos y comparar.
len(articulos_con_metadatos)

1141

In [None]:
# Cuento cuantas veces aparece la palabra ARTÏCULO
# Abrir el PDF y extraer texto completo
with fitz.open("RNRCSF.pdf") as doc:
    texto_completo = ""
    for pagina in doc:
        texto_completo += pagina.get_text()

# Contar cuántas veces aparece "ARTÍCULO"
print(texto_completo.count("ARTÍCULO"))

1145


Perdemos 4 articulos! Es admisible.

# Base de datos vectorial (FAISS: Librería de búsqueda de vectores)

### Base de datos vectorial

VectorDB, o base de datos de vectores, es un sistema de almacenamiento especializado en el manejo de vectores de alta dimensión, como los generados por modelos de lenguaje o sistemas de recomendación. Estas bases de datos están optimizadas para realizar operaciones de búsqueda y comparación de vectores de manera eficiente.

A diferencia de las bases de datos tradicionales que almacenan datos en formatos estructurados (como tablas), las bases de datos de vectores están diseñadas para almacenar y gestionar vectores de características, lo que permite realizar búsquedas basadas en la similitud de contenido. Esto es esencial para aplicaciones como sistemas de recomendación o búsqueda semántica.

Los metadatos son datos que describen y proporcionan información sobre otros datos. En el contexto de las búsquedas, los metadatos son cruciales porque permiten organizar, encontrar y entender los datos de manera eficiente. Por ejemplo, en un documento, los metadatos pueden incluir información sobre el autor, la fecha de creación y palabras clave relacionadas.

### FAISS

FAISS (Facebook AI Similarity Search) es una biblioteca desarrollada por Facebook para la búsqueda eficiente de similitudes en grandes colecciones de vectores. FAISS está optimizada para trabajar con vectores de alta dimensión y puede realizar búsquedas de vecinos más cercanos en grandes escalas de manera muy eficiente.


Al configurar FAISS, algunos de los parámetros básicos incluyen el número de clusters, el algoritmo de cuantización, y la métrica de distancia (como L2 o cosine). Estos parámetros afectan la eficiencia y precisión de la búsqueda de los vecinos más cercanos.

FAISS no es una base de datos vectorial completa en el sentido tradicional (como podría ser Pinecone, Weaviate o Qdrant), sino una librería de búsqueda de vectores desarrollada por Facebook AI Research que permite realizar búsquedas rápidas de similitud (nearest neighbor search) en grandes colecciones de vectores.

En resumen:
- FAISS permite almacenar vectores y realizar búsquedas eficientes sobre ellos.
- FAISS no ofrece características típicas de una base de datos como persistencia nativa, control de versiones, autenticación, replicación, consultas complejas, etc.

FAISS se utiliza dentro de una aplicación que gestiona la persistencia. Es altamente optimizable y escalable, especialmente en GPU. Muy útil para prototipos o aplicaciones locales donde no se necesita una infraestructura completa de base de datos.

## Carga en base de datos vectorial (FAISS)

Create LangChain documents from document chunks and their metadata, and ingest those documents into the FAISS vectorstore.

Set up the retriever.

### Modelo e5-large

El modelo `e5-base` es una variante de los modelos de lenguaje preentrenados de la familia Efficient Transformers. Este modelo ha sido optimizado para ofrecer un buen equilibrio entre rendimiento y eficiencia computacional, lo que lo hace adecuado para aplicaciones que requieren procesamiento del lenguaje en tiempo real o en dispositivos con recursos limitados.

### Generación de índice en FAISS

In [None]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_core.documents import Document
from sentence_transformers import SentenceTransformer

# Crear la lista de documentos con los metadatos de capítulos y títulos
documents = [
    Document(page_content=articulo["contenido"],
             metadata={
                        "titulo": articulo["titulo"],
                        "capitulo": articulo["capitulo"]
                      })
    for articulo in articulos_con_metadatos
]

embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

# Crear el índice FAISS con los embeddings y documentos
faiss_index = FAISS.from_documents(documents, embedding_model)

# Configurar el retriever de FAISS
retriever = faiss_index.as_retriever(search_type="similarity", search_kwargs={"k": 4})

  embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

## Creación del Índice

Crear un índice en FAISS implica preparar esta estructura de datos con un conjunto específico de vectores. Este proceso generalmente sigue los siguientes pasos:

1. **Selección del Tipo de Índice**: FAISS ofrece varios tipos de índices, cada uno optimizado para diferentes casos de uso y equilibrios entre precisión y velocidad. Por ejemplo, los índices `Flat` realizan una búsqueda exhaustiva y son muy precisos pero menos eficientes en grandes datasets. Los índices `IVF` (Inverted File) dividen el espacio vectorial en regiones más pequeñas, siendo más rápidos pero potencialmente menos precisos.

2. **Configuración del Índice**: Antes de agregar vectores al índice, es posible configurar parámetros específicos, como la cantidad de particiones en índices `IVF` o el uso de compresión de vectores para ahorrar memoria.

3. **Adición de Vectores al Índice**: Una vez configurado, los vectores se añaden al índice. Esto puede ser un proceso computacionalmente intensivo, especialmente para grandes conjuntos de datos.

4. **Entrenamiento del Índice (si es necesario)**: Algunos tipos de índices requieren un paso de entrenamiento antes de que puedan ser utilizados para la búsqueda. Durante el entrenamiento, FAISS aprende la distribución de los datos para optimizar las futuras operaciones de búsqueda.

## Uso del Índice

Una vez creado y potencialmente entrenado, el índice puede ser utilizado para realizar búsquedas rápidas de los vecinos más cercanos. Esto es especialmente útil en sistemas de recomendación, búsqueda de imágenes y muchos otros campos donde la similitud semántica o visual es relevante.

La capacidad de FAISS para manejar eficientemente grandes volúmenes de vectores lo convierte en una herramienta indispensable para aplicaciones que requieren un acceso rápido y eficiente a los datos más similares en un conjunto grande.

## Retrieval sobre base de datos vectorial (FAISS)

### Prueba de retrieval

El concepto de 'retrieve' se refiere a la recuperación de información relevante desde una base de datos o repositorio. En el contexto de modelos como RAG, 'retrieve' implica la extracción de fragmentos de texto o documentos que son relevantes para una consulta, utilizando técnicas como la búsqueda de similitud vectorial.

In [None]:
# Función para probar el retriever
def probar_retriever(pregunta, retriever):
    resultados = retriever.get_relevant_documents(pregunta)
    for i, doc in enumerate(resultados):
        print(f"Resultado {i+1}:")
        print(f"Título: {doc.metadata['titulo']}")
        print(f"Capítulo: {doc.metadata['capitulo']}")
        print(f"Contenido: {doc.page_content}\n")

# Ejemplo de uso
pregunta = "Tengo una empresa de servicios financieros. Quiero saber cual es el monto del deposito minimo que debo mantener."
probar_retriever(pregunta, retriever)

Resultado 1:
Título: TÍTULO VI – GARANTÍAS Y DEPÓSITOS
Capítulo: CAPÍTULO VI - RELACIONES TÉCNICAS PARA EMPRESAS DE SERVICIOS
Contenido: FINANCIEROS). 
Las empresas de servicios financieros deberán constituir y mantener un depósito a la
vista en el Banco Central del Uruguay, denominado en unidades indexadas, por un
monto no inferior a UI 50.000 (cincuenta mil unidades indexadas), el que podrá debitarse
exclusivamente a efectos de atender obligaciones de la empresa de servicios financieros
con dicha  Institución.  Cada  vez  que  se  efectúe  un débito,  la  empresa  de  servicios
financieros  dispondrá  de  un  plazo  de  cinco  días  hábiles  contados  a  partir  de  la
notificación para reconstituir dicho depósito al nivel exigido.
El  depósito  constituido  será  liberado,  total  o  parcialmente,  cuando  haya  cesado
definitivamente la actividad de la respectiva empresa de servicios financieros, siempre
que se comprobare que ésta ha cumplido con sus obligaciones con el Banco Centr

In [None]:
# Función para probar el retriever
def probar_retriever(pregunta, retriever):
    resultados = retriever.get_relevant_documents(pregunta)
    for i, doc in enumerate(resultados):
        print(f"Resultado {i+1}:")
        print(f"Título: {doc.metadata['titulo']}")
        print(f"Capítulo: {doc.metadata['capitulo']}")
        print(f"Contenido: {doc.page_content}\n")

# Ejemplo de uso
pregunta = "¿En que plazo las casas financieras deben presentar los informes de auditor independientes de prevencion de lavado?"
probar_retriever(pregunta, retriever)

Resultado 1:
Título: TÍTULO I TER – AUDITORES EXTERNOS Y PROFESIONALES
Capítulo: CAPÍTULO II – SISTEMA DE GESTIÓN DE RIESGOS
Contenido: PROFESIONALES INDEPENDIENTES HABILITADOS A EMITIR INFORMES
EN  MATERIA  DE  PREVENCION  DEL  LAVADO  DE  ACTIVOS,  EL
FINANCIAMIENTO  DEL  TERRORISMO  Y  EL  FINANCIAMIENTO  DE  LA
PROLIFERACIÓN DE ARMAS DE DESTRUCCIÓN MASIVA – EMPRESAS DE
SERVICIOS FINANCIEROS).
Las empresas de servicios financieros deberán contratar un auditor externo o firma de
auditores  externos  y  un  profesional  independiente  o  firma  de  profesionales
independientes habilitados a emitir informes en materia de prevención del lavado de
activos, el financiamiento del terrorismo y el financiamiento de la proliferación de armas
de destrucción masiva, que deberán estar inscriptos en los Registros a que refieren los

artículos 143.1 y 143.9 de la Recopilación de Normas del Mercado de Valores, según
corresponda, para la realización de los informes requeridos por la normativa.

Resu

# Carga de LLM (Llama3.2)

### Llama-3.2

Llama-3.2 es un LLM desarrollado por Meta, diseñado para realizar tareas de procesamiento de lenguaje natural de manera más eficiente. Ofrece mejoras significativas en términos de rendimiento y escalabilidad en comparación con modelos anteriores.

### Configuración token de HuggingFace (HF)

Este es un modelo restringido, lo que significa que primero necesitas ir a la página del modelo, iniciar sesión, revisar los términos y condiciones, y solicitar acceso a él. Para utilizar el modelo en la notebook, necesitas iniciar sesión con tu token de Hugging Face (obténlo en la configuración de tu perfil).

In [None]:
from huggingface_hub.hf_api import HfFolder

HfFolder.save_token('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')

Para obtener el token seguir los siguientes pasos
1) Ingresar a https://huggingface.co/

2) Iniciar sesión o bien crearse una cuenta

3) Ingresar a https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

4) Solicitar acceso para uso del modelo. Una vez autorizado continuar con el siguiente paso

5) Ir a la esquina superior derecha, tocar en el círculo de nuestro usuario/perfil, y luego hacer click en access tokens

6) Generar un token (Create new token) de tipo lectura (read). Una vez creado copiarlo y pegarlo en este notebook.

### Carga y prueba Llama-3.2

In [None]:
from google.colab import output

# Establece el secreto 'HF_TOKEN'
output.clear()
print("Introduce tu token de Hugging Face:")
hf_token = input()
%env HF_TOKEN=$hf_token

Introduce tu token de Hugging Face:
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
env: HF_TOKEN=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


In [None]:
import os
from huggingface_hub import login

# Obtén el token desde las keys de Colab
hf_token = os.getenv("HF_TOKEN")

# Autentica con Hugging Face Hub
if hf_token:
    login(hf_token)
    print("Autenticado exitosamente con Hugging Face!")
else:
    raise ValueError("El token de Hugging Face no está configurado correctamente.")

Note: Environment variable`HF_TOKEN` is set and is the current active token independently from the token you've just configured.


Autenticado exitosamente con Hugging Face!


En esta celda se utiliza la función pipeline de la librería transformers para crear un generador de texto basado en el modelo LLaMA 3. A continuación se explican brevemente los parámetros utilizados:

**model:** identificador del modelo a utilizar desde Hugging Face.

**torch_dtype=torch.bfloat16:** optimiza el uso de memoria al emplear formato bfloat16.

**device_map="auto":** distribuye automáticamente el modelo en los dispositivos disponibles (CPU/GPU).

**temperature=0.1:** controla la aleatoriedad; cuanto menor, más determinista.

**do_sample=True:** permite el muestreo (en vez de solo tomar el token más probable).

**repetition_penalty=1.1:** penaliza repeticiones para generar texto más diverso.

**return_full_text=False:** devuelve solo el texto generado, no la entrada original.

**max_new_tokens=500:** limita la cantidad de tokens nuevos generados.

In [None]:
import torch
from transformers import pipeline

model_id = "meta-llama/Llama-3.2-3B-Instruct"
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    temperature=0.1,  # Controlar la aleatoriedad en la generación
    do_sample=True,  # Permitir muestreo para la generación
    repetition_penalty=1.1,  # Penalizar repeticiones para más diversidad
    return_full_text=False,  # Retornar solo el texto nuevo generado
    max_new_tokens=500,  # Limitar a 500 tokens la generación
)

config.json:   0%|          | 0.00/878 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/20.9k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.46G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/54.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

Device set to use cuda:0


In [None]:
messages = [
    {"role": "system", "content": "Eres un economista experto en Uruguay especializado en finanzas"},
    {"role": "user", "content": "Estoy en el area de prevencion de lavado de activos en una casa de cambio. ¿A partir de que monto debo identificar a los clientes?"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"])

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Excelente pregunta, en Uruguay se han establecido normas y regulaciones para la prevención del lavado de activos en las casas de cambio. Según la Ley Núm. 16.744 sobre Prevención de Lavado de Activos y Financiamiento del Terrorismo, y su Reglamento Aprobado por el Consejo Nacional de Política Fiscal (CNPF), se deben aplicar las siguientes disposiciones:

**Identificación de clientes**

Se debe identificar a los clientes cuando se realice una transacción superior a $50.000 UYU (unidades uruguayas) o cuando se realice una transacción con un cliente que no sea residente en Uruguay.

**Tipos de transacciones que requieren identificación**

Las siguientes transacciones requieren identificación de los clientes:

1. Transacciones de compra y venta de bienes y servicios.
2. Transacciones de depósitos y retiros de fondos.
3. Transacciones de transferencia de fondos entre cuentas bancarias.
4. Transacciones de pago de facturas y deudas.

**Documentación requerida**

Para identificar a los client

# LLM con Retrival Augmented Generation (RAG) y LangChain

### RAG

RAG, o Generación Aumentada por Recuperación, es un enfoque que combina técnicas de recuperación de información con generación de texto basada en modelos de lenguaje. Utiliza un paso de 'retrieval' para recuperar información relevante antes de generar texto, lo que permite que el modelo produzca respuestas más informadas y contextuales.


### LangChain

**LangChain** es una biblioteca que facilita la construcción de aplicaciones de lenguaje asistidas por inteligencia artificial. Proporciona herramientas para integrar fácilmente capacidades de lenguaje como la comprensión y generación de texto en aplicaciones, permitiendo crear sistemas de lenguaje más robustos y versátiles.


### Configuración de LLM con RAG (Retrieval Augmented Generation)

Configura Llama 3 y RAG de forma simple.
Asegúrate de seguir el formato de prompt para obtener los mejores resultados:

```
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{{ system_prompt }}<|eot_id|><|start_header_id|>user<|end_header_id|>

{{ user_msg_1 }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{{ model_answer_1 }}<|eot_id|>
```

La `rag_chain` en este script de LangChain es una secuencia de operaciones configurada para ejecutar una serie de pasos que integran la recuperación de información y la generación de respuestas basadas en un modelo de lenguaje. Aquí se detallan cada uno de los componentes y su función en la cadena:

1. **Contexto y Pregunta**:
   - `{context: retriever | format_docs, "question": RunnablePassthrough()}`
   - Esta parte de la cadena define cómo se manejarán el contexto y la pregunta para la generación de texto.
   - `retriever`: Es el componente encargado de buscar y recuperar documentos relevantes basados en la pregunta formulada. El retriever accede a un conjunto de documentos para encontrar aquellos que son más relevantes para la pregunta proporcionada.
   - `format_docs`: Esta función toma los documentos recuperados por el `retriever` y los formatea adecuadamente para ser usados en el prompt. En este caso, la función concatena el contenido de los documentos, separándolos con dos saltos de línea.
   - `RunnablePassthrough()`: Este es un componente que simplemente pasa la pregunta directamente al siguiente paso sin modificarla. Es útil para mantener la pregunta original intacta a lo largo de la cadena de procesamiento.

2. **Prompt**:
   - `| prompt`
   - Aquí se usa el `prompt`, que es una instancia de `PromptTemplate`. Este prompt está diseñado para formular la entrada al modelo de lenguaje de una manera específica, basada en la plantilla definida anteriormente en el script. La plantilla incluye instrucciones específicas para el asistente de IA, asegurando que las respuestas generadas se adhieran a un formato deseado y sean relevantes para el contexto legal proporcionado.

3. **Modelo de Lenguaje**:
   - `| llm`
   - Este es el modelo de lenguaje, encapsulado en la clase `HuggingFacePipeline`. Utiliza el pipeline de generación de texto configurado previamente para generar una respuesta basada en el prompt formateado. El modelo considera tanto la pregunta como el contexto proporcionado para generar una respuesta informativa y coherente.

4. **Parser de Salida**:
   - `| StrOutputParser()`
   - Finalmente, la salida del modelo de lenguaje es procesada por `StrOutputParser()`, que convierte cualquier salida del modelo en una cadena de texto simple. Esto es útil para normalizar la salida, especialmente si el modelo podría generar respuestas en formatos que no son directamente utilizables.

En resumen, `rag_chain` es una cadena de procesamiento que integra la recuperación de documentos, el formateo de estos documentos, la generación de respuestas basadas en un prompt estructurado, y la normalización de la salida del modelo. Esta cadena está diseñada para facilitar la interacción fluida y coherente en aplicaciones que requieren respuestas basadas en información documental extensa, como podría ser el caso en aplicaciones legales o de consulta de información.


In [None]:
# Importar clases necesarias de LangChain y transformers
from langchain.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from transformers import pipeline
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# Crear una instancia de HuggingFacePipeline con el pipeline configurado
llm = HuggingFacePipeline(pipeline=pipe)

  llm = HuggingFacePipeline(pipeline=pipe)


In [None]:
# Definir una plantilla de prompt para la generación de texto
prompt_template = """
<|start_header_id|>user<|end_header_id|>
Eres un asistente respondiendo cuestiones referidas a las normas de regulacion y control del sistema financiero.
Se te proveen artículos extraídos de la circular numero 2473 de abril de 2025 que recopila dichas normas para responder una pregunta.
Debes proveer una respuesta conversacional y en español.
La respuesta debe especificar los números de artículos en que se basa.
Si no sabes la respuesta porque no se encuentra en los artículos del contexto dado responde con "No lo sé"
No inventes la respuesta. No generes información que no se encuentre en el contexto dado.
Siempre terminar el mensaje recomendando consultar con un experto en el tema.
Question: {question}
Context: {context}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""

# Crear una instancia de PromptTemplate con variables de entrada y la plantilla definida
prompt = PromptTemplate(
    input_variables=["context", "question"],  # Variables de entrada para el prompt
    template=prompt_template,  # Plantilla de prompt
)

In [None]:
# Función para formatear documentos para su uso en el prompt
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)  # Concatenar contenido de documentos

In [None]:
# Configurar la cadena RAG con la estructura de recuperación y generación
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}  # Configuración de contexto y pregunta
    | prompt  # Aplicar el prompt
    | llm  # Usar el modelo de lenguaje
    | StrOutputParser()  # Parsear la salida a string
)

Definimos una función para poder ver mejor las respuesta del modelo

In [None]:
# Función para imprimir respuestas
import textwrap

def print_wrap(texto, width=120):
    wrapped_text = textwrap.fill(texto, width=width)
    print(wrapped_text)
    print()

### Ejemplo de uso del LLM con RAG

In [None]:
question = "Estoy en el area de prevencion de lavado de activos en una casa de cambio. ¿A partir de que monto debo identificar a los clientes?"
response = rag_chain.invoke(question)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Imprimimos pregunta y respuesta

In [None]:
print_wrap(f"Pregunta: {question}")
print_wrap(f"Respuesta: {response}")

Pregunta: Estoy en el area de prevencion de lavado de activos en una casa de cambio. ¿A partir de que monto debo
identificar a los clientes?

Respuesta: Para responder a tu pregunta, según la Circular 2473 de abril de 2025, en el ámbito de la prevención del
lavado de activos en una casa de cambio, es importante destacar que existen diferentes reglas y excepciones dependiendo
del monto de la transacción.  Según el artículo 294 y 295 de la mencionada circular, las operaciones realizadas con
clientes ocasionales cuyo importe individual no supere la suma de $3.000 (dólares estadounidenses tres mil) o su
equivalente en otras monedas, excepto en el caso de las transferencias de fondos, quedarán eximidas de la obligación de
identificación.  Sin embargo, esto no significa que no se deba identificar a los clientes en caso de que se sospeche que
una transacción pueda estar vinculada con el lavado de activos, el financiamiento del terrorismo y el financiamiento de
la proliferación de armas de des

In [None]:
question2 = "¿En que fecha se presenta el informe de auditor externo en prevencion de lavado de activos para las casas financieras?"
response2 = rag_chain.invoke(question2)

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [None]:
print_wrap(f"Pregunta: {question2}")
print_wrap(f"Respuesta: {response2}")

Pregunta: ¿En que fecha se presenta el informe de auditor externo en prevencion de lavado de activos para las casas
financieras?

Respuesta: Para responder a tu pregunta, podemos encontrar la información en el artículo 521 de la Circular 2473,
específicamente en su apartado e).  Según este artículo, las instituciones financieras externas deberán presentar los
informes de auditores externos relacionados con la prevención del lavado de activos, el financiamiento del terrorismo y
el financiamiento de la proliferación de armas de destrucción masiva, dentro de los siguientes plazos:  - Apartado e):
El informe sobre los resultados de la clasificación de riesgos crediticios, previsto en el literal d), estará referido
al 31 de diciembre de cada año.  Además, también encontramos esta información en el artículo 526, donde se establecen
los plazos específicos para la presentación de estos informes.  Por lo tanto, la fecha en que se presenta el informe de
auditor externo en prevención de lavado de

In [None]:
question3 = "¿Cuánto tiempo se demora en ir de Montevideo a Punta del Este?"
response3 = rag_chain.invoke(question3)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [None]:
print_wrap(f"Pregunta: {question3}")
print_wrap(f"Respuesta: {response3}")

Pregunta: ¿Cuánto tiempo se demora en ir de Montevideo a Punta del Este?

Respuesta: Lo siento, pero parece que hay un error en tu pregunta. La pregunta sobre el tiempo que se demora en ir de
Montevideo a Punta del Este no está relacionada con las normas de regulación y control del sistema financiero.  Sin
embargo, puedo decirte que si estás buscando información sobre cómo realizar un giro o transferencia de fondos desde
Montevideo a Punta del Este, es posible que debas cumplir con las normas establecidas en el artículo 327 y el artículo
673 de la circular número 2473.  Pero si estás buscando información sobre el tiempo que se demora en viajar entre estas
dos ciudades, te recomiendo consultar con un experto en transporte o turismo, ya que esto dependerá de varios factores
como el medio de transporte, la hora del día, la temporada y otros factores.  Si tienes alguna otra pregunta relacionada
con las normas de regulación y control del sistema financiero, estaré encantado de ayudarte.

