# Bloque 2 · Conectando RAG con la nube

En este bloque daremos el salto de la simulación local a un servicio en la nube. Presentaremos conceptos básicos de computación en la nube, APIs y servicios.

## De la simulación a la nube

- En el **Bloque 0** visualizamos la arquitectura completa y los objetivos del proyecto.
- En el **Bloque 1** exploramos la recuperación basada en similitud con una simulación local.

Ahora nos enfocamos en cómo un servicio administrado nos ayuda a escalar esa lógica, manteniendo el hilo conductor: recuperar fragmentos relevantes para enriquecer respuestas generadas.

## Conceptos clave: nube y APIs

- **Computación en la nube**: consumo de recursos (cómputo, almacenamiento, modelos) como servicios bajo demanda, sin gestionar infraestructura física.
- **API (Application Programming Interface)**: conjunto de reglas para que dos sistemas se comuniquen. Usualmente exponemos recursos vía URLs (endpoints) que aceptan solicitudes con parámetros y devuelven respuestas estructuradas (JSON).
- **Endpoint**: dirección específica de una API que realiza una acción.

## Proveedores de nube (Cloud Providers)

Los proveedores de nube son empresas que ofrecen servicios de computación, almacenamiento y aplicaciones a través de internet. En lugar de comprar y mantener servidores físicos, podés usar recursos de estos proveedores pagando solo por lo que consumís.

### Principales proveedores de nube

Los tres principales proveedores de nube pública son:

1. **Amazon Web Services (AWS)** - El más grande y con mayor variedad de servicios
2. **Microsoft Azure** - Popular en entornos empresariales y con integración Microsoft
3. **Google Cloud Platform (GCP)** - Fuerte en análisis de datos y machine learning

### ¿Por qué usar la nube?

- **Escalabilidad**: podés aumentar o reducir recursos según necesidad
- **Sin mantenimiento**: no necesitás gestionar hardware físico
- **Pago por uso**: solo pagás por lo que realmente consumís
- **Alta disponibilidad**: los proveedores garantizan uptime y redundancia
- **Seguridad**: inversión en seguridad que sería costosa de replicar
- **Innovación constante**: nuevos servicios y capacidades regularmente

## El concepto de servicios en la nube

En AWS (y otros proveedores de nube), un **servicio** es una funcionalidad específica que puedes usar sin preocuparte por la infraestructura subyacente. Cada servicio resuelve un problema particular o proporciona una capacidad específica.

### ¿Qué es un servicio?

Un servicio en la nube es como un "producto" que AWS ofrece y que podés consumir mediante una API. Por ejemplo:
- **Amazon S3** es un servicio de almacenamiento de objetos
- **Amazon EC2** es un servicio de servidores virtuales
- **Amazon Bedrock** es un servicio de modelos de IA

### Características de los servicios AWS

1. **Administrados**: AWS se encarga del mantenimiento, actualizaciones y escalado
2. **Accesibles vía API**: podés interactuar con ellos programáticamente
3. **Integrados**: los servicios están diseñados para trabajar juntos
4. **Documentados**: cada servicio tiene documentación completa y ejemplos
5. **Facturación separada**: pagás solo por lo que usas de cada servicio

### Categorías de servicios AWS

AWS organiza sus servicios en categorías principales:

- **Computación**: EC2 (servidores), Lambda (funciones sin servidor), ECS (contenedores)
- **Almacenamiento**: S3 (objetos), EBS (discos), Glacier (archivo)
- **Bases de datos**: RDS (relacionales), DynamoDB (NoSQL), ElastiCache (caché)
- **Redes**: VPC (redes privadas), CloudFront (CDN), Route 53 (DNS)
- **Seguridad**: IAM (identidad), KMS (encriptación), GuardDuty (detección de amenazas)
- **Machine Learning e IA**: Bedrock (modelos fundacionales), SageMaker (ML), Rekognition (visión)
- **Analytics**: Athena (consultas SQL), Redshift (data warehouse), Kinesis (streaming)
- **DevOps**: CodePipeline (CI/CD), CloudFormation (infraestructura como código)


## ¿Qué ofrece Amazon Bedrock?

Amazon Bedrock es un servicio administrado que permite acceder a modelos fundacionales (propios y de terceros) mediante una API unificada. Para nuestro flujo RAG, destacamos:
- **Modelos de embeddings** para convertir texto en vectores.
- **Modelos generativos** para elaborar respuestas.
- **Knowledge bases** que almacenan representaciones vectoriales y resuelven la recuperación de forma administrada.
- **Integración con otras herramientas AWS** (S3, IAM, CloudWatch) que facilitan la operación en producción.

### Knowledge Bases en Bedrock

Una *knowledge base* es un repositorio vectorial que Bedrock administra por nosotros. Sus componentes principales son:
- **Fuentes de datos**: conjuntos de documentos almacenados, por ejemplo, en Amazon S3. Podemos proveer manuales, políticas, FAQs, etc.
- **Pipelines de ingesta**: procesos que limpian, fragmentan y generan embeddings de cada documento.
- **Catálogo de metadatos**: guarda referencias al origen de cada fragmento (ruta de archivo, sección, versión) para poder citar las fuentes en las respuestas.

**Para el taller ya tenemos configurada la knowledge base con información disponible sobre lo que vimos en el bloque 1.**

## De embeddings simulados a modelos reales: ¿Qué cambia?

En el **Bloque 1** usamos vectores predefinidos y simples para entender el concepto de embeddings. Ahora, en este bloque, usamos **modelos reales basados en transformers** como los que ofrece Amazon Bedrock. ¿Cuál es la diferencia?

### Lo que hicimos en el Bloque 1

- Vectores **predefinidos y estáticos**: cada palabra tenía un vector fijo que creamos manualmente
- Relaciones semánticas **limitadas**: solo capturaban relaciones básicas que nosotros definimos
- Sin entrenamiento: los vectores no aprendían de datos reales
- Dimensión pequeña: usamos vectores de 5 dimensiones para simplificar

### Lo que usamos ahora con modelos transformers

- Vectores **generados dinámicamente**: el modelo crea el vector en tiempo real basándose en el contexto completo del texto
- Relaciones semánticas **ricas**: los modelos fueron entrenados con millones de textos y capturan relaciones complejas entre conceptos
- Entrenados con datos reales: aprendieron patrones del lenguaje humano de grandes corpus de texto
- Dimensiones más altas: típicamente 512, 768 o más dimensiones, lo que permite representaciones mucho más precisas

### Implicaciones prácticas

**Ventajas de usar modelos transformers:**
- **Mejor comprensión semántica**: entienden sinónimos, contexto y relaciones entre conceptos
- **Manejo de ambigüedad**: pueden distinguir entre diferentes significados de la misma palabra según el contexto
- **Multilingüe**: muchos modelos funcionan bien con múltiples idiomas
- **Escalable**: pueden procesar grandes volúmenes de texto sin que tengas que definir manualmente cada relación

**Lo que esto significa para nuestro RAG:**
- Las búsquedas son más precisas: encuentra contenido relevante incluso si usa palabras diferentes
- Mejor recuperación: entiende la intención detrás de la pregunta, no solo palabras clave
- Menos trabajo manual: no necesitas crear embeddings para cada palabra nueva

En Amazon Bedrock podemos elegir distintos modelos de embeddings (como Titan Text Embeddings v2); cada uno ofrece diferentes costos, dimensiones y optimizaciones según nuestras necesidades.

## Actividad práctica · Hacer una pregunta a la knowledge base

Invocaremos el endpoint `Retrieve` con boto3 para obtener fragmentos reales de una knowledge base ya configurada. La meta es comprender qué campos devuelve la API y cómo parsearlos en Python para alimentar la siguiente etapa del flujo RAG.

## ¿Qué es boto3 y cómo se autentica?

`boto3` es el SDK oficial de AWS para Python. Nos permite crear clientes para cada servicio y llamar a sus APIs con objetos Python. La autenticación suele resolverse de tres formas principales:
- Variables de entorno (`AWS_ACCESS_KEY_ID`, `AWS_SECRET_ACCESS_KEY`, `AWS_SESSION_TOKEN`, `AWS_REGION`).
- Archivos de credenciales en `~/.aws/credentials` administrados por AWS CLI o SSO.
- Roles asumidos automáticamente cuando ejecutamos el código en un servicio administrado de AWS (por ejemplo, Lambda o SageMaker).

En este bloque crearemos un cliente de `bedrock-agent-runtime` usando boto3 para invocar el endpoint `Retrieve` de una knowledge base existente.

## Endpoint `Retrieve`

- Recibe una **pregunta** o consulta en texto mediante la API `bedrock-agent-runtime`.
- Genera el embedding de la consulta con el modelo configurado en la knowledge base.
- Ejecuta una búsqueda vectorial (se puede controlar parámetros como `numberOfResults`).
- Devuelve un listado ordenado de fragmentos con puntuaciones, contenido y metadatos.

En Python accederemos a este endpoint usando `boto3.client("bedrock-agent-runtime").retrieve(...)`. La respuesta será un diccionario JSON que luego transformaremos en un formato amigable para mostrar al usuario o alimentar la fase generativa.

### ⚠️ Importante: Consultar la documentación oficial

**Siempre es fundamental consultar la documentación oficial de las APIs** para conocer:
- Los parámetros exactos que acepta cada método
- Los formatos de respuesta y estructura de datos
- Los posibles errores y excepciones que pueden ocurrir
- Las versiones más recientes y cambios en la API
- Ejemplos de uso actualizados

Para el endpoint `retrieve` de `bedrock-agent-runtime`, la documentación oficial de boto3 está disponible en:
**https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/bedrock-agent-runtime/client/retrieve.html**

Esta documentación contiene información detallada sobre todos los parámetros de entrada, la estructura completa de la respuesta, los tipos de datos esperados y las excepciones que pueden lanzarse. Es la fuente de verdad más confiable cuando trabajamos con APIs de AWS.

In [2]:
!pip install boto3

Collecting boto3
  Downloading boto3-1.41.5-py3-none-any.whl.metadata (6.8 kB)
Collecting botocore<1.42.0,>=1.41.5 (from boto3)
  Downloading botocore-1.41.5-py3-none-any.whl.metadata (5.9 kB)
Collecting jmespath<2.0.0,>=0.7.1 (from boto3)
  Downloading jmespath-1.0.1-py3-none-any.whl.metadata (7.6 kB)
Collecting s3transfer<0.16.0,>=0.15.0 (from boto3)
  Downloading s3transfer-0.15.0-py3-none-any.whl.metadata (1.7 kB)
Downloading boto3-1.41.5-py3-none-any.whl (139 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m139.3/139.3 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading botocore-1.41.5-py3-none-any.whl (14.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.3/14.3 MB[0m [31m66.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jmespath-1.0.1-py3-none-any.whl (20 kB)
Downloading s3transfer-0.15.0-py3-none-any.whl (85 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00

In [None]:
import os
from typing import Any, Dict, Optional

import boto3

AWS_REGION = "us-west-2"
KNOWLEDGE_BASE_ID = "7DUKWTRFX3"


def realizar_consulta(
    pregunta: str,
    top_k: int = 3
) -> Dict[str, Any]:
    """Invoca el endpoint Retrieve de Amazon Bedrock para una knowledge base dada."""

    # Completar con las credenciales
    session = boto3.Session(
    aws_access_key_id='ASIA...',
    aws_secret_access_key='',
    aws_session_token=''
    )

    cliente = session.client(
        "bedrock-agent-runtime",
        region_name=AWS_REGION
    )

    params = {
                "knowledgeBaseId": KNOWLEDGE_BASE_ID,
                "retrievalQuery": {
                    "text": pregunta
                },
                "retrievalConfiguration": {
                    "vectorSearchConfiguration": {
                        "numberOfResults": top_k
                        }
                    }
                }

    respuesta = cliente.retrieve(**params)
    return respuesta

In [16]:
import json

pregunta_demo = "¿Qué es Retrieval-Augmented Generation?"
respuesta_obtenida = realizar_consulta(pregunta_demo, top_k=3)
print(json.dumps(respuesta_obtenida, indent=2))

{
  "ResponseMetadata": {
    "RequestId": "ab33d6b4-e284-445a-8a58-a4e397b8d6dc",
    "HTTPStatusCode": 200,
    "HTTPHeaders": {
      "date": "Thu, 27 Nov 2025 19:25:35 GMT",
      "content-type": "application/json",
      "content-length": "4928",
      "connection": "keep-alive",
      "x-amzn-requestid": "ab33d6b4-e284-445a-8a58-a4e397b8d6dc"
    },
    "RetryAttempts": 0
  },
  "retrievalResults": [
    {
      "content": {
        "type": "TEXT",
        "text": "# Bloque 1 \u00b7 \u00bfQu\u00e9 es Retrieval-Augmented Generation (RAG)?\r Este bloque introduce los conceptos esenciales de un flujo RAG y c\u00f3mo cada componente contribuye a obtener respuestas mejor informadas a partir de fuentes propias. ## \u00bfPor qu\u00e9 RAG? Los modelos de lenguaje grandes (LLM) poseen conocimiento general, pero no siempre est\u00e1n actualizados ni conocen los detalles internos de una organizaci\u00f3n. Retrieval-Augmented Generation (RAG) permite enriquecer las respuestas de un modelo co

Observá que la respuesta incluye:
- **`retrievalResults`**: Una lista con los fragmentos más relevantes encontrados. Cada fragmento contiene:
  - **`content`**: El texto del fragmento recuperado
  - **`location`**: Dónde se encuentra el documento original (por ejemplo, la ruta en S3)
  - **`score`**: Un número entre 0 y 1 que indica qué tan relevante es el fragmento para tu pregunta (más cercano a 1 = más relevante)
  - **`metadata`**: Información adicional como el número de página del documento y el identificador del fragmento

## Actividad práctica · Parsear la respuesta de la API

Objetivo: implementar una función en Python para parsear y presentar de forma legible la respuesta JSON que obtuvimos recién.

In [None]:
import textwrap
from typing import Any, Dict, Optional

def mostrar_resultados(respuesta: Dict[str, Any], max_ancho: int = 96) -> None:
    """
    Formatea y muestra de manera legible los resultados de una consulta
    a una Knowledge Base de Amazon Bedrock.

    Args:
        respuesta (Dict[str, Any]): Diccionario de respuesta devuelto por el método `retrieve`
                                    de la API `bedrock-agent-runtime`.
        max_ancho (int): Ancho máximo en caracteres para envolver el texto de cada fragmento.
    """
    # 1. Accedé a la lista de resultados de recuperación.
    #    La clave 'retrievalResults' contiene la lista de fragmentos recuperados.

    # En Python, los JSON se representan usando diccionarios (dict).
    # Estos diccionarios pueden tener otros diccionarios o listas adentro.
    # Para acceder al valor de una clave, podés hacer diccionario['clave'].

    # Pero, para evitar errores si la clave no existe, existe el método .get('clave', valor_por_defecto).
    # Si la clave no se encuentra, .get() devuelve el valor_por_defecto que le indiques (por ejemplo, None o ''), en lugar de fallar.
    resultados = # COMPLETAR

    # 2. Iterá sobre cada 'resultado' en la lista de 'resultados'.
    #    Usá un bucle `for` y `enumerate` para obtener también el índice (idx).
    #    enumerate te permite iterar sobre una secuencia (como una lista o tupla) obteniendo
    #    tanto el índice como el valor de cada elemento al mismo tiempo.
    for # COMPLETAR:
        # 3. Dentro del bucle, para cada 'resultado' individual:
        #    a. Extrae el texto del fragmento de la clave 'content' -> 'text'.
        texto_fragmento = # COMPLETAR

        #    b. Extrae la puntuación de similitud de la clave 'score'.
        score = resultado.get('score', 0.0)

        #    c. Extrae la URI de la fuente. Puedes encontrarla en 'location' -> 's3Location' -> 'uri'
        #       o en 'metadata' -> 'x-amz-bedrock-kb-source-uri'. Prioriza la de 'metadata'.
        source_uri = resultado.get('metadata', {}).get('x-amz-bedrock-kb-source-uri', 'Desconocido')
        if source_uri == 'Desconocido':
            source_uri = # COMPLETAR

        # 4. Imprimí esta información de forma legible.
        #    Asegurate de incluir la similitud (en porcentaje), la fuente y el contenido.
        # COMPLETAR
        for linea in textwrap.wrap(texto_fragmento, width=max_ancho):
            # COMPLETAR
        print("-" * max_ancho)


### **¡Probemos tu función con una pregunta fuera de contexto!**

In [25]:
pregunta = "¿Cómo se prepara una focaccia?"

mostrar_resultados(realizar_consulta(pregunta, top_k=3))


--- Fragmento #1 ---
Similitud: 75.47%
Fuente: s3://dateneo-raw-us-west-2-034362074834/kb_taller_rag/recetas-cocina-italiana-web.pdf
Contenido:
  Una receta sencilla, muy fácil de preparar, incluso para aquellos que no controlen las masas,
  pero os aviso de que lleva su tiempo el prepararla, pues hay que respetar los tiempos de
  levedado y reposo de la masa.     Preparación de la focaccia italiana     350 g. de harina de
  trigo de fuerza W220, harina 000 o harina de trigo con 11,5 - 12,5 % de proteínas     200 ml. de
  agua tibia     2 cucharadas de aceite de oliva virgen extra     ½ cucharada de sal (unos 7
  gramos)     ½ cucharada de azúcar     5 g. de levadura seca de panadería (o 15 g. de levadura
  fresca prensada)     40 g. de aceitunas verdes deshuesadas     4 cucharadas de aceite de oliva
  virgen extra     1 cucharadita de romero fresco     Sal gruesa o en escamas     La base para
  nuestra focaccia va a ser preparar una masa sencilla. En un bol grande echamos la harina d

### Momento de jugar

- Cambiá `pregunta` y fijate cómo varían los fragmentos recuperados.
- Ajustá `top_k` en la llamada a `realizar_consulta` para traer más o menos contexto.

### Pensá
- ¿Qué le faltaría a las respuestas para poder utilizarlas en un chatbot?

## Próximos pasos

En el siguiente bloque utilizaremos la API de RAG (`retrieve_and_generate`) de Amazon Bedrock para combinar la recuperación con un modelo generativo y vamos a sumar un documento para habilitar nuevas preguntas y respuestas.