<a href="https://colab.research.google.com/github/chizhikchi/gdg_menorca_RAG_tutorial/blob/main/rag_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🤓 Tutorial: RAG (Retrieval-Augmented Generation) con Vertex AI:
Este tutorial muestra cómo crear un sistema RAG usando Vertex AI de Google Cloud.


[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1A5fYgEe6c3m0brN0TtnMCNouC7q-Csgz?usp=sharing)

In [None]:
# importamos las dependencias necesarias
import os
from pathlib import Path
from google import genai
from google.genai import types
import vertexai
from vertexai import rag
from google.colab import userdata

## 🔐 Configuramos los secretos
Guardaremos todas las credenciasles en Google Colab Secrets.
Ve a la sección de secretos (🔑) en el lateral izquierdo para configurarlos

In [None]:
# Authenticate your notebook environment (colab only)
import sys

if "google.colab" in sys.modules:
    from google.colab import auth

    auth.authenticate_user()

In [None]:
PROJECT_ID = userdata.get('PROJECT_ID')        # ID de tu proyecto de Google Cloud
LOCATION = "us-central1"                       # Región donde crear el corpus
CORPUS_NAME = "Hotel_RAG_Corpus0"                  # Nombre para identificar el corpus
GEMINI_API_KEY = userdata.get('GEMINI_KEY') # Tu clave API de Gemini

# Inicializamos Vertex AI
vertexai.init(project=PROJECT_ID, location=LOCATION)

# Inicializar cliente de Gemini
client = genai.Client(api_key=GEMINI_API_KEY)

print("✅ Configuración completada")

✅ Configuración completada


## 🗞 Crear el corpus RAG
Subimos nuestros documentos.

In [None]:
def crear_corpus():
    """Crea un nuevo corpus RAG en Vertex AI"""
    try:
        # Configuración del modelo de embeddings
        embedding_config = rag.RagEmbeddingModelConfig(
            vertex_prediction_endpoint=rag.VertexPredictionEndpoint(
                publisher_model="publishers/google/models/text-embedding-005"
            )
        )

        # Crear el corpus
        corpus = rag.create_corpus(
            display_name=CORPUS_NAME,
            backend_config=rag.RagVectorDbConfig(
                rag_embedding_model_config=embedding_config
            ),
        )

        print(f"✅ Corpus creado: {corpus.name}")
        return corpus

    except Exception as e:
        print(f"❌ Error al crear corpus: {e}")
        return None

# Crear el corpus
corpus = crear_corpus()

✅ Corpus creado: projects/103632863401/locations/us-central1/ragCorpora/1901081992703770624


# Preparamos los archivos para su subida

In [None]:
from google.colab import drive

# Montar Google Drive
drive.mount('/content/drive')

# Ruta a la carpeta de documentos generados en Drive
docs_dir = Path('/content/drive/MyDrive/Charlas/Taller-Menorca/documentos_generados')

# Verificar que la carpeta existe
if not docs_dir.exists():
    print(f"❌ No se encontró la carpeta: {docs_dir}")
    print("Por favor, asegúrate de que existe la carpeta 'documentos generados' en tu Google Drive")
else:
    # Listar archivos .txt disponibles
    archivos_txt = list(docs_dir.glob("*.txt"))
    print(f"📁 Carpeta encontrada: {docs_dir}")
    print(f"📄 Archivos .txt encontrados: {len(archivos_txt)}")

    for archivo in archivos_txt:
        print(f"  • {archivo.name}")

    if len(archivos_txt) == 0:
        print("⚠️  No se encontraron archivos .txt en la carpeta")
        print("Asegúrate de que hay documentos .txt en 'documentos generados'")
    else:
        print("✅ Documentos listos para subir al corpus")

Mounted at /content/drive
📁 Carpeta encontrada: /content/drive/MyDrive/Charlas/Taller-Menorca/documentos_generados
📄 Archivos .txt encontrados: 1
  • Hotel Overview.txt
✅ Documentos listos para subir al corpus


# Subimos los documentos a VertexAI

In [None]:
def subir_documentos(corpus, directorio_docs):
    """Sube todos los archivos .txt de un directorio al corpus"""
    if not corpus:
        print("❌ No hay corpus disponible")
        return False

    archivos_txt = list(Path(directorio_docs).glob("*.txt"))
    if not archivos_txt:
        print("❌ No se encontraron archivos .txt")
        return False

    print(f"📤 Subiendo {len(archivos_txt)} documentos...")

    exitosos = 0
    for archivo in archivos_txt:
        try:
            rag.upload_file(
                corpus_name=corpus.name,
                path=str(archivo),
                display_name=archivo.name,
                description=f"Documento: {archivo.stem}"
            )
            print(f"  ✅ {archivo.name}")
            exitosos += 1

        except Exception as e:
            print(f"  ❌ Error en {archivo.name}: {e}")

    print(f"✅ Subida completada: {exitosos}/{len(archivos_txt)} archivos")
    return exitosos == len(archivos_txt)

# Subir los documentos
subida_exitosa = subir_documentos(corpus, docs_dir)

📤 Subiendo 1 documentos...
  ✅ Hotel Overview.txt
✅ Subida completada: 1/1 archivos


## 🌥 Verificar el estado del corpus
Comprobamos que los documentos se han subido correctamente

In [None]:
def verificar_corpus(corpus):
    """Muestra información sobre el corpus y sus documentos"""
    if not corpus:
        print("❌ No hay corpus para verificar")
        return

    try:
        print(f"📚 Corpus: {corpus.display_name}")
        print(f"🆔 ID: {corpus.name}")

        # Listar archivos en el corpus
        archivos = list(rag.list_files(corpus_name=corpus.name))
        print(f"📄 Documentos en el corpus: {len(archivos)}")

        for archivo in archivos:
            print(f"  • {archivo.display_name}")

    except Exception as e:
        print(f"❌ Error al verificar corpus: {e}")

# Verificar el corpus
verificar_corpus(corpus)

📚 Corpus: Hotel_RAG_Corpus0
🆔 ID: projects/103632863401/locations/us-central1/ragCorpora/1901081992703770624
📄 Documentos en el corpus: 1
  • Hotel Overview.txt


# 🗣 Configurar el chat con RAG
Preparamos la función para hacer preguntas usando el corpus como fuente

In [None]:
from vertexai.generative_models import GenerativeModel, Tool
import vertexai.preview.generative_models as generative_models

def chat_con_rag(pregunta, corpus, modelo="gemini-2.5-flash-lite"):
    """Realiza una consulta usando RAG con el corpus creado"""
    if not corpus:
        return "❌ No hay corpus disponible"

    try:
        # Configurar la herramienta RAG
        rag_retrieval_tool = Tool.from_retrieval(
            retrieval=rag.Retrieval(
                source=rag.VertexRagStore(
                    rag_resources=[
                        rag.RagResource(
                            rag_corpus=corpus.name,
                        )
                    ],
                ),
            )
        )

        # Inicializar el modelo con la herramienta RAG
        model = GenerativeModel(
            model_name=modelo,
            tools=[rag_retrieval_tool],
        )

        # Configuración de generación
        generation_config = generative_models.GenerationConfig(
            temperature=0.7,
            top_p=0.9,
            max_output_tokens=1000,
        )

        # Realizar la consulta
        chat = model.start_chat()
        response = chat.send_message(
            pregunta,
            generation_config=generation_config,
        )

        return response.text

    except Exception as e:
        return f"❌ Error en la consulta: {e}"

In [None]:
chat_con_rag("¿Qué servicios ofrece el hotel?", corpus)

'El GDG Menorca Resort ofrece habitaciones y suites elegantes, áreas de juego seguras, piscinas para niños, programa de actividades supervisadas, restaurantes con ambientes románticos, servicios de spa, salas de reuniones equipadas con tecnología de vanguardia y conectividad de alta velocidad.'

# 🖥 Interfaz Gradio para el chat

In [None]:
import gradio as gr

def responder_pregunta(pregunta, historial):
    """Función que maneja las preguntas del usuario en la interfaz Gradio"""
    if not corpus:
        return historial + [["Sistema no disponible", "❌ El corpus RAG no está disponible"]]

    if not pregunta.strip():
        return historial + [["", "Por favor, escribe una pregunta"]]

    # Obtener respuesta del sistema RAG
    respuesta = chat_con_rag(pregunta, corpus)

    # Añadir la conversación al historial
    historial = historial + [[pregunta, respuesta]]

    return historial, ""

# Crear la interfaz Gradio
with gr.Blocks(title="🏨 Chat RAG - Hotel Assistant") as demo:
    gr.Markdown("# 🏨 Asistente Virtual del Hotel")
    gr.Markdown("Haz preguntas sobre nuestro hotel y servicios. El sistema usará RAG para darte respuestas precisas.")

    # Mostrar estado del corpus
    if corpus:
        gr.Markdown(f"✅ **Sistema RAG activo** - Corpus: {CORPUS_NAME}")
    else:
        gr.Markdown("❌ **Sistema RAG no disponible** - Verifica la configuración del corpus")

    chatbot = gr.Chatbot(
        height=400,
        label="Conversación",
        value=[],
        avatar_images=["https://images-wixmp-ed30a86b8c4ca887773594c2.wixmp.com/f/45c7dd7e-6cef-4101-93b9-df6da53c9ac7/dc8bfoe-9f7c1793-aedd-4753-8b8b-d0a3ec4f41bd.png/v1/fill/w_1024,h_920/emoji_frog_from_facebook__emoji_de_facebook__by_thebether_dc8bfoe-fullview.png?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJ1cm46YXBwOjdlMGQxODg5ODIyNjQzNzNhNWYwZDQxNWVhMGQyNmUwIiwiaXNzIjoidXJuOmFwcDo3ZTBkMTg4OTgyMjY0MzczYTVmMGQ0MTVlYTBkMjZlMCIsIm9iaiI6W1t7ImhlaWdodCI6Ijw9OTIwIiwicGF0aCI6IlwvZlwvNDVjN2RkN2UtNmNlZi00MTAxLTkzYjktZGY2ZGE1M2M5YWM3XC9kYzhiZm9lLTlmN2MxNzkzLWFlZGQtNDc1My04YjhiLWQwYTNlYzRmNDFiZC5wbmciLCJ3aWR0aCI6Ijw9MTAyNCJ9XV0sImF1ZCI6WyJ1cm46c2VydmljZTppbWFnZS5vcGVyYXRpb25zIl19.ceNqrz85wnxMxzu5aLOSp5wNWI0hq1oEWd05Iw2FR5A", "https://res.cloudinary.com/startup-grind/image/upload/c_fill,w_500,h_500,g_center/c_fill,dpr_2.0,f_auto,g_center,q_auto:good/v1/gcs/platform-data-goog/events/BWAI25-EventThumb-01_HvLFtd8.png"]
    )

    with gr.Row():
        pregunta_input = gr.Textbox(
            placeholder="Escribe tu pregunta sobre el hotel...",
            label="Tu pregunta",
            scale=4
        )
        enviar_btn = gr.Button("Enviar", variant="primary", scale=1)

    # Ejemplos de preguntas
    gr.Examples(
        examples=[
            "¿Qué servicios ofrece el hotel?",
            "¿Cuáles son los tipos de habitaciones disponibles?",
            "¿Cuál es la política de cancelación?",
            "¿Se admiten mascotas?",
            "¿Hay actividades para niños?",
            "¿Cuáles son los horarios de check-in y check-out?"
        ],
        inputs=pregunta_input,
        label="Preguntas de ejemplo"
    )

    # Botón para limpiar la conversación
    limpiar_btn = gr.Button("🗑️ Limpiar conversación", variant="secondary")

    # Eventos
    enviar_btn.click(
        responder_pregunta,
        inputs=[pregunta_input, chatbot],
        outputs=[chatbot, pregunta_input]
    )

    pregunta_input.submit(
        responder_pregunta,
        inputs=[pregunta_input, chatbot],
        outputs=[chatbot, pregunta_input]
    )

    limpiar_btn.click(
        lambda: ([], ""),
        outputs=[chatbot, pregunta_input]
    )

# Lanzar la interfaz
print("🚀 Iniciando interfaz Gradio...")
demo.launch(share=False, debug=True)

  chatbot = gr.Chatbot(


🚀 Iniciando interfaz Gradio...
Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>



Keyboard interruption in main thread... closing server.




In [1]:
!pip freeze > requirements.txt