<a href="https://colab.research.google.com/github/chizhikchi/gdg_menorca_RAG_tutorial/blob/main/rag_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ü§ì Tutorial: RAG (Retrieval-Augmented Generation) con Vertex AI:
Este tutorial muestra c√≥mo crear un sistema RAG usando Vertex AI de Google Cloud.


[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1A5fYgEe6c3m0brN0TtnMCNouC7q-Csgz?usp=sharing)

In [None]:
# importamos las dependencias necesarias
import os
from pathlib import Path
from google import genai
from google.genai import types
import vertexai
from vertexai import rag
from google.colab import userdata

## üîê Configuramos los secretos
Guardaremos todas las credenciasles en Google Colab Secrets.
Ve a la secci√≥n de secretos (üîë) en el lateral izquierdo para configurarlos

In [None]:
# Authenticate your notebook environment (colab only)
import sys

if "google.colab" in sys.modules:
    from google.colab import auth

    auth.authenticate_user()

In [None]:
PROJECT_ID = userdata.get('PROJECT_ID')        # ID de tu proyecto de Google Cloud
LOCATION = "us-central1"                       # Regi√≥n donde crear el corpus
CORPUS_NAME = "Hotel_RAG_Corpus0"                  # Nombre para identificar el corpus
GEMINI_API_KEY = userdata.get('GEMINI_KEY') # Tu clave API de Gemini

# Inicializamos Vertex AI
vertexai.init(project=PROJECT_ID, location=LOCATION)

# Inicializar cliente de Gemini
client = genai.Client(api_key=GEMINI_API_KEY)

print("‚úÖ Configuraci√≥n completada")

‚úÖ Configuraci√≥n completada


## üóû Crear el corpus RAG
Subimos nuestros documentos.

In [None]:
def crear_corpus():
    """Crea un nuevo corpus RAG en Vertex AI"""
    try:
        # Configuraci√≥n del modelo de embeddings
        embedding_config = rag.RagEmbeddingModelConfig(
            vertex_prediction_endpoint=rag.VertexPredictionEndpoint(
                publisher_model="publishers/google/models/text-embedding-005"
            )
        )

        # Crear el corpus
        corpus = rag.create_corpus(
            display_name=CORPUS_NAME,
            backend_config=rag.RagVectorDbConfig(
                rag_embedding_model_config=embedding_config
            ),
        )

        print(f"‚úÖ Corpus creado: {corpus.name}")
        return corpus

    except Exception as e:
        print(f"‚ùå Error al crear corpus: {e}")
        return None

# Crear el corpus
corpus = crear_corpus()

‚úÖ Corpus creado: projects/103632863401/locations/us-central1/ragCorpora/1901081992703770624


# Preparamos los archivos para su subida

In [None]:
from google.colab import drive

# Montar Google Drive
drive.mount('/content/drive')

# Ruta a la carpeta de documentos generados en Drive
docs_dir = Path('/content/drive/MyDrive/Charlas/Taller-Menorca/documentos_generados')

# Verificar que la carpeta existe
if not docs_dir.exists():
    print(f"‚ùå No se encontr√≥ la carpeta: {docs_dir}")
    print("Por favor, aseg√∫rate de que existe la carpeta 'documentos generados' en tu Google Drive")
else:
    # Listar archivos .txt disponibles
    archivos_txt = list(docs_dir.glob("*.txt"))
    print(f"üìÅ Carpeta encontrada: {docs_dir}")
    print(f"üìÑ Archivos .txt encontrados: {len(archivos_txt)}")

    for archivo in archivos_txt:
        print(f"  ‚Ä¢ {archivo.name}")

    if len(archivos_txt) == 0:
        print("‚ö†Ô∏è  No se encontraron archivos .txt en la carpeta")
        print("Aseg√∫rate de que hay documentos .txt en 'documentos generados'")
    else:
        print("‚úÖ Documentos listos para subir al corpus")

Mounted at /content/drive
üìÅ Carpeta encontrada: /content/drive/MyDrive/Charlas/Taller-Menorca/documentos_generados
üìÑ Archivos .txt encontrados: 1
  ‚Ä¢ Hotel Overview.txt
‚úÖ Documentos listos para subir al corpus


# Subimos los documentos a VertexAI

In [None]:
def subir_documentos(corpus, directorio_docs):
    """Sube todos los archivos .txt de un directorio al corpus"""
    if not corpus:
        print("‚ùå No hay corpus disponible")
        return False

    archivos_txt = list(Path(directorio_docs).glob("*.txt"))
    if not archivos_txt:
        print("‚ùå No se encontraron archivos .txt")
        return False

    print(f"üì§ Subiendo {len(archivos_txt)} documentos...")

    exitosos = 0
    for archivo in archivos_txt:
        try:
            rag.upload_file(
                corpus_name=corpus.name,
                path=str(archivo),
                display_name=archivo.name,
                description=f"Documento: {archivo.stem}"
            )
            print(f"  ‚úÖ {archivo.name}")
            exitosos += 1

        except Exception as e:
            print(f"  ‚ùå Error en {archivo.name}: {e}")

    print(f"‚úÖ Subida completada: {exitosos}/{len(archivos_txt)} archivos")
    return exitosos == len(archivos_txt)

# Subir los documentos
subida_exitosa = subir_documentos(corpus, docs_dir)

üì§ Subiendo 1 documentos...
  ‚úÖ Hotel Overview.txt
‚úÖ Subida completada: 1/1 archivos


## üå• Verificar el estado del corpus
Comprobamos que los documentos se han subido correctamente

In [None]:
def verificar_corpus(corpus):
    """Muestra informaci√≥n sobre el corpus y sus documentos"""
    if not corpus:
        print("‚ùå No hay corpus para verificar")
        return

    try:
        print(f"üìö Corpus: {corpus.display_name}")
        print(f"üÜî ID: {corpus.name}")

        # Listar archivos en el corpus
        archivos = list(rag.list_files(corpus_name=corpus.name))
        print(f"üìÑ Documentos en el corpus: {len(archivos)}")

        for archivo in archivos:
            print(f"  ‚Ä¢ {archivo.display_name}")

    except Exception as e:
        print(f"‚ùå Error al verificar corpus: {e}")

# Verificar el corpus
verificar_corpus(corpus)

üìö Corpus: Hotel_RAG_Corpus0
üÜî ID: projects/103632863401/locations/us-central1/ragCorpora/1901081992703770624
üìÑ Documentos en el corpus: 1
  ‚Ä¢ Hotel Overview.txt


# üó£ Configurar el chat con RAG
Preparamos la funci√≥n para hacer preguntas usando el corpus como fuente

In [None]:
from vertexai.generative_models import GenerativeModel, Tool
import vertexai.preview.generative_models as generative_models

def chat_con_rag(pregunta, corpus, modelo="gemini-2.5-flash-lite"):
    """Realiza una consulta usando RAG con el corpus creado"""
    if not corpus:
        return "‚ùå No hay corpus disponible"

    try:
        # Configurar la herramienta RAG
        rag_retrieval_tool = Tool.from_retrieval(
            retrieval=rag.Retrieval(
                source=rag.VertexRagStore(
                    rag_resources=[
                        rag.RagResource(
                            rag_corpus=corpus.name,
                        )
                    ],
                ),
            )
        )

        # Inicializar el modelo con la herramienta RAG
        model = GenerativeModel(
            model_name=modelo,
            tools=[rag_retrieval_tool],
        )

        # Configuraci√≥n de generaci√≥n
        generation_config = generative_models.GenerationConfig(
            temperature=0.7,
            top_p=0.9,
            max_output_tokens=1000,
        )

        # Realizar la consulta
        chat = model.start_chat()
        response = chat.send_message(
            pregunta,
            generation_config=generation_config,
        )

        return response.text

    except Exception as e:
        return f"‚ùå Error en la consulta: {e}"

In [None]:
chat_con_rag("¬øQu√© servicios ofrece el hotel?", corpus)

'El GDG Menorca Resort ofrece habitaciones y suites elegantes, √°reas de juego seguras, piscinas para ni√±os, programa de actividades supervisadas, restaurantes con ambientes rom√°nticos, servicios de spa, salas de reuniones equipadas con tecnolog√≠a de vanguardia y conectividad de alta velocidad.'

# üñ• Interfaz Gradio para el chat

In [None]:
import gradio as gr

def responder_pregunta(pregunta, historial):
    """Funci√≥n que maneja las preguntas del usuario en la interfaz Gradio"""
    if not corpus:
        return historial + [["Sistema no disponible", "‚ùå El corpus RAG no est√° disponible"]]

    if not pregunta.strip():
        return historial + [["", "Por favor, escribe una pregunta"]]

    # Obtener respuesta del sistema RAG
    respuesta = chat_con_rag(pregunta, corpus)

    # A√±adir la conversaci√≥n al historial
    historial = historial + [[pregunta, respuesta]]

    return historial, ""

# Crear la interfaz Gradio
with gr.Blocks(title="üè® Chat RAG - Hotel Assistant") as demo:
    gr.Markdown("# üè® Asistente Virtual del Hotel")
    gr.Markdown("Haz preguntas sobre nuestro hotel y servicios. El sistema usar√° RAG para darte respuestas precisas.")

    # Mostrar estado del corpus
    if corpus:
        gr.Markdown(f"‚úÖ **Sistema RAG activo** - Corpus: {CORPUS_NAME}")
    else:
        gr.Markdown("‚ùå **Sistema RAG no disponible** - Verifica la configuraci√≥n del corpus")

    chatbot = gr.Chatbot(
        height=400,
        label="Conversaci√≥n",
        value=[],
        avatar_images=["https://images-wixmp-ed30a86b8c4ca887773594c2.wixmp.com/f/45c7dd7e-6cef-4101-93b9-df6da53c9ac7/dc8bfoe-9f7c1793-aedd-4753-8b8b-d0a3ec4f41bd.png/v1/fill/w_1024,h_920/emoji_frog_from_facebook__emoji_de_facebook__by_thebether_dc8bfoe-fullview.png?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJ1cm46YXBwOjdlMGQxODg5ODIyNjQzNzNhNWYwZDQxNWVhMGQyNmUwIiwiaXNzIjoidXJuOmFwcDo3ZTBkMTg4OTgyMjY0MzczYTVmMGQ0MTVlYTBkMjZlMCIsIm9iaiI6W1t7ImhlaWdodCI6Ijw9OTIwIiwicGF0aCI6IlwvZlwvNDVjN2RkN2UtNmNlZi00MTAxLTkzYjktZGY2ZGE1M2M5YWM3XC9kYzhiZm9lLTlmN2MxNzkzLWFlZGQtNDc1My04YjhiLWQwYTNlYzRmNDFiZC5wbmciLCJ3aWR0aCI6Ijw9MTAyNCJ9XV0sImF1ZCI6WyJ1cm46c2VydmljZTppbWFnZS5vcGVyYXRpb25zIl19.ceNqrz85wnxMxzu5aLOSp5wNWI0hq1oEWd05Iw2FR5A", "https://res.cloudinary.com/startup-grind/image/upload/c_fill,w_500,h_500,g_center/c_fill,dpr_2.0,f_auto,g_center,q_auto:good/v1/gcs/platform-data-goog/events/BWAI25-EventThumb-01_HvLFtd8.png"]
    )

    with gr.Row():
        pregunta_input = gr.Textbox(
            placeholder="Escribe tu pregunta sobre el hotel...",
            label="Tu pregunta",
            scale=4
        )
        enviar_btn = gr.Button("Enviar", variant="primary", scale=1)

    # Ejemplos de preguntas
    gr.Examples(
        examples=[
            "¬øQu√© servicios ofrece el hotel?",
            "¬øCu√°les son los tipos de habitaciones disponibles?",
            "¬øCu√°l es la pol√≠tica de cancelaci√≥n?",
            "¬øSe admiten mascotas?",
            "¬øHay actividades para ni√±os?",
            "¬øCu√°les son los horarios de check-in y check-out?"
        ],
        inputs=pregunta_input,
        label="Preguntas de ejemplo"
    )

    # Bot√≥n para limpiar la conversaci√≥n
    limpiar_btn = gr.Button("üóëÔ∏è Limpiar conversaci√≥n", variant="secondary")

    # Eventos
    enviar_btn.click(
        responder_pregunta,
        inputs=[pregunta_input, chatbot],
        outputs=[chatbot, pregunta_input]
    )

    pregunta_input.submit(
        responder_pregunta,
        inputs=[pregunta_input, chatbot],
        outputs=[chatbot, pregunta_input]
    )

    limpiar_btn.click(
        lambda: ([], ""),
        outputs=[chatbot, pregunta_input]
    )

# Lanzar la interfaz
print("üöÄ Iniciando interfaz Gradio...")
demo.launch(share=False, debug=True)

  chatbot = gr.Chatbot(


üöÄ Iniciando interfaz Gradio...
Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>



Keyboard interruption in main thread... closing server.




In [1]:
!pip freeze > requirements.txt