# **1. Demo Básica de Retrieval-Augmented Generation (BasicRAG) con Gemini:**

## ¿Cómo funciona?

En este ejemplo veremos cómo funciona un sistema básico de RAG (Retrieval-Augmented Generation).
La idea principal es:

1. Subir un documento de texto (ejemplo: un archivo con información de física cuántica o historia).

2. Dividir el documento en fragmentos pequeños (chunks).

3. Convertir esos fragmentos en embeddings (vectores numéricos que representan el significado del texto).

4. Guardar los embeddings en una base de datos vectorial (ChromaDB).

5. Hacer una pregunta en lenguaje natural → el sistema busca los fragmentos más relevantes.

6. Gemini responde usando esos fragmentos como contexto, para dar una respuesta más precisa y confiable.

Esto es lo que hace especial a RAG: el modelo no depende solo de su memoria entrenada, sino que consulta información externa que nosotros le damos.

## **Preparación del entorno:**

**Antes de ejecutar el código:**

1. **Obtener tu API Key de Gemini:**

- Entra a 👉 Google AI Studio: https://aistudio.google.com/.

- Crea una clave desde la sección API Keys.

- Copia tu API Key y reemplaza en la línea: **os.environ["GEMINI_API_KEY"] = "TU_API_KEY_AQUI"**


**Este paso solo es necesario si la que está puesta falla, o si cada estudiante quiere usar su propia clave.**

2. **Archivos de prueba disponibles en Drive (Debajo se indican los documentos utilizados en la demo en calse): https://drive.google.com/drive/folders/1uF7-oSMpzSdID2ltQf9NsU5Snf16fHfx?usp=sharing**

- cuantica.txt → introducción a la física cuántica. **(Usado en al demo en clase)**.

- innovadores.txt → introducción a la física cuántica. **(Usado en al demo en clase)**.

- historia_Colombia.txt → texto sobre historia de Colombia.

- historia_internet.txt → documento con explicación básica de Einstein.

👉 **Suban uno de estos archivos (o el suyo propio) cuando el código lo pida.**

In [11]:
# ================= DEMO RAG CON GEMINI ==================
!pip install chromadb sentence-transformers google-generativeai

import os
import google.generativeai as genai
from sentence_transformers import SentenceTransformer
import chromadb
from google.colab import files



In [12]:
# ========= 1. CONFIGURACIÓN DE GEMINI =========
# 👉 Paso previo: obtener API Key en https://aistudio.google.com/
#  Cambia tu API Key SOLO si la actual no funciona.
os.environ["GEMINI_API_KEY"] = "AIzaSyAQtROO3r_-cZ1tqSRUvshwmU9JtIGymUI"
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

In [13]:
# ========= 2. SUBIR ARCHIVO =========
print("Sube un archivo de texto con información (ej: cuantica.txt)")
uploaded = files.upload()

file_name = list(uploaded.keys())[0]
with open(file_name, "r", encoding="utf-8") as f:
    text = f.read()


Sube un archivo de texto con información (ej: cuantica.txt)


Saving historia_Colombia.txt to historia_Colombia (1).txt


In [14]:
# ========= 3. FUNCIÓN DE CHUNKING =========
def chunk_text(text, chunk_size=80, overlap=20):
    words = text.split()
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk = " ".join(words[i:i+chunk_size])
        chunks.append(chunk)
    return chunks

docs = chunk_text(text, chunk_size=80, overlap=20)

print("Ejemplo de 3 chunks creados:")
for c in docs[:3]:
    print("-", c, "\n")

Ejemplo de 3 chunks creados:
- La independencia de Colombia fue un proceso político y militar que tuvo lugar a comienzos del siglo XIX. Entre 1810 y 1819 se desarrollaron múltiples luchas contra el dominio colonial español. El 20 de julio de 1810 se dio el primer grito de independencia en Santa Fe, marcando el inicio de una serie de movimientos revolucionarios en las provincias. Figuras clave como Simón Bolívar, Francisco de Paula Santander y Antonio Nariño jugaron un papel fundamental en la organización militar y 

- clave como Simón Bolívar, Francisco de Paula Santander y Antonio Nariño jugaron un papel fundamental en la organización militar y política. Uno de los momentos decisivos fue la Campaña Libertadora de 1819, liderada por Simón Bolívar. La batalla de Boyacá, ocurrida el 7 de agosto de 1819, selló la independencia al derrotar al ejército realista. Este triunfo permitió la creación de la Gran Colombia, un proyecto político que unió a los actuales territorios de Colombia, Venez

In [15]:
# ========= 4. CREAR EMBEDDINGS Y BASE VECTORIAL =========
embedder = SentenceTransformer("all-MiniLM-L6-v2")
client = chromadb.Client()
collection = client.get_or_create_collection("physics_chunks")

embeddings = embedder.encode(docs).tolist()
for i, d in enumerate(docs):
    collection.add(documents=[d], embeddings=[embeddings[i]], ids=[str(i)])



In [16]:
# ========= 5. CONSULTA Y RETRIEVAL =========
# 👉 Aquí puedes cambiar la pregunta y experimentar ========================================
# Ejemplos para probar:
# query = "¿Qué explica la teoría de la relatividad?"
# query = "¿Cuál fue un hecho clave en la independencia de Colombia?"
query = "¿En que fecha fue la independencia de Colombia"
q_embed = embedder.encode([query]).tolist()
results = collection.query(query_embeddings=q_embed, n_results=3)
retrieved_context = " ".join(results['documents'][0])

print("\n🔹 Chunks relevantes recuperados:")
for doc in results['documents'][0]:
    print("-", doc)



🔹 Chunks relevantes recuperados:
- de la Gran Colombia, un proyecto político que unió a los actuales territorios de Colombia, Venezuela, Ecuador y Panamá. Sin embargo, la Gran Colombia enfrentó problemas internos y conflictos entre caudillos regionales. Finalmente, en 1831, la unión se disolvió y cada país tomó su propio rumbo político. La independencia dejó profundas huellas en la identidad colombiana y sentó las bases de la construcción de la nación.
- La independencia de Colombia fue un proceso político y militar que tuvo lugar a comienzos del siglo XIX. Entre 1810 y 1819 se desarrollaron múltiples luchas contra el dominio colonial español. El 20 de julio de 1810 se dio el primer grito de independencia en Santa Fe, marcando el inicio de una serie de movimientos revolucionarios en las provincias. Figuras clave como Simón Bolívar, Francisco de Paula Santander y Antonio Nariño jugaron un papel fundamental en la organización militar y
- clave como Simón Bolívar, Francisco de Paula Sant

In [18]:

# ========= 6. GEMINI PARA RESPONDER CON CONTEXTO =========
model = genai.GenerativeModel("models/gemini-2.5-flash")

response = model.generate_content(
    f"UBasándote en el siguiente contexto, responde la pregunta y añade una breve explicación adicional desde tu conocimiento si es relevante:.\n\nContexto:\n{retrieved_context}\n\nPregunta: {query}"
)

print("\n🔹 Respuesta generada por Gemini:")
print(response.text)


🔹 Respuesta generada por Gemini:
Basándote en el contexto, la independencia de Colombia no fue un evento de una única fecha, sino un proceso con momentos clave:

*   El **20 de julio de 1810** se dio el primer grito de independencia en Santa Fe, marcando el inicio de una serie de movimientos revolucionarios.
*   La **Batalla de Boyacá, ocurrida el 7 de agosto de 1819**, selló la independencia al derrotar al ejército realista.

**Explicación adicional:**

Es importante destacar que, aunque la Batalla de Boyacá el 7 de agosto de 1819 fue el evento militar que consolidó la independencia y permitió la creación de la Gran Colombia, el **20 de julio de 1810** es la fecha que se celebra oficialmente como el Día de la Independencia en Colombia. Esto se debe a que el 20 de julio representa el momento en que se rompió simbólicamente con el virreinato español y se inició el camino hacia la autonomía, incluso si la consolidación militar llegó casi una década después. Ambas fechas son fundamentale

# 2. **GraphRAG con Gemini + Neo4j: Consultando Grafos de Conocimiento:**

En este ejemplo usamos Gemini para extraer triples semánticos del texto (por ejemplo: (Elon Musk, fundó, Tesla)).

Luego esos triples se guardan en Neo4j, una base de datos orientada a grafos.
Después, podemos hacer consultas usando Cypher, el lenguaje de Neo4j, y finalmente Gemini genera una respuesta en lenguaje natural usando la información consultada.

Esto permite transformar un texto plano en un grafo de conocimiento consultable, lo que es muy útil para preguntas complejas que requieren relaciones entre entidades.

## **Preparación del entorno:**

Antes de ejecutar el código:

1. **Cuenta en Neo4j AuraDB (gratis): https://neo4j.com/product/auradb/**

- Ir a Neo4j AuraDB Free.

- Crear una cuenta y una base de datos gratuita.

- Copiar los datos de conexión (URI, Usuario, Contraseña).

**⚠️ Este paso, al igual que la creación de la API Key de Gemini, solo será necesario si las credenciales ya incluidas en el código no funcionan.
De esta manera, cada estudiante tendrá la opción de usar sus propias credenciales y su propia base de datos personalizada en caso de que sea necesario.**

2. **Nuevamente tener presente los archivos disponibles en Drive:https://drive.google.com/drive/folders/1uF7-oSMpzSdID2ltQf9NsU5Snf16fHfx?usp=sharing**

- cuantica.txt → introducción a la física cuántica. **(Usado en al demo en clase)**.

- innovadores.txt → introducción a la física cuántica. **(Usado en al demo en clase)**.

- historia_Colombia.txt → texto sobre historia de Colombia.

- historia_internet.txt → documento con explicación básica de Einstein.

👉 **Suban uno de estos archivos (o el suyo propio) cuando el código lo pida.****

## **Snippets de Cypher para practicar**

In [23]:
# ================== INSTALACIÓN ==================
!pip install neo4j google-generativeai

import os
from neo4j import GraphDatabase
import google.generativeai as genai
from google.colab import files

# ================== CONFIGURACIÓN ==================
# 👉 API Key de Gemini (puede usar la nuestra o crear la suya en https://aistudio.google.com/)
os.environ["GEMINI_API_KEY"] = "AIzaSyAQtROO3r_-cZ1tqSRUvshwmU9JtIGymUI"
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# 👉 Configura Neo4j con tus propios datos (SOLO si falla la configuración por defecto del Colab)
NEO4J_URI = "neo4j+s://a25c4a64.databases.neo4j.io"
NEO4J_USER = "neo4j"
NEO4J_PASSWORD = "dS6hFGzAYRNzWmCWq9uXM_VXemI5m9ybtjVgTn4yLPo"

driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USER, NEO4J_PASSWORD))

# ================== SUBIR DOCUMENTO ==================
print("Sube un archivo de texto con información (ej: innovadores.txt)")
uploaded = files.upload()

file_name = list(uploaded.keys())[0]
with open(file_name, "r", encoding="utf-8") as f:
    text = f.read()

# ================== EXTRAER TRIPLES CON GEMINI ==================
model = genai.GenerativeModel("models/gemini-2.5-flash")

prompt = f"""
Extrae relaciones del siguiente texto en formato de triples:
(SUJETO, RELACIÓN, OBJETO).
Texto:
{text}
"""

response = model.generate_content(prompt)
print("🔹 Triples extraídos por Gemini:")
print(response.text)

# ================== GUARDAR TRIPLES EN NEO4J ==================
def insert_triple(tx, s, r, o):
    query = """
    MERGE (a:Entidad {name: $s})
    MERGE (b:Entidad {name: $o})
    MERGE (a)-[rel:RELACION {tipo: $r}]->(b)
    """
    tx.run(query, s=s, r=r, o=o)

triples = []
for line in response.text.split("\n"):
    if "(" in line and ")" in line:
        line = line.strip("()")
        parts = [p.strip() for p in line.split(",")]
        if len(parts) == 3:
            triples.append(parts)

with driver.session() as session:
    for s, r, o in triples:
        session.write_transaction(insert_triple, s, r, o)

print(f"✅ Se insertaron {len(triples)} triples en Neo4j")

# ================== CONSULTA AL GRAFO ==================
def query_graph(query):
    with driver.session() as session:
        result = session.run(query)
        return [dict(r) for r in result]

# AQUI PUEDEN CAMBIAR LAS QUERY POR LOS EJEMPLOS DE ARRIBA ============================== ⏰⏰⏰ =============================
cypher_query = """
MATCH (e:Entidad)-[r:RELACION]->(f:Entidad)
WHERE r.tipo CONTAINS "ocurrió el"
RETURN e.name AS evento, f.name AS fecha
"""

results = query_graph(cypher_query)

print("\n🔹 Resultados de la consulta Cypher:")
for r in results:
    print(f"{r['evento']} ocurrió el {r['fecha']}")


# ================== GEMINI PARA RESPUESTA FINAL ==================
context = "\n".join([f"{r['evento']} ocurrió el {r['fecha']}" for r in results])

# AQUI PUEDEN CAMBIAR LAS PREGUNTAS POR LOS EJEMPLOS DE ARRIBA ============================== ⏰⏰⏰ =============================

final_prompt = f"""
Basándote en el siguiente contexto de un grafo de conocimiento, responde la pregunta y proporciona contexto:

Contexto:
{context}

Pregunta: ¿Cuales fueron los eventos decisivos y sus fechas?
"""

response_final = model.generate_content(final_prompt)
print("\n🔹 Respuesta generada por Gemini:")
print(response_final.text)


Sube un archivo de texto con información (ej: innovadores.txt)


Saving historia_Colombia.txt to historia_Colombia (5).txt
🔹 Triples extraídos por Gemini:
Aquí tienes las relaciones extraídas del texto en formato de triples (SUJETO, RELACIÓN, OBJETO):

*   (Independencia de Colombia, es, proceso político y militar)
*   (Independencia de Colombia, ocurrió, a comienzos del siglo XIX)
*   (Luchas, se desarrollaron, entre 1810 y 1819)
*   (Luchas, fueron contra, dominio colonial español)
*   (Primer grito de independencia, se dio, el 20 de julio de 1810)
*   (Primer grito de independencia, se dio en, Santa Fe)
*   (Primer grito de independencia, marcó, el inicio de movimientos revolucionarios)
*   (Simón Bolívar, jugó un papel en, organización militar y política)
*   (Francisco de Paula Santander, jugó un papel en, organización militar y política)
*   (Antonio Nariño, jugó un papel en, organización militar y política)
*   (Campaña Libertadora de 1819, fue, momento decisivo)
*   (Campaña Libertadora de 1819, fue liderada por, Simón Bolívar)
*   (Batalla 

  session.write_transaction(insert_triple, s, r, o)


✅ Se insertaron 27 triples en Neo4j

🔹 Resultados de la consulta Cypher:
5.  (Primer grito de independencia ocurrió el 20 de julio de 1810
14. (Batalla de Boyacá ocurrió el 7 de agosto de 1819
*   (Batalla de Boyacá ocurrió el 7 de agosto de 1819

🔹 Respuesta generada por Gemini:
Basándome en el contexto proporcionado, los eventos decisivos y sus fechas son:

*   **Primer grito de independencia:** 20 de julio de 1810
*   **Batalla de Boyacá:** 7 de agosto de 1819

---

**Contexto utilizado:**

*   5. (Primer grito de independencia ocurrió el 20 de julio de 1810
*   14. (Batalla de Boyacá ocurrió el 7 de agosto de 1819
*   \* (Batalla de Boyacá ocurrió el 7 de agosto de 1819


# 3. **FusionRAG (BM25 + Embeddings)**

En este ejemplo se combina lo mejor de dos enfoques de recuperación de información:

- BM25 (keyword-based): Recupera pasajes basándose en la coincidencia de palabras clave.

- Vector Search (embeddings con ChromaDB): Recupera fragmentos usando similitud semántica.

Ambos resultados se fusionan para obtener un contexto más robusto y completo, que luego se pasa al modelo Gemini para generar una respuesta.

👉 Deben subir un archivo de texto (ej: cuantica.txt, historia_colombia.txt, innovadores.txt o historia_internet.txt) y luego probar con diferentes preguntas modificando el campo query.

## **Preparación del entorno:**

Si ya configuraste los entornos de los ejemplos anteriores, no necesitas hacer nada adicional para este bloque. 🚀

In [24]:
# ================= DEMO FUSION RAG ==================
!pip install rank_bm25 chromadb sentence-transformers google-generativeai

from rank_bm25 import BM25Okapi
import google.generativeai as genai
from sentence_transformers import SentenceTransformer
import chromadb
import os
from google.colab import files

# ================= CONFIGURACIÓN GEMINI ==================
# 👉 API Key de Gemini (puede usar la nuestra o crear la suya en https://aistudio.google.com/)
os.environ["GEMINI_API_KEY"] = "AIzaSyAQtROO3r_-cZ1tqSRUvshwmU9JtIGymUI"
genai.configure(api_key=os.environ["GEMINI_API_KEY"])
model = genai.GenerativeModel("models/gemini-2.5-flash")

# ================= SUBIR DOCUMENTO ==================
print("📂 Sube un archivo de texto con información (ej: cuantica.txt, historia_colombia.txt, etc.)")
uploaded = files.upload()

file_name = list(uploaded.keys())[0]
with open(file_name, "r", encoding="utf-8") as f:
    text = f.read()

# ================= CHUNKING ==================
def chunk_text(text, chunk_size=80, overlap=20):
    words = text.split()
    return [" ".join(words[i:i+chunk_size]) for i in range(0, len(words), chunk_size - overlap)]

docs = chunk_text(text)

# ========= Vector Store (embeddings con ChromaDB)
embedder = SentenceTransformer("all-MiniLM-L6-v2")
client = chromadb.Client()
collection = client.get_or_create_collection("fusion_chunks")
embeddings = embedder.encode(docs).tolist()
for i, d in enumerate(docs):
    collection.add(documents=[d], embeddings=[embeddings[i]], ids=[str(i)])

# ========= BM25 retriever
tokenized_corpus = [d.split(" ") for d in docs]
bm25 = BM25Okapi(tokenized_corpus)

# ========= Fusion Retrieval
query = "¿Quién fue Antonio Nariño y qué hizo?"
q_embed = embedder.encode([query]).tolist()
results_vector = collection.query(query_embeddings=q_embed, n_results=3)
results_bm25 = bm25.get_top_n(query.split(" "), docs, n=3)

# Fusión (simple: concatenación + eliminación de duplicados)
fusion_results = list(set(results_vector['documents'][0] + results_bm25))
retrieved_context = " ".join(fusion_results)

# ================= GEMINI PARA RESPUESTA FINAL ==================
response = model.generate_content(
    f"Basándote en el siguiente contexto (resultado de fusión de múltiples recuperadores), responde la pregunta y añade explicación:\n\n{retrieved_context}\n\nPregunta: {query}"
)

print("\n🔹 Respuesta generada con FusionRAG:")
print(response.text)


📂 Sube un archivo de texto con información (ej: cuantica.txt, historia_colombia.txt, etc.)


Saving historia_Colombia.txt to historia_Colombia (6).txt

🔹 Respuesta generada con FusionRAG:
Basándome exclusivamente en el contexto proporcionado:

**¿Quién fue Antonio Nariño y qué hizo?**

Antonio Nariño fue una de las **figuras clave** en el proceso de independencia de Colombia.

**Qué hizo:**
Jugó un **papel fundamental en la organización militar y política** durante las luchas por la independencia de Colombia, junto con Simón Bolívar y Francisco de Paula Santander.

**Explicación:**
El texto menciona a Antonio Nariño directamente en la sección que describe el proceso de independencia de Colombia, indicando que él, junto con Simón Bolívar y Francisco de Paula Santander, "jugaron un papel fundamental en la organización militar y política" de este periodo. No se proporciona información adicional sobre otros aspectos de su vida o acciones específicas dentro de este contexto.
