In [1]:
!pip install llama-index llama-index-core llama-index-llms-huggingface llama-index-embeddings-huggingface transformers accelerate bitsandbytes wikipedia

Collecting llama-index
  Downloading llama_index-0.14.8-py3-none-any.whl.metadata (13 kB)
Collecting llama-index-core
  Downloading llama_index_core-0.14.8-py3-none-any.whl.metadata (2.5 kB)
Collecting llama-index-llms-huggingface
  Downloading llama_index_llms_huggingface-0.6.1-py3-none-any.whl.metadata (2.5 kB)
Collecting llama-index-embeddings-huggingface
  Downloading llama_index_embeddings_huggingface-0.6.1-py3-none-any.whl.metadata (458 bytes)
Collecting bitsandbytes
  Downloading bitsandbytes-0.48.2-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting llama-index-cli<0.6,>=0.5.0 (from llama-index)
  Downloading llama_index_cli-0.5.3-py3-none-any.whl.metadata (1.4 kB)
Collecting llama-index-embeddings-openai<0.6,>=0.5.0 (from llama-index)
  Downloading llama_index_embeddings_openai-0.5.1-py3-none-any.whl.metadata (400 bytes)
Collecting llama-index-indic

In [1]:
import torch
import wikipedia
from llama_index.core import VectorStoreIndex, Document, Settings
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. Configuración del Modelo Local (Hugging Face)
# Usamos Qwen 1.5B porque es rápido, entiende español y no crashea la RAM de Colab.
print("⚙️ Cargando modelo local (esto toma unos segundos)...")

Settings.llm = HuggingFaceLLM(
    model_name="Qwen/Qwen2.5-1.5B-Instruct",
    tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",
    context_window=4096,
    max_new_tokens=512,
    generate_kwargs={"temperature": 0.1, "do_sample": False},
    device_map="auto", # Usa tu GPU automáticamente
)

# 2. Configuración de Embeddings Local
# BAAI/bge-m3 es excelente para español e inglés.
print("⚙️ Cargando embeddings locales...")
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-m3"
)

# 3. Descarga de Datos (Wikipedia)
wikipedia.set_lang("es")
temas = [
    "Inteligencia artificial",         # Doc 1
    "Red neuronal artificial",         # Doc 2
    "Aprendizaje profundo",            # Doc 3
    "Procesamiento de lenguaje natural", # Doc 4
    "Visión artificial"                # Doc 5
]
docs = []

print("\n📚 Descargando documentos...")
for tema in temas:
    try:
        content = wikipedia.page(tema).content
        docs.append(Document(text=content, metadata={"title": tema}))
        print(f"   -> Descargado: {tema}")
    except:
        pass

# 4. Pipeline RAG
if docs:
    print("\n🧠 Indexando en memoria (Vector Store)...")
    index = VectorStoreIndex.from_documents(docs)
    query_engine = index.as_query_engine()

    # 5. Prueba
    pregunta = "¿Qué es una red neuronal y para qué sirve?"
    print(f"\n🗣️ Pregunta: {pregunta}")
    print("-" * 40)

    response = query_engine.query(pregunta)
    print(f"🤖 Respuesta (Local):\n{response}")

    print("\n🔍 Evidencia:")
    for node in response.source_nodes:
        print(f"   📄 Fuente: {node.metadata['title']}")
else:
    print("Error descargando documentos.")

⚙️ Cargando modelo local (esto toma unos segundos)...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/660 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.09G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/242 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

⚙️ Cargando embeddings locales...


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]


📚 Descargando documentos...
   -> Descargado: Inteligencia artificial
   -> Descargado: Red neuronal artificial
   -> Descargado: Aprendizaje profundo

🧠 Indexando en memoria (Vector Store)...


The following generation flags are not valid and may be ignored: ['temperature', 'top_p', 'top_k']. Set `TRANSFORMERS_VERBOSITY=info` for more details.



🗣️ Pregunta: ¿Qué es una red neuronal y para qué sirve?
----------------------------------------
🤖 Respuesta (Local):
 Una red neuronal artificial (NN) es un modelo dentro de los llamados sistemas conexionistas, inspirado en la estructura y función de las redes neuronales biológicas en los cerebros animales. Una ANN consta de unidades o nodos conectados llamados neuronas artificiales, que modelan vagamente las neuronas del cerebro. Estas están conectadas por bordes, que modelan las sinapsis del cerebro. Cada neurona artificial recibe "señales" de las neuronas conectadas, luego las procesa y envía una señal a otras neuronas conectadas. La "señal" es un número real, y la salida de cada neurona se calcula mediante una función no lineal de la suma de sus entradas, llamada función de activación. La fuerza de la señal en cada conexión está determinada por un peso, que se ajusta durante el proceso de aprendizaje. Las redes neuronales se entrenan típicamente a través de la minimización de rie

In [4]:
import os
import wikipedia
from llama_index.core import Document

# 1. Configuración de temas (Tus 5 documentos obligatorios)
wikipedia.set_lang("es")
temas = [
    "Inteligencia artificial",         # Doc 1
    "Red neuronal artificial",         # Doc 2
    "Aprendizaje profundo",            # Doc 3
    "Procesamiento de lenguaje natural", # Doc 4
    "Visión artificial"                # Doc 5
]

docs = []

# 2. Crear una carpeta física para guardar los archivos
carpeta_evidencia = "mis_documentos_rag"
if not os.path.exists(carpeta_evidencia):
    os.makedirs(carpeta_evidencia)
    print(f"📂 Carpeta creada: {carpeta_evidencia}")

print("\n⬇️ Descargando y guardando archivos...")

for tema in temas:
    try:
        # Obtener contenido de Wikipedia
        pagina = wikipedia.page(tema)
        contenido = pagina.content

        # Crear nombre de archivo seguro (sin espacios)
        nombre_archivo = f"{tema.replace(' ', '_')}.txt"
        ruta_archivo = os.path.join(carpeta_evidencia, nombre_archivo)

        # 3. GUARDAR EL ARCHIVO EN EL DISCO (.txt)
        with open(ruta_archivo, "w", encoding="utf-8") as f:
            f.write(f"Fuente: {pagina.url}\n\n") # Agregamos la URL al inicio
            f.write(contenido)

        # Agregamos a la lista de LlamaIndex para el RAG
        docs.append(Document(
            text=contenido,
            metadata={"title": tema, "filename": nombre_archivo}
        ))

        print(f"   ✅ Guardado: {ruta_archivo}")

    except Exception as e:
        print(f"   ❌ Error con {tema}: {e}")

print(f"\n📚 Total documentos listos: {len(docs)}")
print("👉 Revisa la carpeta en el menú de la izquierda para ver tus .txt")

📂 Carpeta creada: mis_documentos_rag

⬇️ Descargando y guardando archivos...
   ✅ Guardado: mis_documentos_rag/Inteligencia_artificial.txt
   ✅ Guardado: mis_documentos_rag/Red_neuronal_artificial.txt
   ✅ Guardado: mis_documentos_rag/Aprendizaje_profundo.txt
   ✅ Guardado: mis_documentos_rag/Procesamiento_de_lenguaje_natural.txt
   ✅ Guardado: mis_documentos_rag/Visión_artificial.txt

📚 Total documentos listos: 5
👉 Revisa la carpeta en el menú de la izquierda para ver tus .txt


In [3]:
# --- CONFIGURACIÓN DE PREGUNTAS SENCILLAS ---
nuevas_preguntas = [
    "¿Qué es la inteligencia artificial en pocas palabras?",
    "¿En qué se inspiran las redes neuronales artificiales?",
    "Menciona un ejemplo práctico de uso del aprendizaje profundo.",
    "¿Cuál es la función básica de una neurona artificial?",
    "¿Qué diferencia hay entre una red neuronal y el cerebro humano?"
]

# Nombre del archivo donde guardaremos todo
nombre_archivo = "evidencia_respuestas.txt"

print(f"💾 Comenzando a responder y guardar en '{nombre_archivo}'...\n")

# Abrimos el archivo en modo escritura ("w")
with open(nombre_archivo, "w", encoding="utf-8") as archivo:
    # Escribimos un encabezado bonito
    archivo.write("=== REPORTE DE EVIDENCIA RAG (Hugging Face Local) ===\n")
    archivo.write("Modelo: Qwen/Qwen2.5-1.5B-Instruct\n")
    archivo.write("Fuentes: Wikipedia (IA, Redes Neuronales, Deep Learning)\n")
    archivo.write("=" * 60 + "\n\n")

    for i, pregunta in enumerate(nuevas_preguntas, 1):
        print(f"procesando pregunta {i}/{len(nuevas_preguntas)}: {pregunta}...")

        # 1. Consultar al modelo
        respuesta = query_engine.query(pregunta)
        texto_respuesta = str(respuesta).strip()

        # 2. Obtener los nombres de los documentos usados (fuentes)
        fuentes = []
        for node in respuesta.source_nodes:
            titulo = node.metadata.get('title', 'Desconocido')
            if titulo not in fuentes: # Evitar repetidos
                fuentes.append(titulo)
        fuentes_str = ", ".join(fuentes)

        # 3. Guardar en el archivo TXT
        archivo.write(f"PREGUNTA {i}: {pregunta}\n")
        archivo.write(f"RESPUESTA: {texto_respuesta}\n")
        archivo.write(f"FUENTES: {fuentes_str}\n")
        archivo.write("-" * 50 + "\n\n")

print(f"\n✅ ¡Listo! Todas las respuestas se guardaron en {nombre_archivo}")
print("📂 Busca el archivo en la carpeta de archivos de Colab (icono de carpeta a la izquierda).")

💾 Comenzando a responder y guardar en 'evidencia_respuestas.txt'...

procesando pregunta 1/5: ¿Qué es la inteligencia artificial en pocas palabras?...
procesando pregunta 2/5: ¿En qué se inspiran las redes neuronales artificiales?...
procesando pregunta 3/5: Menciona un ejemplo práctico de uso del aprendizaje profundo....
procesando pregunta 4/5: ¿Cuál es la función básica de una neurona artificial?...
procesando pregunta 5/5: ¿Qué diferencia hay entre una red neuronal y el cerebro humano?...

✅ ¡Listo! Todas las respuestas se guardaron en evidencia_respuestas.txt
📂 Busca el archivo en la carpeta de archivos de Colab (icono de carpeta a la izquierda).


In [2]:
import torch
print(f"¿Hay GPU disponible?: {torch.cuda.is_available()}")
# Debe decir: True

¿Hay GPU disponible?: False
