<a href="https://colab.research.google.com/github/jumafernandez/generacion_prompts/blob/main/semana5/RAG_OpenAI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**üîµ Semana 5: ¬øQu√© es RAG y c√≥mo implementarlo?**


##**1Ô∏è‚É£ ¬øQu√© es RAG?**

Retrieval-Augmented Generation (RAG) es una t√©cnica que mejora la generaci√≥n de respuestas en modelos de lenguaje combinando dos pasos:

1. **Recuperaci√≥n de informaci√≥n relevante** desde una base de datos o documentos externos.
1. **Generaci√≥n de respuestas** utilizando un modelo de lenguaje, que integra el contexto recuperado en su respuesta.
Esto permite que los modelos trabajen con informaci√≥n m√°s actualizada, sin depender √∫nicamente del conocimiento aprendido en su entrenamiento.

üìå En esta notebook vamos a implementarlo a partir de la API de OpenAI y una base de datos vectorial llamada **Chroma**.

##**2Ô∏è‚É£ Instalaci√≥n de librer√≠as necesarias**

Ejecuta la siguiente celda para instalar las dependencias:

In [1]:
#!pip install openai
!pip install chromadb pymupdf --quiet

import os
import sys

# Reiniciar autom√°ticamente el entorno tras la instalaci√≥n
#os.execv(sys.executable, ['python'] + sys.argv)

##**3Ô∏è‚É£ Configuraci√≥n del entorno**

Antes de comenzar, aseg√∫rate de configurar tu clave de API de OpenAI:

In [2]:
import os

# Configura tu clave de OpenAI
os.environ["OPENAI_API_KEY"] = ""

##**4Ô∏è‚É£ ¬øQu√© es ChromaDB y por qu√© lo usamos en RAG?**

ChromaDB es una base de datos vectorial que permite almacenar y recuperar informaci√≥n en funci√≥n de su similitud sem√°ntica.

**üìå ¬øPor qu√© usamos ChromaDB en RAG?**
- B√∫squeda sem√°ntica eficiente: Permite recuperar fragmentos de documentos que sean relevantes para una consulta espec√≠fica.
- Optimizaci√≥n en la recuperaci√≥n de contexto: En lugar de depender solo del texto en el prompt, podemos buscar informaci√≥n adicional en documentos externos.
- Escalabilidad: Puede manejar grandes vol√∫menes de datos sin perder velocidad en la b√∫squeda.

En este caso, utilizaremos ChromaDB para indexar y buscar contenido en PDFs almacenados en un repositorio zipeado alojado en GitHub.

##**5Ô∏è‚É£ Cargando documentos desde un repositorio de GitHub**

Extraeremos informaci√≥n desde archivos PDF almacenados en un directorio clonado desde GitHub.

In [3]:
import os
import fitz  # PyMuPDF para procesar PDFs
import chromadb
from urllib import request # Import the request module for downloading files
import zipfile # Import the zipfile module for extracting zip files

In [4]:
# Inicializar ChromaDB
chroma_client = chromadb.PersistentClient(path="./chroma_db")
collection = chroma_client.get_or_create_collection(name="docs")

In [5]:
# Funci√≥n para extraer texto de un PDF
def extract_text_from_pdf(pdf_path):
    try:
        doc = fitz.open(pdf_path)
        text = "\n".join([page.get_text() for page in doc])
        return text if text.strip() else "‚ö†Ô∏è Documento sin texto extra√≠do"
    except Exception as e:
        print(f"‚ùå Error al leer {pdf_path}: {e}")
        return ""

# Funci√≥n para descargar un archivo ZIP desde GitHub
def download_file(url, local_path):
    """Descarga un archivo desde una URL a una ruta local."""
    try:
        with request.urlopen(url) as response, open(local_path, 'wb') as out_file:
            out_file.write(response.read())
        print(f"üì• Descargado: {url} a {local_path}")
    except Exception as e:
        print(f"‚ùå Error al descargar el archivo: {e}")

# Funci√≥n para extraer e indexar todos los PDFs del ZIP
def add_documents_from_zip(zip_url):
    # Crear un directorio para almacenar los PDFs
    local_pdf_dir = "./pdfs"
    os.makedirs(local_pdf_dir, exist_ok=True)

    # Definir la ruta del ZIP local
    zip_path = os.path.join(local_pdf_dir, "base_conocimiento.zip")

    # Descargar el ZIP
    download_file(zip_url, zip_path)

    # Extraer los PDFs
    try:
        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
            zip_ref.extractall(local_pdf_dir)
            extracted_files = zip_ref.namelist()
        print(f"üìÇ Archivos extra√≠dos: {extracted_files}")
    except Exception as e:
        print(f"‚ùå Error al extraer el ZIP: {e}")
        return

    # Ruta correcta dentro del directorio extra√≠do
    extracted_folder = os.path.join(local_pdf_dir, "base_conocimiento")

    # Procesar todos los PDFs extra√≠dos
    indexed_count = 0
    if os.path.exists(extracted_folder):
        for filename in os.listdir(extracted_folder):
            if filename.endswith(".pdf"):
                pdf_path = os.path.join(extracted_folder, filename)
                print(f"üîç Procesando: {filename}")

                text = extract_text_from_pdf(pdf_path)
                if text and text != "‚ö†Ô∏è Documento sin texto extra√≠do":
                    collection.add(documents=[text], ids=[filename])
                    print(f"‚úÖ Indexado en ChromaDB: {filename}")
                    indexed_count += 1
                else:
                    print(f"‚ö†Ô∏è No se pudo extraer texto de {filename}")
    else:
        print("‚ùå No se encontr√≥ la carpeta extra√≠da base_conocimiento.")

    if indexed_count == 0:
        print("‚ùå No se index√≥ ning√∫n documento en ChromaDB.")
    else:
        print(f"üìÇ {indexed_count} documentos fueron indexados exitosamente.")

In [6]:
# URL del ZIP en el repositorio de GitHub
pdf_zip_url = "https://github.com/jumafernandez/generacion_prompts/raw/refs/heads/main/semana5/base_conocimiento.zip"

# Agregar documentos a ChromaDB
add_documents_from_zip(pdf_zip_url)

üì• Descargado: https://github.com/jumafernandez/generacion_prompts/raw/refs/heads/main/semana5/base_conocimiento.zip a ./pdfs/base_conocimiento.zip
üìÇ Archivos extra√≠dos: ['base_conocimiento/', 'base_conocimiento/566eebeb-fa42-4b2a-8143-9d6e22d7670c.pdf', 'base_conocimiento/b3094a32-663d-4c3c-ab99-bc835fa0e8dd.pdf', 'base_conocimiento/DISP_CD-CB_N¬∫_009_24.pdf', 'base_conocimiento/DISP_CD-CB_N¬∫_563_23.pdf', 'base_conocimiento/DISP_DD-CB_N¬∫_008_24.pdf', 'base_conocimiento/DISP_PC-CB_N¬∫_110_24.pdf', 'base_conocimiento/RES_HCS_N¬∫_162_24.pdf']
üîç Procesando: DISP_CD-CB_N¬∫_563_23.pdf


/root/.cache/chroma/onnx_models/all-MiniLM-L6-v2/onnx.tar.gz: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 79.3M/79.3M [00:06<00:00, 13.3MiB/s]


‚úÖ Indexado en ChromaDB: DISP_CD-CB_N¬∫_563_23.pdf
üîç Procesando: 566eebeb-fa42-4b2a-8143-9d6e22d7670c.pdf
‚úÖ Indexado en ChromaDB: 566eebeb-fa42-4b2a-8143-9d6e22d7670c.pdf
üîç Procesando: RES_HCS_N¬∫_162_24.pdf
‚úÖ Indexado en ChromaDB: RES_HCS_N¬∫_162_24.pdf
üîç Procesando: DISP_PC-CB_N¬∫_110_24.pdf
‚úÖ Indexado en ChromaDB: DISP_PC-CB_N¬∫_110_24.pdf
üîç Procesando: b3094a32-663d-4c3c-ab99-bc835fa0e8dd.pdf
‚úÖ Indexado en ChromaDB: b3094a32-663d-4c3c-ab99-bc835fa0e8dd.pdf
üîç Procesando: DISP_CD-CB_N¬∫_009_24.pdf
‚úÖ Indexado en ChromaDB: DISP_CD-CB_N¬∫_009_24.pdf
üîç Procesando: DISP_DD-CB_N¬∫_008_24.pdf
‚úÖ Indexado en ChromaDB: DISP_DD-CB_N¬∫_008_24.pdf
üìÇ 7 documentos fueron indexados exitosamente.


##**6Ô∏è‚É£ Recuperar informaci√≥n relevante desde ChromaDB**

Para responder preguntas, primero buscamos los fragmentos m√°s relevantes en la base de datos.

In [7]:
# Funci√≥n para recuperar contexto desde ChromaDB
def retrieve_context(query, n_results=3):
    results = collection.query(query_texts=[query], n_results=n_results)
    return "\n".join(results['documents'][0]) if results['documents'] else ""

In [8]:
# Ejemplo de b√∫squeda
query = "¬øQui√©n es Juan Manuel Fernandez?"
context = retrieve_context(query)

print("üîç Contexto recuperado:\n", context)

üîç Contexto recuperado:
 ¬†
Universidad Nacional de Luj√°n 
REP√öBLICA ARGENTINA
‚Äú2024 ‚Äì 40 a√±os de la Reapertura de la Universidad Nacional de Luj√°n y¬†30 a√±os
del Reconocimiento Constitucional de la Autonom√≠a Universitaria‚Äù
¬†
1 / 2
RESOLUCION RECTOR RR : 359 / 2024
ACTND 129/2024
LUJ√ÅN, BUENOS AIRES
¬†
VISTO: La presentaci√≥n efectuada por el¬† se√±or¬† Juan Manuel FERN√ÅNDEZ, mediante la
cual presenta la renuncia al cargo Nodocente, a partir del 1¬∫ de septiembre 2024, y
CONSIDERANDO:

Que el mencionado trabajador, revista en un cargo de personal Nodocente, Planta
Permanente, Director de Gesti√≥n Curricular, Categor√≠a 2¬† -¬† Tramo Mayor del
Agrupamiento Administrativo y posee dependencia funcional en la Direcci√≥n General
de Asuntos Acad√©micos.
Que el trabajador FERN√ÅNDEZ, se encuentra usufructuando licencia sin goce de
haberes por desempe√±o de cargo de mayor jerarqu√≠a desde el 1¬∫ de febrero de 2020,
en el marco de lo determinado por el Art√≠culo 105 del Conveni

##**7Ô∏è‚É£ Generaci√≥n de respuestas con OpenAI**

Ahora usamos el contexto recuperado para generar respuestas mejoradas con OpenAI.

In [9]:
from openai import OpenAI

# Inicializar cliente de OpenAI
client = OpenAI()

In [10]:
# Funci√≥n para generar respuestas usando RAG con el formato correcto de chat
def generate_response(query):
    context = retrieve_context(query)

    messages = [
        {"role": "system", "content": "Eres un asistente experto en responder preguntas basadas en el contexto recuperado."},
        {"role": "user", "content": f"Contexto: {context}\n\nPregunta: {query}\nRespuesta:"}
    ]

    response = client.chat.completions.create(
        model="gpt-4-turbo",
        messages=messages
    )

    return response.choices[0].message.content.strip()

In [11]:
# Realizar una consulta
question = "¬øQui√©n es Juan Manuel Fern√°ndez?"

In [12]:
response = generate_response(question)

print("üí° Respuesta con RAG:\n", response)

üí° Respuesta con RAG:
 Juan Manuel Fern√°ndez es una persona con diversas responsabilidades y roles dentro de la Universidad Nacional de Luj√°n, seg√∫n la informaci√≥n proporcionada en los documentos aportados. En primer lugar, Juan Manuel Fern√°ndez present√≥ su renuncia al cargo de personal Nodocente, en la planta permanente, espec√≠ficamente como Director de Gesti√≥n Curricular, efectiva a partir del 1¬∞ de septiembre de 2024. Fern√°ndez tambi√©n ten√≠a un cargo de mayor jerarqu√≠a desde el 1¬∞ de febrero de 2020, del cual usufructuaba una licencia sin goce de haberes.

Aparte de su rol nodocente, Juan Manuel Fern√°ndez ha sido nombrado como Coordinador de la Licenciatura en Sistemas de Informaci√≥n, desde el 1 de abril de 2024 hasta el 31 de marzo de 2026. Adicionalmente, √©l lidera un Proyecto de Investigaci√≥n titulado "Generaci√≥n de herramientas de extracci√≥n de informaci√≥n ambiental mediante t√©cnicas de aprendizaje autom√°tico, a partir de bases de datos textuales", enfoc

##**8Ô∏è‚É£ Comparando respuestas con y sin RAG**

Probemos la diferencia entre respuestas con y sin acceso a la base de datos.

In [15]:
# Funci√≥n para generar respuestas SIN RAG (solo el modelo de OpenAI)
def generate_response_no_rag(query):
    messages = [
        {"role": "system", "content": "Eres un asistente que responde preguntas de forma precisa."},
        {"role": "user", "content": query}
    ]

    response = client.chat.completions.create(
        model="gpt-4-turbo",
        messages=messages
    )

    return response.choices[0].message.content.strip()

In [16]:
response_no_rag = generate_response_no_rag(question)

print("üîµ Respuesta SIN RAG:\n", response_no_rag)

üîµ Respuesta SIN RAG:
 Necesitar√≠a m√°s informaci√≥n o contexto para poder proporcionar detalles espec√≠ficos sobre Juan Manuel Fern√°ndez, ya que este nombre es bastante com√∫n y podr√≠a referirse a varias personas en diferentes campos como pol√≠tica, deportes, arte, entre otros. Si puedes proporcionar detalles adicionales o especificar el √°mbito en el que Juan Manuel Fern√°ndez es conocido, estar√© encantado de ayudarte con una respuesta m√°s precisa.
