# Asistente Financiero con RAG y Tools

## A) Instalaci√≥n de dependencias

En tu Jupyter Notebook (o terminal) ejecuta:

```bash
pip install \
  langchain[pypdf] \        # LangChain + soporte PDF (PyPDFLoader)
  openai \                  # Cliente para modelos de OpenAI
  tiktoken \                # Tokenizador necesario para embeddings
  faiss-cpu \               # √çndice vectorial FAISS en CPU
  gradio \                  # Framework para interfaz web
  requests \                # Llamadas HTTP (API de conversi√≥n de divisas)
  pypdf \                   # Librer√≠a de lectura de PDF (por si falla el extra)
  unstructured \            # Loader alternativo para PDFs complejos
  python-dotenv             # Para cargar variables desde .env


# B) Arquitectura de la Soluci√≥n

La siguiente arquitectura muestra c√≥mo se orquestan los distintos componentes para ofrecer:

1. **Preguntas sobre PDF** mediante RAG (Retrieval-Augmented Generation).  
2. **Conversi√≥n de divisas** de forma independiente.  

---

## 1. Capa de Presentaci√≥n (Frontend)

- **Gradio Blocks** embebido en Jupyter o servidor local.  
- Dos secciones claramente separadas:  
  1. **Consultas al Informe Financiero (PDF)**  
     - Bot√≥n **Cargar PDF**  
     - Cuadro de texto y bot√≥n **Enviar consulta PDF**  
     - Caja de texto para el estado del PDF  
  2. **Conversi√≥n de Moneda**  
     - Cuadro de texto para la frase de conversi√≥n (p.ej. `150 EUR a USD`)  
     - Bot√≥n **Convertir**  
     - Caja de texto para el resultado de la conversi√≥n  

---

## 2. Capa de Orquestaci√≥n (Backend)

- **Controlador Gradio**  
  - Captura eventos de los botones y mapea a las funciones Python:  
    - `load_pdf`  
    - `answer_pdf_query`  
    - `answer_conversion_query`  
- **Estado Global**  
  - `vectorstore` y `qa_chain` se inicializan tras cargar el PDF.  
  - La herramienta de conversi√≥n es independiente de ese estado y siempre est√° disponible.

---

## 3. Pipeline RAG para QA sobre PDF

1. **Document Loader**  
   - `PyPDFLoader` o `UnstructuredPDFLoader` fragmenta el PDF en trozos sem√°nticos.  
2. **Embeddings**  
   - `OpenAIEmbeddings` convierte cada fragmento en un vector de punto flotante.  
3. **Vector Store**  
   - `FAISS` indexa localmente todos los vectores para b√∫squeda de similitud.  
4. **RetrievalQA Chain**  
   - Al recibir una pregunta:  
     - Recupera los fragmentos m√°s relevantes de FAISS.  
     - Pasa esos fragmentos a `ChatOpenAI` para generar la respuesta final.

---

## 4. Servicio de Conversi√≥n de Moneda

- **Parser Regex** en `answer_conversion_query` detecta patrones:  

## C) Mejoras Futuras

- **Preprocesamiento avanzado**: soportar OCR (PDF escaneados) y extraer metadatos (fecha, autor).  
- **UI m√°s rica**: a√±adir historial de consultas y chat continuo para contextualizar preguntas.  
- **Persistencia del √≠ndice**: guardar el vectorstore en disco o en un servicio gestionado para evitar reindexar.  
- **Nuevas herramientas**: incorporar calculadora financiera y generaci√≥n de gr√°ficos din√°micos.  
- **Optimizaci√≥n y cach√©**: batch de embeddings, caching de conversiones de divisas y l√≠mites de tama√±o de archivo.  


In [2]:
import sys
import subprocess

def silent_install(package):
    try:
        subprocess.check_call(
            [sys.executable, "-m", "pip", "install", package],
            stdout=subprocess.DEVNULL,
            stderr=subprocess.DEVNULL
        )
        print(f"‚úÖ {package} instalado (o ya estaba).")
    except Exception as e:
        print(f"‚ùå Error instalando {package}: {e}")

# Lista de paquetes
packages = [
    "openai",
    "faiss-cpu",
    "gradio",
    "requests",
    "pypdf",
    "langchain-community",
    "tiktoken",
    "langchain[pypdf]"
]

for pkg in packages:
    silent_install(pkg)


‚úÖ openai instalado (o ya estaba).
‚úÖ faiss-cpu instalado (o ya estaba).
‚úÖ gradio instalado (o ya estaba).
‚úÖ requests instalado (o ya estaba).
‚úÖ pypdf instalado (o ya estaba).
‚úÖ langchain-community instalado (o ya estaba).
‚úÖ tiktoken instalado (o ya estaba).
‚úÖ langchain[pypdf] instalado (o ya estaba).


In [1]:
import os
import re
import requests
import gradio as gr
from dotenv import load_dotenv

# Carga variables de entorno desde .env (si existe)
if os.path.exists(".env"):
    load_dotenv(".env")

# Compatibilidad con loaders de PDF
try:
    from langchain.document_loaders import PyPDFLoader as PDFLoader
except ImportError:
    from langchain.document_loaders import UnstructuredPDFLoader as PDFLoader

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# Inicializar LLM y embeddings
env_api_key = os.getenv("OPENAI_API_KEY") or "OPENAI_API_KEY"
llm = ChatOpenAI(openai_api_key=env_api_key, temperature=0)
embeddings = OpenAIEmbeddings(openai_api_key=env_api_key)

# Variables globales para PDF QA
global vectorstore, qa_chain
vectorstore = None
qa_chain = None

# -------------------------------------
# Tool de conversi√≥n de divisas (no requiere API key)
def convert_currency(amount: float, from_currency: str, to_currency: str) -> str:
    """Convierte amount de from_currency a to_currency usando open.er-api.com (sin API key)"""
    url = f"https://open.er-api.com/v6/latest/{from_currency.upper()}"
    try:
        resp = requests.get(url, timeout=10)
        resp.raise_for_status()
        data = resp.json()
        if data.get("result") != "success":
            return f"‚ùå API error: {data.get('error-type', data)}"
        rates = data.get("rates", {})
        rate = rates.get(to_currency.upper())
        if rate is None:
            return f"‚ùå Tasa no encontrada para {to_currency.upper()}. Disponible: {list(rates.keys())[:5]}..."
        converted = rate * amount
        return f"{amount:.2f} {from_currency.upper()} = {converted:.2f} {to_currency.upper()}"
    except Exception as e:
        return f"‚ùå Error en conversi√≥n: {e}"
# -------------------------------------

# Carga y preparaci√≥n del PDF para RAG

def load_pdf(pdf_file):
    """Carga el PDF, construye vectorstore y la cadena RAG para QA"""
    global vectorstore, qa_chain #vectorstore: Indice vectorial del contenido del PDF, qa_chain: Cadena RAG configurada para responder preguntas.
    try:
        loader = PDFLoader(pdf_file.name) # PDFLoader: Cargador de PDFs (LangChain).
        docs = loader.load_and_split() # Lee el PDF y Divide su contenido en fragmentos para poder vectorizarlos de forma eficiente. Obtiendo una lista de documentos.
        # FAISS: Es una librer√≠a de Facebook para b√∫squedas r√°pidas en vectores.
        # Aqu√≠ se convierten los fragmentos de texto en vectores usando los embeddings.
        # Luego, se almacenan los vectores en un √≠ndice FAISS para poder buscar contenido similar al hacer preguntas.
        vectorstore = FAISS.from_documents(docs, embeddings)
        # Se crea una cadena RAG (Retrieval-Augmented Generation).
        # llm=llm: Modelo de lenguaje.
        # chain_type="stuff": Tipo b√°sico de cadena donde se "inyectan" los textos recuperados directamente al LLM.
        # retriever=vectorstore.as_retriever(): Conectas el √≠ndice vectorial para que, al recibir una pregunta, busque los fragmentos relevantes del PDF.
        # return_source_documents=False: Solo devuelve la respuesta, sin mostrar los documentos fuente.
        qa_chain = RetrievalQA.from_chain_type(
            llm=llm,
            chain_type="stuff",
            retriever=vectorstore.as_retriever(),
            return_source_documents=False
        )
        return "üìÑ PDF cargado y listo para consultas"
    except Exception as exc:
        return f"‚ùå Error al cargar PDF: {exc}"

# Funciones de respuesta separadas

def answer_pdf_query(query: str) -> str:
    """Responde preguntas sobre el PDF usando RAG"""
    if qa_chain is None:
        return "‚ö†Ô∏è Primero carga un PDF antes de preguntar al informe."
    try:
        return qa_chain.run(query)
    except Exception as e:
        return f"‚ùå Error al generar respuesta PDF: {e}"


def answer_conversion_query(query: str) -> str:
    """Responde conversiones de moneda independientemente del PDF"""
    # Regex: cantidad + 3-letras + 'a'|'en' + 3-letras
    match = re.search(r"([0-9]+(?:\.[0-9]+)?)\s*([A-Za-z]{3})\s+(?:a|en)\s+([A-Za-z]{3})", query)
    if match:
        amt, frm, to = match.groups()
        try:
            return convert_currency(float(amt), frm, to)
        except Exception as e:
            return f"‚ùå Error interno conversi√≥n: {e}"
    return "‚ö†Ô∏è Usa formato: '<monto> <MONEDA_ORIGEN> a|en <MONEDA_DESTINO>' (p.ej. '100 USD a EUR')"

# Construcci√≥n de la interfaz Gradio
demo = gr.Blocks()
with demo:
    gr.Markdown("""
                  <center><h1>Banco Guayaquil</h1></center>
                  <center><h3>Asistente Financiero: PDF + Conversi√≥n de Moneda</h3></center>
               """)

    # Secci√≥n PDF QA
    gr.Markdown("## Consultas al Informe Financiero (PDF)")
    with gr.Row():
        pdf_input = gr.File(label="Sube tu informe financiero (PDF)")
        pdf_load_btn = gr.Button("Cargar PDF")
    status = gr.Textbox(label="Estado PDF", interactive=False)
    pdf_query = gr.Textbox(label="Pregunta", lines=2, placeholder="Pregunta al informe... (p.ej. 'Total de activos 2021')")
    pdf_submit = gr.Button("Enviar consulta PDF")
    pdf_output = gr.Textbox(label="Respuesta PDF", interactive=False)

    pdf_load_btn.click(fn=load_pdf, inputs=pdf_input, outputs=status)
    pdf_submit.click(fn=answer_pdf_query, inputs=pdf_query, outputs=pdf_output)

    # Secci√≥n Conversi√≥n de Moneda
    gr.Markdown("## Conversi√≥n de Moneda")
    conv_query = gr.Textbox(label="Pregunta", lines=1, placeholder="Ej. '150 EUR a USD'")
    conv_btn = gr.Button("Convertir")
    conv_output = gr.Textbox(label="Resultado Conversi√≥n", interactive=False)

    conv_btn.click(fn=answer_conversion_query, inputs=conv_query, outputs=conv_output)

# Lanzar en Jupyter / Notebook con share URL
demo.launch(share=True)


  llm = ChatOpenAI(openai_api_key=env_api_key, temperature=0)
  embeddings = OpenAIEmbeddings(openai_api_key=env_api_key)


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://ca8388c25bec55be9e.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


