# üéì RAG Simple - Buscador de Pr√°cticas Loyola

Versi√≥n simplificada del sistema RAG **sin chunking**.
- Carga documentos completos
- ChromaDB con limpieza autom√°tica
- Prompt simple

In [1]:
import os
import shutil
from pathlib import Path
from dotenv import load_dotenv

from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_groq import ChatGroq
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableParallel

load_dotenv()
print("‚úÖ Dependencias cargadas")

  from .autonotebook import tqdm as notebook_tqdm


‚úÖ Dependencias cargadas


In [2]:
# Configuraci√≥n
DATA_DIR = "../data"
CHROMA_DIR = "../chroma_db"

# IMPORTANTE: Limpiar base de datos anterior para evitar duplicados
if os.path.exists(CHROMA_DIR):
    shutil.rmtree(CHROMA_DIR)
    print(f"üóëÔ∏è  Base de datos anterior eliminada")

print(f"üìÇ Directorio de datos: {DATA_DIR}")
print(f"üíæ Directorio ChromaDB: {CHROMA_DIR}")

üìÇ Directorio de datos: ../data
üíæ Directorio ChromaDB: ../chroma_db


In [3]:
# Cargar documentos COMPLETOS (sin chunking)
loader = DirectoryLoader(
    DATA_DIR, glob="**/*.md", loader_cls=TextLoader, loader_kwargs={"encoding": "utf-8"}
)
documents = loader.load()

# Agregar metadata
for doc in documents:
    file_path = Path(doc.metadata.get("source", ""))
    doc.metadata["company_name"] = file_path.stem

print(f"‚úÖ Documentos cargados: {len(documents)}")
for doc in documents:
    print(f"   - {doc.metadata['company_name']}: {len(doc.page_content)} caracteres")

‚úÖ Documentos cargados: 7
   - Alvaro_Moreno: 1119 caracteres
   - Bida_Farma: 1735 caracteres
   - Endesa: 1586 caracteres
   - Grupo_Hermanos_Martin: 1725 caracteres
   - Heineken: 1741 caracteres
   - Migasa_Aceites: 1830 caracteres
   - Persan: 1587 caracteres


In [4]:
# Modelo de Embeddings
print("üîÑ Cargando modelo de embeddings...")
embedding_model = HuggingFaceEmbeddings(
    model_name="paraphrase-multilingual-MiniLM-L12-v2"
)
print("‚úÖ Modelo cargado")

üîÑ Cargando modelo de embeddings...


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


‚úÖ Modelo cargado


In [5]:
# Crear base de datos vectorial CON DOCUMENTOS COMPLETOS
print("üîÑ Creando base de datos vectorial...")
vectorstore = Chroma.from_documents(
    documents=documents,  # Sin chunking - documentos completos
    embedding=embedding_model,
    persist_directory=CHROMA_DIR,
)
print(f"‚úÖ Base de datos creada con {len(documents)} documentos")

üîÑ Creando base de datos vectorial...
‚úÖ Base de datos creada con 7 documentos


In [6]:
# Configurar LLM
llm = ChatGroq(
    groq_api_key=os.getenv("GROQ_API_KEY"), model_name="llama-3.3-70b-versatile"
)
print("‚úÖ LLM configurado")

‚úÖ LLM configurado


In [7]:
# Retriever simple
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})  # Solo 1 documento
print("‚úÖ Retriever configurado")

‚úÖ Retriever configurado


In [8]:
# Prompt simple
system_prompt = """Eres un asesor de carreras de la Universidad Loyola.
Usa SOLO la informaci√≥n del contexto para responder.
Si el contexto tiene datos sobre una empresa, recomi√©ndala.

CONTEXTO:
{context}"""

prompt = ChatPromptTemplate.from_messages(
    [("system", system_prompt), ("human", "{input}")]
)
print("‚úÖ Prompt configurado")

‚úÖ Prompt configurado


In [9]:
# Cadena RAG
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    RunnableParallel(
        {
            "context": (lambda x: x["input"]) | retriever | format_docs,
            "input": lambda x: x["input"],
        }
    )
    | prompt
    | llm
    | StrOutputParser()
)
print("‚úÖ Cadena RAG construida")

‚úÖ Cadena RAG construida


In [10]:
# TEST: Pregunta sobre moda
query = "¬øQu√© empresa me recomiendas si me gusta la cerveza?"

print("=" * 60)
print("‚ùì PREGUNTA:", query)
print("=" * 60)

response = rag_chain.invoke({"input": query})

print("\nüí° RESPUESTA:")
print(response)

‚ùì PREGUNTA: ¬øQu√© empresa me recomiendas si me gusta la cerveza?

üí° RESPUESTA:
Si te gusta la cerveza, te recomiendo la empresa **Heineken Espa√±a SA**. Es una empresa l√≠der en la fabricaci√≥n y comercializaci√≥n de cervezas, con una larga trayectoria y una gran variedad de productos. Adem√°s, seg√∫n la informaci√≥n proporcionada, la empresa tiene un gran tama√±o y una s√≥lida situaci√≥n financiera, lo que podr√≠a ser atractivo para aquellos que buscan una carrera estable y con oportunidades de crecimiento.


In [11]:
# TEST: Pregunta sobre crecimiento
query2 = "Busco una empresa con buenos resultados financieros"

print("=" * 60)
print("‚ùì PREGUNTA:", query2)
print("=" * 60)

response2 = rag_chain.invoke({"input": query2})

print("\nüí° RESPUESTA:")
print(response2)

‚ùì PREGUNTA: Busco una empresa con buenos resultados financieros

üí° RESPUESTA:
Bas√°ndome en la informaci√≥n proporcionada, te recomiendo considerar a **Heineken Espa√±a SA**. Esta empresa presenta algunos indicadores financieros destacados, como:

* Ventas de 1.035.322.984 euros en 2024, lo que sugiere una gran escala de operaciones.
* Un margen EBITDA del 17,9% en 2024, lo que indica una buena gesti√≥n de los costos y una alta rentabilidad.
* Un margen neto del 20,1% en 2024, lo que sugiere una alta eficiencia en la generaci√≥n de beneficios.
* Un total de activos de 1.170.475.863 euros en 2024, lo que indica una gran solidez financiera.
* Un n√∫mero de empleados de 1.392, lo que sugiere una empresa con una gran capacidad de producci√≥n y distribuci√≥n.

En general, los indicadores financieros de Heineken Espa√±a SA sugieren que se trata de una empresa con una s√≥lida posici√≥n en el mercado y una buena gesti√≥n financiera. Sin embargo, es importante tener en cuenta que la inform

In [12]:
# Funci√≥n simple para consultas
def consultar(pregunta):
    return rag_chain.invoke({"input": pregunta})


# Ejemplo de uso:
consultar("Mi madre es farmace√∫tica, ¬øqu√© empresa me recomiendas?")

'Considerando que tu madre es farmac√©utica, te recomiendo la empresa **Bida Farma**. Esta empresa se dedica a la distribuci√≥n de productos farmac√©uticos y tiene una gran cantidad de empleados (1687) y un capital social significativo (131.183.618 EUR). Esto sugiere que es una empresa estable y con recursos para ofrecer oportunidades laborales y de crecimiento en el sector farmac√©utico. Adem√°s, su ubicaci√≥n en Sevilla, Espa√±a, podr√≠a ser conveniente si est√°s buscando oportunidades en esa regi√≥n.'