# üìù Ejercicio Pr√°ctico de RAG: An√°lisis Financiero de Gigantes Tecnol√≥gicos

**¬°Bienvenido/a a tu primer gran proyecto como analista de IA!**

## Misi√≥n

Tu tarea es construir un sistema de Consulta y Respuesta (Q&A) utilizando RAG para analizar y comparar los √∫ltimos informes financieros anuales (conocidos como **10-K**) de cuatro de las empresas m√°s grandes del mundo: **Apple, Google (Alphabet), Microsoft y Meta**. 

Utilizar√°s las habilidades que has aprendido en los notebooks anteriores para cargar estos documentos desde la web, dividirlos en fragmentos (chunks), indexarlos en una base de datos vectorial con FAISS y construir una cadena de LangChain para hacerles preguntas complejas.

## Objetivos de Aprendizaje

1.  Aplicar el flujo de trabajo de RAG a un caso de uso del mundo real con documentos complejos.
2.  Manejar m√∫ltiples fuentes de datos y distinguirlas usando metadatos.
3.  Practicar la construcci√≥n de una cadena RAG de alto nivel con LangChain.
4.  Formular preguntas que requieran b√∫squeda, extracci√≥n y s√≠ntesis de informaci√≥n de distintos documentos.

### **Paso 0: Instalaci√≥n y Configuraci√≥n**

Aseg√∫rate de tener todas las librer√≠as necesarias y de configurar tus claves de API.

In [None]:
# Descomenta y ejecuta si es necesario
# !pip install langchain langchain-openai langchain-google-genai langchain-community faiss-cpu beautifulsoup4

import os

# TODO: Configura tus claves de API aqu√≠
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"
os.environ["GEMINI_API_KEY"] = "YOUR_GEMINI_API_KEY"
# os.environ["COHERE_API_KEY"] = "YOUR_COHERE_API_KEY"

print("Configuraci√≥n lista.")

### **Parte 1: Recolecci√≥n de Datos (C√≥digo Proporcionado)**

Te proporcionamos los enlaces a los √∫ltimos informes 10-K de cada empresa, directamente desde la base de datos EDGAR de la SEC (Comisi√≥n de Bolsa y Valores de EE. UU.).

Usaremos `WebBaseLoader` de LangChain para cargar el contenido de estas URLs. Un paso **crucial** que hemos a√±adido es un bucle para a√±adir el nombre de la empresa a los **metadatos** de cada documento cargado. Esto ser√° fundamental m√°s adelante para saber de qu√© empresa proviene cada fragmento de informaci√≥n.

In [None]:
from langchain_community.document_loaders import WebBaseLoader

urls = {
    "apple": "https://www.sec.gov/Archives/edgar/data/320193/000032019323000106/aapl-20230930.htm",
    "google": "https://www.sec.gov/Archives/edgar/data/1652044/000165204424000022/goog-20231231.htm",
    "microsoft": "https://www.sec.gov/Archives/edgar/data/789019/000095017023035122/msft-20230630.htm",
    "meta": "https://www.sec.gov/Archives/edgar/data/1326801/000132680124000012/meta-20231231.htm"
}

all_documents = []
print("Cargando documentos desde la web... Esto puede tardar un momento.")

for company, url in urls.items():
    print(f"Cargando informe de {company.capitalize()}...")
    loader = WebBaseLoader(url)
    # Cargamos los documentos de la URL
    company_docs = loader.load()
    # A√±adimos el nombre de la empresa a los metadatos de cada documento
    for doc in company_docs:
        doc.metadata['company'] = company
    all_documents.extend(company_docs)

print(f"\nCarga completa. Total de documentos cargados: {len(all_documents)}")
print("Ejemplo de metadatos del primer documento:", all_documents[0].metadata)

### **Parte 2: Chunking de los Documentos (¬°Tu Turno!)**

Los informes 10-K son extremadamente largos. Necesitas dividirlos en chunks manejables. Usa `RecursiveCharacterTextSplitter` para esta tarea. Elige un tama√±o de chunk y un solapamiento que consideres adecuados para textos densos como estos.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# TODO: Instancia el RecursiveCharacterTextSplitter.
# Pista: Un chunk_size entre 1500 y 2500 y un chunk_overlap de 100-200 suele funcionar bien.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000, 
    chunk_overlap=200
)

# TODO: Divide los `all_documents` en `all_chunks`.
all_chunks = text_splitter.split_documents(all_documents)

print(f"Documentos divididos en {len(all_chunks)} chunks.")
print("\n--- Ejemplo de un Chunk ---")
print("Contenido:", all_chunks[100].page_content[:300] + "...")
print("Metadatos:", all_chunks[100].metadata)

### **Parte 3: Creaci√≥n de la Base de Datos Vectorial (¬°Tu Turno!)**

Ahora, convierte tus chunks en vectores y almac√©nalos en una base de datos FAISS. 

1.  Elige e instancia un modelo de embeddings (`OpenAIEmbeddings`, `GoogleGenerativeAIEmbeddings`, etc.).
2.  Usa `FAISS.from_documents()` para crear el √≠ndice vectorial. ¬°Prep√°rate, este paso consumir√° llamadas a la API y puede tardar unos minutos!

In [None]:
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
# O puedes usar: from langchain_google_genai import GoogleGenerativeAIEmbeddings

# TODO: 1. Instancia tu modelo de embeddings preferido.
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

print("Generando embeddings y creando el vector store FAISS... Paciencia.")
# TODO: 2. Crea el vector store FAISS a partir de `all_chunks` y el modelo de `embeddings`.
vectorstore = FAISS.from_documents(all_chunks, embeddings)

print("\n¬°Vector store creado con √©xito!")

### **Parte 4: Construcci√≥n de la Cadena de RAG (¬°Tu Turno!)**

Es hora de ensamblar la cadena que responder√° a nuestras preguntas. 

1.  Crea un `retriever` a partir del `vectorstore`.
2.  Elige un `ChatModel` para la generaci√≥n de la respuesta.
3.  Define un `prompt` (puedes usar `hub.pull("rlm/rag-prompt")` o crear el tuyo).
4.  Une todo usando el LangChain Expression Language (LCEL).

In [None]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain import hub

# TODO: 1. Crea un retriever a partir del vectorstore. 
# Pista: .as_retriever() puede tomar argumentos como search_kwargs={"k": 3} para definir cu√°ntos chunks recuperar.
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# TODO: 2. Instancia tu LLM preferido.
llm = ChatOpenAI(model="gpt-4o-mini")

# 3. Un prompt gen√©rico para RAG.
prompt = hub.pull("rlm/rag-prompt")

def format_docs(docs):
    return "\n\n".join(f"Fuente: {doc.metadata.get('company', 'desconocida')}\n{doc.page_content}" for doc in docs)

# TODO: 4. Define la cadena RAG usando LCEL. 
# La estructura `{"context": retriever | format_docs, "question": RunnablePassthrough()}` es un excelente punto de partida.
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

print("Cadena RAG lista para recibir preguntas.")

### **Parte 5: ¬°A Preguntar! El Momento de la Verdad**

Usa la `rag_chain` que has construido para responder a las siguientes preguntas. Analiza las respuestas y piensa si son correctas y completas.

**Consejo:** Si una respuesta no es buena, ¬°intenta reformular la pregunta! La forma en que preguntas (Prompt Engineering) es tan importante como el sistema RAG en s√≠.

In [None]:
pregunta_1 = "Resume los principales factores de riesgo de negocio mencionados por Meta en su informe."
print(f'--- Pregunta: {pregunta_1} ---')
# TODO: Invoca la cadena con la pregunta 1
# respuesta_1 = rag_chain.invoke(pregunta_1)
# print(respuesta_1)


In [None]:
pregunta_2 = "¬øCu√°l fue el total de ingresos (Total Revenues) de Apple y Microsoft en su √∫ltimo a√±o fiscal reportado? Cita las cifras y comp√°ralas."
print(f'--- Pregunta: {pregunta_2} ---')
# TODO: Invoca la cadena con la pregunta 2
# respuesta_2 = rag_chain.invoke(pregunta_2)
# print(respuesta_2)

In [None]:
pregunta_3 = "Busca la frase 'Artificial Intelligence' en los documentos de Google y Microsoft. ¬øQu√© puedes inferir sobre la importancia que le dan a la IA bas√°ndote en el contexto donde aparece?"
print(f'--- Pregunta: {pregunta_3} ---')
# TODO: Invoca la cadena con la pregunta 3
# respuesta_3 = rag_chain.invoke(pregunta_3)
# print(respuesta_3)

In [None]:
pregunta_desafio = "Bas√°ndote en las secciones de 'Risk Factors', ¬øqu√© riesgo com√∫n relacionado con la ciberseguridad o la privacidad de datos mencionan tanto Apple como Meta?"
print(f'--- Pregunta de Desaf√≠o: {pregunta_desafio} ---')
# TODO: Invoca la cadena con la pregunta de desaf√≠o
# respuesta_desafio = rag_chain.invoke(pregunta_desafio)
# print(respuesta_desafio)

## Conclusi√≥n y Pistas Finales

¬°Enhorabuena! Has completado un proyecto de RAG de principio a fin sobre un caso de uso complejo y realista. 

**Para reflexionar:**
* ¬øFueron las respuestas siempre correctas? ¬øEn qu√© casos fall√≥ el sistema?
* ¬øC√≥mo podr√≠a mejorarse el sistema? (¬øChunks m√°s grandes/peque√±os? ¬øOtro modelo de embedding? ¬øUn prompt m√°s detallado?).
* La funci√≥n `format_docs` que te dimos incluye el nombre de la empresa. ¬øC√≥mo te ayud√≥ esto a verificar las respuestas del LLM?

Este ejercicio demuestra que la potencia de los LLMs se multiplica cuando los conectamos a datos espec√≠ficos y relevantes. ¬°Ahora tienes la base para construir aplicaciones de IA mucho m√°s potentes!