# 02_embeddings_retrieval.ipynb
Este notebook genera embeddings de las 50 noticias obtenidas del feed RSS de RPP Perú y las almacena en ChromaDB. Luego, ejecuta una búsqueda semántica de ejemplo usando LangChain.

In [None]:
import os, sys
!pip install -q -r requirements.txt
sys.path.append(os.path.abspath('.'))

from src.rss_loader import load_rpp_rss
from src.embeddings_store import embed_texts, get_chroma_collection, upsert_news
from src.retriever import query_similar
import pandas as pd

print(' Librerías cargadas correctamente')

In [None]:
# Cargar las últimas 50 noticias desde RPP
items = load_rpp_rss(limit=50, export_path='data/processed/rpp_latest.json')
print(f'Noticias descargadas: {len(items)}')
pd.DataFrame(items).head(3)

In [None]:
# 2️Generar embeddings y guardarlos en Chroma
texts = [f"{it['title']} {it['description']}" for it in items]
embeddings = embed_texts(texts)
collection = get_chroma_collection()
upsert_news(collection, items, embeddings)
print('Embeddings generados y almacenados en ChromaDB')

In [None]:
# 3️Consulta semántica de ejemplo
query = 'Últimas noticias de economía'
df = query_similar(collection, query, top_k=5)
df.head()