In [2]:
#Primero importamos algunas librerias necesarias para el procesamiento de los códigos:

!pip install ipywidgets
import csv
import os
from pathlib import Path
import feedparser
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import math
import json
from datetime import datetime



In [3]:
#Seguimos... 

# Imports de ML/embeddings - deben estar instalados
try:
 from sentence_transformers import SentenceTransformer # para generar embeddings 
except Exception as e:
 SentenceTransformer = None
try:
 import tiktoken #para contar tokens
except Exception:
 tiktoken = None
try:
 import chromadb # para la base de datos vectorial 
 from chromadb.config import Settings
 from chromadb.utils import embedding_functions #funciones de embeddings
except Exception:
 chromadb = None
# LangChain - conecta los pasos en un pipeline
try:
 from langchain.schema import Document
 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.vectorstores import Chroma
 from langchain.chains import SimpleSequentialChain, LLMChain
 from langchain.prompts import PromptTemplate
 from langchain.llms import OpenAI
except Exception:

 pass

In [4]:
#Configuración inicial: 
RPP_RSS_URL = "https://rpp.pe/rss"
MAX_ITEMS = 50
PERSIST_DIRECTORY = "./chroma_rpp_db"
CHROMA_COLLECTION_NAME = "rpp_news"
EMBEDDING_MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"

In [5]:
import requests
import feedparser
import pandas as pd
from datetime import datetime

#Cargamos la data: Parseamos el feed RSS y extraemos hasta 50 (max items) entradas

def fetch_rss_items(rss_url: str, max_items: int = 50):
    try:
        # ⚙️ Usa requests para obtener el XML ignorando SSL
        response = requests.get(rss_url, verify=False, timeout=10)
        response.raise_for_status()  # error si el request falla
        feed = feedparser.parse(response.text)
    except Exception as e:
        print(f"Error al descargar o parsear feed: {e}")
        return pd.DataFrame()

    entries = feed.get("entries", [])[:max_items]
    records = [] #lista para almacenar los datos
    for e in entries:
        title = e.get("title", "") #título
        description = e.get("description", "") #descripción
        link = e.get("link", "") #enlace
        published = e.get("published", "") #fecha de publicación
        #Normalizamos la fecha si esta en formato parsed
        try:
            published_parsed = e.get("published_parsed")
            if published_parsed:
                published = datetime(*published_parsed[:6]).isoformat()
        except Exception:
            pass
        records.append({
            "title": title,
            "description": description,
            "link": link,
            "date_published": published,
        })
    return pd.DataFrame(records) #convertimos a dataframe


In [6]:
RPP_RSS_URL = "https://rpp.pe/rss"
df = fetch_rss_items(RPP_RSS_URL, 50)
print(f"Fetched {len(df)} items")
df.head(5)





Fetched 50 items


Unnamed: 0,title,description,link,date_published
0,Nicolás Maduro anuncia nuevos ejercicios milit...,Maduro sostuvo que a la medianoche de este jue...,https://rpp.pe/mundo/actualidad/nicolas-maduro...,2025-10-23T22:47:59
1,Latin Billboard 2025: lista completa de nomina...,"En esta edición, Bad Bunny encabeza las nomina...",https://rpp.pe/musica/internacional/latin-bill...,2025-10-23T22:45:15
2,Universitario vs. Sporting Cristal hoy EN VIVO...,Sporting Cristal recibe a Universitario en un ...,https://rpp.pe/futbol/descentralizado/universi...,2025-10-23T22:45:08
3,Cristian Castro jugó fútbol con sus fans en Li...,¡Ya está en Lima! A pocas horas de su conciert...,https://rpp.pe/famosos/celebridades/cristian-c...,2025-10-23T21:42:51
4,Cronograma del octavo retiro de AFP 2025 sigue...,El desembolso se efectuará hasta en cuatro arm...,https://rpp.pe/economia/economia/octavo-retiro...,2025-10-23T22:40:03


In [7]:
import math

# TOKENIZATION: un articulo de ejemplo utilizando tiktoken
def count_tokens_tiktoken(text: str, model_name: str = "gpt-4o-mini") -> int:
    """
    Use tiktoken if available. Provide a fallback token estimation (approx 4 chars/token).
    """
    if tiktoken is None:
        return max(1, math.ceil(len(text) / 4))
    try:
        enc = tiktoken.encoding_for_model(model_name)
    except Exception:
        try:
            enc = tiktoken.get_encoding("cl100k_base")
        except Exception:
            return max(1, math.ceil(len(text) / 4))
    return len(enc.encode(text))


In [8]:
# Creamos un "sample" de texto del primer item RSS
sample_text = (df.loc[0, "title"] or "") + "\n\n" + (df.loc[0, "description"] or "")

num_tokens = count_tokens_tiktoken(sample_text)
print("Sample tokens:", num_tokens)

Sample tokens: 70


In [9]:
# Decidimos si el chinking se necesita
MODEL_TOKEN_LIMIT = 4096
CHUNK_TOKEN_TARGET = 1000  # target de tokens por chunk
needs_chunking = num_tokens > CHUNK_TOKEN_TARGET
print("Needs chunking?", needs_chunking)

Needs chunking? False


In [10]:
# Chunking helper (naive words-based — can replace with tiktoken-based chunker)
def chunk_text(text: str, chunk_size_chars: int = 2000):
    """Naive chunk by characters preserving whole words."""
    words = text.split()
    chunks = []
    cur = []
    cur_len = 0
    for w in words:
        if cur_len + len(w) + 1 > chunk_size_chars:
            chunks.append(" ".join(cur))
            cur = [w]
            cur_len = len(w) + 1
        else:
            cur.append(w)
            cur_len += len(w) + 1
    if cur:
        chunks.append(" ".join(cur))
    return chunks


# Example chunk preview
if needs_chunking:
    chunks = chunk_text(sample_text, chunk_size_chars=1500)
    print("Chunks created:", len(chunks))
    for i, c in enumerate(chunks[:2]):
        print(i, "len chars:", len(c))

In [11]:
# %%
import numpy as np

# EMBEDDING: Utilizamos SentenceTransformers
def load_sentence_transformer(model_name: str = EMBEDDING_MODEL_NAME):
    #Cargamos el modelo SentenceTransformers
    if SentenceTransformer is None:
        raise ImportError("sentence-transformers not installed. Install from requirements.txt")
    model = SentenceTransformer(model_name)
    return model


In [12]:
# Embeddings model wrapper
class EmbeddingModel:
    def __init__(self, model_name=EMBEDDING_MODEL_NAME):
        self.model_name = model_name
        self.model = None

    def load(self):
        self.model = load_sentence_transformer(self.model_name)

    def embed_texts(self, texts: list) -> np.ndarray:
        if self.model is None:
            self.load()
        return np.array(self.model.encode(texts, show_progress_bar=True)) #genera embeddings



In [13]:
# Preparamos documentos para el embed: combinamos título + descripción, chunking si es necesario
docs = []
for idx, row in df.iterrows():
    text = (row["title"] or "") + "\n\n" + (row["description"] or "")
    if count_tokens_tiktoken(text) > CHUNK_TOKEN_TARGET:
        text_chunks = chunk_text(text, chunk_size_chars=1500)
        for ci, c in enumerate(text_chunks):
            docs.append({
                "id": f"{idx}_chunk{ci}",
                "text": c,
                "metadata": {
                    "orig_index": int(idx),
                    "chunk_id": ci,
                    "title": row["title"],
                    "link": row["link"],
                    "date_published": row["date_published"],
                },
            })
    else:
        docs.append({
            "id": f"{idx}",
            "text": text,
            "metadata": {
                "orig_index": int(idx),
                "chunk_id": 0,
                "title": row["title"],
                "link": row["link"],
                "date_published": row["date_published"],
            },
        })

print("Total de documentos para el embed:", len(docs))
print("Ejemplo de doc.:", docs[0])


Total de documentos para el embed: 50
Ejemplo de doc.: {'id': '0', 'text': 'Nicolás Maduro anuncia nuevos ejercicios militares en las costas de Venezuela por 72 horas\n\nMaduro sostuvo que a la medianoche de este jueves llamó a "quienes tenía que llamar" y dio la orden de activar todos los equipos militares "de inmediato" para la defensa de los "puntos de acción" en toda la costa de Venezuela.', 'metadata': {'orig_index': 0, 'chunk_id': 0, 'title': 'Nicolás Maduro anuncia nuevos ejercicios militares en las costas de Venezuela por 72 horas', 'link': 'https://rpp.pe/mundo/actualidad/nicolas-maduro-anuncia-nuevos-ejercicios-militares-en-las-costas-de-venezuela-por-72-horas-noticia-1660705', 'date_published': '2025-10-23T22:47:59'}}


In [14]:

emb = EmbeddingModel() #Creamos instancia del modelo de embeddings

# Para demo/testeo:
embeddings = np.random.randn(len(docs), 384).astype(np.float32)

print("Embeddings shape:", embeddings.shape)

Embeddings shape: (50, 384)


In [15]:
#Creamos collección Chroma:
def init_chroma(persist_directory: str = PERSIST_DIRECTORY, embedding_function=None):
    
    # Verificar instalación de chromadb
    try:
        import chromadb
        from chromadb.config import Settings
    except ImportError:
        raise ImportError("chromadb not installed. Please install it via 'pip install chromadb'.")

    # Creamos cliente con configuración
    client = chromadb.Client(
        Settings(
            chroma_db_impl="duckdb+parquet",
            persist_directory=persist_directory
        )
    )

    # Creamos o recuperamos colección
    collection = client.get_or_create_collection(
        name=CHROMA_COLLECTION_NAME,
        embedding_function=embedding_function
    )

    return client, collection


In [16]:
# Resultados Query: ejemplo de busqueda por similitud
def chroma_similarity_search(collection, query_embedding, top_k=5):
    """
    Ejecuta una búsqueda de similitud en una colección de Chroma.
    Retorna los resultados más similares según el embedding de consulta.
    """
    results = collection.query(
        query_embeddings=[query_embedding.tolist()],
        n_results=top_k,
        include=['metadatas', 'documents', 'distances']
    )
    return results


# Convertimos resultados de Chroma a DataFrame legible:
def results_to_dataframe(results):
    """
    Convierte los resultados de una búsqueda en Chroma a un DataFrame
    con columnas: title, description, link, date_published.
    """
    hits = []

    # results ... estructura: dict con 'ids', 'documents', 'metadatas', 'distances' — listas por query
    if not results or not results.get('ids'):
        return pd.DataFrame(columns=['title', 'description', 'link', 'date_published'])

    for i in range(len(results['ids'][0])):
        meta = results['metadatas'][0][i]
        doc_text = results['documents'][0][i]

        hits.append({
            'title': meta.get('title', ''),
            'description': doc_text,
            'link': meta.get('link', ''),
            'date_published': meta.get('date_published', '')
        })

    return pd.DataFrame(hits)


In [17]:
# Trabajamos con LangChain
# Modular pipeline: fetch → preparamos documentos → embed → almacenamos
def step_fetch(rss_url=RPP_RSS_URL, max_items=MAX_ITEMS):
    #Descargamos artículos RSS y la función te devuelve un DataFrame limpio.#
    return fetch_rss_items(rss_url, max_items)
def step_prepare_documents(df: pd.DataFrame):
    docs_local = []  # Lista local docs
    for idx, row in df.iterrows():
        text = (row['title'] or '') + '\n\n' + (row['description'] or '')  # Combinar texto
        if count_tokens_tiktoken(text) > CHUNK_TOKEN_TARGET:
            text_chunks = chunk_text(text, chunk_size_chars=1500)  # Chunks si largo
            for ci, c in enumerate(text_chunks):
                docs_local.append({
                    'id': f"{idx}_chunk{ci}",
                    'text': c,
                    'metadata': {
                        'orig_index': int(idx),
                        'chunk_id': ci,
                        'title': row['title'],
                        'link': row['link'],
                        'date_published': row['date_published'],
                    },
                })
        else:
            docs_local.append({
                'id': f"{idx}",
                'text': text,
                'metadata': {
                    'orig_index': int(idx),
                    'chunk_id': 0,
                    'title': row['title'],
                    'link': row['link'],
                    'date_published': row['date_published'],
                },
            })
    return docs_local  # Retornar docs preparados



In [18]:
!pip install langchain-community



In [19]:
def step_embed_and_upsert(
    docs_local,
    persist_directory=PERSIST_DIRECTORY,
    use_langchain_chroma=False
):
    """
    Crea embeddings para los documentos y los inserta (upsert) en una base Chroma.
    
    Parámetros:
    - docs_local: lista de documentos generada por step_prepare_documents().
    - persist_directory: carpeta donde se guardarán los datos de Chroma.
    - use_langchain_chroma: si True, usa la versión LangChain de Chroma.
    
    Retorna:
    - collection (Chroma) o vectordb (LangChain Chroma) según el caso.
    """
    # Cargamos modelo de embeddings
    emb_model = EmbeddingModel()
    emb_model.load()

    texts = [d["text"] for d in docs_local]
    embeddings = emb_model.embed_texts(texts)

    # Opción LangChain: usa su wrapper de Chroma
    if use_langchain_chroma:
        # --- Wrapper pequeño para usar sentence-transformers con LangChain's LCChroma ---
        from langchain_community.vectorstores import Chroma as LCChroma
        from langchain_core.documents import Document as LC_Document
        from sentence_transformers import SentenceTransformer
        import numpy as np

        class STEmbeddingsWrapper:
            """
            Wrapper que adapta sentence-transformers a la interfaz mínima
            que LangChain/Chroma espera: embed_documents(list[str]) -> List[List[float]]
            y embed_query(str) -> List[float]
            """
            def __init__(self, model_name):
                self.model = SentenceTransformer(model_name)

            def embed_documents(self, texts: list) -> list:
                embs = self.model.encode(texts, show_progress_bar=True)
                return [emb.tolist() if hasattr(emb, "tolist") else list(np.array(emb)) for emb in embs]

            def embed_query(self, text: str) -> list:
                emb = self.model.encode([text], show_progress_bar=False)[0]
                return emb.tolist() if hasattr(emb, "tolist") else list(np.array(emb))

        # Instanciar wrapper
        st_embedder = STEmbeddingsWrapper(model_name=EMBEDDING_MODEL_NAME)

        # LCChroma.from_documents espera un objeto 'embedding' con métodos embed_documents/embed_query
        vectordb = LCChroma.from_documents(
            documents=[LC_Document(page_content=d["text"], metadata=d["metadata"]) for d in docs_local],
            embedding=st_embedder,
            persist_directory=persist_directory,
            collection_name=CHROMA_COLLECTION_NAME
        )

        try:
            vectordb.persist()
        except Exception:
            pass

        return vectordb

    # Opción Chroma nativa
    else:
        client, collection = init_chroma(persist_directory)
        ids = [d["id"] for d in docs_local]
        metadatas = [d["metadata"] for d in docs_local]
        documents_texts = [d["text"] for d in docs_local]

        collection.upsert(
            ids=ids,
            embeddings=embeddings.tolist(),
            metadatas=metadatas,
            documents=documents_texts
        )

        # Chroma se guarda automáticamente si se usa persist_directory
        return collection


In [20]:

# Query wrapper usando LangChain vectorstore o raw Chroma client
def query_pipeline(
    query: str,
    top_k: int = 5,
    use_langchain_chroma: bool = False,
    vectordb=None,
    raw_collection=None
):
    """
    Ejecuta una consulta semántica sobre la base de vectores (Chroma o LangChain-Chroma).
    
    Parámetros:
    - query: texto de la búsqueda.
    - top_k: número de resultados a retornar.
    - use_langchain_chroma: True si se usa LCChroma, False si se usa Chroma nativo.
    - vectordb: objeto LangChain-Chroma si use_langchain_chroma=True.
    - raw_collection: colección nativa de Chroma si use_langchain_chroma=False.
    
    Retorna:
    - DataFrame con columnas: title | description | link | date_published
    """

    if use_langchain_chroma and vectordb is not None:
        # 🔹 LangChain wrapper
        docs = vectordb.similarity_search(query, k=top_k)
        rows = []
        for d in docs:
            rows.append({
                "title": d.metadata.get("title"),
                "description": d.page_content[:400],  # truncamos descripción
                "link": d.metadata.get("link"),
                "date_published": d.metadata.get("date_published")
            })
        return pd.DataFrame(rows)

    elif raw_collection is not None:
        # 🔹 Chroma nativo
        emb_model = EmbeddingModel()
        emb_model.load()
        q_emb = emb_model.embed_texts([query])[0]
        res = chroma_similarity_search(raw_collection, q_emb, top_k=top_k)
        dfres = results_to_dataframe(res)
        return dfres

    else:
        raise ValueError("No vector DB provided. Provide 'vectordb' (LangChain) or 'raw_collection' (Chroma client).")


In [21]:
#Hacemos un ejemplo:

df = step_fetch()
print(len(df))
df.head()





50


Unnamed: 0,title,description,link,date_published
0,Nicolás Maduro anuncia nuevos ejercicios milit...,Maduro sostuvo que a la medianoche de este jue...,https://rpp.pe/mundo/actualidad/nicolas-maduro...,2025-10-23T22:47:59
1,Latin Billboard 2025: lista completa de nomina...,"En esta edición, Bad Bunny encabeza las nomina...",https://rpp.pe/musica/internacional/latin-bill...,2025-10-23T22:45:15
2,Universitario vs. Sporting Cristal hoy EN VIVO...,Sporting Cristal recibe a Universitario en un ...,https://rpp.pe/futbol/descentralizado/universi...,2025-10-23T22:45:08
3,Cristian Castro jugó fútbol con sus fans en Li...,¡Ya está en Lima! A pocas horas de su conciert...,https://rpp.pe/famosos/celebridades/cristian-c...,2025-10-23T21:42:51
4,Cronograma del octavo retiro de AFP 2025 sigue...,El desembolso se efectuará hasta en cuatro arm...,https://rpp.pe/economia/economia/octavo-retiro...,2025-10-23T22:40:03


In [22]:
# Preparamos los documentos: combinamos titles + description y crea los textos listos para embeddings 
docs_local = step_prepare_documents(df)
print(len(docs_local))


50


In [23]:
#Creamos los embeddings y guardamos en Chroma: 

vectordb = step_embed_and_upsert(
    docs_local,
    persist_directory=PERSIST_DIRECTORY,
    use_langchain_chroma=True
)


Batches: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.23s/it]
Batches: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.09s/it]
  vectordb.persist()


In [24]:
#Ejecutamos una busqueda para ver si funciona.. 

results_df = query_pipeline(
    query="Últimas noticias de política",
    top_k=5,
    use_langchain_chroma=True,
    vectordb=vectordb
)
display(results_df)


Unnamed: 0,title,description,link,date_published
0,Congreso otorga confianza al gabinete de Ernes...,Congreso otorga confianza al gabinete de Ernes...,https://rpp.pe/politica/congreso/congreso-otor...,2025-10-23T14:59:50
1,Rafael Vela: Proceso disciplinario contra José...,Rafael Vela: Proceso disciplinario contra José...,https://rpp.pe/politica/judiciales/rafael-vela...,2025-10-23T15:00:15
2,Poder Judicial ratificó sentencia de cadena pe...,Poder Judicial ratificó sentencia de cadena pe...,https://rpp.pe/politica/judiciales/poder-judic...,2025-10-23T19:00:55
3,Poder Judicial ratificó sentencia de cadena pe...,Poder Judicial ratificó sentencia de cadena pe...,https://rpp.pe/politica/judiciales/poder-judic...,2025-10-23T19:00:55
4,Crimen en Carabayllo: asesinan a alférez de la...,Crimen en Carabayllo: asesinan a alférez de la...,https://rpp.pe/lima/policiales/crimen-a-caraba...,2025-10-23T12:55:09


In [25]:
# Guardamos outputs:
# Limpiar datos
df_clean = df.copy()
df_clean['title'] = df_clean['title'].str.replace('\n', ' ').str.replace('|', ' ')
df_clean['description'] = df_clean['description'].str.replace('\n', ' ').str.replace('|', ' ')
df_clean['description'] = df_clean['description'].str[:200] + '...'  # Truncar a 200 caracteres

results_df_clean = results_df.copy()
results_df_clean['title'] = results_df_clean['title'].str.replace('\n', ' ').str.replace('|', ' ')
results_df_clean['description'] = results_df_clean['description'].str.replace('\n', ' ').str.replace('|', ' ')
results_df_clean['description'] = results_df_clean['description'].str[:200] + '...'  # Truncar a 200 caracteres

# Guardar CSV con formato mejorado
df_clean.to_csv(
    "rpp_articles_raw_clean.csv",
    index=False,
    sep="|",
    encoding="utf-8-sig",
    quoting=csv.QUOTE_NONNUMERIC
)


results_df.to_csv(
    "rpp_query_results.csv",
    index=False,
    sep="|",                    # Usar '|' como separador
    encoding="utf-8-sig",       # Codificación compatible con Excel
    quoting=csv.QUOTE_NONNUMERIC  # Encerrar campos de texto en comillas
)