<a href="https://colab.research.google.com/github/ygmanuelog/Task-1-news-query_RPP-lab/blob/main/Untitled2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
%pip install -q feedparser tiktoken sentence-transformers chromadb langchain pandas matplotlib

import feedparser
import pandas as pd
import tiktoken
from sentence_transformers import SentenceTransformer
import chromadb

def load_rss(feed_url="https://rpp.pe/rss", limit=50):
    feed = feedparser.parse(feed_url)
    data = []
    for entry in feed.entries[:limit]:
        data.append({
            "title": entry.title,
            "description": entry.description,
            "link": entry.link,
            "published": entry.get("published", "")
        })
    df = pd.DataFrame(data)
    print(f"{len(df)} noticias cargadas desde RPP")
    return df

def count_tokens(text, model="gpt-3.5-turbo"):
    enc = tiktoken.encoding_for_model(model)
    return len(enc.encode(text))


model_name = "sentence-transformers/all-MiniLM-L6-v2"
embedder = SentenceTransformer(model_name)
print(f"Modelo de embeddings cargado: {model_name}")


client = chromadb.Client()
collection = client.get_or_create_collection("rpp_news")

def store_embeddings(df):
    texts = df["description"].tolist()
    embeddings = embedder.encode(texts)
    collection.upsert(
        documents=texts,
        embeddings=embeddings.tolist(),
        ids=[f"id_{i}" for i in range(len(df))],
        metadatas=df.to_dict(orient="records")
    )
    print(f"{len(df)} embeddings almacenados en ChromaDB")


def query_news(query, n_results=5):
    query_emb = embedder.encode([query])
    results = collection.query(
        query_embeddings=query_emb.tolist(),
        n_results=n_results
    )
    df = pd.DataFrame({
        "title": [meta.get("title", "") for meta in results["metadatas"][0]],
        "description": results["documents"][0],
        "link": [meta.get("link", "") for meta in results["metadatas"][0]],
        "date_published": [meta.get("published", "") for meta in results["metadatas"][0]]
    })
    return df

def rpp_pipeline(query="Últimas noticias de economía"):
    print("Iniciando pipeline completa...\n")
    df = load_rss()
    print("\nEjemplo de tokenización:")
    print(df['description'].iloc[0][:200], "...")
    print(f"Tokens: {count_tokens(df['description'].iloc[0])}")
    print("\nGenerando y almacenando embeddings...")
    store_embeddings(df)
    print(f"\nConsulta: {query}")
    results_df = query_news(query)
    print("\nResultados de búsqueda:\n")
    return results_df

df_results = rpp_pipeline("Últimas noticias de economía")
df_results.head(10)


Modelo de embeddings cargado: sentence-transformers/all-MiniLM-L6-v2
🚀 Iniciando pipeline completa...

50 noticias cargadas desde RPP

🔹 Ejemplo de tokenización:
¿Cuál fue el último Temblor en Chile hoy 20 de octubre y registrado por el servicio Sismológico Nacional de Chile (CSN)? Consulta los últimos sismos: magnitud y epicentro del movimiento sísmico. ...
Tokens: 53

🔹 Generando y almacenando embeddings...
50 embeddings almacenados en ChromaDB

🔍 Consulta: Últimas noticias de economía

Resultados de búsqueda:



Unnamed: 0,title,description,link,date_published
0,¿Seguirá cayendo el dólar o se estabilizará? E...,El dólar acumula una fuerte caída en las últim...,https://rpp.pe/videos/economia/seguira-cayendo...,"Mon, 20 Oct 2025 19:07:26 -0500"
1,¿Seguirá cayendo el dólar o se estabilizará? E...,El dólar acumula una fuerte caída en las últim...,https://rpp.pe/economia/economia/precio-del-do...,"Mon, 20 Oct 2025 19:10:31 -0500"
2,"Alta rotación en el MEF, SUNAT y Petroperú gen...",La alta rotación de ministros y directivos en ...,https://rpp.pe/economia/economia/ipe-alta-rota...,"Mon, 20 Oct 2025 19:00:14 -0500"
3,"Alta rotación en el MEF, SUNAT y Petroperú gen...",La alta rotación de ministros y directivos en ...,https://rpp.pe/videos/economia/alta-rotacion-e...,"Mon, 20 Oct 2025 18:45:14 -0500"
4,"Rafael Vela: ""El Tribunal Constitucional lamen...",El fiscal manifestó que tienen el derecho a cr...,https://rpp.pe/politica/judiciales/rafael-vela...,"Mon, 20 Oct 2025 20:28:44 -0500"
