##### Instalar requirements:

# üì∞ Tarea 1: Sistema de recuperaci√≥n de noticias (RPP)


In [1]:
#pip install -r requirements.txt

In [None]:
#pip uninstall langchain langchain-community -y

Found existing installation: langchain 1.0.0
Uninstalling langchain-1.0.0:
  Successfully uninstalled langchain-1.0.0
Note: you may need to restart the kernel to use updated packages.




#### Cargar datos :

In [2]:
import feedparser
import pandas as pd


# URL del RSS de RPP
rss_url = "https://rpp.pe/rss"

feed = feedparser.parse(rss_url)

# Se extrae las 50 noticias m√°s recientes
news_items = []
for entry in feed.entries[:50]:
    news_items.append({
        "title": entry.title,
        "description": entry.description,
        "link": entry.link,
        "date_published": entry.published if "published" in entry else None
    })

df_rpp = pd.DataFrame(news_items)
print(f"Noticias extra√≠das: {len(df_rpp)}")
df_rpp.head()


Noticias extra√≠das: 50


Unnamed: 0,title,description,link,date_published
0,LDU Quito vs. Palmeiras EN VIVO v√≠a ESPN: se e...,Consulta todos los detalles de lo que ser√° el ...,https://rpp.pe/futbol/copa-libertadores/ldu-qu...,"Thu, 23 Oct 2025 20:30:45 -0500"
1,C√∫al fue el √∫ltimo temblor en M√©xico hoy 23 de...,Cu√°l es el ultimo temblor en M√©xico y CDMX reg...,https://rpp.pe/mundo/mexico/cual-fue-el-ultimo...,"Wed, 22 Oct 2025 06:42:35 -0500"
2,"Andr√© Mart√≠nez: ""Quiero ganar el Campeonato Mu...","Andr√© Mart√≠nez, ganador de Caminos del Inca 20...",https://rpp.pe/automovilismo/caminos-del-inca/...,"Thu, 23 Oct 2025 19:14:21 -0500"
3,Latin Billboard 2025: Karol G gana el primer p...,La cantante Karol G se llev√≥ el galard√≥n como ...,https://rpp.pe/musica/internacional/latin-bill...,"Thu, 23 Oct 2025 20:03:15 -0500"
4,Sporting Cristal vs Universitario HOY: ¬øa qu√© ...,Cristal vs Universitario medir√°n fuerzas por l...,https://rpp.pe/futbol/descentralizado/universi...,"Thu, 23 Oct 2025 20:00:04 -0500"


 #### Tokenizaci√≥n :

In [None]:
import tiktoken

# Elegimos un modelo de referencia
encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

# Tomamos un art√≠culo de ejemplo
sample_text = df_rpp["description"][0]
num_tokens = len(encoding.encode(sample_text))

print(f"N√∫mero de tokens en el primer art√≠culo: {num_tokens}")

# Si el texto supera 1024 tokens, lo dividimos
def dividir_texto_si_excede(texto, max_tokens=1024):
    tokens = encoding.encode(texto)
    if len(tokens) <= max_tokens:
        return [texto]  
    else:
        partes = []
        for i in range(0, len(tokens), max_tokens):
            sub_tokens = tokens[i:i + max_tokens]
            sub_texto = encoding.decode(sub_tokens)
            partes.append(sub_texto)
        return partes

# Aplicamos la funci√≥n al texto de ejemplo
if num_tokens > 1024:
    partes = dividir_texto_si_excede(sample_text)
    print(f"El texto se dividi√≥ en {len(partes)} fragmentos.")
else:
    print("No fue necesario dividir el texto.")

N√∫mero de tokens en el primer art√≠culo: 32
No fue necesario dividir el texto.


 #### Generar incrustaciones (embeddings) :

In [4]:
from sentence_transformers import SentenceTransformer

model_name = "sentence-transformers/all-MiniLM-L6-v2"
embedder = SentenceTransformer(model_name)

# Crear las incrustaciones
embeddings = embedder.encode(df_rpp["description"].tolist(), show_progress_bar=True)

print(f"Forma de las incrustaciones: {embeddings.shape}")


Batches:   0%|          | 0/2 [00:00<?, ?it/s]

Forma de las incrustaciones: (50, 384)


 #### Crear base de datos vectorial con ChromaDB

In [5]:
import chromadb
from chromadb.utils import embedding_functions

chroma_client = chromadb.Client()

# Crear o conectar a una colecci√≥n
collection = chroma_client.get_or_create_collection(name="rpp_news")

# Insertar los documentos y sus metadatos
collection.add(
    documents=df_rpp["description"].tolist(),
    embeddings=embeddings,
    metadatas=[{
        "title": t,
        "link": l,
        "date_published": d
    } for t, l, d in zip(df_rpp["title"], df_rpp["link"], df_rpp["date_published"])],
    ids=[f"id_{i}" for i in range(len(df_rpp))]
)

print(" Noticias insertadas correctamente en ChromaDB")

 Noticias insertadas correctamente en ChromaDB


#### Consultas de similitud: 

In [6]:
query = "√öltimas noticias de econom√≠a"

query_embedding = embedder.encode([query])
results = collection.query(
    query_embeddings=query_embedding,
    n_results=5
)

# Mostrar los resultados en un DataFrame
results_df = pd.DataFrame({
    "title": [m["title"] for m in results["metadatas"][0]],
    "description": results["documents"][0],
    "link": [m["link"] for m in results["metadatas"][0]],
    "date_published": [m["date_published"] for m in results["metadatas"][0]]
})

print("Resultados de la b√∫squeda por similitud:")
results_df


Resultados de la b√∫squeda por similitud:


Unnamed: 0,title,description,link,date_published
0,MEF y el presidente Jer√≠ revisan el Presupuest...,"La ministra de Econom√≠a y Finanzas, Denisse Mi...",https://rpp.pe/economia/economia/mef-y-el-pres...,"Thu, 23 Oct 2025 19:18:25 -0500"
1,"Isabelle Tate, actriz de '9-1-1: Nashville', m...",Su agencia confirm√≥ la noticia en redes social...,https://rpp.pe/famosos/celebridades/murio-isab...,"Thu, 23 Oct 2025 17:00:54 -0500"
2,"Tras cambio en el reglamento del Congreso, arc...",Expedientes abiertos por el personal de fiscal...,https://rpp.pe/politica/elecciones/tras-cambio...,"Thu, 23 Oct 2025 19:49:41 -0500"
3,Ministerio P√∫blico solicit√≥ impedimento de sal...,La Fiscal√≠a solicit√≥ al Poder Judicial que dic...,https://rpp.pe/lima/judiciales/ministerio-publ...,"Thu, 23 Oct 2025 19:07:15 -0500"
4,Comisi√≥n de Energ√≠a y Minas plantea extensi√≥n ...,El predictamen de la Comisi√≥n de Energ√≠a y Min...,https://rpp.pe/politica/congreso/comision-de-e...,"Thu, 23 Oct 2025 18:59:11 -0500"


#### Orquestaci√≥n con LangChain :


In [10]:
from langchain_core.prompts import PromptTemplate

# Solo simularemos un flujo completo (sin necesidad de API de OpenAI)
template = """
Dada la siguiente descripci√≥n de noticia: "{description}"
Responde con una categor√≠a tem√°tica general (por ejemplo: pol√≠tica, deportes, econom√≠a, sociedad, tecnolog√≠a).
"""
prompt = PromptTemplate(input_variables=["description"], template=template)

# Simulador de LLM simple
class SimpleFakeLLM:
    """Simulador de LLM que devuelve respuestas predefinidas en orden circular."""
    
    def __init__(self, responses):
        self.responses = responses
        self.index = 0
    
    def predict(self, prompt_text: str) -> str:
        """Devuelve la siguiente respuesta de la lista."""
        response = self.responses[self.index]
        self.index = (self.index + 1) % len(self.responses)
        return response

# Crear LLM simulado
fake_llm = SimpleFakeLLM(
    responses=["econom√≠a", "pol√≠tica", "sociedad", "tecnolog√≠a", "deportes"]
)

# Pipeline: formatea prompt ‚Üí env√≠a a LLM ‚Üí devuelve respuesta
def clasificar_noticia(description: str, prompt_template, llm) -> str:
    """Pipeline que formatea el prompt y obtiene predicci√≥n del LLM."""
    formatted_prompt = prompt_template.format(description=description)
    return llm.predict(formatted_prompt)

# Probar con una noticia
test_description = df_rpp["description"][1]
result = clasificar_noticia(test_description, prompt, fake_llm)

print(f" Noticia: {df_rpp['title'][1][:60]}...")
print(f" Categor√≠a predicha: {result}")

# Clasificar todas las noticias
print("\n Clasificando todas las noticias...\n")
categorias = []
for idx, desc in enumerate(df_rpp["description"]):
    categoria = clasificar_noticia(desc, prompt, fake_llm)
    categorias.append(categoria)
    if idx < 5:
        print(f"{idx+1}. {df_rpp['title'][idx][:60]}... ‚Üí {categoria}")

df_rpp["categoria_simulada"] = categorias

print(f"\n Distribuci√≥n de categor√≠as:")
print(df_rpp["categoria_simulada"].value_counts())

print("\n C√≥digo ejecutado correctamente")

 Noticia: C√∫al fue el √∫ltimo temblor en M√©xico hoy 23 de octubre seg√∫n...
 Categor√≠a predicha: econom√≠a

 Clasificando todas las noticias...

1. LDU Quito vs. Palmeiras EN VIVO v√≠a ESPN: se enfrentan por l... ‚Üí pol√≠tica
2. C√∫al fue el √∫ltimo temblor en M√©xico hoy 23 de octubre seg√∫n... ‚Üí sociedad
3. Andr√© Mart√≠nez: "Quiero ganar el Campeonato Mundial de Rally... ‚Üí tecnolog√≠a
4. Latin Billboard 2025: Karol G gana el primer premio de la no... ‚Üí deportes
5. Sporting Cristal vs Universitario HOY: ¬øa qu√© hora juegan en... ‚Üí econom√≠a

 Distribuci√≥n de categor√≠as:
categoria_simulada
pol√≠tica      10
sociedad      10
tecnolog√≠a    10
deportes      10
econom√≠a      10
Name: count, dtype: int64

 C√≥digo ejecutado correctamente
