In [2]:
import requests
from collections import defaultdict
from sqlalchemy import create_engine, text
from typing import Dict, List, Tuple, Optional
from itertools import product
import pandas as pd
import numpy as np

In [4]:
NEWSAPI_KEY = "6868caa0dca245aab75051aaf8b7f518"
API_URL = "https://newsapi.org/v2/everything"
DATABASE_URL = "postgresql://postgres.xyzgfwktosydyrzawozi:DmH171200.@aws-0-eu-west-3.pooler.supabase.com:5432/postgres"

In [5]:
engine = create_engine(DATABASE_URL)

In [6]:
def quote_term(t: str) -> str:
    """
    Si el término contiene espacios, lo envuelve entre comillas y elimina espacios.
    Esto asegura búsquedas exactas en NewsAPI.
    """
    t = t.strip()
    return f'"{t}"' if " " in t else t

def chunk_list(lst: List[str], max_len: int) -> List[List[str]]:
    """
    Divide la lista de términos en sublistas cuya longitud total
    (en caracteres) no exceda max_len.
    Esto evita que el parámetro `q` supere los 500 caracteres en NewsAPI (Error identificado The complete value for q must be URL-encoded. Max length: 500 chars.).
    """
    chunks = []
    current = []
    length = 0

    for item in lst:
        token = quote_term(item)
        token_len = len(token) + 4  # Contamos " OR " como 4 caracteres
        if length + token_len > max_len and current:
            chunks.append(current)
            current = [item]
            length = token_len
        else:
            current.append(item)
            length += token_len

    if current:
        chunks.append(current)

    return chunks

def build_blocks_by_category(groups: Dict[str, List[str]], max_chars: int, categories: List[str] = None) -> Dict[str, List[str]]:
    """
    Prepara bloques (OR-clauses) por categoría aplicando chunking para no superar el límite de caracteres.
    - groups: dict {categoria: [terminos ya quoteados y con NOT si procede]}
    - max_chars: límite total del parámetro q (NewsAPI = 500)
    - categories: orden explícito de categorías a usar (si None, usa todas las keys de groups)
    Devuelve un dict {categoria: [ "(t1 OR t2 ...)", "(...)" , ... ]}
    """
    if categories is None:
        categories = list(groups.keys())
    if not categories:
        raise ValueError("No hay categorías para construir la query.")

    # Estimación simple: repartimos el presupuesto entre categorías
    per_cat_budget = max(50, max_chars // max(1, len(categories)))  # mínimo 50 por bloque/categoría

    blocks = {}
    for cat in categories:
        terms = groups.get(cat, [])
        if not terms:
            raise ValueError(f"No hay términos activos para la categoría '{cat}'.")

        # Partimos la lista de términos de esta categoría en trozos que quepan en su presupuesto
        cat_chunks = chunk_list(terms, per_cat_budget)
        cat_blocks = [ "(" + " OR ".join(chunk) + ")" for chunk in cat_chunks ]
        blocks[cat] = cat_blocks

    return blocks

def build_queries_from_blocks(
    blocks_by_cat: Dict[str, List[str]],
    max_chars: int,
    categories: List[str]
) -> List[str]:
    """
    Combina un bloque por categoría con AND (producto cartesiano) y filtra
    las combinaciones que superen 'max_chars'.
    """
    if not categories:
        categories = list(blocks_by_cat.keys())

    queries: List[str] = []
    for combo in product(*[blocks_by_cat[cat] for cat in categories]):
        q = " AND ".join(combo)
        if len(q) <= max_chars:
            queries.append(q)
    if not queries:
        raise ValueError("No se pudo generar ninguna query <= max_chars; reduce términos o ajusta el reparto.")
    return queries

def build_q_from_db(max_chars: int = 500, categories: List[str] = None) -> List[str]:
    """
    Lee keywords activas desde la BD y construye una o varias queries <= max_chars
    usando bloques por categoría y combinándolos con AND.
    - max_chars: límite del parámetro `q` (NewsAPI = 500)
    - categories: orden/selección de categorías a usar (por defecto, todas las encontradas)
    Devuelve: lista de strings `q` listas para usar en /v2/everything.
    """
    sql = """
    SELECT term, category, negate
    FROM news_keywords
    WHERE active = TRUE
    """

    # 1) Leer términos y agrupar por categoría, dejando cada término "listo" (quoted y con NOT si aplica)
    groups: Dict[str, List[str]] = defaultdict(list)
    with engine.connect() as conn:
        for term, category, negate in conn.execute(text(sql)):
            token = quote_term(term.strip())
            token = f'NOT {token}' if negate else token
            groups[category].append(token)

    if not groups:
        raise ValueError("No hay keywords activas en la base de datos.")

    # 2) Si no se especifica orden/conjunto de categorías, usamos todas las presentes
    cats_order = categories or list(groups.keys())

    # 3) Construir bloques por categoría con chunking interno
    blocks_by_cat = build_blocks_by_category(groups, max_chars=max_chars, categories=cats_order)

    # 4) Combinar bloques (producto cartesiano) asegurando q <= max_chars
    queries = build_queries_from_blocks(blocks_by_cat, max_chars=max_chars, categories=cats_order)

    if not queries:
        raise ValueError("No se pudo construir ninguna query dentro del límite de caracteres.")

    return queries

def fetch_ai_marketing_news(api_url: str, params: dict) -> Tuple[Optional[pd.DataFrame], dict]:
    """
    Llama a la API de NewsAPI para obtener noticias de AI y Marketing.
    
    Args:
        api_url (str): URL base del endpoint (ej: https://newsapi.org/v2/everything).
        api_key (str): Clave API de NewsAPI.
        query (str): Query ya construida (ej: "(AI terms) AND (Marketing terms)").
    
    Returns:
        Tuple[Optional[pd.DataFrame], dict]:
            - DataFrame con artículos o None si hay error.
            - Diccionario con metadatos de la respuesta (status, totalResults, error_message si aplica).
    """
    try:
        response = requests.get(api_url, params=params, timeout=10)
        response.raise_for_status()  # Lanza excepción si el status HTTP != 200
    except requests.exceptions.RequestException as e:
        return None, {"status": "error", "error_message": f"Error de conexión: {str(e)}"}

    try:
        data = response.json()
    except ValueError:
        return None, {"status": "error", "error_message": "La respuesta no es un JSON válido."}

    status = data.get("status", "error")
    if status != "ok":
        return None, {
            "status": status,
            "error_message": data.get("message", "Error desconocido en la API.")
        }

    total_results = data.get("totalResults", 0)
    articles = data.get("articles", [])

    if not articles:
        return pd.DataFrame(), {"status": status, "totalResults": total_results}

    # Normalizamos a DataFrame
    news_df = pd.json_normalize(articles)
    news_df = news_df.rename(columns={
        "source.id": "source_id",
        "source.name": "source_name"
    })

    return news_df, {"status": status, "totalResults": total_results}


In [7]:
# Utiliza la API de News API para obtener las últimas noticias sobre Inteligencia Artificial
# (AI) y Marketing. Necesitamos noticias que aborden ambos temas en su contenido.
params = {
    "apiKey": NEWSAPI_KEY,
    "q":  build_q_from_db()
}
response = requests.get(API_URL, params=params)
data = response.json()

status = data.get("status", {})
res_len = data.get("totalResults", {})
news_df = pd.json_normalize(data.get("articles", []))

In [None]:
params = {
    "apiKey": NEWSAPI_KEY,
    "q": build_q_from_db()
}

df, meta = fetch_ai_marketing_news(API_URL, params)

if meta["status"] == "ok":
    print(f"Noticias obtenidas: {meta['totalResults']}")
    print(df.head())
else:
    print(f"Error: {meta.get('error_message')}")