# 03_prioritize_news.ipynb — Priorisierung & Ranking

Dieses Notebook liest die evaluierten News ein und berechnet einen Priorisierungs-Score (= wie wichtig ist die Nachricht für Handelsentscheidungen). Es kombiniert:
- Relevanzscore (LLM)
- Kategorie-Gewichte (company > policy > macro > geo > social)
- optionaler Gemini-Aufruf zur Schätzung des kurzfristigen Markt-Impacts (falls gewünscht)

Output: `agent_new/data/prioritized_news.csv`


In [None]:
# !pip install yfinance pandas google-genai

import os
import pandas as pd
import numpy as np
import yfinance as yf
from tqdm.notebook import tqdm

EVAL_CSV = "agent_new/data/evaluated_news.csv"
if not os.path.exists(EVAL_CSV):
    raise FileNotFoundError(f"{EVAL_CSV} nicht gefunden. Führe 02_evaluate_relevance.ipynb aus.")
df = pd.read_csv(EVAL_CSV)
print("Geladene Einträge:", len(df))
df.head()


In [None]:
import os
from dotenv import load_dotenv

# .env laden (optional, falls du auch eine .env Datei hast)
load_dotenv()

# API-Keys fest eingetragen
FINNHUB_API_KEY = "d4m6udpr01qjidhtuevgd4m6udpr01qjidhtuf00"
NEWS_API_KEY = "pub_97d3b41e381a468393a42810d780d265"
GEMINI_API_KEY = "AIzaSyDHRIpGIwaXjNFsUouUJf8r64AeRm18mBA"

# Optional: Warnungen, falls ein Key fehlt
if not FINNHUB_API_KEY:
    print("WARNUNG: FINNHUB_API_KEY nicht gefunden!")
if not NEWS_API_KEY:
    print("WARNUNG: NEWS_API_KEY nicht gefunden!")
if not GEMINI_API_KEY:
    print("WARNUNG: GEMINI_API_KEY nicht gefunden!")

# Default Einstellungen
DEFAULT_LLM_PROVIDER = os.getenv("DEFAULT_LLM_PROVIDER", "gemini")
DEFAULT_TEMPERATURE = float(os.getenv("DEFAULT_TEMPERATURE", 0.7))

print("Keys geladen. LLM Provider:", DEFAULT_LLM_PROVIDER, "Temperatur:", DEFAULT_TEMPERATURE)


In [None]:
# Gewichtung nach Kategorie (anpassbar)
CATEGORY_WEIGHTS = {
    "company": 1.4,
    "policy": 1.2,
    "macro": 1.1,
    "geo": 1.0,
    "social": 0.6,
    "other": 0.5
}

def category_multiplier(categories):
    if not isinstance(categories, str):
        return 1.0
    try:
        cats = eval(categories) if (categories.startswith("[") or categories.startswith("(")) else categories
    except Exception:
        cats = categories
    # ensure list
    if isinstance(cats, str):
        cats = [cats]
    mult = 1.0
    for c in cats:
        c = str(c).strip().lower()
        if c in CATEGORY_WEIGHTS:
            mult = max(mult, CATEGORY_WEIGHTS[c])
    return mult

# compute base priority score
df["relevance_score"] = df["relevance_score"].fillna(0.0)
df["cat_multiplier"] = df["categories"].apply(lambda x: category_multiplier(str(x) if pd.notna(x) else ""))
df["priority_raw"] = df["relevance_score"] * df["cat_multiplier"]


In [None]:
# Optional: Lade 30-Tage-Volatilität pro Ticker als Adjustment
def fetch_volatility(ticker, days=30):
    try:
        df_px = yf.download(ticker, period=f"{days}d", interval="1d", progress=False)
        if df_px.empty:
            return 1.0
        ret = df_px["Close"].pct_change().dropna()
        vol = ret.std()  # daily vol
        return vol
    except Exception:
        return 1.0

# Only fetch for unique tickers present (be careful with API limits)
tickers = sorted({t for t in df["ticker"].dropna().unique()})
vol_map = {}
for t in tickers:
    vol_map[t] = fetch_volatility(t)
vol_map


In [None]:
# normalize vol (higher vol -> higher multiplier)
vol_values = np.array(list(vol_map.values())) if vol_map else np.array([1.0])
if vol_map:
    vmin, vmax = vol_values.min(), vol_values.max()
else:
    vmin, vmax = 1.0, 1.0

def vol_multiplier_for_ticker(t):
    if not t or t not in vol_map:
        return 1.0
    v = vol_map.get(t, 1.0)
    if vmax == vmin:
        return 1.0
    # map vol to 0.9..1.3
    return 0.9 + ( (v - vmin) / (vmax - vmin) ) * (1.3 - 0.9)

df["vol_multiplier"] = df["ticker"].apply(lambda t: vol_multiplier_for_ticker(t))
# final priority
df["priority_score"] = df["priority_raw"] * df["vol_multiplier"]

# sort and save
df_sorted = df.sort_values("priority_score", ascending=False)
df_sorted.to_csv("agent_new/data/prioritized_news.csv", index=False)
print("Saved: agent_new/data/prioritized_news.csv")
df_sorted.head(20)


In [None]:
# Relevante Top N
TOP_N = 50
display(df_sorted.head(TOP_N)[["title","ticker","relevance_score","categories","priority_score","explanation"]])

# Welche wurden ausgesondert (relevant False)
filtered_out = df_sorted[df_sorted["relevant"] == False]
filtered_out.to_csv("agent_new/data/filtered_out.csv", index=False)
print("Filtered out count:", len(filtered_out), "Saved: agent_new/data/filtered_out.csv")


- Anpassung: Du kannst CATEGORY_WEIGHTS anpassen.
- Optional: Für kritische Entscheidungen rufe Gemini erneut an, um für die Top-Kandidaten eine präzisere Impact-Schätzung (z.B. erwartete %-Bewegung in 1-5 Tagen) zu erhalten.
- Teste zuerst mit einer kleinen Menge, bevor du Full-Runs machst (API-Kosten).
