In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import google.generativeai as genai
import requests
from bs4 import BeautifulSoup
import json
import time
from datetime import datetime, timedelta
import os

# --- KONFIGURATION ---
# Bitte hier deinen Google Gemini API Key eintragen
API_KEY = "AIzaSyCZhsJYSDnsNC3-LIeIhVZzodiWvUIvW3M"

genai.configure(api_key=API_KEY)

# Modell initialisieren (Nutze 'gemini-1.5-flash' für Geschwindigkeit und Kosten oder 'pro' für Tiefe)
model = genai.GenerativeModel('gemini-2.5-flash')

# Dateipfade (wie von dir definiert)
NEWS_PATH = "News data/news_6m_finnhub_newsapi.csv"
STOCK_PATHS = {
    "NVDA": "Stockcorse_as_csv/NVDA_6monatealles.csv",
    "TSLA": "Stockcorse_as_csv/TSLA_6monatealles.csv",
    "ASML": "Stockcorse_as_csv/ASML_6monatealles.csv",
    "META": "Stockcorse_as_csv/META_6monatealles.csv",
    "AMZN": "Stockcorse_as_csv/AMZN_6monatealles.csv"
}

print("Bibliotheken geladen und Konfiguration gesetzt.")

Bibliotheken geladen und Konfiguration gesetzt.


In [10]:
def load_data():
    # 1. News laden
    try:
        df_news = pd.read_csv(NEWS_PATH)
        # Nimm nur die ersten 20, wie gewünscht
        df_news = df_news.head(20)
        print(f"News geladen: {len(df_news)} Artikel.")
    except FileNotFoundError:
        print(f"Fehler: Datei {NEWS_PATH} nicht gefunden.")
        return None, None

    # 2. Aktiendaten laden
    stock_data = {}
    for ticker, path in STOCK_PATHS.items():
        try:
            df = pd.read_csv(path)
            # Wir nehmen an, es gibt eine Spalte 'Date' oder ähnlich.
            # Wir konvertieren die erste Spalte zu Datetime und setzen sie als Index.
            # Falls deine Spalte anders heißt, muss das hier angepasst werden.
            date_col = df.columns[0]
            df[date_col] = pd.to_datetime(df[date_col])
            df.set_index(date_col, inplace=True)
            df.sort_index(inplace=True)
            stock_data[ticker] = df
            print(f"Aktienkurse für {ticker} geladen.")
        except Exception as e:
            print(f"Fehler beim Laden von {ticker}: {e}")

    return df_news, stock_data

df_news, stock_data = load_data()

News geladen: 20 Artikel.
Fehler beim Laden von NVDA: Unknown datetime string format, unable to parse: Ticker, at position 0
Fehler beim Laden von TSLA: Unknown datetime string format, unable to parse: Ticker, at position 0
Fehler beim Laden von ASML: Unknown datetime string format, unable to parse: Ticker, at position 0
Fehler beim Laden von META: Unknown datetime string format, unable to parse: Ticker, at position 0
Fehler beim Laden von AMZN: Unknown datetime string format, unable to parse: Ticker, at position 0


  df[date_col] = pd.to_datetime(df[date_col])
  df[date_col] = pd.to_datetime(df[date_col])
  df[date_col] = pd.to_datetime(df[date_col])
  df[date_col] = pd.to_datetime(df[date_col])
  df[date_col] = pd.to_datetime(df[date_col])


In [11]:
def fetch_article_content(url):
    """Besucht die URL und extrahiert den Text."""
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
        response = requests.get(url, headers=headers, timeout=10)
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')
            # Versuche, den Haupttext zu finden (P-Tags sind meistens der Artikel)
            paragraphs = soup.find_all('p')
            text = " ".join([p.get_text() for p in paragraphs])
            # Kürzen, falls zu lang für Token-Limit (ca. 10.000 Zeichen reichen meist zur Analyse)
            return text[:15000]
        else:
            return None
    except Exception as e:
        print(f"Scraping Fehler bei {url}: {e}")
        return None

def analyze_with_gemini(article_text, publication_date):
    """
    Analysiert den Text mit Gemini.
    Erwartet JSON Output für strukturierte Weiterverarbeitung.
    """

    prompt = f"""
    Du bist ein erfahrener Finanzanalyst. Ich gebe dir einen Nachrichtenartikel.
    Deine Aufgabe:
    1. Identifiziere, welches dieser Unternehmen am stärksten betroffen ist: NVDA, TSLA, ASML, META, AMZN.
    2. Analysiere logisch, welchen Einfluss diese Nachricht auf den Aktienkurs hat (Positiv/Negativ/Neutral) und warum.
    3. Bestimme ein logisches "Zeitfenster des Einflusses" (Time Window).
       Beispiel: Eine Quartalszahl wirkt sofort (0 bis 1 Tag), eine Produktankündigung vielleicht länger (0 bis 7 Tage), ein Skandal (0 bis 14 Tage).
       Du kannst auch negative Tage angeben (z.B. -1 für "Gerüchte kurz vor Veröffentlichung").

    Gib deine Antwort NUR als valides JSON zurück in folgendem Format:
    {{
        "ticker": "TICKER_SYMBOL",
        "impact_score": "float zwischen -1.0 (sehr negativ) und 1.0 (sehr positiv)",
        "reasoning": "Kurze Begründung deiner Einschätzung...",
        "time_window_start_days": int (Offset in Tagen zum Publikationsdatum, z.B. 0),
        "time_window_end_days": int (Offset in Tagen zum Publikationsdatum, z.B. 5)
    }}

    Artikel Text:
    {article_text}
    """

    try:
        response = model.generate_content(prompt)
        # Bereinigen des Outputs (falls Markdown ```json enthalten ist)
        text_response = response.text.replace("```json", "").replace("```", "").strip()
        return json.loads(text_response)
    except Exception as e:
        print(f"Gemini Error: {e}")
        return None

In [12]:
results = []

# Erstelle Ordner für die Plots, falls nicht vorhanden
if not os.path.exists("plots"):
    os.makedirs("plots")

print("Starte Analyse der Top 20 Artikel...\n")

for index, row in df_news.iterrows():
    print(f"--- Verarbeite Artikel {index + 1}/20 ---")

    url = row.get('url') # Stelle sicher, dass die Spalte in deinem CSV 'url' heißt
    pub_date_str = row.get('date') # Stelle sicher, dass Spalte 'date' heißt

    # Datum parsen (Anpassen je nach deinem CSV Format, z.B. YYYY-MM-DD)
    try:
        pub_date = pd.to_datetime(pub_date_str)
    except:
        pub_date = datetime.now() # Fallback

    # 1. Artikel lesen
    if not url:
        print("Keine URL vorhanden, überspringe.")
        continue

    content = fetch_article_content(url)

    if not content or len(content) < 100:
        print("Konnte Artikelinhalt nicht lesen oder zu kurz.")
        continue

    # 2. Gemini Analyse
    analysis = analyze_with_gemini(content, pub_date)

    if not analysis:
        print("Keine Analyse von Gemini erhalten.")
        continue

    # Daten extrahieren
    ticker = analysis['ticker']
    start_offset = analysis['time_window_start_days']
    end_offset = analysis['time_window_end_days']
    reasoning = analysis['reasoning']

    # Prüfen ob Ticker in unseren Daten ist
    if ticker not in stock_data:
        print(f"Ticker {ticker} nicht in unseren CSV-Dateien (NVDA, TSLA, etc.).")
        continue

    # 3. Zeitfenster berechnen (Auf volle Tage gerundet wie gewünscht)
    start_date = pub_date + timedelta(days=start_offset)
    end_date = pub_date + timedelta(days=end_offset)

    # 4. Aktiendaten für das Zeitfenster holen
    df_stock = stock_data[ticker]

    # Wir filtern den DataFrame auf das Zeitfenster
    # Wir fügen etwas Puffer hinzu für den Plot (z.B. 2 Tage davor und danach für Kontext)
    plot_start = start_date - timedelta(days=2)
    plot_end = end_date + timedelta(days=2)

    mask = (df_stock.index >= plot_start) & (df_stock.index <= plot_end)
    window_data = df_stock.loc[mask]

    if window_data.empty:
        print(f"Keine Aktiendaten für {ticker} im Zeitraum {start_date.date()} bis {end_date.date()} gefunden.")
        continue

    # 5. Visualisierung
    plt.figure(figsize=(10, 6))
    # Annahme: Spalte für Schließkurs heißt 'Close' oder 'Adj Close'. Nimm die erste gefundene numerische Spalte sonst.
    price_col = [c for c in window_data.columns if 'Close' in c]
    price_col = price_col[0] if price_col else window_data.columns[0]

    plt.plot(window_data.index, window_data[price_col], marker='o', label=f'{ticker} Price')

    # Markiere das von Gemini definierte "Einfluss-Fenster"
    plt.axvspan(start_date, end_date, color='yellow', alpha=0.3, label='Gemini Impact Window')
    plt.axvline(pub_date, color='red', linestyle='--', label='News Pub Date')

    plt.title(f"News Impact: {ticker} | {pub_date.date()}\nReason: {reasoning[:60]}...")
    plt.legend()
    plt.grid(True)

    # Speichern des Plots
    plot_filename = f"plots/article_{index}_{ticker}.png"
    plt.savefig(plot_filename)
    plt.close() # Plot schließen um Speicher zu sparen

    # 6. Ergebnisse sammeln
    result_entry = {
        "article_id": index,
        "ticker": ticker,
        "pub_date": str(pub_date),
        "gemini_start_window": str(start_date.date()),
        "gemini_end_window": str(end_date.date()),
        "reasoning": reasoning,
        "impact_score": analysis['impact_score'],
        "plot_file": plot_filename,
        "original_url": url
    }
    results.append(result_entry)
    print(f"Fertig: {ticker}, Fenster: {start_offset} bis {end_offset} Tage. Plot gespeichert.")

    # Kurze Pause um API Limits zu respektieren (bei Free Tier wichtig)
    time.sleep(4)

print("\nAlle Artikel verarbeitet.")

Starte Analyse der Top 20 Artikel...

--- Verarbeite Artikel 1/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 2/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 3/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 4/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 5/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 6/20 ---
Gemini Error: 403 Your API key was reported as leaked. Please use another API key.
Keine Analyse von Gemini erhalten.
--- Verarbeite Artikel 7/20 ---
Gemini Error: 403 Your API key

In [13]:
# Als JSON speichern
with open('final_analysis_results.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, indent=4, ensure_ascii=False)

# Als CSV speichern für einfache Ansicht
df_results = pd.DataFrame(results)
df_results.to_csv('final_analysis_results.csv', index=False)

print("Analyse abgeschlossen. Ergebnisse gespeichert in 'final_analysis_results.csv' und 'final_analysis_results.json'.")
print(f"Anzahl erstellter Analysen: {len(df_results)}")
df_results.head()

Analyse abgeschlossen. Ergebnisse gespeichert in 'final_analysis_results.csv' und 'final_analysis_results.json'.
Anzahl erstellter Analysen: 0
