In [2]:
# API-Schlüssel für Google Generative AI (Gemini) einfügen
API_KEY = "AIzaSyCZhsJYSDnsNC3-LIeIhVZzodiWvUIvW3M"

# Installation der Google Generative AI Bibliothek (falls nicht bereits installiert)
!pip install google-generativeai

# Installation weiterer benötigter Bibliotheken
!pip install beautifulsoup4 requests pandas matplotlib

# Imports
import google.generativeai as palm
import pandas as pd
import requests
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from datetime import datetime, timedelta, date





[notice] A new release of pip is available: 25.1.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 25.1.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
# API-Key konfigurieren
palm.configure(api_key=API_KEY)

# Modell-Name (abhängig von der Verfügbarkeit; hier verwenden wir das Chatmodell von Gemini/Bison)
MODEL_NAME = "models/chat-bison-001"  # Alternativ: "models/text-bison-001" oder ein spezifisches Gemini-Modell, falls verfügbar

# Optionale Parameter für die Textgenerierung
generation_params = {
    "model": MODEL_NAME,
    "temperature": 0.2,        # geringe Temperature für fokussierte/gut strukturierte Antworten
    "candidate_count": 1
}


In [5]:
# Laden der News-Daten
news_df = pd.read_csv("News data/news_6m_finnhub_newsapi.csv")
print("Anzahl geladener News:", len(news_df))
print("Spalten:", news_df.columns.tolist())
# Ersten Eintrag anzeigen
print("\nBeispielhafter News-Eintrag:")
display(news_df.head(1))


Anzahl geladener News: 709
Spalten: ['ticker', 'provider', 'channel', 'title', 'url', 'published_at_utc', 'news_source', 'keyword']

Beispielhafter News-Eintrag:


Unnamed: 0,ticker,provider,channel,title,url,published_at_utc,news_source,keyword
0,NVDA,finnhub,news,Uber: Nvidia Partnership Allays Any Fears Of T...,https://finnhub.io/api/news?id=7337f668cc034c0...,2025-11-20T04:05:05Z,SeekingAlpha,


In [6]:
# Auf die ersten 20 Artikel beschränken
news_top20 = news_df.iloc[:20].copy().reset_index(drop=True)
print("Erste 20 Artikel geladen.")
# Optionale Anzeige der Titel dieser 20 Artikel zur Übersicht
for i, row in news_top20.iterrows():
    print(f"{i+1}. [{row['ticker']}] {row['title']} ({row['published_at_utc']})")


Erste 20 Artikel geladen.
1. [NVDA] Uber: Nvidia Partnership Allays Any Fears Of The AV Threat (Rating Upgrade) (2025-11-20T04:05:05Z)
2. [NVDA] Arista Networks: More Of A 2026 Opportunity Due To The Lagging Effect (2025-11-20T00:55:01Z)
3. [NVDA] NVIDIA Corporation (NVDA) Q3 2026 Earnings Call Transcript (2025-11-19T22:13:24Z)
4. [NVDA] NVIDIA Corporation 2026 Q3 - Results - Earnings Call Presentation (2025-11-19T22:01:31Z)
5. [NVDA] Nvidia: I Was Wrong, But I'm Not A Buyer Here (2025-11-19T19:00:24Z)
6. [NVDA] Nvidia: Stellar Q3 And Sold-Out Blackwell Signal Explosive AI Demand (2025-11-19T18:45:03Z)
7. [NVDA] Nvidia: Stellar Q3 And Explosive Guidance Make The Bear Case Harder (Upgrade) (2025-11-19T18:30:50Z)
8. [NVDA] Nvidia: Seismic Quarter Redefining AI Markets (2025-11-19T18:15:59Z)
9. [NVDA] Nvidia: Huge Growth, Breath Of Relief (2025-11-19T18:00:32Z)
10. [NVDA] Qualcomm to open engineering hub in Saudi Arabia, part of a series of AI deals in kingdom (2025-11-19T18:00:08Z)
11. [

In [8]:
# Hilfsfunktion zum Laden der Kursdaten-Dateien (Überspringen der Header-Zeilen)
def load_stock_data(csv_path):
    # Die CSV hat 3 Header-Zeilen, wir überspringen diese
    col_names = ["Date", "Close", "High", "Low", "Open", "Volume"]
    df = pd.read_csv(csv_path, skiprows=3, names=col_names)
    # Datums-Spalte in echtes Datum konvertieren
    df['Date'] = pd.to_datetime(df['Date'])
    return df

# Aktienkursdaten pro Ticker laden
tickers = ["NVDA", "TSLA", "ASML", "META", "AMZN"]
stock_data = {}
for ticker in tickers:
    filename = f"Stockcorse_as_csv/{ticker}_6monatealles.csv"
    try:
        df = load_stock_data(filename)
        stock_data[ticker] = df
        print(f"{ticker}: {len(df)} Kurs-Datensätze geladen, Zeitraum {df['Date'].min().date()} bis {df['Date'].max().date()}")
    except FileNotFoundError:
        print(f"Warnung: Datei {filename} nicht gefunden.")


NVDA: 127 Kurs-Datensätze geladen, Zeitraum 2025-06-05 bis 2025-12-04
TSLA: 127 Kurs-Datensätze geladen, Zeitraum 2025-06-05 bis 2025-12-04
ASML: 127 Kurs-Datensätze geladen, Zeitraum 2025-06-05 bis 2025-12-04
META: 127 Kurs-Datensätze geladen, Zeitraum 2025-06-05 bis 2025-12-04
AMZN: 127 Kurs-Datensätze geladen, Zeitraum 2025-06-05 bis 2025-12-04


In [9]:
def fetch_article_content(url):
    """
    Ruft die gegebene URL auf und gibt den Haupttext des Artikels zurück.
    """
    try:
        response = requests.get(url, timeout=10)
    except Exception as e:
        print(f"Fehler beim Abrufen von {url}: {e}")
        return None
    if response.status_code != 200:
        print(f"Fehler: HTTP {response.status_code} für URL {url}")
        return None

    html = response.text
    # HTML parsen mit BeautifulSoup
    soup = BeautifulSoup(html, 'html.parser')
    # Alle Absatz-Texte sammeln
    paragraphs = [p.get_text() for p in soup.find_all('p')]
    text = "\n".join(paragraphs)
    # Falls der extrahierte Text sehr kurz ist, evtl. Alternativen prüfen (z.B. <article>-Tag Inhalte)
    if len(text) < 100:
        # Versuchen wir, den Inhalt eines <article> oder <div> mit main-Content zu holen
        article_tag = soup.find('article')
        if article_tag:
            text = article_tag.get_text()
        else:
            main_div = soup.find('div', {'class': 'article'})
            if main_div:
                text = main_div.get_text()
    # Kurzen Text oder Fehlschlag behandeln
    if len(text.strip()) == 0:
        print("Warnung: Kein Inhalt extrahiert von", url)
        return None
    return text.strip()


In [10]:
# Test: Ersten Artikelinhalt abrufen (optional)
test_url = news_top20.loc[0, 'url']
print("Teste Abruf für URL:", test_url)
sample_text = fetch_article_content(test_url)
if sample_text:
    print("Auszug aus dem Artikeltext:\n", sample_text[:500], "...\n")
else:
    print("Artikeltext konnte nicht abgerufen werden.")


Teste Abruf für URL: https://finnhub.io/api/news?id=7337f668cc034c00410c137760d595e1d967ffdeb276789029ffe1d17f70b959
Fehler: HTTP 403 für URL https://finnhub.io/api/news?id=7337f668cc034c00410c137760d595e1d967ffdeb276789029ffe1d17f70b959
Artikeltext konnte nicht abgerufen werden.


In [11]:
import json

def analyze_article(title, pub_date, content):
    """
    Analysiert einen Artikel mittels generativer KI und gibt ein Dict mit Ticker, Zeitrahmen und Begründung zurück.
    """
    # Formatieren des Datums für den Prompt (z.B. "2025-11-20")
    pub_date_str = pub_date.strftime("%Y-%m-%d")
    # Prompt für das Modell erstellen
    prompt = (
        "Lies den folgenden Nachrichtenartikel und beantworte danach:\n"
        f"Titel: {title}\n"
        f"Veröffentlicht am: {pub_date_str}\n"
        f"Inhalt:\n{content}\n\n"
        "Bestimme, welche der folgenden Aktien dieser Artikel hauptsächlich betrifft: NVDA, TSLA, ASML, META oder AMZN.\n"
        "Gib außerdem an, über welchen Zeitraum (relativ zum Veröffentlichungsdatum) die Nachricht voraussichtlich den Aktienkurs beeinflusst. "
        "Drücke den Zeitraum in Tagen nach der Veröffentlichung aus (z.B. 0-3 Tage nach Veröffentlichung, 1 Tag vor bis 5 Tage nach Veröffentlichung) oder bis zu einem bestimmten Ereignis (z.B. bis Ende des Quartals). "
        "Begründe kurz diese Einschätzung basierend auf dem Artikelinhalt.\n"
        "Antworte **nur** in folgendem JSON-Format:\n"
        "{ \"ticker\": <Ticker>, \"timeframe\": <Zeitrahmen>, \"reason\": <Begründung> }\n"
    )
    # Aufruf des generativen Modells
    try:
        response = palm.generate_text(prompt=prompt, **generation_params)
    except Exception as e:
        print("Fehler bei Aufruf von Gemini API:", e)
        return None

    if hasattr(response, 'result'):
        raw_answer = response.result
    elif isinstance(response, str):
        raw_answer = response  # falls direkt Text zurückkommt
    else:
        # Unterschiedliche Library-Versionen könnten andere Attribute haben
        raw_answer = str(response)

    # JSON-Antwort parsen
    answer_str = raw_answer.strip()
    # Manchmal können zusätzliche Texte vor/nach JSON kommen - versuchen wir, JSON-Teil herauszufiltern
    if answer_str.find('{') != -1:
        answer_str = answer_str[answer_str.find('{'): answer_str.rfind('}')+1]
    try:
        result = json.loads(answer_str)
    except json.JSONDecodeError:
        print("Konnte JSON nicht parsen. Rohantwort:\n", raw_answer)
        return None
    return result


In [12]:
analysis_results = []  # Liste für Ergebnisse

for idx, row in news_top20.iterrows():
    title = row['title']
    ticker_hint = row['ticker']  # Ticker aus den Daten (als Hinweis, sollte mit Analyse übereinstimmen)
    pub_date = pd.to_datetime(row['published_at_utc'])
    url = row['url']
    print(f"\nArtikel {idx+1}: {title}\nURL: {url}")

    # Artikelinhalt abrufen
    content = fetch_article_content(url)
    if content is None:
        print("Artikelinhalt nicht verfügbar, überspringe.")
        continue

    # Begrenzen wir extrem lange Inhalte (falls z.B. Kommentare angehängt sind), um Token zu sparen
    if len(content) > 10000:
        content = content[:10000]  # ersten 10000 Zeichen behalten
        print("(Inhalt gekürzt für Analyse)")

    # LLM-Analyse durchführen
    result = analyze_article(title, pub_date, content)
    if result is None:
        print("Analyse fehlgeschlagen oder kein Ergebnis.")
        continue

    # Parsed result enthält 'ticker', 'timeframe', 'reason'
    ticker_pred = result.get('ticker', '').upper()
    timeframe = result.get('timeframe', '')
    reason = result.get('reason', '')
    # Falls ticker_pred leer oder nicht einer der erwarteten, ggf. fallback auf vorhandenen ticker_hint
    if ticker_pred not in tickers:
        ticker_pred = ticker_hint  # zur Sicherheit
    # Ergebnis speichern
    analysis_results.append({
        "title": title,
        "published": pub_date,
        "ticker": ticker_pred,
        "timeframe_text": timeframe,
        "reason": reason
    })
    # Ausgabe der Analyse
    print(f"➡️ Erkanntes Unternehmen: {ticker_pred}")
    print(f"➡️ Geschätzter Zeitraum: {timeframe}")
    print(f"➡️ Begründung: {reason}\n")



Artikel 1: Uber: Nvidia Partnership Allays Any Fears Of The AV Threat (Rating Upgrade)
URL: https://finnhub.io/api/news?id=7337f668cc034c00410c137760d595e1d967ffdeb276789029ffe1d17f70b959
Fehler bei Aufruf von Gemini API: module 'google.generativeai' has no attribute 'generate_text'
Analyse fehlgeschlagen oder kein Ergebnis.

Artikel 2: Arista Networks: More Of A 2026 Opportunity Due To The Lagging Effect
URL: https://finnhub.io/api/news?id=696f3cf9f4908cd3c75565e7a579abc4e327a0f759fec8c449f663f59144246e
Fehler: HTTP 403 für URL https://finnhub.io/api/news?id=696f3cf9f4908cd3c75565e7a579abc4e327a0f759fec8c449f663f59144246e
Artikelinhalt nicht verfügbar, überspringe.

Artikel 3: NVIDIA Corporation (NVDA) Q3 2026 Earnings Call Transcript
URL: https://finnhub.io/api/news?id=afd80a18e3ace0b3a8c58a1df985cba415cf51e6e1e7895c9d97aba0c360f2dd
Fehler: HTTP 403 für URL https://finnhub.io/api/news?id=afd80a18e3ace0b3a8c58a1df985cba415cf51e6e1e7895c9d97aba0c360f2dd
Artikelinhalt nicht verfügbar, 

In [13]:
from dateutil.relativedelta import relativedelta

def get_quarter_end(dt):
    """Hilfsfunktion: gibt das Enddatum des Quartals zurück, in dem dt liegt."""
    year = dt.year
    month = dt.month
    if month <= 3:
        return date(year, 3, 31)
    elif month <= 6:
        return date(year, 6, 30)
    elif month <= 9:
        return date(year, 9, 30)
    else:
        return date(year, 12, 31)

def interpret_timeframe(pub_date, timeframe_str):
    """Interpretiert den Zeitfenster-String und gibt Start- und Enddatum zurück."""
    pub_date_date = pub_date.date()  # nur Datumsteil
    s = timeframe_str.lower()
    start_date = pub_date_date
    end_date = pub_date_date
    # Fall 1: Angabe "X-Y tage nach"
    if "tage nach" in s or "days after" in s:
        # Bereich nach Veröffentlichung
        # Beispiel: "0-3 tage nach" oder "0-3 days after"
        if '-' in s:
            # Extrahiere Zahlen vor und nach dem Bindestrich
            parts = s.split('-')
            try:
                start_offset = int(parts[0].strip())
            except:
                start_offset = 0
            # Suche nach der zweiten Zahl in parts[1]
            import re
            match = re.search(r'(\d+)', parts[1])
            if match:
                end_offset = int(match.group(1))
            else:
                end_offset = 0
        else:
            # Kein Bindestrich, vielleicht "X days after"
            match = re.search(r'(\d+)', s)
            if match:
                start_offset = 0
                end_offset = int(match.group(1))
            else:
                start_offset = 0
                end_offset = 0
        start_date = pub_date_date + timedelta(days=start_offset)
        end_date = pub_date_date + timedelta(days=end_offset)
    # Fall 2: Angabe enthält "vor" und "nach"
    if "vor" in s and "nach" in s:
        # Beispiel: "1 tag vor bis 5 tage nach"
        # Nimm die erste Zahl als vor, die zweite als nach
        numbers = [int(num) for num in re.findall(r'(\d+)', s)]
        if len(numbers) >= 2:
            start_date = pub_date_date - timedelta(days=numbers[0])
            end_date = pub_date_date + timedelta(days=numbers[1])
    # Fall 3: Quartalsende
    if "quartal" in s or "quarter" in s:
        # Von Veröffentlichung bis Quartalsende
        start_date = pub_date_date
        end_date = get_quarter_end(pub_date_date)
    # Fall 4: Angabe von Stunden/Minuten -> interpretieren als gleichen Tag
    if "stunde" in s or "hour" in s or "minute" in s or "intraday" in s:
        start_date = pub_date_date
        end_date = pub_date_date
    # Sicherstellen, dass Start nicht nach Ende (z.B. falls vor/nach gemischt)
    if start_date > end_date:
        start_date, end_date = end_date, start_date
    return start_date, end_date

# Wende interpret_timeframe auf alle Ergebnisse an und hole Kursdaten
for res in analysis_results:
    pub_date = pd.to_datetime(res["published"])
    tf_str = str(res["timeframe_text"]) if res["timeframe_text"] else ""
    start_date, end_date = interpret_timeframe(pub_date, tf_str)
    res["start_date"] = start_date
    res["end_date"] = end_date
    ticker = res["ticker"]
    # Filter Kursdaten für diesen Zeitraum (inklusive Start- und Enddatum)
    if ticker in stock_data:
        df = stock_data[ticker]
        mask = (df['Date'].dt.date >= start_date) & (df['Date'].dt.date <= end_date)
        res["price_data"] = df[mask].copy()
    else:
        res["price_data"] = pd.DataFrame()  # kein Datensatz gefunden
    # Log-Ausgabe
    print(f"{res['ticker']}: Zeitraum {start_date} bis {end_date}, {len(res['price_data'])} Kurspunkte")


In [14]:
# Plot-Einstellungen
plt.style.use('seaborn')  # schönerer Plot-Stil
figures = []  # falls wir die Figure-Objekte sammeln wollen

for res in analysis_results:
    ticker = res["ticker"]
    title = res["title"]
    pub_date = pd.to_datetime(res["published"])
    start_date = res["start_date"]
    end_date = res["end_date"]
    timeframe_text = res["timeframe_text"]
    reason = res["reason"]
    price_df = res["price_data"]
    if price_df is None or price_df.empty:
        continue  # überspringen, falls keine Daten

    dates = price_df['Date']
    prices = price_df['Close']

    # Neue Figure erstellen
    plt.figure(figsize=(8, 4))
    plt.plot(dates, prices, marker='o', linestyle='-')
    # Markierung des Veröffentlichungstags
    plt.axvline(x=pub_date, color='red', linestyle='--', label=f'News am {pub_date.date()}')
    plt.title(f"{ticker} Kursverlauf ({start_date} bis {end_date})")
    plt.xlabel("Datum")
    plt.ylabel("Kurs (Close)")
    plt.legend()
    plt.tight_layout()
    plt.show()

    # Ausgabe der Analyse-Infos zum Artikel
    print(f"**Artikel:** {title}")
    print(f"**Aktie:** {ticker}")
    print(f"**Zeitrahmen laut KI:** {timeframe_text}")
    print(f"**Begründung:** {reason}\n")


OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)

In [15]:
# DataFrame aus den Ergebnissen erstellen (ohne die Preisdaten selbst, da diese zeitliche Reihen sind)
result_df = pd.DataFrame([
    {
        "title": res["title"],
        "published": res["published"],
        "ticker": res["ticker"],
        "timeframe": res["timeframe_text"],
        "reason": res["reason"],
        "start_date": res["start_date"],
        "end_date": res["end_date"]
    }
    for res in analysis_results
])

# Speichern als CSV
result_df.to_csv("news_analysis_results.csv", index=False)
# Speichern als JSON
result_df.to_json("news_analysis_results.json", orient="records", date_format="iso", force_ascii=False)

print("Ergebnisse gespeichert in 'news_analysis_results.csv' und 'news_analysis_results.json'")
print(f"Anzahl analysierter Artikel: {len(result_df)}")
display(result_df.head(5))


Ergebnisse gespeichert in 'news_analysis_results.csv' und 'news_analysis_results.json'
Anzahl analysierter Artikel: 0
