## 1Ô∏è‚É£ Einleitung

Diese Dokumentation beschreibt die Entwicklung einer datengetriebenen Pipeline zur Analyse der Stimmungslage (Sentiment) von Kryptow√§hrungen basierend auf Reddit-Daten. Ziel ist es, durch automatisierte Datenerfassung, Verarbeitung und Analyse wertvolle Einblicke in Markttrends zu gewinnen. Die Implementierung umfasst die w√∂chentliche Erfassung von Reddit-Posts und -Kommentaren, deren Bereinigung und anschlie√üende Sentiment-Analyse. Die Ergebnisse werden durch kontinuierliche Integrationsprozesse mittels Jenkins automatisiert verarbeitet und in einem interaktiven Dashboard mit Streamlit visualisiert.

### Relevanz

Kryptow√§hrungen unterliegen starken Kursschwankungen, die oft durch √∂ffentliche Meinungen und Diskussionen in sozialen Netzwerken beeinflusst werden. Eine systematische Analyse dieser Stimmungen kann helfen:
- Markttrends fr√ºhzeitig zu erkennen,
- Investitionsentscheidungen zu unterst√ºtzen,
- Risiken besser zu bewerten.

### Zielsetzung

- Automatisierte Erfassung und Speicherung von relevanten Reddit-Diskussionen √ºber Kryptow√§hrungen.
- Bereinigung und Vorverarbeitung der gesammelten Daten, um eine hohe Datenqualit√§t zu gew√§hrleisten.
- Anwendung von Sentiment-Analyseverfahren zur Kategorisierung und Quantifizierung von Stimmungen.
- Automatisierte Bereitstellung der Ergebnisse in einem Dashboard zur kontinuierlichen √úberwachung.

## 2Ô∏è‚É£ Einrichtung des Git-Repositories

### Vorgehensweise:

1. **Erstellung eines √∂ffentlichen Repositories**

In [None]:
git init
git remote add origin <URL>
git add .
git commit -m "Initial commit"
git push -u origin main


2. **Erzeugung eines Personal Access Tokens f√ºr Jenkins**
   - Navigiere zu [GitHub Personal Access Tokens](https://github.com/settings/tokens)
   - Erstelle ein Token mit den erforderlichen Berechtigungen f√ºr **Repo** und **Workflows**
   - Speichere das Token sicher und hinterlege es, du brauchst es sp√§ter um Authentifizierungsprozesse f√ºr CI/CD zu erm√∂glichen.

## 3Ô∏è‚É£ Einrichtung der Reddit API

### Vorgehensweise:

1. **Registrierung einer Anwendung auf Reddit**
   - Besuche die [Reddit Developer Console](https://www.reddit.com/prefs/apps)
   - Erstelle eine neue Anwendung und w√§hle den Typ **script**
   - Trage eine beliebige **App-Name**, **Beschreibung** und eine **Redirect URL** (z. B. `http://localhost:8080`) ein
   - Notiere dir die generierte **Client ID** und **Client Secret**

2. **Umgebungsvariablen setzen**
   - Erstelle eine `.env` Datei und speichere die Anmeldeinformationen:

In [None]:
CLIENT_ID='deine_client_id'
CLIENT_SECRET='dein_client_secret'
USER_AGENT='dein_user_agent'

## 4Ô∏è‚É£ Einrichtung des Jupyter Notebooks

Um die Datenverarbeitung und Analyse interaktiv durchzuf√ºhren, wird ein **Jupyter Notebook** verwendet.

### Installation der ben√∂tigten Python-Bibliotheken

Zun√§chst m√ºssen alle relevanten Pakete installiert werden:

In [None]:
pip install praw python-dotenv psaw transformers torch jupyter

### Laden und Initialisieren der Reddit API

Das folgende Skript l√§dt die API-Zugangsdaten aus der `.env` Datei und stellt eine Verbindung zur Reddit API her:

In [3]:
import praw
import pandas as pd
from datetime import datetime, timedelta
import os
import psaw as ps
from dotenv import load_dotenv
import time
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch.nn.functional as F
import torch

In [4]:
# Lade die .env-Datei
dotenv_loaded = load_dotenv("zugang_reddit.env")  # Falls die Datei anders hei√üt, anpassen
print(f".env geladen? {dotenv_loaded}")

.env geladen? True


In [5]:
# Verbindung zur Reddit API
reddit = praw.Reddit(
    client_id=os.getenv("CLIENT_ID"),
    client_secret=os.getenv("CLIENT_SECRET"),
    user_agent=os.getenv("USER_AGENT")
)

print("Reddit API erfolgreich verbunden!")

Reddit API erfolgreich verbunden!


### Testabfrage von Reddit-Posts

Um die Verbindung zu √ºberpr√ºfen, werden die f√ºnf hei√üesten Posts aus dem Subreddit `CryptoCurrency` abgerufen:

In [6]:
try:
    subreddit = reddit.subreddit("CryptoCurrency")
    for post in subreddit.hot(limit=5):
        print(f"Title: {post.title}, Score: {post.score}, URL: {post.url}")
except Exception as e:
    print(f"Fehler beim Abrufen der Posts: {e}")

Title: Moon Week 58, Score: 8, URL: https://www.reddit.com/r/CryptoCurrency/comments/1iifsjr/moon_week_58/
Title: Daily Crypto Discussion - February 10, 2025 (GMT+0), Score: 12, URL: https://www.reddit.com/r/CryptoCurrency/comments/1ilt27n/daily_crypto_discussion_february_10_2025_gmt0/
Title: Just give it a minute, Score: 1713, URL: https://i.redd.it/2sz9fm4b17ie1.png
Title: Lost Fortune: Landfill Containing $750M in Bitcoin to Be Sealed Forever, Score: 683, URL: https://news.bitcoin.com/lost-fortune-landfill-containing-750m-in-bitcoin-to-be-sealed-forever/
Title: Odds of Kanye West Launching Token Plummet After He Says ‚ÄòCoins Prey on Fans‚Äô, Score: 104, URL: https://www.coindesk.com/markets/2025/02/08/odds-of-kanye-west-launching-token-plummet-after-he-says-coins-prey-on-fans


Dieser Codeblock stellt sicher, dass die Verbindung zur Reddit API erfolgreich funktioniert. Falls es zu Fehlern kommt, sollten die API-Zugangsdaten √ºberpr√ºft werden.

### Definition der Kryptow√§hrungen und Subreddits

Um die relevante Diskussion zu Kryptow√§hrungen zu analysieren, wird eine Liste von Kryptow√§hrungen mit ihren Symbolen sowie eine Auswahl an Subreddits definiert.

Die folgende Liste enth√§lt die wichtigsten Kryptow√§hrungen, die in der Analyse ber√ºcksichtigt werden:

In [7]:
cryptos = [
    ("Ethereum", "ETH"),
    ("Solana", "SOL"),
    ("Avalanche", "AVAX"),
    ("Polkadot", "DOT"),
    ("Near Protocol", "NEAR"),
    ("Polygon", "MATIC"),
    ("XRP", "XRP"),
    ("Cardano", "ADA"),
    ("Chainlink", "LINK")
]

Zur Analyse der Diskussionen werden Subreddits verwendet, die sich intensiv mit Kryptow√§hrungen und deren Marktbewegungen besch√§ftigen:


In [8]:
subreddits = [
    "CryptoCurrency",  # Allgemeine Diskussionen √ºber Kryptow√§hrungen
    "CryptoMarkets",   # Diskussionen √ºber den Kryptomarkt und Preisbewegungen
    "CryptoTrading",   # Fokus auf Trading-Strategien und Analysen
    "Altcoin",         # Diskussionen √ºber Altcoins (alle Kryptow√§hrungen au√üer Bitcoin)
    "DeFi",            # Decentralized Finance (DeFi) und Projekte
    "BitcoinBeginners",# F√ºr Anf√§nger in der Krypto-Welt
    "cryptotechnology", # Fokus auf die zugrunde liegende Blockchain-Technologie
    "cryptocurrencies", # Allgemeine Diskussionen √ºber Kryptow√§hrungen
    "Satoshistreetsbets", # Krypto-Wetten und Spekulationen
    "Binance"        # Diskussionen √ºber die Binance-Plattform  
]

Diese Listen werden sp√§ter verwendet, um relevante Beitr√§ge und Kommentare aus diesen Subreddits zu extrahieren.


### Scraping von Posts und Kommentaren

Die folgende Funktion erm√∂glicht es, gezielt Reddit-Posts und deren Kommentare f√ºr bestimmte Kryptow√§hrungen zu extrahieren. Dabei werden sowohl der vollst√§ndige Name als auch das K√ºrzel (case-insesitive) der Kryptow√§hrung als Suchbegriffe genutzt.

In [None]:
def scrape_reddit(start_date, end_date, mode = 'initial'):
    start_timestamp = int(start_date.timestamp()) # Startdatum in Unix-Zeitstempel umwandeln
    end_timestamp = int(end_date.timestamp())     # Enddatum in Unix-Zeitstempel umwandeln

    posts = []  # Liste f√ºr die gesammelten Posts
    comments = []  # Liste f√ºr die gesammelten Kommentare
    post_ids = set()  # Menge f√ºr die Post-IDs, um Duplikate zu vermeiden

    for crypto_name, crypto_symbol in cryptos:
        for subreddit_name in subreddits:
        subreddit = reddit.subreddit(subreddit_name)
        print(f"Scuhe nach {crypto_name} in r/{subreddit_name}")

        # Suchbegriffe in Kleinbuchstaben umwandeln
        search_terms = [crypto_name.lower(), crypto_symbol.lower()]

        for search_term in search_terms:
            for post in subreddit.search(query=search_term, sort="new", limit=None):
                if start_timestamp <= post.created_utc <= end_timestamp and post.id not in post_ids:
                    post.ids.add(post.id)

                    # Titel und Text in Kleinbuchstaben umwandeln
                    post_title = post.title.lower()
                    post_selftext = post.selftext.lower()

                    posts.append({
                            'crypto': crypto_name,
                            'search_term': search_term,
                            'subreddit': subreddit_name,
                            'post_id': post.id,
                            'title': post_title,
                            'author': str(post.author),
                            'created_utc': datetime.utcfromtimestamp(post.created_utc).strftime('%Y-%m-%d %H:%M:%S'),
                            'score': post.score,
                            'num_comments': post.num_comments,
                            'selftext': post_selftext
                        })

                    print(f"Post gefunden: {post_title} (Suchbegriff: {search_term})")

                    # üîπ Kommentare sammeln
                    post.comments.replace_more(limit=0)
                    for comment in post.comments.list():
                        comments.append({
                            'post_id': post.id,
                            'comment_id': comment.id,
                            'author': str(comment.author),
                            'created_utc': datetime.utcfromtimestamp(comment.created_utc).strftime('%Y-%m-%d %H:%M:%S'),
                            'score': comment.score,
                            'body': (comment.body or "").lower()  # üîπ Case-Insensitive Kommentartext
                        })
    # üîπ Daten in DataFrames umwandeln
    df_posts = pd.DataFrame(posts)
    df_comments = pd.DataFrame(comments)

    print(f"Scrape abgeschlossen: {len(df_posts)} Posts und {len(df_comments)} Kommentare gefunden.")
    return df_posts, df_comments

### Durchf√ºhrung des Scrapes

Ein Beispielaufruf f√ºr die Funktion √ºber die letzten drei Monate:

In [None]:
# Einmaliger Scrape f√ºr die letzten 3 Monate 
start_of_period = datetime(2024, 11, 1) # Startdatum f√ºr den Scrape
now = datetime.now()  # Aktuelles Datum
print('Starte den einmaligen Scrape f√ºr die letzten 3 Monate...')
df_posts_initial, df_comments_initial = scrape_reddit(start_of_period, now, mode='initial')
# Beispiel: Lokale Weiterverarbeitung
print("Daten k√∂nnen jetzt bereinigt werden...")

Bei dem w√∂chentlichen Scrape sieht der Aufruf wie folgt aus:

In [None]:
# **W√∂chentlicher Scrape**
now = int(datetime.now().timestamp())  # Aktueller Zeitstempel
last_week = now - 7 * 24 * 60 * 60  # 7 Tage zur√ºck
print("üïµÔ∏è Starte den w√∂chentlichen Scrape...")
df_posts_weekly, df_comments_weekly = scrape_reddit(last_week, now, mode="weekly")

# Beispiel: Lokale Weiterverarbeitung
print("Daten k√∂nnen jetzt bereinigt werden...")

Ich habe zun√§chst den einmaligen Scrape durchlaufen lassen und anschliessend den w√∂chentlichen automatisiert, dazu kommen wir sp√§ter.

### Datenbereinigung und Vorverarbeitung

Diese Funktion:
- Entfernt Duplikate in Posts und Kommentaren.
- Handhabt fehlende Werte, um Datenverluste zu vermeiden.
- Konvertiert und strukturiert Zeitstempel f√ºr bessere Nachvollziehbarkeit.
- Filtert Beitr√§ge und Kommentare basierend auf Qualit√§t (z. B. Score).
- Entfernt Kommentare von Accounts mit  √ºberm√§√üig vielen Kommentaren.

In [None]:
def clean_data(df_posts, df_comments, comment_threshold=500):# Anpassbarer Schwellenwert f√ºr Kommentare pro Nutzer
    # 1. Duplikate entfernen
    df_posts = df_posts.drop_duplicates(subset=["post_id"])
    df_comments = df_comments.drop_duplicates(subset=["comment_id"])
    
    # 2. Fehlende Werte behandeln
    df_posts['selftext'] = df_posts['selftext'].fillna('')  # Fehlende Posttexte auff√ºllen
    df_comments['body'] = df_comments['body'].fillna('')  # Fehlende Kommentare auff√ºllen
    
    # 3. Zeitstempel konvertieren
    df_posts['created_utc'] = pd.to_datetime(df_posts['created_utc'])
    df_comments['created_utc'] = pd.to_datetime(df_comments['created_utc'])

    # 4. Datum & Uhrzeit in separate Spalten aufteilen (Daten normalisieren)
    df_posts["date"] = df_posts["created_utc"].dt.date  # YYYY-MM-DD
    df_posts["time"] = df_posts["created_utc"].dt.time  # HH:MM:SS

    df_comments["date"] = df_comments["created_utc"].dt.date
    df_comments["time"] = df_comments["created_utc"].dt.time

    # 5. Original `created_utc`-Spalte entfernen
    df_posts.drop(columns=["created_utc"], inplace=True)
    df_comments.drop(columns=["created_utc"], inplace=True)

    # 6. Filterung nach Qualit√§t (Spam oder irrelevante Daten entfernen)
    df_posts = df_posts[df_posts['score'] > 0]  # Posts mit negativem Score entfernen
    df_comments = df_comments[df_comments['score'] > 0]  # Kommentare mit negativem Score entfernen

    # 7. Entferne Nutzer (bots) mit √ºberm√§√üigen Kommentaren
    comment_counts = df_comments["author"].value_counts()
    frequent_users = comment_counts[comment_counts > comment_threshold].index  # Nutzer √ºber Grenze
    df_comments = df_comments[~df_comments["author"].isin(frequent_users)]

    print(f"Daten bereinigt: {df_comments.shape[0]} Kommentare √ºbrig (nach Spam-Filter).")

    return df_posts, df_comments

### Anwendung der Bereinigungsfunktion

Nach der Extraktion der Daten wird die Bereinigungsfunktion auf die Posts und Kommentare angewendet:

In [None]:
# Bereinigen der Daten
df_posts_clean, df_comments_clean = clean_data(df_posts_initial, df_comments_initial, comment_threshold=300) # Anpassbarer Schwellenwert f√ºr Kommentare pro Nutzer


# √úberpr√ºfen, wie viele Eintr√§ge √ºbrig sind
print(f"Bereinigte Posts: {len(df_posts_clean)}")
print(f"Bereinigte Kommentare: {len(df_comments_clean)}")

Diese Schritte stellen sicher, dass nur relevante, qualitativ hochwertige Daten in der Pipeline weiterverarbeitet werden.

### Sentiment-Analyse der Kommentare

Nach der Bereinigung der Daten wird das Sentiment f√ºr die gesammelten Kommentare mithilfe eines vortrainierten Modells analysiert.

#### Verwendetes Sentiment-Analyse-Modell

Das Modell "ElKulako/crypto-bert" stammt von ElKulako und wurde speziell f√ºr die Analyse von Kryptow√§hrungs-Diskussionen entwickelt. Es basiert auf der BERT-Architektur und klassifiziert Texte als bullish (positiv), neutral oder bearish (negativ). Das Modell wurde auf umfangreichen Finanz- und Krypto-spezifischen Daten trainiert, wodurch es sich besonders gut f√ºr die Analyse von Reddit-Kommentaren eignet, die sich mit dem Krypto-Markt befassen.

In [None]:
# CryptoBERT-Modell laden
MODEL_NAME = "ElKulako/crypto-bert"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)

# üîπ Sicherstellen, dass die Spalte "body" existiert
if "body" not in df_comments_clean.columns:
    raise ValueError("Fehler: Die CSV-Datei enth√§lt keine 'body'-Spalte mit Kommentaren!")

# üîπ Funktion zur Sentiment-Analyse mit CryptoBERT
def analyze_sentiment(text):
    if not isinstance(text, str) or text.strip() == "":
        return "neutral", 0.0  # Leere Kommentare sind neutral

    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)

    scores = F.softmax(outputs.logits, dim=1)[0]
    labels = ["bearish", "neutral", "bullish"]  # CryptoBERT nutzt diese Labels
    sentiment = labels[torch.argmax(scores).item()]
    confidence = scores.max().item()

    return sentiment, confidence

# üîπ Sentiment f√ºr alle Kommentare berechnen
df_comments_clean["sentiment"], df_comments_clean["sentiment_confidence"] = zip(*df_comments_clean["body"].map(analyze_sentiment))

# üîπ Debug-Ausgabe: Zeigt die ersten 5 Ergebnisse zur √úberpr√ºfung
print(df_comments_clean[["body", "sentiment", "sentiment_confidence"]].head())


### Merging der Daten

Nachdem die Sentiment-Analyse durchgef√ºhrt wurde, werden die bereinigten Posts und Kommentare zusammengef√ºhrt.

In [None]:
# Merging der Posts & Kommentare direkt nach der Bereinigung
df_merged = df_comments_clean.merge(df_posts_clean, on="post_id", how="left")

# Fehlende Werte entfernen (optional)
df_merged.dropna(inplace=True)

Dieser Schritt stellt sicher, dass alle relevanten Kommentare mit ihren zugeh√∂rigen Posts verkn√ºpft sind sodass wir neben den normalisierten Post- und Kommentar-Tabelle eine fertige Tabelle f√ºr Analysen haben.


### Export und Speicherung der Daten

#### Zweck der Speicherung

Die exportierten Daten enthalten die gesammelten Reddit-Posts und Kommentare sowie deren Sentiment-Analyse. Durch die Speicherung in **Google Drive** wird eine einfache Automatisierung erm√∂glicht, sodass die Daten regelm√§√üig aktualisiert und f√ºr nachfolgende Analysen oder Machine-Learning-Prozesse verf√ºgbar sind.


#### Implementierung des Exports

Den Pfad definieren

In [None]:
# Setze den Pfad zu deinem Google Drive Ordner
DRIVE_PATH = "G:/Meine Ablage/reddit/"
POSTS_CSV = os.path.join(DRIVE_PATH, "reddit_posts.csv")
COMMENTS_CSV = os.path.join(DRIVE_PATH, "reddit_comments.csv")
MERGED_CSV = os.path.join(DRIVE_PATH, "reddit_merged.csv")

Die folgende Funktion speichert die extrahierten und verarbeiteten Daten als CSV-Dateien.

In [None]:
def save_initial_csv(df_new, filename):
    """Speichert die erste CSV-Datei ohne Anh√§ngen oder Duplikat-Pr√ºfung."""
    file_path = os.path.join(DRIVE_PATH, filename)
    try:
        df_new.to_csv(file_path, index=False, sep="|", encoding="utf-8-sig", lineterminator="\n")
        print(f"‚úÖ Datei erfolgreich gespeichert: {file_path}")
    except Exception as e:
        print(f"Fehler beim Speichern der Datei {filename}: {e}")

def export_initial_data(df_posts, df_comments, df_merged):
    """Speichert die initialen Posts, Kommentare & gemergten Daten."""
    try:
        save_initial_csv(df_posts, "reddit_posts.csv")
        save_initial_csv(df_comments, "reddit_comments.csv")
        save_initial_csv(df_merged, "reddit_merged.csv")
    except Exception as e:
        print(f"Fehler beim Export: {e}")

In [None]:
# Export-Funktion f√ºr den ersten Scrape aufrufen
export_initial_data(df_posts_clean, df_comments_clean, df_merged)

#### Vorteile der Speicherung in Google Drive

- **Automatisierung**: Die exportierten Daten k√∂nnen regelm√§√üig durch Skripte oder Jenkins-Jobs aktualisiert werden.
- **Zug√§nglichkeit**: Die gespeicherten Dateien k√∂nnen von verschiedenen Systemen oder Nutzern f√ºr Analysen oder Machine-Learning-Modelle verwendet werden.
- **Versionskontrolle**: Historische Daten k√∂nnen gespeichert werden, um Entwicklungen √ºber die Zeit hinweg zu analysieren.

Dieser Schritt stellt sicher, dass die verarbeiteten Daten langfristig verf√ºgbar bleiben und kontinuierlich f√ºr weitere Analysen genutzt werden k√∂nnen.


## 5Ô∏è‚É£ Automatisierung mit Jenkins

### Einrichtung von Jenkins auf Ubuntu

Um den Scraping- und Analyseprozess zu automatisieren, wird Jenkins auf einem Ubuntu-Server eingerichtet.


1. **Installation von Jenkins auf Ubuntu**

   ```bash
   sudo apt update
   sudo apt install openjdk-11-jre
   wget -q -O - https://pkg.jenkins.io/debian/jenkins.io.key | sudo apt-key add -
   sudo sh -c 'echo deb http://pkg.jenkins.io/debian-stable binary/ > /etc/apt/sources.list.d/jenkins.list'
   sudo apt update
   sudo apt install jenkins
   sudo systemctl start jenkins
   sudo systemctl enable jenkins
   ```


Nach der Installation ist Jenkins unter `http://localhost:8080` erreichbar.

2. **Erstellen eines neuen Jobs in Jenkins**
   - √ñffne die Jenkins Web-Oberfl√§che.
   - Erstelle einen neuen **Freestyle-Projekt**-Job.
   - F√ºge den **GitHub Personal Access Token** ein, um Zugriff auf das Repository zu erhalten.

3. **Konfiguration des Build-Schritts**
   Der folgende Shell-Befehl wird in den Build-Schritten des Jenkins-Jobs hinzugef√ºgt, um das Notebook auszuf√ºhren:
   

In [None]:
# Aktiviere das Python-Environment
. /var/lib/jenkins/venv/bin/activate

# Lade die .env-Datei und setze die Variablen
set -a
. /var/lib/jenkins/workspace/reddit_crypto_scraper/.env
set +a

# Debugging: Pr√ºfe, ob CLIENT_ID gesetzt wurde
echo "CLIENT_ID = $CLIENT_ID"

# Installiere Abh√§ngigkeiten aus requirements.txt
pip install -r /var/lib/jenkins/workspace/reddit_crypto_scraper/requirements.txt

# F√ºhre das Notebook mit papermill aus
papermill /var/lib/jenkins/workspace/reddit_crypto_scraper/notebooks/reddit-skript.ipynb /var/lib/jenkins/workspace/reddit_crypto_scraper/notebooks/output.ipynb

### Vorteile der Jenkins-Automatisierung

- **Regelm√§√üige Ausf√ºhrung**: Jenkins kann so konfiguriert werden, dass das Skript automatisch t√§glich oder w√∂chentlich ausgef√ºhrt wird.
- **Monitoring & Logging**: Jenkins speichert Logs jeder Ausf√ºhrung und erm√∂glicht eine Fehleranalyse.
- **Reproduzierbarkeit**: Durch das Laden der `.env`-Datei und die Installation aller Abh√§ngigkeiten ist jede Ausf√ºhrung identisch.

Mit dieser Konfiguration ist die gesamte Sentiment-Analyse vollst√§ndig automatisiert und kann kontinuierlich aktualisiert werden.

## 6Ô∏è‚É£ Analyse und Dashboard mit Streamlit

### Einrichtung der Streamlit-App

Streamlit ist ein einfaches Framework zur Erstellung interaktiver Dashboards mit Python. Die folgende Anwendung visualisiert die analysierten Sentiment-Daten.

#### Installation der ben√∂tigten Pakete

In [None]:
```bash
pip install streamlit pandas gdown matplotlib seaborn
```

#### Aufbau der Streamlit-App

Die folgende **`app.py`** Datei enth√§lt das vollst√§ndige Dashboard f√ºr die Visualisierung der analysierten Reddit-Daten:


In [None]:
import streamlit as st
import pandas as pd
import gdown
import os
import matplotlib.pyplot as plt
import seaborn as sns

st.set_page_config(page_title="Krypto-Sentiment Dashboard", layout="centered")

MERGED_CSV_ID = "102W-f_u58Jvx9xBAv4IaYrOY6txk-XKL"
MERGED_CSV = "reddit_merged.csv"

@st.cache_data
def download_csv(file_id, output):
    url = f"https://drive.google.com/uc?id={file_id}"
    gdown.download(url, output, quiet=False)

@st.cache_data
def load_data():
    if not os.path.exists(MERGED_CSV):
        download_csv(MERGED_CSV_ID, MERGED_CSV)
    df = pd.read_csv(MERGED_CSV, sep="|", encoding="utf-8-sig", on_bad_lines="skip")
    df["date"] = pd.to_datetime(df["date"], errors="coerce")
    df["sentiment_score"] = df["sentiment"].map({"positive": 1, "neutral": 0, "negative": -1})
    return df

df_merged = load_data()

st.title("üìä Krypto-Sentiment Dashboard")

if df_merged.empty:
    st.warning("‚ö†Ô∏è Keine Daten verf√ºgbar. √úberpr√ºfe Google Drive oder lade neue Daten hoch.")
else:
    st.subheader("üî• Top 10 meist erw√§hnte Kryptow√§hrungen")
    crypto_counts = df_merged["crypto"].value_counts().head(10)
    st.bar_chart(crypto_counts)

    st.subheader("üí° Sentiment-Verteilung der Coins")
    sentiment_distribution = df_merged.groupby(["crypto", "sentiment"]).size().unstack(fill_value=0)
    st.bar_chart(sentiment_distribution)

    st.subheader("üìà Verh√§ltnis Positiv vs. Negativ")
    sentiment_ratio = df_merged[df_merged["sentiment"] != "neutral"].groupby("sentiment").size()
    fig, ax = plt.subplots(figsize=(5, 5))
    ax.pie(sentiment_ratio, labels=sentiment_ratio.index, autopct="%1.1f%%", startangle=90, colors=["green", "red"])
    ax.axis("equal")
    st.pyplot(fig)

    st.subheader("üìÖ Sentiment-Entwicklung √ºber Zeit")
    crypto_options = df_merged["crypto"].unique().tolist()
    selected_crypto = st.selectbox("W√§hle eine Kryptow√§hrung:", crypto_options, index=0)
    df_filtered = df_merged[(df_merged["crypto"] == selected_crypto) & (df_merged["sentiment"] != "neutral")]
    df_time = df_filtered.groupby(["date", "sentiment"]).size().unstack(fill_value=0)
    st.line_chart(df_time)

st.write("üîÑ Dashboard wird regelm√§√üig mit neuen Daten aktualisiert!")

### Starten der Streamlit-App
Die App kann mit folgendem Befehl gestartet werden:

In [None]:
```bash
streamlit run app.py
```

### M√∂glichkeiten zur Erweiterung

Die Anwendung kann um weitere **Visualisierungen und Features** erg√§nzt werden:
- **Erweiterte Sentiment-Trends**: Liniendiagramme f√ºr Langzeitanalysen.
- **Korrelationen zwischen Coins**: Heatmaps zur Analyse von Korrelationen zwischen Kryptow√§hrungen.
- **Interaktive Benutzersteuerung**: Mehr Auswahlm√∂glichkeiten f√ºr den Nutzer, wie Filter f√ºr bestimmte Zeitr√§ume oder Sentiment-Typen.
- **Integration weiterer Datenquellen**: Kombination mit Twitter-Daten oder Finanzmarktdaten zur besseren Analyse der Marktentwicklung.

Durch die Nutzung von **Matplotlib, Seaborn und Streamlit** stehen zahlreiche M√∂glichkeiten f√ºr kreative Datenvisualisierung zur Verf√ºgung. Entwickler k√∂nnen das Dashboard kontinuierlich verbessern und an neue Anforderungen anpassen.
