# Crypto_Scraper

## Import 

In [1]:
import praw
import pandas as pd
from datetime import datetime
import os
import psaw as ps
from dotenv import load_dotenv
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch.nn.functional as F

In [2]:
# Lade die .env-Datei
dotenv_loaded = load_dotenv("zugang_reddit.env")  # Falls die Datei anders heiÃŸt, anpassen
# PrÃ¼fe, ob die Datei geladen wurde
print(f".env geladen? {dotenv_loaded}")


.env geladen? True


In [3]:
# Verbuindung zur Pushshift-API
reddit = praw.Reddit(
    client_id=os.getenv("CLIENT_ID"),
    client_secret=os.getenv("CLIENT_SECRET"),
    user_agent=os.getenv("USER_AGENT")
)

print("Reddit API erfolgreich verbunden!")


Reddit API erfolgreich verbunden!


In [4]:
# Test der Verbindung
try:
    subreddit = reddit.subreddit("CryptoCurrency")
    for post in subreddit.hot(limit=5):
        print(f"Title: {post.title}, Score: {post.score}")
except Exception as e:
    print(f"Fehler beim Abrufen der Subreddit-Daten: {e}")


Title: Monthly Optimists Discussion - February 2025, Score: 10
Title: Daily Crypto Discussion - February 2, 2025 (GMT+0), Score: 23
Title: Justin Bieber Was Spotted Looking Like He Held Ethereum Since The Merge, Score: 200
Title: The Most Bullish Bullrun Ever, Score: 149
Title: The Maga backlash against Trumpâ€™s crypto grab: â€˜This is bad, and looks badâ€™, Score: 2882


## Liste der Cryptos

In [5]:
# Die Crypto-Liste
cryptos = [
    ("Cardano", "ADA"),
    ("Solana", "SOL"),
    ("Binance Coin", "BNB"),
    ("XRP", "XRP"),
    ("Polkadot", "DOT"),
    ("Dogecoin", "DOGE")
]


In [6]:
# Die Subreddit Liste
subreddits = [
    "CryptoCurrency",  # Allgemeine Diskussionen Ã¼ber KryptowÃ¤hrungen
    "CryptoMarkets",   # Diskussionen Ã¼ber den Kryptomarkt und Preisbewegungen
    "CryptoTrading",   # Fokus auf Trading-Strategien und Analysen
    "Altcoin",         # Diskussionen Ã¼ber Altcoins (alle KryptowÃ¤hrungen auÃŸer Bitcoin)
    "DeFi",            # Decentralized Finance (DeFi) und Projekte
    "BitcoinBeginners",# FÃ¼r AnfÃ¤nger in der Krypto-Welt
    "cryptotechnology", # Fokus auf die zugrunde liegende Blockchain-Technologie
    "cryptocurrencies", # Allgemeine Diskussionen Ã¼ber KryptowÃ¤hrungen
    "Satoshistreetsbets", # Krypto-Wetten und Spekulationen
    "Binance"        # Diskussionen Ã¼ber die Binance-Plattform  
]

## Scrape

In [7]:
# Funktion, um Posts und Kommentare zu scrapen
def scrape_reddit(start_timestamp, end_timestamp, mode="initial"):
    posts = []
    comments = []
    post_ids = set()  # Set zum Speichern der Post-IDs

    for crypto_name, crypto_symbol in cryptos:
        for subreddit_name in subreddits:
            subreddit = reddit.subreddit(subreddit_name)
            print(f"Suche Posts zu {crypto_name} ({crypto_symbol}) in r/{subreddit_name}...")

            # Suche nach Namen und KÃ¼rzel
            for search_term in [crypto_name, crypto_symbol]:
                for post in subreddit.search(query=search_term, sort="new", limit=None):
                    if start_timestamp <= post.created_utc <= end_timestamp and post.id not in post_ids:
                        post_ids.add(post.id)
                        posts.append({
                            'crypto': crypto_name,
                            'search_term': search_term,
                            'subreddit': subreddit_name,
                            'post_id': post.id,
                            'title': post.title,
                            'author': str(post.author),
                            'created_utc': datetime.utcfromtimestamp(post.created_utc).strftime('%Y-%m-%d %H:%M:%S'),
                            'score': post.score,
                            'num_comments': post.num_comments,
                            'selftext': post.selftext
                        })
                        print(f"Gefunden in r/{subreddit_name}: {post.title} (Suchbegriff: {search_term})")

                        # Kommentare sammeln
                        post.comments.replace_more(limit=0)
                        for comment in post.comments.list():
                            comments.append({
                                'post_id': post.id,
                                'comment_id': comment.id,
                                'author': str(comment.author),
                                'created_utc': datetime.utcfromtimestamp(comment.created_utc).strftime('%Y-%m-%d %H:%M:%S'),
                                'score': comment.score,
                                'body': comment.body
                            })

    # In DataFrames umwandeln
    df_posts = pd.DataFrame(posts)
    df_comments = pd.DataFrame(comments)

    # DataFrames zurÃ¼ckgeben
    print(f"Scrape abgeschlossen: {len(df_posts)} Posts und {len(df_comments)} Kommentare gefunden.")
    return df_posts, df_comments

# **WÃ¶chentlicher Scrape**
now = int(datetime.now().timestamp())  # Aktueller Zeitstempel
last_week = now - 7 * 24 * 60 * 60  # 7 Tage zurÃ¼ck
print("Starte den wÃ¶chentlichen Scrape...")
df_posts_weekly, df_comments_weekly = scrape_reddit(last_week, now, mode="weekly")

# Beispiel: Lokale Weiterverarbeitung
print("Daten kÃ¶nnen jetzt in der Pipeline bereinigt werden...")

Starte den wÃ¶chentlichen Scrape...
Suche Posts zu Cardano (ADA) in r/CryptoCurrency...
Gefunden in r/CryptoCurrency: What's the reason crypto community members tend to worship certain indivudals? (Suchbegriff: Cardano)
Gefunden in r/CryptoCurrency: Cardano Plomin Hard Fork Goes Live Bringing Full Decentralized Governance to ADA (Suchbegriff: Cardano)
Gefunden in r/CryptoCurrency: Cardanoâ€™s Plomin Hard Fork Goes Live, Ushering in On-Chain Governance (Suchbegriff: Cardano)
Gefunden in r/CryptoCurrency: Cardano Set to Achieve Full Decentralized Governance with Wednesdayâ€™s Plomin Hard Fork (Suchbegriff: Cardano)
Gefunden in r/CryptoCurrency: Understanding the "inverse r/cryptocurrency" trading strategy. Is this sub consistently wrong? How it works, how to exploit it, and the underlying reason driving it: (Suchbegriff: Cardano)
Gefunden in r/CryptoCurrency: Tuttle Capital Seeks SEC Approval for First-Ever Chainlink, Cardano, and Polkadot ETFs (Suchbegriff: Cardano)
Gefunden in r/Crypto

## Datenbereinigung 

Fubktion zur Bereinigung der Daten 

In [16]:
def clean_data(df_posts, df_comments):
    # 1. Duplikate entfernen
    df_posts = df_posts.drop_duplicates(subset=["post_id"])
    df_comments = df_comments.drop_duplicates(subset=["comment_id"])
    
    # 2. Fehlende Werte behandeln
    df_posts['selftext'] = df_posts['selftext'].fillna('')  # Fehlende Posttexte auffÃ¼llen
    df_comments['body'] = df_comments['body'].fillna('')  # Fehlende Kommentare auffÃ¼llen
    
    # 3. Zeitstempel konvertieren
    df_posts['created_utc'] = pd.to_datetime(df_posts['created_utc'])
    df_comments['created_utc'] = pd.to_datetime(df_comments['created_utc'])

    # 4. Datum & Uhrzeit in separate Spalten aufteilen (Daten normalisieren)
    df_posts["date"] = df_posts["created_utc"].dt.date  # YYYY-MM-DD
    df_posts["time"] = df_posts["created_utc"].dt.time  # HH:MM:SS

    df_comments["date"] = df_comments["created_utc"].dt.date
    df_comments["time"] = df_comments["created_utc"].dt.time

    # 5. Option: Original `created_utc`-Spalte entfernen (falls nicht mehr benÃ¶tigt)
    df_posts.drop(columns=["created_utc"], inplace=True)
    df_comments.drop(columns=["created_utc"], inplace=True)

    # 6. Filterung nach QualitÃ¤t (Spam oder irrelevante Daten entfernen)
    df_posts = df_posts[df_posts['score'] > 0]  # Posts mit negativem Score entfernen
    df_comments = df_comments[df_comments['score'] > 0]  # Kommentare mit negativem Score entfernen
    
    return df_posts, df_comments


Funktion zur bereinigung auf die Daten anwenden

In [17]:
# Bereinigen der Daten
df_posts_clean, df_comments_clean = clean_data(df_posts_weekly, df_comments_weekly)

# ÃœberprÃ¼fen, wie viele EintrÃ¤ge Ã¼brig sind
print(f"Bereinigte Posts: {len(df_posts_clean)}")
print(f"Bereinigte Kommentare: {len(df_comments_clean)}")

Bereinigte Posts: 60
Bereinigte Kommentare: 4104


## Model fuer das Sentiment

In [21]:
# ðŸ”¹ FinBERT-Modell & Tokenizer laden
MODEL_NAME = "ProsusAI/finbert"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)

# ðŸ”¹ Sicherstellen, dass die Spalte "body" existiert
if "body" not in df.columns:
    raise ValueError("Fehler: Die CSV-Datei enthÃ¤lt keine 'body'-Spalte mit Kommentaren!")

# ðŸ”¹ Funktion zur Sentiment-Analyse
def analyze_sentiment(text):
    if not isinstance(text, str) or text.strip() == "":
        return "neutral", 0.0  # Leere Kommentare sind neutral

    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)

    scores = F.softmax(outputs.logits, dim=1)[0]
    labels = ["negative", "neutral", "positive"]
    sentiment = labels[torch.argmax(scores).item()]
    confidence = scores.max().item()

    return sentiment, confidence

# ðŸ”¹ Sentiment fÃ¼r alle Kommentare berechnen
df_comments_clean["sentiment"], df_comments_clean["sentiment_confidence"] = zip(*df["body"].map(analyze_sentiment))


## Google Drive Export

Pfad

In [24]:
# Definiere den Speicherpfad zu deinem lokalen Google Drive
DRIVE_PATH = "G:/Meine Ablage/reddit"


Export Funktion

In [25]:
def append_to_csv(df_new, filename):
    file_path = os.path.join(DRIVE_PATH, filename)

    try:
        # Falls die Datei bereits existiert, lese sie ein und hÃ¤nge die neuen Daten an
        if os.path.exists(file_path):
            df_existing = pd.read_csv(file_path, sep=";", encoding="utf-8-sig", on_bad_lines="skip")
            df_combined = pd.concat([df_existing, df_new], ignore_index=True)
        else:
            df_combined = df_new  # Falls die Datei nicht existiert, erstelle sie neu

        # CSV speichern mit besserer Formatierung fÃ¼r Excel
        df_combined.to_csv(
            file_path,
            index=False,
            sep=";",  # Semikolon als Trennzeichen fÃ¼r bessere Excel-KompatibilitÃ¤t
            encoding="utf-8-sig",  # Richtige Zeichenkodierung fÃ¼r Excel
            lineterminator="\n"  # ZeilenumbrÃ¼che korrekt speichern
        )
        print(f"Datei erfolgreich aktualisiert: {file_path}")

    except Exception as e:
        print(f"Fehler beim Speichern der Datei {filename}: {e}")

def export_to_drive(df_posts, df_comments):
    try:
        # Posts an bestehende Datei anhÃ¤ngen
        append_to_csv(df_posts, "reddit_posts.csv")
        # Kommentare an bestehende Datei anhÃ¤ngen
        append_to_csv(df_comments, "reddit_comments.csv")

    except Exception as e:
        print(f"Fehler beim Export: {e}")


Export Funktion anwenden

In [26]:
export_to_drive(df_posts_clean, df_comments_clean)

Datei erfolgreich aktualisiert: G:/Meine Ablage/reddit\reddit_posts.csv
Datei erfolgreich aktualisiert: G:/Meine Ablage/reddit\reddit_comments.csv
