In [14]:
import requests
from bs4 import BeautifulSoup

# Liste der URLs zum Scrapen
urls = [
    "https://www.afd.de/demokratie-in-deutschland/",
    "https://www.afd.de/aussenpolitik_sicherheit/",
    "https://www.afd.de/euro-finanzen-eu/",
    "https://www.afd.de/innere-sicherheit/",
    "https://www.afd.de/zuwanderung-asyl/",
    "https://www.afd.de/familie-bevoelkerung/",
    "https://www.afd.de/bildung-schule/",
    "https://www.afd.de/kultur-medien/",
    "https://www.afd.de/sozialpolitik/",
    "https://www.afd.de/steuern-finanzen-wirtschaft-arbeit/",
    "https://www.afd.de/gesundheit/",
    "https://www.afd.de/energie-umwelt-klima/",
    "https://www.afd.de/umwelt-agrar-verbraucher/",
    "https://www.afd.de/verkehr-infrastruktur/"
]

# Liste zum Speichern der extrahierten Inhalte
content_list = []

# User-Agent-Header, um Blockierungen zu vermeiden
headers = {'User-Agent': 'Mozilla/5.0'}

for url in urls:
    print(f"Scraping: {url}")  # Fortschrittsanzeige

    # HTTP-Request senden
    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        # HTML-Inhalt parsen
        soup = BeautifulSoup(response.text, 'html.parser')

        # Alle Überschriften (fusion-toggle-heading)
        for heading in soup.find_all(class_="fusion-toggle-heading"):
            heading_text = heading.get_text(separator=' ', strip=True)
            content_list.append(f"## {heading_text}")

            # Finde alle <p>-Tags innerhalb der Klasse "panel-body toggle-content fusion-clearfix"
            paragraph_texts = []  # Liste für alle Texte der <p>-Tags

            for paragraph in heading.find_all_next(class_="panel-body toggle-content fusion-clearfix"):
                # Alle <p>-Tags innerhalb dieser Klasse extrahieren und zu einem Fließtext zusammenfügen
                for p in paragraph.find_all('p'):
                    # Extrahiere den Text des <p>-Tags und entferne führende/folgende Leerzeichen
                    paragraph_text = p.get_text(" ", strip=True)
                    if paragraph_text:
                        paragraph_texts.append(paragraph_text)

            # Verbinde alle Texte der <p>-Tags zu einem einzigen Fließtext und füge # am Anfang hinzu
            if paragraph_texts:
                content_list.append(f"# {' '.join(paragraph_texts)}")  # Zusammenführen ohne Leerzeilen und mit # am Anfang

    else:
        print(f"Fehler beim Abrufen der Seite {url} - Status Code: {response.status_code}")

# Entferne leere Einträge
content_list = [entry.strip() for entry in content_list if entry.strip()]

# Die extrahierten Inhalte speichern
afd_gesamt = "\n".join(content_list)  # Doppelte Leerzeile für bessere Lesbarkeit
with open("afd_lang.txt", "w", encoding="utf-8") as file:
    file.write(afd_gesamt)

# Gesamtwortanzahl berechnen
word_count = len(afd_gesamt.split())
print(f"\nGesamtanzahl der Wörter: {word_count}")
print("Daten erfolgreich in 'afd_lang.txt' gespeichert.")


Scraping: https://www.afd.de/demokratie-in-deutschland/
Scraping: https://www.afd.de/aussenpolitik_sicherheit/
Scraping: https://www.afd.de/euro-finanzen-eu/
Scraping: https://www.afd.de/innere-sicherheit/
Scraping: https://www.afd.de/zuwanderung-asyl/
Scraping: https://www.afd.de/familie-bevoelkerung/
Scraping: https://www.afd.de/bildung-schule/
Scraping: https://www.afd.de/kultur-medien/
Scraping: https://www.afd.de/sozialpolitik/
Scraping: https://www.afd.de/steuern-finanzen-wirtschaft-arbeit/
Scraping: https://www.afd.de/gesundheit/
Scraping: https://www.afd.de/energie-umwelt-klima/
Scraping: https://www.afd.de/umwelt-agrar-verbraucher/
Scraping: https://www.afd.de/verkehr-infrastruktur/

Gesamtanzahl der Wörter: 19620
Daten erfolgreich in 'afd_lang.txt' gespeichert.
