In [None]:
def wget_download_limited(
    url, domain, output_dir_wget, min_batch_size=10, max_batch_size=20,
    batch_wait_min=1, batch_wait_max=2, timeout=25, level=8, max_downloads=400
):
    """
    Führt Wget aus und lädt maximal `max_downloads` Webseiten herunter.
    Args:
        url (str): Start-URL.
        domain (str): Einschränkende Hauptdomain.
        output_dir_wget (str): Zielordner.
        min_batch_size (int): Minimale Anzahl an Anfragen pro Batch.
        max_batch_size (int): Maximale Anzahl an Anfragen pro Batch.
        batch_wait_min (float): Minimale Wartezeit nach einem Batch.
        batch_wait_max (float): Maximale Wartezeit nach einem Batch.
        timeout (int): Timeout für Wget-Anfragen.
        level (int): Rekursionstiefe.
        max_downloads (int): Maximale Anzahl von Webseiten, die heruntergeladen werden sollen.
    """
    total_downloaded = 0  # Zählt die Gesamtanzahl heruntergeladener Seiten
    batch_count = random.randint(min_batch_size, max_batch_size)
    request_count = 0

    while total_downloaded < max_downloads:
        wait_time = random.uniform(batch_wait_min, batch_wait_max)  # Randomisierte Batch-Wartezeit
        command = [
            r"C:\Users\Matze\wget-1.21.4-win64\wget.exe",
            "--recursive",
            f"--level={level}",
            "--adjust-extension",
            f"--domains={domain}",
            "--restrict-file-names=windows",
            "-P", output_dir_wget,
            f"--timeout={timeout}",
            url
        ]

        logging.info(f"Starte Download: {url} (Batch-Größe: {batch_count}, Output: {output_dir_wget})")

        try:
            subprocess.run(command, stderr=subprocess.PIPE, stdout=subprocess.PIPE, text=True, check=True)
            total_downloaded += 1
            logging.info(f"Download erfolgreich abgeschlossen: {url} ({total_downloaded}/{max_downloads})")
            print(f"Download erfolgreich abgeschlossen: {url} ({total_downloaded}/{max_downloads})")
        except subprocess.CalledProcessError as e:
            error_message_log = e.stderr or str(e)
            print(f"Fehler beim Herunterladen von {url}: {error_message_log}")
            logging.error(f"Fehler beim Herunterladen von {url}: {error_message_log}")

        request_count += 1

        if request_count >= batch_count:
            logging.info(f"Wartezeit nach {batch_count} Anfragen. Warte {wait_time:.2f} Sekunden.")
            print(f"Wartezeit nach {batch_count} Anfragen. Warte {wait_time:.2f} Sekunden.")
            time.sleep(wait_time)  # Zufällige Wartezeit nach Batch
            request_count = 0  # Reset der Anfragezählung
            batch_count = random.randint(min_batch_size, max_batch_size)  # Neue Batch-Größe berechnen

# Funktion aufrufen
wget_download_limited(
    url=focus_wget_url,
    domain=focus_wget_domain,
    output_dir_wget=output_path,
    min_batch_size=10,
    max_batch_size=20,
    batch_wait_min=1,
    batch_wait_max=2,
    timeout=25,
    level=8,
    max_downloads=400  # Begrenze auf 400 Downloads
)


In [None]:
spiegel_wget_url = "https://www.spiegel.de/spiegel/print/"
spiegel_wget_domain = "https://www.spiegel.de"

focus_wget_url = "https://www.focus.de/magazin/archiv/"
focus_wget_domain = "https://focus.de"

stern_wget_url = "https://www.stern.de/archiv/"
stern_wget_domain = "https://www.stern.de"

output_path = r"C:\Users\Matze\Notebooks\endres-webscraping\data\1_wget_WARC-Files"
if not os.path.exists(output_path):
    os.makedirs(output_path)

# Logging konfigurieren
logging.basicConfig(
    filename=os.path.join(output_path, "wget_process.log"),
    level=logging.DEBUG,
    format="%(asctime)s - %(levelname)s - %(message)s"
)

# Wget-Funktion mit Batch-Wartezeit
def wget_download_subprocess_batch(
    url, domain, output_dir_wget, min_batch_size=10, max_batch_size=20,
    batch_wait_min=1, batch_wait_max=2, timeout=25, level=8
):
    """
    Führt Wget aus und implementiert eine Batch-Wartezeit nach einer zufälligen Anzahl von Anfragen.
    Args:
        url (str): Start-URL.
        domain (str): Einschränkende Hauptdomain.
        output_dir_wget (str): Zielordner.
        min_batch_size (int): Minimale Anzahl an Anfragen pro Batch.
        max_batch_size (int): Maximale Anzahl an Anfragen pro Batch.
        batch_wait_min (float): Minimale Wartezeit nach einem Batch.
        batch_wait_max (float): Maximale Wartezeit nach einem Batch.
        timeout (int): Timeout für Wget-Anfragen.
        level (int): Rekursionstiefe.
    """
    batch_count = random.randint(min_batch_size, max_batch_size)
    request_count = 0

    while True:  # Rekursive Schleife (theoretisch endlos, abbrechbar durch äußere Bedingungen)
        wait_time = random.uniform(batch_wait_min, batch_wait_max)  # Randomisierte Batch-Wartezeit
        command = [
            r"C:\Users\Matze\wget-1.21.4-win64\wget.exe",
            "--recursive",
            f"--level={level}",
            "--adjust-extension",
            f"--domains={domain}",
            "--restrict-file-names=windows",
            "-P", output_dir_wget,
            f"--timeout={timeout}",
            url
        ]

        logging.info(f"Starte Download: {url} (Batch-Größe: {batch_count}, Output: {output_dir_wget})")

        try:
            subprocess.run(command, stderr=subprocess.PIPE, stdout=subprocess.PIPE, text=True, check=True)
            logging.info(f"Download erfolgreich abgeschlossen: {url}")
            print(f"Download erfolgreich abgeschlossen: {url}")
        except subprocess.CalledProcessError as e:
            error_message_log = e.stderr or str(e)
            print(f"Fehler beim Herunterladen von {url}: {error_message_log}")
            logging.error(f"Fehler beim Herunterladen von {url}: {error_message_log}")

        request_count += 1

        if request_count >= batch_count:
            logging.info(f"Wartezeit nach {batch_count} Anfragen. Warte {wait_time:.2f} Sekunden.")
            print(f"Wartezeit nach {batch_count} Anfragen. Warte {wait_time:.2f} Sekunden.")
            time.sleep(wait_time)  # Zufällige Wartezeit nach Batch
            request_count = 0  # Reset der Anfragezählung
            batch_count = random.randint(min_batch_size, max_batch_size)  # Neue Batch-Größe berechnen

# Funktion aufrufen
wget_download_subprocess_batch(
    url=focus_wget_url,
    domain=focus_wget_domain,
    output_dir_wget=output_path,
    min_batch_size=10,
    max_batch_size=20,
    batch_wait_min=1,
    batch_wait_max=2,
    timeout=25,
    level=8
)