In [9]:
import os
import requests
from bs4 import BeautifulSoup

import pandas as pd

download_parent_folder = 'Geschaeftsberichte/'

In [3]:
def create_dataframe(data, columns):
    """
    Erstellt ein pandas DataFrame aus einer Liste von Listen und einer Liste von Spaltennamen.

    :param data: List[List], die Datenreihen
    :param columns: List[str], die Spaltennamen
    :return: pandas.DataFrame
    """
    return pd.DataFrame(data, columns=columns)

# Beispiel-Daten
data = [
    ['degewo AG', 'https://www.degewo.de/presse', 'Konzernlagebericht']
]

columns = ["Unternehmen", "URL", "Stichwort"]

df = create_dataframe(data, columns)
print(df)

  Unternehmen                           URL           Stichwort
0   degewo AG  https://www.degewo.de/presse  Konzernlagebericht


# degewo AG

In [14]:
unternehmen = 'degewo AG'
URL = df.loc[df['Unternehmen'] == unternehmen, 'URL'].values[0]

# Verzeichnis für die heruntergeladenen PDFs
DOWNLOAD_FOLDER = download_parent_folder+unternehmen
os.makedirs(DOWNLOAD_FOLDER, exist_ok=True)

def download_pdfs(url):
    response = requests.get(url)
    response.raise_for_status()
    
    soup = BeautifulSoup(response.text, "html.parser")
    links = soup.find_all("a", href=True)
    
    for link in links:
        if "Konzernlagebericht" in link.text and link["href"].endswith(".pdf"):
            pdf_url = link["href"]
            if not pdf_url.startswith("http"):
                pdf_url = requests.compat.urljoin(url, pdf_url)
            
            pdf_name = os.path.join(DOWNLOAD_FOLDER, pdf_url.split("/")[-1])

            if os.path.exists(pdf_name):
                print(f"Bereits vorhanden: {pdf_name}")
                continue
            
            print(f"Lade herunter: {pdf_url}")
            pdf_response = requests.get(pdf_url)
            with open(pdf_name, "wb") as file:
                file.write(pdf_response.content)
            print(f"Gespeichert als: {pdf_name}")

download_pdfs(URL)

Lade herunter: https://www.degewo.de/fileadmin/user_upload/degewo/Presse/Pressematerial/2023/240618-degewo-konzernlagerbericht-konzernabschluss-2023.pdf
Gespeichert als: Geschaeftsberichte/degewo AG/240618-degewo-konzernlagerbericht-konzernabschluss-2023.pdf
Lade herunter: https://www.degewo.de/fileadmin/user_upload/degewo/Presse/Pressematerial/degewo_Konzernlagebericht_Konzernabschluss_2022.pdf
Gespeichert als: Geschaeftsberichte/degewo AG/degewo_Konzernlagebericht_Konzernabschluss_2022.pdf
Lade herunter: https://www.degewo.de/fileadmin/user_upload/degewo/Presse/Pressematerial/2021/212131_degewo_2022_Konzernlagebericht_Konzernabschluss.pdf
Gespeichert als: Geschaeftsberichte/degewo AG/212131_degewo_2022_Konzernlagebericht_Konzernabschluss.pdf
Lade herunter: https://www.degewo.de/fileadmin/user_upload/degewo/Presse/Pressematerial/201231_degewo_Konzernlagebericht_Konzernabschluss.pdf
Gespeichert als: Geschaeftsberichte/degewo AG/201231_degewo_Konzernlagebericht_Konzernabschluss.pdf
Lade