In [26]:
import os
from bs4 import BeautifulSoup

# Beispielpfad – anpassen auf eine echte Datei
file_path = "D:/DBU/ADSC11 ADS-01/Studienarbeit/newspaper-scraping/input/raw/data-lake/2021-04-01-dlf.html"

with open(file_path, "r", encoding="utf-8") as f:
    html = f.read()

In [27]:
# Funktion: Artikel gezielt extrahieren
def extract_text_by_medium(html, medium):
    soup = BeautifulSoup(html, "html.parser")

    if medium == "tagesschau":
        text_tags = soup.find_all("p", class_=True)
    elif medium == "deutschlandfunk":
        text_tags = soup.find_all("p", class_=True)
    elif medium == "handelsblatt":
        text_tags = soup.find_all(["h2", "h3"])
    elif medium == "tagesspiegel":
        text_tags = soup.find_all("p")
    else:
        return soup.get_text(separator=" ", strip=True)

    return " ".join(t.get_text(separator=" ", strip=True) for t in text_tags)

In [28]:
# Medium anpassen!
medium = "deutschlandfunk"

text = extract_text_by_medium(html, medium)

print("[INFO] Länge des extrahierten Texts:", len(text))
print("[INFO] Beispieltext:", text[:300])
print("[INFO] Enthält 'bvg'? →", "bvg" in text.lower())

[INFO] Länge des extrahierten Texts: 0
[INFO] Beispieltext: 
[INFO] Enthält 'bvg'? → False


In [29]:
# Zeige mal alle <p>-Elemente mit Inhalt
soup = BeautifulSoup(html, "html.parser")
for tag in soup.find_all("p"):
    text = tag.get_text(strip=True)
    if len(text) > 50:
        print("➤", text[:100])

➤ INTERVIEWNordrhein-Westfalens Gesundheitsminister Karl-Josef Laumann (CDU) hat die Ausnahmen von der
➤ Im Mittelpunkt steht die Entscheidung, dass der Corona-Impfstoff von Astrazeneca in der Regel nur no
➤ Das RKI meldet rund 24.000 Neuinfektionen und eine leicht gestiegene Inzidenz. Der Anteil der zuerst
➤ Was die Neuinfektionen für die kommenden Wochen bedeuten
➤ INTERVIEWIn der Diskussion über die umstrittene Ostsee-Gaspipeline Nord Stream 2 hat Oliver Krischer
➤ KOMMENTARDie Entscheidung Astrazeneca-Impfungen für die unter 60-Jährigen auszusetzen, sei richtig g
➤ "Wir sind gewohnt, dass wir unsere Impfstrategie immer wieder anpassen müssen"
➤ Bei bestimmten Altersgruppen auf anderen Impfstoff setzen
➤ Die wichtigsten Fragen und Antworten zur Astrazeneca-Entscheidung
➤ INTERVIEWDas Coronavirus stammt sehr wahrscheinlich von Fledermäusen und wurde durch einen Zwischenw
➤ Mit dem Corona-Wiederaufbaufonds stehen 750 Milliarden Euro für den wirtschaftlichen Wiederaufbau be
➤ Der Schif

In [30]:
def read_html_file(filepath, encoding="utf-8"):
    """Liest eine HTML-Datei als Textstring

    Args:
        filepath (str): Pfad zur HTML-Datei
        encoding (str): Zeichenkodierung (Standard: 'utf-8')

    Returns:
        str: Inhalt der HTML-Datei als Text
    """
    with open(filepath, "r", encoding=encoding) as f:
        return f.read()

In [31]:
from bs4 import BeautifulSoup
html = read_html_file("D:/DBU/ADSC11 ADS-01\Studienarbeit/newspaper-scraping/input/raw/data-lake/2025-02-28-handelsblatt.html", encoding="iso-8859-1")
soup = BeautifulSoup(html, "html.parser")

# Alle h2 anzeigen
for h in soup.find_all("h2"):
    print(h.get_text(strip=True))

# Oder: Alle p mit spezieller Klasse
for p in soup.find_all("p", class_="teaser-text"):
    print(p.get_text(strip=True))

In [32]:
from bs4 import BeautifulSoup
import os
import pandas as pd

# Alle Medien, die du testen willst
alle_medien = {"berliner", "tagesschau", "handelsblatt", "stern", "wiwo", "faz", "spiegel", "ntv", "zeit"}

# Lade eine CSV-Datei mit mehreren Medien
df = pd.read_csv("D:/DBU/ADSC11 ADS-01/Studienarbeit/newspaper-scraping/input/raw/data-lake/2025-02-25.csv")  # Beispiel-Datei

# Optional: Filter auf nur ausgewählte Medien
df = df[df["name"].isin(alle_medien)]

# Für jedes Medium nur einen Artikel testen
df_test = df.groupby("name").head(1)

for i, row in df_test.iterrows():
    name = row["name"]
    html = row["file_name"]  # falls in CSV enthalten
    soup = BeautifulSoup(html, "html.parser")
    print(f"\n📍 Medium: {name.upper()}")

    p_tags = soup.find_all("p")
    count = 0
    for tag in p_tags:
        text = tag.get_text(strip=True)
        if len(text) > 50:
            print("➤", text[:100])
            count += 1
        if count >= 3:
            break
    if count == 0:
        print("⚠️ Keine sinnvollen <p>-Inhalte gefunden.")


📍 Medium: ZEIT
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: FAZ
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: BERLINER
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: HANDELSBLATT
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: NTV
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: SPIEGEL
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: STERN
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: TAGESSCHAU
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: WIWO
⚠️ Keine sinnvollen <p>-Inhalte gefunden.



If you meant to use Beautiful Soup to parse the contents of a file on disk, then something has gone wrong. You should open the file first, using code like this:

    filehandle = open(your filename)

You can then feed the open filehandle into Beautiful Soup instead of using the filename.



    
  soup = BeautifulSoup(html, "html.parser")


In [33]:
# Projektverzeichnis (z. B. .../notebooks)
PROJECT_ROOT = os.getcwd()
print(PROJECT_ROOT)

# Input-Pfade
INPUT_PATH = os.path.join(PROJECT_ROOT, "..", "input", "raw")
DATA_LAKE_PATH = os.path.join(INPUT_PATH, "data-lake")         # HTML- und CSV-Dateien
ZIP_PATH = os.path.join(INPUT_PATH, "downloaded_zips")         # ZIP-Dateien

# Output-Pfade
OUTPUT_PATH = os.path.join(PROJECT_ROOT, "..", "output")
STORAGE_PATH = os.path.join("..", "input", "raw", "data-lake")
SQL_PATH = os.path.join(OUTPUT_PATH, "dwh.sqlite3")               # SQLite-Datenbank
CSV_PATH = os.path.join(OUTPUT_PATH, "wordcount_news.csv")        # Exportierte CSV

d:\DBU\ADSC11 ADS-01\Studienarbeit\newspaper-scraping\notebooks


In [34]:
for _, row in df_test.iterrows():
    name = row["name"]
    encoding = row.get("encoding", "utf-8")  # <- HIER definierst du 'encoding'
    file_name = row["file_name"]
    file_path = os.path.join(DATA_LAKE_PATH, os.path.basename(file_name))

In [35]:
print(f"🔍 Versuche zu laden: {file_path} mit Encoding {encoding}")
print("📂 Existiert Datei?", os.path.exists(file_path))

🔍 Versuche zu laden: d:\DBU\ADSC11 ADS-01\Studienarbeit\newspaper-scraping\notebooks\..\input\raw\data-lake\2025-02-25-wiwo.html mit Encoding ISO-8859-1
📂 Existiert Datei? True


In [36]:
from bs4 import BeautifulSoup
import os
import pandas as pd

# Alle Medien, die du testen willst
alle_medien = {"berliner", "tagesschau", "handelsblatt", "stern", "wiwo", "faz", "spiegel", "ntv", "zeit"}

# Lade eine CSV-Datei mit mehreren Medien
df = pd.read_csv("D:/DBU/ADSC11 ADS-01/Studienarbeit/newspaper-scraping/input/raw/data-lake/2025-02-25.csv")  # Beispiel-Datei

# Optional: Filter auf nur ausgewählte Medien
df = df[df["name"].isin(alle_medien)]

# Für jedes Medium nur einen Artikel testen
df_test = df.groupby("name").head(1)

for i, row in df_test.iterrows():
    name = row["name"]
    html = row["file_name"]  # falls in CSV enthalten
    soup = BeautifulSoup(html, "html.parser")
    print(f"\n📍 Medium: {name.upper()}")

    p_tags = soup.find_all("p")
    count = 0
    for tag in p_tags:
        text = tag.get_text(strip=True)
        if len(text) > 50:
            print("➤", text[:100])
            count += 1
        if count >= 3:
            break
    if count == 0:
        print("⚠️ Keine sinnvollen <p>-Inhalte gefunden.")


📍 Medium: ZEIT
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: FAZ
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: BERLINER
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: HANDELSBLATT
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: NTV
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: SPIEGEL
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: STERN
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: TAGESSCHAU
⚠️ Keine sinnvollen <p>-Inhalte gefunden.

📍 Medium: WIWO
⚠️ Keine sinnvollen <p>-Inhalte gefunden.



If you meant to use Beautiful Soup to parse the contents of a file on disk, then something has gone wrong. You should open the file first, using code like this:

    filehandle = open(your filename)

You can then feed the open filehandle into Beautiful Soup instead of using the filename.



    
  soup = BeautifulSoup(html, "html.parser")


In [38]:
def read_html_file(filepath, encoding="utf-8"):
    print("🧪 Öffne:", filepath)
    if not os.path.exists(filepath):
        print("❌ Datei existiert nicht!")
        return None
    try:
        with open(filepath, "r", encoding=encoding, errors="ignore") as f:
            content = f.read()
            print("✅ Datei erfolgreich gelesen")
            return content
    except Exception as e:
        print(f"❌ Fehler beim Lesen der Datei: {e}")
        return None

In [39]:
row = df_test.iloc[0]  # Nur einen Artikel testen
name = row["name"]
file_name = row["file_name"]
encoding = row.get("encoding", "utf-8")

file_path = os.path.join(DATA_LAKE_PATH, os.path.basename(file_name))
html = read_html_file(file_path, encoding=encoding)

print("📄 Inhalt beginnt mit:", html[:300] if html else "Kein Inhalt")

if html:
    soup = BeautifulSoup(html, "html.parser")
    p_tags = soup.find_all("p")
    print(f"📊 Anzahl <p>-Tags: {len(p_tags)}")
    for p in p_tags[:3]:
        print("➤", p.get_text(strip=True))

🧪 Öffne: d:\DBU\ADSC11 ADS-01\Studienarbeit\newspaper-scraping\notebooks\..\input\raw\data-lake\2025-02-25-zeit.html
✅ Datei erfolgreich gelesen
📄 Inhalt beginnt mit: <!DOCTYPE html>
<html lang="de" class="no-js " data-rebrush-23    >
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no, viewport-fit=cover" id="viewport-meta">
    <title>ZEIT ONLINE | Nachrichten, News, Hintergründe und Debatte
📊 Anzahl <p>-Tags: 164
➤ Danke, dass Sie ZEIT ONLINE nutzen.
➤ 
➤ Melden Sie sich jetzt mit Ihrem bestehenden Account an oder testen Sie unser digitales Abo mit Zugang zu allen Artikeln.


In [40]:
import re

# HTML wurde ja schon gelesen
soup = BeautifulSoup(html, "html.parser")

print("\n🔎 Durchsuche <script>-Blöcke nach Textinhalten...\n")

for i, script in enumerate(soup.find_all("script")):
    content = script.string
    if content and any(keyword in content.lower() for keyword in ["bvg", "article", "body", "text"]):
        print(f"\n📄 Script #{i} mit möglichem Inhalt:")
        print(content[:1000])  # Nur die ersten 1000 Zeichen anzeigen
        break
else:
    print("⚠️ Keine relevanten <script>-Inhalte gefunden.")


🔎 Durchsuche <script>-Blöcke nach Textinhalten...


📄 Script #1 mit möglichem Inhalt:

        {
            "assetHost": "https://static.zeit.de/p/zeit.web",
            "publicPath": "https://static.zeit.de/p/zeit.web/js/",
            "jsconfHost": "https://static.zeit.de/static/js",
            "cookieFallbackDomain": "zeit.de",
            "profileURL": "https://profile.zeit.de",
            "videoPlayers": {
                "cp": {
                    "withAds": "65fa926a-0fe0-4031-8cbf-9db35cecf64a",
                    "withoutAds": "r1xb937iwZ"
                },
                "article": {
                    "withAds": "c09a3b98-8829-47a5-b93b-c3cca8a4b5e9",
                    "withoutAds": "NykzeyfYg"
                }
            },
            "actualHost": "https://www.zeit.de",
            "toggles": {
                "abtesting": true,
                "abtesting_progressbar": false,
                "adblocker_user_analytics": true,
                "autoplay_carousel