WebScraping

In [7]:
!pip install selenium




[notice] A new release of pip is available: 24.0 -> 24.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [9]:
import time
from selenium import webdriver
from bs4 import BeautifulSoup
import re
import pandas as pd
from kafka import KafkaProducer
import json

In [None]:
# Kafka Producer erstellen
producer = KafkaProducer(
    bootstrap_servers='localhost:9092',
    value_serializer=lambda v: json.dumps(v).encode('utf-8'),
    api_version=(2, 7, 0)  # Setze die API-Version manuell (beispielsweise 2.7.0)
)

# Funktion zum Senden einer Testnachricht an Kafka
def send_test_message():
    topic = 'weather-data'
    test_message = {'test': 'message'}
    producer.send(topic, test_message)
    producer.flush()
    print(f'Testnachricht an Kafka-Topic "{topic}" gesendet.')

# Testnachricht senden, um zu überprüfen, ob der Producer funktioniert
send_test_message()

# Funktion zum Scrapen und Senden von Daten an Kafka
def scrape_and_send():
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    driver = webdriver.Chrome(options=options)

    # Lade die Seite
    driver.get('https://www.wunderground.com/history/daily/at/vienna')

    # Hole das HTML nach dem Laden der Seite
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Suche nach dem Table-Element
    table = soup.find('table', {'class': 'mat-table cdk-table mat-sort ng-star-inserted'})

    # Kopfzeilen extrahieren und übersetzen
    header_translation = {
        'Time': 'Zeit',
        'Temperature': 'Temperatur',
        'Dew Point': 'Taupunkt',
        'Humidity': 'Luftfeuchtigkeit',
        'Wind': 'Windrichtung',
        'Wind Speed': 'Windgeschwindigkeit',
        'Wind Gust': 'Windböen',
        'Pressure': 'Luftdruck',
        'Precip.': 'Niederschlag',
        'Condition': 'Zustand'
    }

    headers = [header_translation.get(th.text.strip(), th.text.strip()) for th in table.find('tr').find_all('th')]

    # Zustand Übersetzungen
    condition_translation = {
        'Fair': 'Heiter',
        'Light Rain Shower': 'Leichter Regenschauer',
        'Partly Cloudy': 'Teilweise bewölkt',
        'Mostly Cloudy': 'Überwiegend bewölkt',
        # Weitere Zustände hier hinzufügen
    }

    # Funktion zur Umrechnung in das metrische System
    def convert_to_metric(data_row):
        def parse_value(value, unit):
            # Entferne alle nicht-numerischen Zeichen
            cleaned_value = re.sub(r'[^\d.]+', '', value)
            return float(cleaned_value)

        temperature_f = parse_value(data_row[1], '°F')
        temperature_c = (temperature_f - 32) / 1.8

        dew_point_f = parse_value(data_row[2], '°F')
        dew_point_c = (dew_point_f - 32) / 1.8

        # Entferne alle nicht-numerischen Zeichen bei der Luftfeuchtigkeit
        humidity = re.sub(r'[^\d]', '', data_row[3])

        wind_speed_mph = parse_value(data_row[5], 'mph')
        wind_speed_kmh = wind_speed_mph * 1.60934

        wind_gust_mph = parse_value(data_row[6], 'mph')
        wind_gust_kmh = wind_gust_mph * 1.60934

        pressure_inhg = parse_value(data_row[7], 'in')
        pressure_mbar = pressure_inhg * 33.8639

        precip_in = parse_value(data_row[8], 'in')
        precip_mm = precip_in * 25.4

        condition = condition_translation.get(data_row[9], data_row[9])

        return [
            data_row[0],  # Zeit bleibt gleich
            f"{temperature_c:.1f} °C",
            f"{dew_point_c:.1f} °C",
            f"{humidity}%",  # Luftfeuchtigkeit ohne Gradzeichen
            data_row[4],  # Windrichtung bleibt gleich
            f"{wind_speed_kmh:.1f} km/h",
            f"{wind_gust_kmh:.1f} km/h",
            f"{pressure_mbar:.1f} mbar",
            f"{precip_mm:.1f} mm",
            condition  # Zustand übersetzen
        ]

    # Daten extrahieren und umrechnen
    data_rows = []
    for row in table.find_all('tr')[1:]:  # Überspringe die Kopfzeile
        cells = [td.text.strip() for td in row.find_all('td')]  # Daten aus den td-Tags
        if cells:  # Sicherstellen, dass keine leeren Zeilen erfasst werden
            converted_row = convert_to_metric(cells)
            data_rows.append(converted_row)

    # WebDriver beenden
    driver.quit()

    # Daten an Kafka-Topic senden
    topic = 'weather-data'
    for row in data_rows:
        data = dict(zip(headers, row))
        producer.send(topic, data)

    producer.flush()
    print(f'Daten an Kafka-Topic "{topic}" gesendet.')

# Endlosschleife, die alle 30 Minuten die Daten scrapt und an Kafka sendet
while True:
    scrape_and_send()
    print('Warten auf die nächste Aktualisierung...')
    time.sleep(1800)  # 30 Minuten warten (1800 Sekunden)

Testnachricht an Kafka-Topic "weather-data" gesendet.
Daten an Kafka-Topic "weather-data" gesendet.
Warten auf die nächste Aktualisierung...
Daten an Kafka-Topic "weather-data" gesendet.
Warten auf die nächste Aktualisierung...
Daten an Kafka-Topic "weather-data" gesendet.
Warten auf die nächste Aktualisierung...
