WebScraping versuch 3

In [13]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re
import pandas as pd
from tabulate import tabulate

In [15]:
# Konfiguriere den WebDriver (z.B. Chrome)
driver = webdriver.Chrome()

# Lade die Seite
driver.get('https://www.wunderground.com/history/daily/at/vienna')

# Hole das HTML nach dem Laden der Seite
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Suche nach dem Table-Element
table = soup.find('table', {'class': 'mat-table cdk-table mat-sort ng-star-inserted'})

# Kopfzeilen extrahieren und übersetzen
header_translation = {
    'Time': 'Zeit',
    'Temperature': 'Temperatur',
    'Dew Point': 'Taupunkt',
    'Humidity': 'Lufteuchtigkeit',
    'Wind': 'Windrichtung',
    'Wind Speed': 'Windgeschwindigkeit',
    'Wind Gust': 'Windböen',
    'Pressure': 'Luftdruck',
    'Precip.': 'Niederschlag',
    'Condition': 'Zustand'
}

headers = [header_translation.get(th.text.strip(), th.text.strip()) for th in table.find('tr').find_all('th')]

# Zustand Übersetzungen
condition_translation = {
    'Fair': 'Heiter',
    'Light Rain Shower': 'Leichter Regenschauer',
    'Partly Cloudy': 'Teilweise bewölkt',
    'Mostly Cloudy': 'Überwiegend bewölkt',
    # Weitere Zustände hier hinzufügen
}

# Funktion zur Umrechnung in das metrische System
def convert_to_metric(data_row):
    def parse_value(value, unit):
        # Entferne alle nicht-numerischen Zeichen
        cleaned_value = re.sub(r'[^\d.]+', '', value)
        return float(cleaned_value)

    temperature_f = parse_value(data_row[1], '°F')
    temperature_c = (temperature_f - 32) / 1.8

    dew_point_f = parse_value(data_row[2], '°F')
    dew_point_c = (dew_point_f - 32) / 1.8

    # Entferne alle nicht-numerischen Zeichen bei der Luftfeuchtigkeit
    humidity = re.sub(r'[^\d]', '', data_row[3])

    wind_speed_mph = parse_value(data_row[5], 'mph')
    wind_speed_kmh = wind_speed_mph * 1.60934

    wind_gust_mph = parse_value(data_row[6], 'mph')
    wind_gust_kmh = wind_gust_mph * 1.60934

    pressure_inhg = parse_value(data_row[7], 'in')
    pressure_mbar = pressure_inhg * 33.8639

    precip_in = parse_value(data_row[8], 'in')
    precip_mm = precip_in * 25.4

    condition = condition_translation.get(data_row[9], data_row[9])

    return [
        data_row[0],  # Zeit bleibt gleich
        f"{temperature_c:.1f} °C",
        f"{dew_point_c:.1f} °C",
        f"{humidity}%",  # Luftfeuchtigkeit ohne Gradzeichen
        data_row[4],  # Windrichtung bleibt gleich
        f"{wind_speed_kmh:.1f} km/h",
        f"{wind_gust_kmh:.1f} km/h",
        f"{pressure_mbar:.1f} mbar",
        f"{precip_mm:.1f} mm",
        condition  # Zustand übersetzen
    ]

# Daten extrahieren und umrechnen
data_rows = []
for row in table.find_all('tr')[1:]:  # Überspringe die Kopfzeile
    cells = [td.text.strip() for td in row.find_all('td')]  # Daten aus den td-Tags
    if cells:  # Sicherstellen, dass keine leeren Zeilen erfasst werden
        converted_row = convert_to_metric(cells)
        data_rows.append(converted_row)

# WebDriver beenden
driver.quit()

# Erstelle einen Pandas DataFrame
df = pd.DataFrame(data_rows, columns=headers)

# Ergebnisse ausgeben
print(tabulate(df, headers='keys', tablefmt='grid'))


+----+----------+--------------+------------+-------------------+----------------+-----------------------+------------+-------------+----------------+-----------------------+
|    | Zeit     | Temperatur   | Taupunkt   | Lufteuchtigkeit   | Windrichtung   | Windgeschwindigkeit   | Windböen   | Luftdruck   | Niederschlag   | Zustand               |
|  0 | 12:20 AM | 21.1 °C      | 16.1 °C    | 73%               | SSE            | 4.8 km/h              | 0.0 km/h   | 992.2 mbar  | 0.0 mm         | Heiter                |
+----+----------+--------------+------------+-------------------+----------------+-----------------------+------------+-------------+----------------+-----------------------+
|  1 | 12:50 AM | 21.1 °C      | 16.1 °C    | 73%               | S              | 4.8 km/h              | 0.0 km/h   | 992.2 mbar  | 0.0 mm         | Heiter                |
+----+----------+--------------+------------+-------------------+----------------+-----------------------+------------+------