# Datenaufbereitung

### Extrahieren der Stations ID von stationen innerhalb Baden-Württembergs
Die Datei "*RR_Stundenwerte_Beschreibung_Stationen.txt" Metadaten zu den Niederschlagsstationen des DWD. In diesem Block werden aus dieser Text-Datei die Stations IDs aller Niederschlagsstationen extrahiert, die sich in Baden-Württemberg befinden und als Liste ausgegeben.

In [30]:
import re
import glob

# find the file
path = glob.glob("Datensätze/DWD/Messnetze und Parameternetze-stündlich/historical/*RR_Stundenwerte_Beschreibung_Stationen.txt")[0]

# find all rows in the txt file, with Baden-Württemberg: That are stations we need for the Thesis
bw_ids = []  


with open(path, "r", encoding="latin1", errors="ignore") as f:
    for line in f:
        if "Baden-Württemberg" in line:
            
            m = re.match(r"\s*(\d{3,5})", line)
            if m:
                bw_ids.append(m.group(1).zfill(5))

print(f" {len(bw_ids)} stations found in Baden-Württemberg")
print("Stations:", bw_ids[:201])

 201 stations found in Baden-Württemberg
Stations: ['00020', '00047', '00071', '00257', '00259', '00269', '00279', '00301', '00384', '00498', '00604', '00684', '00731', '00755', '00757', '00931', '01018', '01089', '01093', '01176', '01197', '01214', '01216', '01224', '01239', '01255', '01290', '01315', '01346', '01443', '01468', '01538', '01584', '01602', '01711', '01937', '02050', '02072', '02074', '02080', '02088', '02159', '02292', '02388', '02485', '02522', '02546', '02575', '02638', '02677', '02712', '02787', '02812', '02814', '02850', '02880', '02953', '02996', '03247', '03257', '03268', '03278', '03362', '03402', '03418', '03432', '03440', '03448', '03519', '03690', '03704', '03733', '03734', '03761', '03802', '03925', '03927', '04094', '04160', '04169', '04175', '04177', '04189', '04211', '04294', '04300', '04315', '04349', '04351', '04623', '04655', '04703', '04710', '04712', '04719', '04881', '04887', '04926', '04928', '04931', '05047', '05059', '05155', '05174', '05206', '05

### Speichern der Zip-Dateien in neuem Ordner
Die Niederschlagsdaten sind jeweils stationsweise in Zip-Dateien gespeichert. In diesem Abschnitt werden alle Zip-Dateien der Niederschlagsstationen in Baden-Württemberg identifiziert und in einen neuen Ordner ("Datensätze/DWD/Baden-Württemberg-Messnetze und Parameternetze-stündlich") kopiert.

In [31]:
import os
import glob
import shutil

bw_ids = ['00020', '00047', '00071', '00257', '00259', '00269', '00279', '00301', 
          '00384', '00498', '00604', '00684', '00731', '00755', '00757', '00931', 
          '01018', '01089', '01093', '01176', '01197', '01214', '01216', '01224', 
          '01239', '01255', '01290', '01315', '01346', '01443', '01468', '01538', 
          '01584', '01602', '01711', '01937', '02050', '02072', '02074', '02080', 
          '02088', '02159', '02292', '02388', '02485', '02522', '02546', '02575', 
          '02638', '02677', '02712', '02787', '02812', '02814', '02850', '02880', 
          '02953', '02996', '03247', '03257', '03268', '03278', '03362', 
          '03402', '03418', '03432', '03440', '03448', '03519', '03690', '03704', 
          '03733', '03734', '03761', '03802', '03925', '03927', '04094', '04160', 
          '04169', '04175', '04177', '04189', '04211', '04294', '04300', '04315', 
          '04349', '04351', '04623', '04655', '04703', '04710', '04712', '04719', 
          '04881', '04887', '04926', '04928', '04931', '05047', '05059', '05155', 
          '05174', '05206', '05229', '05275', '05435', '05453', '05511', '05559', 
          '05562', '05664', '05678', '05688', '05711', '05724', '05731', '05840', 
          '05906', '05985', '05986', '05987', '05988', '05989', '05990', 
          '05991', '05992', '05993', '05994', '06243', '06244', '06245', '06246', 
          '06247', '06256', '06258', '06259', '06260', '06262', '06263', '06275', 
          '07104', '07135', '07138', '07187', '07224', '07226', '07227', '07228', 
          '07229', '07230', '07231', '07233', '07234', '07235', '07237', '07238', 
          '07239', '07240', '07241', '07242', '07243', '07322', '07331', '07380', 
          '07382', '07403', '07429', '07434', '07436', '07487', '07488', '07489', 
          '07490', '07491', '07492', '07493', '07494', '07495', '07496', '07497', 
          '07498', '13672', '13674', '13698', '13715', '13716', '13965',
          '15011', '15012', '15013', '15014', '15015', '15016', '15170', '15444', 
          '15478', '15514', '15810', '20098']
target_dir = "Datensätze/DWD/Baden-Württemberg-Messnetze und Parameternetze-stündlich"

all_zips = glob.glob(os.path.join("Datensätze/DWD/Messnetze und Parameternetze-stündlich/historical", "*.zip"))

print(f" found {len(all_zips)} zip files")

bw_zips = [z for z in all_zips if any(f"_{station}_" in os.path.basename(z) for station in bw_ids)]

print(f"{len(bw_zips)} stations in BW")

copied = 0
for z in bw_zips:
    shutil.copy2(z, target_dir)
    copied += 1

print(f"copied {copied} zip files in {target_dir}.")
    

      


 found 1475 zip files
190 stations in BW
copied 190 zip files in Datensätze/DWD/Baden-Württemberg-Messnetze und Parameternetze-stündlich.


### Erweiterung und Speicherung der Zeitreihe
In diesem Block werden für jede Niederschlagsstation die Zeitreihe ("produkt_rr_stunde_....txt") sowie die zugehörige Metadaten-Datei ("Metadaten_Geographie_...txt") innerhalb der Zip-Datei gesucht und eingelesen. Anschließend werden die Spalten "Geogr.Breite", "Geogr.Laenge", "Stationsname" aus den Metadaten in die Zeitreihe übernommen.
Daraufhin wird ein neuer Ordner "Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich" sowie Unterordner mit den Namen der jeweiligen Zip-Dateien erstellt. Die erweiterte Zeitreihe wird schließlich als CSV-Datei im passenden Unterordner gespeichert (Endung: "_enhanced.csv").

In [34]:
import zipfile
import pandas as pd
import glob
import re
import os
from pathlib import Path

all_zips = glob.glob("Datensätze/DWD/Baden-Württemberg-Messnetze und Parameternetze-stündlich/stundenwerte_RR_*_hist.zip")

# read the the product_rr_stunde...txt file of the station with the respective Metadaten_Geographie...txt file
def find_txt_files():
    found_files = []
    for p in all_zips:
        p = Path(p)

        with zipfile.ZipFile(p) as z:
            print("Files in zip:", z.namelist())

            product_txt_file = next(name for name in z.namelist() if re.search(r"produkt_rr_stunde_.*\.txt$", name))

            meta_txt_file = next(name for name in z.namelist() if re.search(r"Metadaten_Geographie_.*\.txt$", name))

            if product_txt_file:
                with z.open(product_txt_file) as f:
                    df_product = pd.read_csv(f, sep=";", skipinitialspace=True, na_values=["-999", "-9999"], encoding="latin1")

                df_product["MESS_DATUM"] = pd.to_datetime(df_product["MESS_DATUM"], format="%Y%m%d%H")
        

                print(f"Found product file: {product_txt_file}")

            if meta_txt_file:
                with z.open(meta_txt_file) as f:
                    df_meta = pd.read_csv(f, sep=";", skipinitialspace=True, na_values=["-999", "-9999"], encoding="latin1")
            
                print(f"Found meta file: {meta_txt_file}")
            
        found_files.append({
            "zip file": p.name,
            "product text file": product_txt_file,
            "meta text file": meta_txt_file,
            "data frame product": df_product,
            "data frame meta": df_meta
        })
                
    
    print(f"Found {len(found_files)*2} text files.")
    return found_files

def add_columns(found_files):
    added_columns = []
    for f in found_files:
        df_product = f["data frame product"].copy()
        df_meta = f["data frame meta"]

        meta_last = df_meta.tail(1)
        columns_to_add = ["Geogr.Breite", "Geogr.Laenge", "Stationsname"]

        for column in columns_to_add:
            df_product[column] = meta_last[column].iloc[0]
        
        added_columns.append({
            "zip file": f["zip file"],
            "product text file": f["product text file"],
            "df new product file": df_product
        })

    print(f"added meta columns to {len(added_columns)} product text files.")
    return added_columns

def create_new_folders(added_columns):
    created_folders = []
    new_main_folder = Path("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich")
    new_main_folder.mkdir(exist_ok=True)
                          
    print(f"create new main folder: {new_main_folder}")

    for a in added_columns:
        zip_file = a["zip file"]
        new_subfolder = new_main_folder / Path(zip_file).stem
        new_subfolder.mkdir(exist_ok=True)

        print(f"create new subfolder: {new_subfolder}")
        created_folders.append(new_subfolder)

    print(f"created {len(created_folders)} subfolders.")
    return created_folders

def store_enhanced_product(added_columns):
    stored_files = []

    for a in added_columns:
        zip_file = a["zip file"]
        df_product = a["df new product file"]

        subfolder = Path("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich") / Path(zip_file).stem

        df_product_name = Path(a["product text file"]).with_suffix("").name + "_enhanced.csv"
        store_file = subfolder / df_product_name

        df_product.to_csv(store_file, index=False, sep=";", encoding="utf-8")

        print(f" stored: {store_file}")
        stored_files.append(store_file)

    print(f"stored {len(stored_files)} in 'Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich'.")
    return stored_files
                          

    
found_files = find_txt_files()
added_columns = add_columns(found_files)
created_folders = create_new_folders(added_columns)
stored_files = store_enhanced_product(added_columns)



Files in zip: ['Metadaten_Stationsname_Betreibername_00020.html', 'Metadaten_Stationsname_Betreibername_00020.txt', 'Metadaten_Parameter_rr_stunde_00020.html', 'Metadaten_Parameter_rr_stunde_00020.txt', 'Metadaten_Geraete_Niederschlagshoehe_00020.html', 'Metadaten_Geraete_Niederschlagshoehe_00020.txt', 'Metadaten_Geographie_00020.txt', 'Metadaten_Fehldaten_00020_20040814_20241231.html', 'Metadaten_Fehldaten_00020_20040814_20241231.txt', 'Metadaten_Fehlwerte_00020_20040814_20241231.txt', 'produkt_rr_stunde_20040814_20241231_00020.txt']
Found product file: produkt_rr_stunde_20040814_20241231_00020.txt
Found meta file: Metadaten_Geographie_00020.txt
Files in zip: ['Metadaten_Stationsname_Betreibername_00047.html', 'Metadaten_Stationsname_Betreibername_00047.txt', 'Metadaten_Parameter_rr_stunde_00047.html', 'Metadaten_Parameter_rr_stunde_00047.txt', 'Metadaten_Geraete_Niederschlagshoehe_00047.html', 'Metadaten_Geraete_Niederschlagshoehe_00047.txt', 'Metadaten_Geographie_00047.txt', 'Metada

### Filtern der Spalten

In diesem Abschnitt werden die erweiterten Niederschlagszeitreihen so gefiltert, dass nur noch die für die weitere verarbeitung relevanten Spalten erhalten bleiben. Zusätzlich werden die Spalten umbenannt zu "Wert in mm", "Stations ID", "Datum / Uhrzeit", "Geographische Breite" und "Geographische Länge". Das daraus resultierende DataFrame mit den Spalten "Stations ID", "Datum / Uhrzeit", "Wert in mm", "Geographische Breite", "Geographische Länge", "Stationsname" wird anschließend mit der Endung "_enhanced_filtered.csv" gespeichert.

In [35]:
import pandas as pd
import glob
import re
import os
from pathlib import Path

all_enhanced_files=glob.glob("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/*/*_enhanced.csv")
def filter_all_enhanced_files():
    filtered = []
    for p in all_enhanced_files:
        p = Path(p)
        df_product = pd.read_csv(p, sep=";", encoding="utf-8")
        df_product["Wert in mm"] = df_product["R1"]
        df_product["Stations ID"] = df_product["STATIONS_ID"]
        df_product["Datum / Uhrzeit"] = df_product["MESS_DATUM"]
        df_product["Geographische Breite"] = df_product["Geogr.Breite"]
        df_product["Geographische Länge"] = df_product["Geogr.Laenge"]

        df_filtered = df_product[["Stations ID", "Datum / Uhrzeit", "Wert in mm", "Geographische Breite", "Geographische Länge", "Stationsname"]].copy()
        df_filtered["Datum / Uhrzeit"] = pd.to_datetime(df_filtered["Datum / Uhrzeit"], errors="coerce")

        new_name = p.name.replace("_enhanced", "_enhanced_filtered")
        out_path = p.with_name(new_name)

        df_filtered.to_csv(out_path, index=False)
        print(f"Filtered: {out_path}")
        filtered.append(out_path)
    
    print(f"Ready. filtered {len(filtered)} enhanced files (_enhanced_filtered.csv)")
    return filtered
    
    

filtered_enhanced_files = filter_all_enhanced_files()



Filtered: Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00020_20040814_20241231_hist\produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered.csv
Filtered: Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00047_20081103_20131127_hist\produkt_rr_stunde_20081103_20131127_00047_enhanced_filtered.csv
Filtered: Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00071_20041022_20200101_hist\produkt_rr_stunde_20041022_20200101_00071_enhanced_filtered.csv
Filtered: Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00257_20021101_20241231_hist\produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered.csv
Filtered: Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00259_20040701_20241231_hist\produkt_rr_stunde_20040701_20241231_00259_enhanced_filtered.csv


### Kürzen
In diesem Abschnitt werden die gefilterten Niederschlagszeitreihen gekürzt. Wesentlich ist hier der Zeitraum 2010-01-01 00:00 bis 2024-12-31 23:00, analog zu den Abflusszeitreihen. Dies wird ermöglicht, da die Spalte "Datum / Uhrzeit" im datetime-Format vorliegt. Die gekürzten Dateien werden als CSV-Dateien mit der Endung "_enhanced_filtered_shortened" gespeichert.

In [38]:
import pandas as pd
import glob
import re
import os
from pathlib import Path


# glob all "_enhanced_filtered.csv"-files to shorten them.
all_filtered_files=glob.glob("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/*/*_enhanced_filtered.csv")

# define start and end date 
start_date = pd.Timestamp("2010-01-01 00:00")
end_date = pd.Timestamp("2024-12-31 23:00")

# define method which shortens the respective files to adapt them for the waters time series.
def shorten_dwd_files():
    shortened = []

    # shorten every "_enhanced_filtered.csv" file and store it in the respective folder.
    for p in all_filtered_files:
        p = Path(p)

        df_filtered = pd.read_csv(p, sep=",", encoding="utf-8")

        df_filtered["Datum / Uhrzeit"] = pd.to_datetime(df_filtered["Datum / Uhrzeit"], errors="coerce")

        df_shortened = df_filtered[(df_filtered["Datum / Uhrzeit"] >= start_date) & (df_filtered["Datum / Uhrzeit"] <= end_date)]

        new_name = p.name.replace("_enhanced_filtered", "_enhanced_filtered_shortened")
        out_path = p.with_name(new_name)

        df_shortened.to_csv(out_path, index=False)
        shortened.append(out_path)

        print(f"shortened: {out_path.name} ({len(df_shortened)} rows kept, {len(df_filtered) - len(df_shortened)} removed)")

    print(f"Ready. {len(shortened)} files from 2010-01-01 00:00 to 2024-12-31 23:00 are created.")
    return shortened

shortened_dwd_files = shorten_dwd_files()





shortened: produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered_shortened.csv (131203 rows kept, 47150 removed)
shortened: produkt_rr_stunde_20081103_20131127_00047_enhanced_filtered_shortened.csv (23075 rows kept, 334 removed)
shortened: produkt_rr_stunde_20041022_20200101_00071_enhanced_filtered_shortened.csv (87609 rows kept, 44636 removed)
shortened: produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered_shortened.csv (131406 rows kept, 61606 removed)
shortened: produkt_rr_stunde_20040701_20241231_00259_enhanced_filtered_shortened.csv (131383 rows kept, 48237 removed)
shortened: produkt_rr_stunde_20060524_20241231_00269_enhanced_filtered_shortened.csv (131274 rows kept, 31620 removed)
shortened: produkt_rr_stunde_20061101_20241231_00279_enhanced_filtered_shortened.csv (131423 rows kept, 27757 removed)
shortened: produkt_rr_stunde_20150901_20241231_00301_enhanced_filtered_shortened.csv (81506 rows kept, 0 removed)
shortened: produkt_rr_stunde_20050622_20140918_00384_enha

### NaNs entfernen für Analyse
In diesem Abschnitt werden fehlende Werte (NaNs) in der Spalte "Wert in mm" aus den Niederschlagszeitreihen entfernt. Dadurch entstehen Zeitlücken in den Zeitreihen, sodass die Analyse von Datenlücken analog zu den Abflusszeitreihen in "water.ipynb" durchgeführt werden kann. Die daraus resultierenden Datensätze werden als CSV-Dateien mit der Endung "_standardised.csv" gespeichert, wobei "_shortened" im Dateinamen ersetzt wird. 

In [47]:
import pandas as pd
import glob
import re
import os
from pathlib import Path

all_shortened_files=glob.glob("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/*/*_shortened.csv")

# makes NaNs in time series to time_gaps. Time gaps to nans would probably be better but the existing code from waters fit perfectly if NaNs to time gaps. After chosing the stations time gaps will processed to NaNs for further instructions.
def nans_to_time_gaps():
    standardised = []
    for p in all_shortened_files:
        p = Path(p)

        # read the respective file as a data frame.
        df = pd.read_csv(p, sep=",", encoding="utf-8")

        # store the data frame as a copy of the data frame to work with it without missunderstandings.
        df = df.copy()

        if df.empty:
            print(f"File {p.name} is empty. Nothing to standardise")
            continue
            
        # define the column "Datum / Uhrzeit" as a real date time.
        df["Datum / Uhrzeit"] = pd.to_datetime(df["Datum / Uhrzeit"], errors="coerce")

        # maybe "Datum / Uhrzeit" is by any case not sorted.
        df = df.sort_values("Datum / Uhrzeit")

        if "Wert in mm" not in df.columns:
            print(f"{p.name} has no column called 'Wert in mm'")
            continue

        
        # Drop all NaNs in "Wert in mm to get gaps.
        df = df.dropna(subset=["Wert in mm"])
        
        

        out_path = p.with_name(p.name.replace("_shortened", "_standardised"))
        df.to_csv(out_path, index=False, encoding="utf-8")

        print(f"standardised: {p.name} to {out_path.name} ({len(df)} rows)")
        standardised.append(out_path)

    return standardised
    print(f"Ready. Standardised {len(standardised)} of {len(all_shortened_files)} files.")


standardised = nans_to_time_gaps()






standardised: produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered_shortened.csv to produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered_standardised.csv (131128 rows)
standardised: produkt_rr_stunde_20081103_20131127_00047_enhanced_filtered_shortened.csv to produkt_rr_stunde_20081103_20131127_00047_enhanced_filtered_standardised.csv (23075 rows)
standardised: produkt_rr_stunde_20041022_20200101_00071_enhanced_filtered_shortened.csv to produkt_rr_stunde_20041022_20200101_00071_enhanced_filtered_standardised.csv (87605 rows)
standardised: produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered_shortened.csv to produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered_standardised.csv (131365 rows)
standardised: produkt_rr_stunde_20040701_20241231_00259_enhanced_filtered_shortened.csv to produkt_rr_stunde_20040701_20241231_00259_enhanced_filtered_standardised.csv (131296 rows)
standardised: produkt_rr_stunde_20060524_20241231_00269_enhanced_filtered_shortened.csv to p

### Analysieren
Dieser Abschnitt untersucht die standardisierten Dateien auf fehlende stündliche Zeitstempel. Jede Datei wird analysiert und in einem zusammenfassenden DataFrame durch eine Zeile repräsentiert. Erfasst werden u. a. Start- und Endzeitpunkt der Zeitreihe, die Dauer (Tage, Jahre), Anzahl der Zeilen, die Anzahl und der Anteil ungültiger Zeitstempel (NaT), sowie die Anzahl der Zeitlücken (Gaps), die Gesamtdauer der fehlenden Stunden, der prozentuale Lückenanteil und die Intervalle der einzelnen Lücken. Zusätzlich werden die Anzahl und der Anteil fehlender Niederschlagswerte (NaN) in der Spalte "Wert in mm" ermittelt. Das resultierende DataFrame wird als "DWD_precipitation_timeseries_lengths.csv" gespeichert.

In [3]:
from pathlib import Path
import pandas as pd
import glob
import os

all_standardised_files=glob.glob("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/*/*_standardised.csv")

def find_time_gaps(ts: pd.Series):
    gaps = []
    if ts.size < 2:
        return gaps

    step = pd.Timedelta(hours=1)
    diffs = ts.diff()
    jump_idx = diffs[diffs > step].index

    for i in jump_idx:
        right = ts.loc[i]
        left = ts.loc[ts.index[ts.index.get_loc(i) - 1]]
        diff = right - left
        missing_steps = int(diff // step) - 1
        if missing_steps <= 0:
            continue
        gap_start = left + step
        gap_end = right - step
        missing_hours = float(missing_steps * (step / pd.Timedelta(hours=1)))
        gaps.append((gap_start, gap_end, missing_steps, round(missing_hours, 2)))
    return gaps

def analyze_files():
    analyzed = []
    for p in all_standardised_files:
        p = Path(p)
        
        df = pd.read_csv(p, sep=",", encoding="utf-8")

        if df.empty:
            analyzed.append({
                "Name": p.stem, "Station ID": p.stem, "Start": pd.NaT, "End": pd.NaT, 
            "Duration Days": pd.NA, "Duration Years": pd.NA, 
            "Number of rows": 0, "Number of NaTs": 0, "Percentage of NaTs": 0.0,
            "Number of Gaps": 0, "Total missing hours": 0,
            "Gap percentage": 0.0, "Gap intervals": "",
            "Number of NaN values": 0, "Percentage of NaN values": 0.0
            
            })
            print(f"Skipped {p.name} because the file is empty")
            continue
                
        
        name = df["Stationsname"].iloc[0]
        station_id = df["Stations ID"].iloc[0]

        num_nan_values = df["Wert in mm"].isna().sum() if "Wert in mm" in df.columns else pd.NA
        percent_nan_values = round(num_nan_values / len(df) * 100, 2) if len(df) > 0 else 0.0

        ts_raw = pd.to_datetime(df["Datum / Uhrzeit"], errors="coerce")

        num_nats = ts_raw.isna().sum()
        percent_nats = round(num_nats / len(ts_raw) * 100,2)

        ts = ts_raw.dropna().sort_values()
        
        if ts.empty:
            start = end = pd.NaT
            duration_days = pd.NA
            duration_years = pd.NA
            num_gaps = 0
            total_missing_hours = 0.0
            gap_percentage = 0.0
            gap_intervals = ""

        else:
            start = ts.iloc[0]
            end = ts.iloc[-1]

            duration_days = int((end - start).days)
            duration_years = round(duration_days / 365.25, 2)
            total_hours = float((end - start) / pd.Timedelta(hours=1))

            gaps = find_time_gaps(ts)
            num_gaps = len(gaps)
            total_missing_hours = sum(g[3] for g in gaps)
            gap_percentage = round((total_missing_hours / total_hours) * 100, 2) if total_hours > 0 else 0.0

            def format(dt):
                return pd.to_datetime(dt).strftime("%Y-%m-%d %H:%M")
            gap_intervals = "; ".join(f"{format(s)}-{format(e)} [Steps={steps}, Hours={hours}]"
                                      for (s, e, steps, hours) in gaps)
        


       
        analyzed.append({
            "Name": name, "Station ID": station_id, "Start": start, "End": end, 
            "Duration Days": duration_days, "Duration Years": duration_years, 
            "Number of rows": len(df), "Number of NaTs": num_nats, "Percentage of NaTs": percent_nats,
            "Number of Gaps": num_gaps, "Total missing hours": round(total_missing_hours, 2),
            "Gap percentage": gap_percentage, "Gap intervals": gap_intervals,
            "Number of NaN values": num_nan_values, "Percentage of NaN values": percent_nan_values
            
        })
         
        print(f"Analyzed: {p.name}")
    return pd.DataFrame(analyzed)
    
results = analyze_files()      

out_path = Path("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/DWD_precipitation_timeseries_lengths.csv")
results.to_csv(out_path, index=False, encoding="utf-8")

print(f"Results stored in '{out_path}'")
print(results.head(20))

Analyzed: produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20081103_20131127_00047_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20041022_20200101_00071_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20040701_20241231_00259_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20060524_20241231_00269_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20061101_20241231_00279_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20150901_20241231_00301_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20050622_20140918_00384_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20060724_20241231_00498_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20061009_20241231_00604_enhanced_filtered_standardised.csv
Analyzed: produkt_rr_stunde_20050621_202412

### Auswahl nach Zeitraum
In diesem Abschnitt werden nun die Niederschlagszeitreihen ausgeschlossen, die leer sind oder den definierten Zeitraum nicht exakt abdecken, das heißt deren erste und letzte Zeitstempel genau dem Start (2010-01-01 00:00) und dem Ende (2024-12-31 23:00) entsprechen.
Die verbleibenden Stationen werden in "DWD_precipitation_timeseries_lengths_filtered.csv" gespeichert. Wichtig ist zu vermerken, dass hierfür die Pipeline aus "Water.ipynb" übernommen wurde. Da die Auswahl der Niederschlagszeitreihen jedoch weniger streng als bei den Abflusszeitreihen erfolgen soll, werden einige der dort verwendeten Kriterien (beispielsweise Länge und Anteil der Lücken) hier nicht angewandt, sondern nur nach Zeitraum gefiltert.

In [6]:
import pandas as pd
from pathlib import Path
import re

start_date = pd.Timestamp("2010-01-01 00:00")
end_date = pd.Timestamp("2024-12-31 23:00")



path = Path("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/DWD_precipitation_timeseries_lengths.csv")

df = pd.read_csv(path, encoding="utf-8")

# Only Files which are not empty
df = df[df["Number of rows"] > 0]

# define the columns
gap_percentage_columns = "Gap percentage" if "Gap percentage" in df.columns else "Gap Persentage (%)"
intervals_columns = "Gap intervals" if "Gap intervals" in df.columns else None

# make start and end to datetime
df["Start"] = pd.to_datetime(df["Start"], errors="coerce")
df["End"] = pd.to_datetime(df["End"], errors="coerce")

# identify biggest gap
def max_gap_hours(text):
    if pd.isna(text) or not str(text).strip():
        return 0.0

    return max(map(float, re.findall(r"Hours=(\d+(?:\.\d+)?)", str(text))))

df["Max gap hours"] = df[intervals_columns].apply(max_gap_hours) if intervals_columns else 0.0


# filter
non_empty = df["Number of rows"] > 0

# exact time
exact_window = (df["Start"] == start_date) & (df["End"] == end_date)

# filter and store
filtered = df[non_empty & exact_window].copy()
filtered.to_csv("DWD_precipitation_timeseries_lengths_filtered.csv", index=False)

print("DWD_precipitation_timeseries_lengths_filtered is stored")
print(f"{len(filtered)} files fit with the criteria.")
print(filtered.head(10))

DWD_precipitation_timeseries_lengths_filtered is stored
128 files fit with the criteria.
                           Name  Station ID      Start                 End  \
0      Abtsgmünd-Untergröningen          20 2010-01-01 2024-12-31 23:00:00   
3         Baden-Baden-Geroldsau         257 2010-01-01 2024-12-31 23:00:00   
4                      Müllheim         259 2010-01-01 2024-12-31 23:00:00   
5         Baiersbronn-Mitteltal         269 2010-01-01 2024-12-31 23:00:00   
6   Baltmannsweiler-Hohengehren         279 2010-01-01 2024-12-31 23:00:00   
9           Ühlingen-Birkendorf         498 2010-01-01 2024-12-31 23:00:00   
11                     Breitnau         684 2010-01-01 2024-12-31 23:00:00   
12         Bruchsal-Heidelsheim         731 2010-01-01 2024-12-31 23:00:00   
13  Buchen, Kr. Neckar-Odenwald         755 2010-01-01 2024-12-31 23:00:00   
14                   Buchenbach         757 2010-01-01 2024-12-31 23:00:00   

    Duration Days  Duration Years  Number of rows  N

### Erstellung eines weiteren Ordners
In diesem Block werden die ausgewählten Niederschlagszeitreihen in eine neuen Ordnerstruktur abgelegt. Hierzu wird der Ordner "Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich" erstellt und für jede verbleibende Station ein entsprechender Unterordner angelegt. In diese Unterordner werden die zugehörigen standardisierten Niederschlagszeitreihen kopiert.

In [11]:
import pandas as pd
from pathlib import Path
import glob
import re
import shutil

all_standardised_files = glob.glob("Datensätze/DWD/Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich/*/*_standardised.csv")

filtered_path = Path("DWD_precipitation_timeseries_lengths_filtered.csv")

filtered = pd.read_csv(filtered_path, encoding="utf-8")

def create_filtered_folders():
    new_folders = []
    for s in all_standardised_files:
        standardised_file = pd.read_csv(s, sep=",", encoding="utf-8")
        station_id = standardised_file["Stations ID"].iloc[0]

        if station_id in filtered["Station ID"].values:
            src_path = Path(s)
            parent_folder = src_path.parent.name
            subfolder = Path(f"Datensätze/DWD/Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich") / parent_folder
            subfolder.mkdir(exist_ok=True)

            dest_file = subfolder / src_path.name
            shutil.copy2(src_path, dest_file)

            print(f"created new folder {subfolder} in Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich an stored {src_path} in it.")
            new_folders.append(subfolder)

    print(f"Copied {len(new_folders)} files in Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich.")
    return new_folders


new_folders = create_filtered_folders()
    
    


created new folder Datensätze\DWD\Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00020_20040814_20241231_hist in Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich an stored Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00020_20040814_20241231_hist\produkt_rr_stunde_20040814_20241231_00020_enhanced_filtered_standardised.csv in it.
created new folder Datensätze\DWD\Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00257_20021101_20241231_hist in Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich an stored Datensätze\DWD\Enhanced-Baden-Württemberg-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00257_20021101_20241231_hist\produkt_rr_stunde_20021101_20241231_00257_enhanced_filtered_standardised.csv in it.
created new folder Datensätze\DWD\Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich\stundenwerte_RR_00259_20040701_20241231_hist in

### Dateien überprüfen
Abschließend wird aus Sicherheitsgründen überprüft, ob alle geilterten Niederschlagsstationen korrekt in den neuen Ordner kopiert wurden.

In [12]:
import pandas as pd
from pathlib import Path
import glob
import re
import shutil

all_copied_files = glob.glob("Datensätze/DWD/Filtered-Enhanced-Ba-Wü-Messnetze und Parameternetze-stündlich/*/*_standardised.csv")

filtered_path = Path("DWD_precipitation_timeseries_lengths_filtered.csv")

filtered = pd.read_csv(filtered_path, encoding="utf-8")
filtered_ids = set(filtered["Station ID"].astype(str).str.strip())


def check_for_all_files():
    copied_ids = set()
    for c in all_copied_files:
            copy = pd.read_csv(c, encoding="utf-8")
            station_id = str(copy["Stations ID"].iloc[0]).strip()
            copied_ids.add(station_id)

    missing_ids = filtered_ids - copied_ids
    extra_ids = copied_ids - filtered_ids

    print(f"filtered stations: {len(filtered_ids)}")
    print(f"copied stations: {len(copied_ids)}")

    if not missing_ids and not extra_ids:
        print("All filtered stations are copied in new folder.")

    else:
        print("There are missing ids or extra ids.")

check = check_for_all_files()
            
        

filtered stations: 128
copied stations: 128
All filtered stations are copied in new folder.
