# Aufbereitung der DWD Daten

1. Zuschnitt auf unseren Zeitraum
2. Isolierung der Spalten: Datum, Temperatur, Sonnenstunden, Niederschlag
3. Speichern als eigene CSV Datei: df_wetterdaten_dwd im Ordner data/DWD_data

In [15]:
# Imports

%pip install seaborn
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

Note: you may need to restart the kernel to use updated packages.


In [None]:
df_wetter_dwd = pd.read_csv('data/DWD_data/Klimadaten_DWD_Kiel_Holtenau.csv')

In [17]:
# robust konvertieren: erst str, dann format='%Y%m%d'
df_wetter_dwd['MESS_DATUM'] = pd.to_datetime(
    df_wetter_dwd['MESS_DATUM'].astype(str),
    format='%Y%m%d',
    errors='coerce'
)
# optional: auf Tagesbeginn normalisieren (entfernt Uhrzeiten)
df_wetter_dwd['MESS_DATUM'] = df_wetter_dwd['MESS_DATUM'].dt.normalize()

# Kontrolle
print("NaT nach konvertierung:", df_wetter_dwd['MESS_DATUM'].isna().sum())
print("min/max after:", df_wetter_dwd['MESS_DATUM'].min(), df_wetter_dwd['MESS_DATUM'].max())

NaT nach konvertierung: 0
min/max after: 1974-01-01 00:00:00 2024-12-31 00:00:00


In [18]:
# Inspect
print(df_wetter_dwd.head(8))
print("dtype:", df_wetter_dwd['MESS_DATUM'].dtype)
print("NaT count:", df_wetter_dwd['MESS_DATUM'].isna().sum())
# Länge der Einträge (hilft zu sehen ob z.B. 20180801 als int kommt)
print(df_wetter_dwd['MESS_DATUM'].astype(str).str.len().value_counts().head())
# Falls schon datetime: min/max
try:
    print("min/max:", df_wetter_dwd['MESS_DATUM'].min(), df_wetter_dwd['MESS_DATUM'].max())
except Exception as e:
    print("min/max check failed:", e)


print(df_wetter_dwd.columns)


   STATIONS_ID MESS_DATUM  QN_3    FX    FM  QN_4    RSK  RSKF    SDK  \
0         2564 1974-01-01     5   6.2   2.7  -999 -999.0  -999 -999.0   
1         2564 1974-01-02     5   7.7   3.2  -999 -999.0  -999 -999.0   
2         2564 1974-01-03     5   7.2   3.2  -999 -999.0  -999 -999.0   
3         2564 1974-01-04     5   6.7   3.5  -999 -999.0  -999 -999.0   
4         2564 1974-01-05     5   9.2   3.4  -999 -999.0  -999 -999.0   
5         2564 1974-01-06     5   8.7   3.8  -999 -999.0  -999 -999.0   
6         2564 1974-01-07     5  12.9   4.4  -999 -999.0  -999 -999.0   
7         2564 1974-01-08     5   8.2   3.2  -999 -999.0  -999 -999.0   

   SHK_TAG     NM    VPM     PM    TMK    UPM    TXK    TNK    TGK  eor  
0     -999 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0  eor  
1     -999 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0  eor  
2     -999 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0 -999.0  eor  
3     -999 -999.0 -999.0 -999.0 -999.0 -999.0 

In [19]:
df_wetter_dwd.columns = df_wetter_dwd.columns.str.strip()

df_wetter_dwd = df_wetter_dwd[(df_wetter_dwd['MESS_DATUM'] >= '2013-07-01') & (df_wetter_dwd['MESS_DATUM'] <= '2019-07-30')]

df_wetter_dwd = df_wetter_dwd[['MESS_DATUM','TMK','SDK','RSK']]

print(df_wetter_dwd.head())


      MESS_DATUM   TMK  SDK   RSK
14287 2013-07-01  15.6  6.0   0.3
14288 2013-07-02  15.1  8.5   0.1
14289 2013-07-03  18.0  2.0  10.2
14290 2013-07-04  17.2  0.2   0.0
14291 2013-07-05  16.9  8.1   0.0


In [20]:
df_wetter_dwd = df_wetter_dwd.rename(columns={
    'MESS_DATUM': 'Datum',
    'TMK': 'Temperatur',
    'SDK': 'Sonnenscheindauer',
    'RSK': 'NiederschlagTagessummeInMM'
})

print(df_wetter_dwd.head())


           Datum  Temperatur  Sonnenscheindauer  NiederschlagTagessummeInMM
14287 2013-07-01        15.6                6.0                         0.3
14288 2013-07-02        15.1                8.5                         0.1
14289 2013-07-03        18.0                2.0                        10.2
14290 2013-07-04        17.2                0.2                         0.0
14291 2013-07-05        16.9                8.1                         0.0


In [None]:
df_wetter_dwd.to_csv('data/DWD_data/df_wetterdaten_dwd.csv', index=False)