# Initialisierung

**Libraries**<br>
pandas:     Datenverarbeitung<br>
os:         Betriebsystem-Funktionen für relative Pfadreferenzierung<br>
datetime:   Verarbeitung der Timstamps<br>

In [35]:
import pandas as pd
import os
from datetime import datetime

dirname = os.path.abspath('')

path_solar_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_solar_20100101_20191231_02014.csv')
path_wind_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_wind_20100101_20191231_02014.csv')
path_air_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_air_20100101_20191231_02014.csv')

#   Niederschlag

**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [36]:
path_niederschlag_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_nieder_20100101_20191231_02014.csv')
data_niederschlag_10min = pd.read_csv(path_niederschlag_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [37]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor', 'RWS_IND_10']
data_niederschlag_10min = data_niederschlag_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350

year = data_niederschlag_10min[(data_niederschlag_10min['MESS_DATUM'] >= Start_Date) & (data_niederschlag_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [38]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [39]:
year.to_csv('2019_Braunschweig_Niederschlag_15min_UTC.csv', index=False)

#   Solar 

**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [40]:
data_solar_10min = pd.read_csv(path_solar_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [41]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor', 'LS_10']
data_solar_10min = data_solar_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350

year = data_solar_10min[(data_solar_10min['MESS_DATUM'] >= Start_Date) & (data_solar_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [42]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [43]:
year.to_csv('2019_Braunschweig_Solar_15min_UTC.csv', index=False) #index=FALSE for not including row indices

##  Wind 
**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [44]:
data_wind_10min = pd.read_csv(path_wind_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [45]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor']
data_wind_10min = data_wind_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350
year = data_wind_10min[(data_wind_10min['MESS_DATUM'] >= Start_Date) & (data_wind_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [46]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [47]:
year.to_csv('2019_Braunschweig_Wind_15min_UTC.csv', index=False) #index=FALSE for not including row indices 

##   Luft
**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [48]:
data_air_10min = pd.read_csv(path_air_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [49]:
columns_to_delete = ['STATIONS_ID', '  QN', 'TD_10', 'eor']
data_air_10min = data_air_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350
year = data_air_10min[(data_air_10min['MESS_DATUM'] >= Start_Date) & (data_air_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [50]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [51]:
year.to_csv('2019_Braunschweig_Luft_15min_UTC.csv', index=False) #index=FALSE for not including row indices