# Initialisierung

**Libraries**<br>
pandas:     Datenverarbeitung<br>
os:         Betriebsystem-Funktionen für relative Pfadreferenzierung<br>
datetime:   Verarbeitung der Timstamps<br>

In [1]:
import pandas as pd
import os
from datetime import datetime

dirname = os.path.abspath('')

path_niederschlag_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_nieder_20100101_20191231_02014.csv')
path_solar_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_solar_20100101_20191231_02014.csv')
path_wind_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_wind_20100101_20191231_02014.csv')
path_air_10min = os.path.join(dirname, 'Rohdaten_Wetter_Braunschweig\produkt_zehn_min_air_20100101_20191231_02014.csv')

#   Niederschlag

**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [2]:
data_niederschlag_10min = pd.read_csv(path_niederschlag_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [3]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor', 'RWS_IND_10']
data_niederschlag_10min = data_niederschlag_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350

year = data_niederschlag_10min[(data_niederschlag_10min['MESS_DATUM'] >= Start_Date) & (data_niederschlag_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [4]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

['2019-01-01 00:00:00', '2019-01-01 00:10:00', '2019-01-01 00:20:00',
 '2019-01-01 00:30:00', '2019-01-01 00:40:00', '2019-01-01 00:50:00',
 '2019-01-01 01:00:00', '2019-01-01 01:10:00', '2019-01-01 01:20:00',
 '2019-01-01 01:30:00',
 ...
 '2019-12-31 22:20:00', '2019-12-31 22:30:00', '2019-12-31 22:40:00',
 '2019-12-31 22:50:00', '2019-12-31 23:00:00', '2019-12-31 23:10:00',
 '2019-12-31 23:20:00', '2019-12-31 23:30:00', '2019-12-31 23:40:00',
 '2019-12-31 23:50:00']
Length: 52560, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)


**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [5]:
year.to_csv('2019_Braunschweig_Niederschlag_15min_UTC.csv', index=False)

#   Solar 

**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [6]:
data_solar_10min = pd.read_csv(path_solar_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [7]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor', 'LS_10']
data_solar_10min = data_solar_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350

year = data_solar_10min[(data_solar_10min['MESS_DATUM'] >= Start_Date) & (data_solar_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [8]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

['2019-01-01 00:00:00', '2019-01-01 00:10:00', '2019-01-01 00:20:00',
 '2019-01-01 00:30:00', '2019-01-01 00:40:00', '2019-01-01 00:50:00',
 '2019-01-01 01:00:00', '2019-01-01 01:10:00', '2019-01-01 01:20:00',
 '2019-01-01 01:30:00',
 ...
 '2019-12-31 22:20:00', '2019-12-31 22:30:00', '2019-12-31 22:40:00',
 '2019-12-31 22:50:00', '2019-12-31 23:00:00', '2019-12-31 23:10:00',
 '2019-12-31 23:20:00', '2019-12-31 23:30:00', '2019-12-31 23:40:00',
 '2019-12-31 23:50:00']
Length: 52560, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)


**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [9]:
year.to_csv('2019_Braunschweig_Solar_15min_UTC.csv', index=False) #index=FALSE for not including row indices

##  Wind 
**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [10]:
data_wind_10min = pd.read_csv(path_wind_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [11]:
columns_to_delete = ['STATIONS_ID', '  QN', 'eor']
data_wind_10min = data_wind_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350
year = data_wind_10min[(data_wind_10min['MESS_DATUM'] >= Start_Date) & (data_wind_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [12]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

['2019-01-01 00:00:00', '2019-01-01 00:10:00', '2019-01-01 00:20:00',
 '2019-01-01 00:30:00', '2019-01-01 00:40:00', '2019-01-01 00:50:00',
 '2019-01-01 01:00:00', '2019-01-01 01:10:00', '2019-01-01 01:20:00',
 '2019-01-01 01:30:00',
 ...
 '2019-12-31 22:20:00', '2019-12-31 22:30:00', '2019-12-31 22:40:00',
 '2019-12-31 22:50:00', '2019-12-31 23:00:00', '2019-12-31 23:10:00',
 '2019-12-31 23:20:00', '2019-12-31 23:30:00', '2019-12-31 23:40:00',
 '2019-12-31 23:50:00']
Length: 52560, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)


**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [13]:
year.to_csv('2019_Braunschweig_Wind_15min_UTC.csv', index=False) #index=FALSE for not including row indices 

##   Luft
**Einlesen der .csv-Datei**<br>
Die Dateneinträge des DWD werden durch Semicolons getrennt und nicht wie bei .csv üblich durch Kommata.<br>
*Lösung*: read_csv(file_name, delimiter=';'), delimiter-Variable bekommt das Trennzeichen übergeben.

In [14]:
data_air_10min = pd.read_csv(path_air_10min, delimiter=';')

**Entfernen der nicht benötigten Teile der Messreihe und Messwerte**<br>
Der DWD stellt zu jeden Datensatz eine Dokumentation zur Verfügung. Diese enthält eine Aufschlüsselung der Messbezeichungen.<br>
LISTE EINFÜGEN<br>
<br>
Messwerte des Jahres 2019

In [15]:
columns_to_delete = ['STATIONS_ID', '  QN', 'TD_10', 'eor']
data_air_10min = data_air_10min.drop(columns=columns_to_delete, axis=1) #axis=0 for deleting rows, axis=1 for deleting columns

Start_Date = 201901010000
End_Date = 201912312350
year = data_air_10min[(data_air_10min['MESS_DATUM'] >= Start_Date) & (data_air_10min['MESS_DATUM'] <= End_Date)]

**Konvertierung der Timestamps in ISO 8601 Format**<br>
Jahr-Monat-Tag+Stunden:Minuten:Sekunden

In [16]:
def convert_to_utc(int_date):
    date_time = datetime.strptime(str(int_date), "%Y%m%d%H%M")
    return date_time

#year['MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc) #Warning: modifies a DataFrame that is a subset of another DataFrame (SettingWithCopyWarning)

# Solution:
# Using .loc accessor of pandas to explicitly set values in the original DataFrame:
year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)

['2019-01-01 00:00:00', '2019-01-01 00:10:00', '2019-01-01 00:20:00',
 '2019-01-01 00:30:00', '2019-01-01 00:40:00', '2019-01-01 00:50:00',
 '2019-01-01 01:00:00', '2019-01-01 01:10:00', '2019-01-01 01:20:00',
 '2019-01-01 01:30:00',
 ...
 '2019-12-31 22:20:00', '2019-12-31 22:30:00', '2019-12-31 22:40:00',
 '2019-12-31 22:50:00', '2019-12-31 23:00:00', '2019-12-31 23:10:00',
 '2019-12-31 23:20:00', '2019-12-31 23:30:00', '2019-12-31 23:40:00',
 '2019-12-31 23:50:00']
Length: 52560, dtype: datetime64[ns]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  year.loc[:, 'MESS_DATUM'] = year['MESS_DATUM'].apply(convert_to_utc)


**Speichern der verarbeiteten dataFrames als .csv (ohne Zeilen-Nummerierung, index=False)**

In [17]:
year.to_csv('2019_Braunschweig_Luft_15min_UTC.csv', index=False) #index=FALSE for not including row indices