# <font size="7"> Datenbeschaffung für Stromverbrauchsdaten <a class="anchor" id="02-D-01-stromverbrauch"></a> </font>

<font size="5">
Die Daten werden vom Portal für Strommarktdaten SMARD der Bundesnetzagentur jeweils für ein Jahr mit folgenden Filtern heruntergeladen und im Ordner „2-Data Understanding/Datenbeschaffung/Verbrauch/“ gespeichert:
<br>Objektkategorie: Stromverbrauch
<br>Datenkategorie: Realisierter Stromverbrauch
<br>Regelzone (DE): TransnetBW
<br>Datum: 01.01.yyyy bis 31.12.yyyy
<br>Dateiformat: CSV

Es werden die Daten vom 01.01.2015 bis zum 31.23.2021 verwendet.

Das Portal ist unter folgendem Link erreichbar:
<br>https://www.smard.de/home/downloadcenter/download-marktdaten#!?downloadAttributes=%7B%22selectedCategory%22:2,%22selectedSubCategory%22:5,%22selectedRegion%22:%22TransnetBW%22,%22from%22:1636066800000,%22to%22:1637017199999,%22selectedFileType%22:%22CSV%22%7D

Die Daten werden aus den CSV-Dateien geladen und in einem Dataframe zusammengeführt. Aus den Daten werden nur die Spalte mit dem Datum sowie dem Gesamtlast in MWh geladen. Die übrigen Spalten sind für die weitere Verarbeitung nicht notwendig. Die Spalte „Datum“ wird in „datum“ umbenannt. Die Spalte „Gesamt (Netzlast)[MWh]“ wird in „verbrauch“ umbenannt, außerdem wird der Punkt als Tausender-Trennzeichen entfernt und die Spalte zum Datentyp Integer umgewandelt. 
Der Stromverbrauch für den gesamten Zeitraum wird dann in der CSV-Datei „verbrauch_gesamt.csv“ zusammengeführt im gleichen Ordner gespeichert.
</font>

In [3]:
import pandas as pd

#Daten aus CSV-Dateien in DataFrame laden
data = pd.read_csv("Verbrauch/verbrauch_2015.csv", delimiter=";", usecols=[0, 2], dtype=str)
data = data.append(pd.read_csv("Verbrauch/verbrauch_2016.csv", delimiter=";", usecols=[0, 2], dtype=str))
data = data.append(pd.read_csv("Verbrauch/verbrauch_2017.csv", delimiter=";", usecols=[0, 2], dtype=str))
data = data.append(pd.read_csv("Verbrauch/verbrauch_2018.csv", delimiter=";", usecols=[0, 2], dtype=str))
data = data.append(pd.read_csv("Verbrauch/verbrauch_2019.csv", delimiter=";", usecols=[0, 2], dtype=str))
data = data.append(pd.read_csv("Verbrauch/verbrauch_2020.csv", delimiter=";", usecols=[0, 2], dtype=str))
data = data.append(pd.read_csv("Verbrauch/verbrauch_2021.csv", delimiter=";", usecols=[0, 2], dtype=str))

#Spalten umbenennen
data.columns = ["datum", "verbrauch"]

#datum als Datetime parsen
data["datum"] = pd.to_datetime(data["datum"], dayfirst=True)
#Punkt als Tausender-Trennzeichen entfernen und verbrauch in Integer umwandeln
data["verbrauch"] = data["verbrauch"].str.replace(".", "", regex=False)
data["verbrauch"] = pd.to_numeric(data["verbrauch"])

print(data.head())
print()
print(data.tail())

#Daten als CSV-Datei speichern
data.to_csv("Verbrauch/verbrauch_gesamt.csv", index=False)

       datum  verbrauch
0 2015-01-01       1380
1 2015-01-01       1363
2 2015-01-01       1368
3 2015-01-01       1360
4 2015-01-01       1347

           datum  verbrauch
35035 2021-12-31       1389
35036 2021-12-31       1374
35037 2021-12-31       1355
35038 2021-12-31       1347
35039 2021-12-31       1359


<font size="5">
Die Stromverbrauchsdaten aller Jahre müssen von viertelstündlicher Auflösung in stündliche Auflösung umgewandelt werden. Dafür werden die viertelstündlichen Datensätze in je einem Datensatz für jeden Tag gruppiert. Außerdem werden noch die manuell ermittelten Kalenderdaten zu der Datei hinzugefügt. 

Abschließend werden die Daten in einer CSV-Datei „verbrauch.csv“ im Ordner „2-Data Understanding/Datenbeschaffung/“ gespeichert.
</font>

In [5]:
import pandas as pd

#Daten aus CSV-Dateien in DataFrame laden
data = pd.read_csv("Verbrauch/verbrauch_gesamt.csv", index_col=0, parse_dates=True)

#Daten von viertelstündlicher zu täglicher Auflösung zusammenfassen
data = data.groupby("datum").sum()

#Kalenderdaten hinzufügen
data = data.join(pd.read_csv("kalender.csv", index_col=0, parse_dates=True))

print(data.head())
print()
print(data.tail())

#Daten als CSV-Datei speichern
data.to_csv("verbrauch.csv")

            verbrauch   monat   wochentag feiertag  arbeitstag
datum                                                         
2015-01-01     126197  Januar  Donnerstag  Neujahr           0
2015-01-02     147085  Januar     Freitag      NaN           1
2015-01-03     141426  Januar     Samstag      NaN           0
2015-01-04     132446  Januar     Sonntag      NaN           0
2015-01-05     152611  Januar      Montag      NaN           1

            verbrauch     monat   wochentag feiertag  arbeitstag
datum                                                           
2021-12-27     153489  Dezember      Montag      NaN           1
2021-12-28     155182  Dezember    Dienstag      NaN           1
2021-12-29     153611  Dezember    Mittwoch      NaN           1
2021-12-30     148126  Dezember  Donnerstag      NaN           1
2021-12-31     137327  Dezember     Freitag      NaN           1
