In [5]:
import os
import pandas as pd
from io import StringIO
import glob

In [6]:
# Get a list of all CSV files in a directory
csv_files = glob.glob('./dataexport/*.csv')

In [7]:
csv_files

['./dataexport/Stromerzeuger_100001_bis_125000.csv',
 './dataexport/Stromerzeuger_50001_bis_75000.csv',
 './dataexport/Stromerzeuger_125001_bis_150000.csv',
 './dataexport/Stromerzeuger_25001_bis_50000.csv',
 './dataexport/Stromerzeuger_150001_bis_175000.csv',
 './dataexport/Stromerzeuger_175001_bis_193615.csv',
 './dataexport/Stromerzeuger_75001_bis_100000.csv',
 './dataexport/Stromerzeuger_1_bis_25000.csv']

In [8]:
# Create an empty dataframe to store the combined data
combined_df = pd.DataFrame()

In [9]:
# Loop through each CSV file and append its contents to the combined dataframe
for csv_file in csv_files:
    df = pd.read_csv(csv_file, sep=";")
    combined_df = pd.concat([combined_df, df])

  df = pd.read_csv(csv_file, sep=";")


In [11]:
print(combined_df.dtypes)

MaStR-Nr. der Einheit                      object
Anzeige-Name der Einheit                   object
Betriebs-Status                            object
Energieträger                              object
Bruttoleistung der Einheit                 object
Nettonennleistung der Einheit              object
Inbetriebnahmedatum der Einheit            object
Registrierungsdatum der Einheit            object
Bundesland                                 object
Postleitzahl                              float64
Ort                                        object
Straße                                     object
Hausnummer                                 object
Gemarkung                                  object
Flurstück                                  object
Gemeindeschlüssel                         float64
Koordinate: Breitengrad (WGS84)            object
Koordinate: Längengrad (WGS84)             object
Anzahl der Solar-Module                     int64
Hauptausrichtung der Solar-Module          object


In [12]:
fields = {
    'MaStR-Nr. der Einheit': str, 
    'Anzeige-Name der Einheit': str,
    'Betriebs-Status': str,
    'Energieträger': str,
    'Bruttoleistung der Einheit': float(),
    'Nettonennleistung der Einheit': float(),
    'Inbetriebnahmedatum der Einheit': 'datetime', 
    'Registrierungsdatum der Einheit':'datetime',
    'Bundesland': str,
    'Postleitzahl': pd.Int64Dtype(), 
    'Straße': str, 
    'Hausnummer': pd.Int64Dtype(),
    'Gemarkung': str,
    'Flurstück': str, 
    'Gemeindeschlüssel': pd.Int64Dtype(), 
    'Koordinate: Breitengrad (WGS84)': float, 
    'Koordinate: Längengrad (WGS84)': float,
    'Anzahl der Solar-Module': pd.Int64Dtype(), 
    'Hauptausrichtung der Solar-Module': str,
    'Lage der Einheit': str, 
    'Letzte Aktualisierung': 'datetime', 
    'Datum der endgültigen Stilllegung': 'datetime',
    'Datum der geplanten Inbetriebnahme': 'datetime', 
    'Name des Anlagenbetreibers (nur Org.)': str,
    '\tMaStR-Nr. des Anlagenbetreibers': str,
    'Volleinspeisung oder Teileinspeisung': str,
    'Name des Anschluss-Netzbetreibers': str,
    'MaStR-Nr. des Anschluss-Netzbetreibers': str,
    'Netzbetreiberprüfung': str,
    'Spannungsebene': str
}

In [13]:
# Keep only the columns from `fields` in the dataframe
combined_df = combined_df[list(fields.keys())]

In [14]:
combined_df.rename(columns={'\tMaStR-Nr. des Anlagenbetreibers':'MaStR-Nr. des Anlagenbetreibers'}, inplace=True)

In [15]:
# Print the combined dataframe
combined_df.head(29)

Unnamed: 0,MaStR-Nr. der Einheit,Anzeige-Name der Einheit,Betriebs-Status,Energieträger,Bruttoleistung der Einheit,Nettonennleistung der Einheit,Inbetriebnahmedatum der Einheit,Registrierungsdatum der Einheit,Bundesland,Postleitzahl,...,Letzte Aktualisierung,Datum der endgültigen Stilllegung,Datum der geplanten Inbetriebnahme,Name des Anlagenbetreibers (nur Org.),MaStR-Nr. des Anlagenbetreibers,Volleinspeisung oder Teileinspeisung,Name des Anschluss-Netzbetreibers,MaStR-Nr. des Anschluss-Netzbetreibers,Netzbetreiberprüfung,Spannungsebene
0,SEE962162714877,Solardach Freiburg,In Betrieb,Solare Strahlungsenergie,47232,460,27/06/2012,08/09/2020,Baden-Württemberg,79111.0,...,16/11/2020,,,Solardach Freiburg GbR,ABR993279297595,Volleinspeisung,badenovaNETZE GmbH (SNB965774651691),SNB965774651691,Geprüft,Umspannebene Mittelspannung/Niederspannung
1,SEE923052209415,WS Energieanlagen Breisgau,In Betrieb,Solare Strahlungsenergie,41359,368,01/11/2007,08/09/2020,Baden-Württemberg,79427.0,...,08/09/2020,,,natürliche Person (ABR904279581874),ABR904279581874,Volleinspeisung,badenovaNETZE GmbH (SNB965774651691),SNB965774651691,Geprüft,Mittelspannung
2,SEE914256692271,Werkstatt,In Betrieb,Solare Strahlungsenergie,396,396,31/05/2012,08/09/2020,Niedersachsen,49176.0,...,07/12/2021,,,natürliche Person (ABR901560730492),ABR901560730492,Teileinspeisung (einschließlich Eigenverbrauch),Teutoburger Energie Netzwerk eG (TEN eG) (SNB9...,SNB910696207785,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)
3,SEE951878847429,"PV 29.05.2013, 250 kWp",In Betrieb,Solare Strahlungsenergie,250,236,29/05/2013,08/09/2020,Nordrhein-Westfalen,33129.0,...,08/09/2020,,,natürliche Person (ABR925257598073),ABR925257598073,Teileinspeisung (einschließlich Eigenverbrauch),Westfalen Weser Netz GmbH (SNB929881052512),SNB929881052512,Geprüft,Mittelspannung
4,SEE927008772794,Firma,In Betrieb,Solare Strahlungsenergie,9975,98,27/12/2011,08/09/2020,Baden-Württemberg,71720.0,...,25/01/2021,,,Walter GRS GmbH & Co.KG,ABR969048166034,Volleinspeisung,Syna GmbH (SNB918250928893),SNB918250928893,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)
5,SEE904642494800,Waldkirchen,In Betrieb,Solare Strahlungsenergie,35604,3296,30/06/2012,08/09/2020,Sachsen,9579.0,...,08/09/2020,,,MM PV Waldkirchen GmbH & Co. KG,ABR927738242796,Teileinspeisung (einschließlich Eigenverbrauch),Mitteldeutsche Netzgesellschaft Strom mbH (SNB...,SNB916269213931,Geprüft,Mittelspannung
6,SEE907938306443,"Supe-Dienes GbR, Kölner Str Overath",In Betrieb,Solare Strahlungsenergie,72145,72145,12/10/2011,08/09/2020,Nordrhein-Westfalen,51491.0,...,08/02/2021,,,Supe Dienes Bernd U. Rudolf Gbr,ABR930601623318,Volleinspeisung,Rheinische NETZGesellschaft mbH (SNB924477581384),SNB924477581384,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)
7,SEE977027401502,PV Anlage 2020,In Betrieb,Solare Strahlungsenergie,9867,9867,07/09/2020,08/09/2020,Nordrhein-Westfalen,32479.0,...,08/09/2020,,,Geflügel Schmitz GmbH & Co. KG,ABR986799473495,Teileinspeisung (einschließlich Eigenverbrauch),Westfalen Weser Netz GmbH (SNB929881052512),SNB929881052512,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)
8,SEE993976188967,PV_Ibbenbüren_Tecklenburger Damm,In Betrieb,Solare Strahlungsenergie,9126,82,08/12/2011,08/09/2020,Nordrhein-Westfalen,49479.0,...,01/10/2021,,,natürliche Person (ABR974861886755),ABR974861886755,Volleinspeisung,SWTE Netz GmbH & Co. KG (SNB950006175489),SNB950006175489,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)
9,SEE958151842867,Simeonsplatz,In Betrieb,Solare Strahlungsenergie,759,66,31/08/2020,08/09/2020,Nordrhein-Westfalen,32423.0,...,10/05/2021,,,co op Minden-Stadthagen Energie GmbH,ABR999053296341,Volleinspeisung,Westfalen Weser Netz GmbH (SNB929881052512),SNB929881052512,Geprüft,Niederspannung (= Hausanschluss/Haushaltsstrom)


In [16]:
combined_df.isnull().sum()

MaStR-Nr. der Einheit                          0
Anzeige-Name der Einheit                       0
Betriebs-Status                                0
Energieträger                                  0
Bruttoleistung der Einheit                     0
Nettonennleistung der Einheit                  0
Inbetriebnahmedatum der Einheit             2352
Registrierungsdatum der Einheit                0
Bundesland                                     8
Postleitzahl                                   2
Straße                                     11724
Hausnummer                                 18508
Gemarkung                                 181893
Flurstück                                 181893
Gemeindeschlüssel                              8
Koordinate: Breitengrad (WGS84)                0
Koordinate: Längengrad (WGS84)                 0
Anzahl der Solar-Module                        0
Hauptausrichtung der Solar-Module           2835
Lage der Einheit                               1
Letzte Aktualisierun

In [17]:
combined_df['Betriebs-Status'].value_counts()

Betriebs-Status
In Betrieb                   191016
In Planung                     2372
Endgültig stillgelegt           152
Vorübergehend stillgelegt        75
Name: count, dtype: int64

In [18]:
len(combined_df)

193615

In [19]:
combined_df.to_parquet("./data/export_benetza_pv.parquet", index = False)