In [177]:
import pandas as pd
import numpy as np
import os
from pathlib import Path

fetch_directory = os.path.dirname(os.getcwd())
energy_path = os.path.join(fetch_directory, "data", "251006_StromverbrauchBasel2012-2025.csv")
weather_path_1 = os.path.join(fetch_directory, "data", "251107_WetterdatenBasel2010-2019.csv")
weather_path_2 = os.path.join(fetch_directory, "data", "251107_WetterdatenBasel2020-2024.csv")


energy_data = pd.read_csv(energy_path, sep=';')
weather_data_2010 = pd.read_csv(weather_path_1, sep=";", encoding="latin-1")
weather_data_2020 = pd.read_csv(weather_path_2, sep=";", encoding="latin-1")


###Data Analysis

Energy Data

In [178]:
energy_data.info()
print(f"Energy Data Shape:", energy_data.shape)
energy_data.head()
energy_data.index
energy_data.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 481959 entries, 0 to 481958
Data columns (total 12 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   Start der Messung         481959 non-null  object 
 1   Start der Messung (Text)  481959 non-null  object 
 2   Stromverbrauch            481959 non-null  float64
 3   Grundversorgte Kunden     184015 non-null  float64
 4   Freie Kunden              178063 non-null  float64
 5   Jahr                      481959 non-null  int64  
 6   Monat                     481959 non-null  int64  
 7   Tag                       481959 non-null  int64  
 8   Wochentag                 481959 non-null  int64  
 9   Tag des Jahres            481959 non-null  int64  
 10  Quartal                   481959 non-null  int64  
 11  Woche des Jahres          481959 non-null  int64  
dtypes: float64(3), int64(7), object(2)
memory usage: 44.1+ MB
Energy Data Shape: (481959, 12)


Start der Messung                0
Start der Messung (Text)         0
Stromverbrauch                   0
Grundversorgte Kunden       297944
Freie Kunden                303896
Jahr                             0
Monat                            0
Tag                              0
Wochentag                        0
Tag des Jahres                   0
Quartal                          0
Woche des Jahres                 0
dtype: int64

In [179]:
print(energy_data.index)
print(energy_data.isnull().sum())

RangeIndex(start=0, stop=481959, step=1)
Start der Messung                0
Start der Messung (Text)         0
Stromverbrauch                   0
Grundversorgte Kunden       297944
Freie Kunden                303896
Jahr                             0
Monat                            0
Tag                              0
Wochentag                        0
Tag des Jahres                   0
Quartal                          0
Woche des Jahres                 0
dtype: int64


In [180]:
for col in energy_data.select_dtypes(include=['number']).columns:
    print(f"{col}: min={energy_data[col].min()} | max={energy_data[col].max()} | mean={energy_data[col].mean():.2f}")

Stromverbrauch: min=22322.879 | max=68374.4425 | mean=38454.34
Grundversorgte Kunden: min=0.0 | max=26089.633 | mean=15787.70
Freie Kunden: min=0.0 | max=32296.454 | mean=19277.14
Jahr: min=2012 | max=2025 | mean=2018.38
Monat: min=1 | max=12 | mean=6.44
Tag: min=1 | max=31 | mean=15.72
Wochentag: min=0 | max=6 | mean=3.00
Tag des Jahres: min=1 | max=366 | mean=180.64
Quartal: min=1 | max=4 | mean=2.48
Woche des Jahres: min=1 | max=53 | mean=26.23


In [181]:
energy_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Stromverbrauch,481959.0,38454.337193,9053.026326,22322.879,30752.445525,37427.5125,45085.066,68374.4425
Grundversorgte Kunden,184015.0,15787.695773,3556.734093,0.0,12608.3225,16034.159,18365.254,26089.633
Freie Kunden,178063.0,19277.143512,4409.132362,0.0,15480.603,18104.681,23226.8105,32296.454
Jahr,481959.0,2018.379207,3.969501,2012.0,2015.0,2018.0,2022.0,2025.0
Monat,481959.0,6.440363,3.424464,1.0,3.0,6.0,9.0,12.0
Tag,481959.0,15.72473,8.797658,1.0,8.0,16.0,23.0,31.0
Wochentag,481959.0,2.999645,2.000352,0.0,1.0,3.0,5.0,6.0
Tag des Jahres,481959.0,180.637961,104.709813,1.0,90.0,180.0,269.0,366.0
Quartal,481959.0,2.481155,1.108788,1.0,1.0,2.0,3.0,4.0
Woche des Jahres,481959.0,26.229783,14.950682,1.0,13.0,26.0,39.0,53.0


In [182]:
#Korrelationsmatrix
corr = energy_data.corr(numeric_only=True)
print(corr)

                       Stromverbrauch  Grundversorgte Kunden  Freie Kunden  \
Stromverbrauch               1.000000               0.869781      0.917261   
Grundversorgte Kunden        0.869781               1.000000      0.603261   
Freie Kunden                 0.917261               0.603261      1.000000   
Jahr                        -0.355267              -0.038268     -0.093759   
Monat                        0.006530              -0.000536      0.070968   
Tag                         -0.000704              -0.004522     -0.010037   
Wochentag                   -0.273983              -0.154527     -0.343321   
Tag des Jahres               0.006942               0.000832      0.069338   
Quartal                      0.004958              -0.007723      0.066236   
Woche des Jahres             0.007946               0.001372      0.064066   

                           Jahr     Monat       Tag  Wochentag  \
Stromverbrauch        -0.355267  0.006530 -0.000704  -0.273983   
Grundvers

In [183]:
#MAX, MIN Values
for col in energy_data.select_dtypes(include=['number']).columns:
    idx = energy_data[col].idxmax()
    print(f"{col}: Index={idx}, Wert={energy_data.loc[idx, col]}")

Stromverbrauch: Index=459451, Wert=68374.4425
Grundversorgte Kunden: Index=168290, Wert=26089.633
Freie Kunden: Index=112068, Wert=32296.454
Jahr: Index=0, Wert=2025
Monat: Index=26108, Wert=12
Tag: Index=2784, Wert=31
Wochentag: Index=96, Wert=6
Tag des Jahres: Index=26108, Wert=366
Quartal: Index=26108, Wert=4
Woche des Jahres: Index=166060, Wert=53


In [184]:
summary = {
    "Anzahl Zeilen": len(energy_data),
    "Anzahl Spalten": len(energy_data.columns),
    "Fehlende Werte (gesamt)": energy_data.isnull().sum().sum(),
    "Numerische Spalten": list(energy_data.select_dtypes(include=['number']).columns)
}
print(summary)

{'Anzahl Zeilen': 481959, 'Anzahl Spalten': 12, 'Fehlende Werte (gesamt)': np.int64(601840), 'Numerische Spalten': ['Stromverbrauch', 'Grundversorgte Kunden', 'Freie Kunden', 'Jahr', 'Monat', 'Tag', 'Wochentag', 'Tag des Jahres', 'Quartal', 'Woche des Jahres']}


Join Weather Data

In [185]:
weather_complete = pd.concat([weather_data_2010, weather_data_2020], ignore_index=True)
weather_complete.head()

Unnamed: 0,station_abbr,Date and Time,Date,Time,Lufttemperatur 2 m ü. Boden,Lufttemperatur 2 m ü. Gras,Lufttemperatur Bodenoberfläche,Chilltemperatur,relative Luftfeuchtigkeit,Taupunkt 2 m ü. Boden,...,Windrichtung; Zehnminutenmittel,Windgeschwindigkeit; Zehnminutenmittel in km/h,BÃ¶enspitze (3-SekundenbÃ¶e); Maximum in m/s,BÃ¶enspitze (SekundenbÃ¶e); Maximum in km/h,BÃ¶enspitze (3-SekundenbÃ¶e); Maximum in km/h,Niederschlag; Zehnminutensumme,Globalstrahlung; Zehnminutenmittel,Diffusstrahlung; Zehnminutenmittel,Langwellige Einstrahlung; Zehnminutenmittel,Sonnenscheindauer; Zehnminutensumme
0,BAS,01.01.2010 00:00,01.01.2010,00:00:00,4.5,2.8,2.5,2.5,94.8,3.7,...,108.0,8.3,4.1,15.5,14.8,0.0,0.0,18.0,253.0,0.0
1,BAS,01.01.2010 00:10,01.01.2010,00:10:00,4.2,2.9,2.5,1.9,96.2,3.6,...,105.0,9.4,4.3,16.2,15.5,0.0,0.0,19.0,252.0,0.0
2,BAS,01.01.2010 00:20,01.01.2010,00:20:00,4.0,2.7,2.3,1.9,96.2,3.5,...,100.0,8.3,3.7,13.7,13.3,0.0,0.0,19.0,260.0,0.0
3,BAS,01.01.2010 00:30,01.01.2010,00:30:00,4.3,3.2,2.9,3.1,96.1,3.7,...,108.0,5.4,2.8,10.4,10.1,0.0,0.0,20.0,321.0,0.0
4,BAS,01.01.2010 00:40,01.01.2010,00:40:00,4.3,3.6,3.5,3.1,96.3,3.8,...,96.0,5.4,2.6,9.7,9.4,0.0,0.0,19.0,321.0,0.0


In [186]:
weather_complete = weather_complete.sort_values(by=['Date', 'Time'], ascending=True).reset_index(drop=True)
weather_complete.head()

Unnamed: 0,station_abbr,Date and Time,Date,Time,Lufttemperatur 2 m ü. Boden,Lufttemperatur 2 m ü. Gras,Lufttemperatur Bodenoberfläche,Chilltemperatur,relative Luftfeuchtigkeit,Taupunkt 2 m ü. Boden,...,Windrichtung; Zehnminutenmittel,Windgeschwindigkeit; Zehnminutenmittel in km/h,BÃ¶enspitze (3-SekundenbÃ¶e); Maximum in m/s,BÃ¶enspitze (SekundenbÃ¶e); Maximum in km/h,BÃ¶enspitze (3-SekundenbÃ¶e); Maximum in km/h,Niederschlag; Zehnminutensumme,Globalstrahlung; Zehnminutenmittel,Diffusstrahlung; Zehnminutenmittel,Langwellige Einstrahlung; Zehnminutenmittel,Sonnenscheindauer; Zehnminutensumme
0,BAS,01.01.2010 00:00,01.01.2010,00:00:00,4.5,2.8,2.5,2.5,94.8,3.7,...,108.0,8.3,4.1,15.5,14.8,0.0,0.0,18.0,253.0,0.0
1,BAS,01.01.2010 00:10,01.01.2010,00:10:00,4.2,2.9,2.5,1.9,96.2,3.6,...,105.0,9.4,4.3,16.2,15.5,0.0,0.0,19.0,252.0,0.0
2,BAS,01.01.2010 00:20,01.01.2010,00:20:00,4.0,2.7,2.3,1.9,96.2,3.5,...,100.0,8.3,3.7,13.7,13.3,0.0,0.0,19.0,260.0,0.0
3,BAS,01.01.2010 00:30,01.01.2010,00:30:00,4.3,3.2,2.9,3.1,96.1,3.7,...,108.0,5.4,2.8,10.4,10.1,0.0,0.0,20.0,321.0,0.0
4,BAS,01.01.2010 00:40,01.01.2010,00:40:00,4.3,3.6,3.5,3.1,96.3,3.8,...,96.0,5.4,2.6,9.7,9.4,0.0,0.0,19.0,321.0,0.0


In [191]:
save_path = os.path.join(fetch_directory, "data", "weather_complete.csv")

weather_complete.to_csv(save_path, index=False)

Weather Data Analysis

In [199]:
weather_complete.info()
print(f"Energy Data Shape:", weather_complete.shape)
weather_complete.head()
weather_complete.index
print("Summe aller 'Null' Werte:")
weather_complete.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 788977 entries, 0 to 788976
Data columns (total 27 columns):
 #   Column                                                             Non-Null Count   Dtype  
---  ------                                                             --------------   -----  
 0   station_abbr                                                       788977 non-null  object 
 1   Date and Time                                                      788977 non-null  object 
 2   Date                                                               788977 non-null  object 
 3   Time                                                               788977 non-null  object 
 4   Lufttemperatur 2 m ü. Boden                                        788977 non-null  float64
 5   Lufttemperatur 2 m ü. Gras                                         788977 non-null  float64
 6   Lufttemperatur Bodenoberfläche                                     788976 non-null  float64
 7   Chilltemper

station_abbr                                                            0
Date and Time                                                           0
Date                                                                    0
Time                                                                    0
Lufttemperatur 2 m ü. Boden                                             0
Lufttemperatur 2 m ü. Gras                                              0
Lufttemperatur Bodenoberfläche                                          1
Chilltemperatur                                                         1
relative Luftfeuchtigkeit                                               1
Taupunkt 2 m ü. Boden                                                 145
Dampfdruck 2 m ü. Boden                                               187
Luftrdruck auf Barometerhöhe                                          187
Luftdruck reduziert auf Meeresniveau mit Standardatmosphäre (QNH)     187
Luftdruck reduziert auf Meeresniveau (

In [200]:
print(weather_complete.index)
print(weather_complete.isnull().sum())

RangeIndex(start=0, stop=788977, step=1)
station_abbr                                                            0
Date and Time                                                           0
Date                                                                    0
Time                                                                    0
Lufttemperatur 2 m ü. Boden                                             0
Lufttemperatur 2 m ü. Gras                                              0
Lufttemperatur Bodenoberfläche                                          1
Chilltemperatur                                                         1
relative Luftfeuchtigkeit                                               1
Taupunkt 2 m ü. Boden                                                 145
Dampfdruck 2 m ü. Boden                                               187
Luftrdruck auf Barometerhöhe                                          187
Luftdruck reduziert auf Meeresniveau mit Standardatmosphäre (QNH)     1

In [201]:
for col in energy_data.select_dtypes(include=['number']).columns:
    print(f"{col}: min={energy_data[col].min()} | max={energy_data[col].max()} | mean={energy_data[col].mean():.2f}")

Stromverbrauch: min=22322.879 | max=68374.4425 | mean=38454.34
Grundversorgte Kunden: min=0.0 | max=26089.633 | mean=15787.70
Freie Kunden: min=0.0 | max=32296.454 | mean=19277.14
Jahr: min=2012 | max=2025 | mean=2018.38
Monat: min=1 | max=12 | mean=6.44
Tag: min=1 | max=31 | mean=15.72
Wochentag: min=0 | max=6 | mean=3.00
Tag des Jahres: min=1 | max=366 | mean=180.64
Quartal: min=1 | max=4 | mean=2.48
Woche des Jahres: min=1 | max=53 | mean=26.23


In [202]:
energy_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Stromverbrauch,481959.0,38454.337193,9053.026326,22322.879,30752.445525,37427.5125,45085.066,68374.4425
Grundversorgte Kunden,184015.0,15787.695773,3556.734093,0.0,12608.3225,16034.159,18365.254,26089.633
Freie Kunden,178063.0,19277.143512,4409.132362,0.0,15480.603,18104.681,23226.8105,32296.454
Jahr,481959.0,2018.379207,3.969501,2012.0,2015.0,2018.0,2022.0,2025.0
Monat,481959.0,6.440363,3.424464,1.0,3.0,6.0,9.0,12.0
Tag,481959.0,15.72473,8.797658,1.0,8.0,16.0,23.0,31.0
Wochentag,481959.0,2.999645,2.000352,0.0,1.0,3.0,5.0,6.0
Tag des Jahres,481959.0,180.637961,104.709813,1.0,90.0,180.0,269.0,366.0
Quartal,481959.0,2.481155,1.108788,1.0,1.0,2.0,3.0,4.0
Woche des Jahres,481959.0,26.229783,14.950682,1.0,13.0,26.0,39.0,53.0


In [203]:
summary = {
    "Anzahl Zeilen": len(energy_data),
    "Anzahl Spalten": len(energy_data.columns),
    "Fehlende Werte (gesamt)": energy_data.isnull().sum().sum(),
    "Numerische Spalten": list(energy_data.select_dtypes(include=['number']).columns)
}
print(summary)

{'Anzahl Zeilen': 481959, 'Anzahl Spalten': 12, 'Fehlende Werte (gesamt)': np.int64(601840), 'Numerische Spalten': ['Stromverbrauch', 'Grundversorgte Kunden', 'Freie Kunden', 'Jahr', 'Monat', 'Tag', 'Wochentag', 'Tag des Jahres', 'Quartal', 'Woche des Jahres']}


In [None]:
print("aktuelle cwd", os.getcwd())
print("Inhalt cwd:", os.listdir())
print("'data' existier im cwd?:", os.path.exists('data'))
if os.path.exists('data'):
    print("Dateien in 'data':", os.listdir('data'))

aktuelle cwd c:\Users\Kerem Akkaya\Python Project\Energy-Forecasting-Anomaly-Detection-Basel\Business_und_Data_Understanding
Inhalt cwd: ['data_analysis 29.10.2025.py', 'data_analysis.py', 'data_analysis_weather.py', 'data_manipulation.py', 'Datenaufbereitung.ipynb']
'data' existier im cwd?: False


In [None]:
data_file = Path.cwd() / "251006_StromverbrauchBasel2012-2025.csv"
print("Erwarteter Pfad:", data_file)
print("Exisitiert?", data_file.exists())

Erwarteter Pfad: c:\Users\Kerem Akkaya\Python Project\Energy-Forecasting-Anomaly-Detection-Basel\Business_und_Data_Understanding\251006_StromverbrauchBasel2012-2025.csv
Exisitiert? False
