In [None]:
# Notebook-spezifische Einstellungen
%load_ext autoreload
%autoreload 2
%matplotlib inline

import os
import pandas as pd
import plotly.express as px
import plotly.io as pio

# Standard-Theme für Plotly
pio.templates.default = "plotly_dark"

# Pfad zur kombinierten CSV 
DATA_PATH = "../data/cleaned-data/ckw_opendata_smartmeter_dataset_b_all.csv"

# Daten laden
df = pd.read_csv(DATA_PATH)

# Erste Zeilen anschauen
df.head(20)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


Unnamed: 0,area_code,timestamp,num_meter,value_kwh
0,6221,2021-03-09T22:15:00.000Z,184,10.75
1,6166,2021-03-05T06:45:00.000Z,884,86.54571
2,6166,2021-03-27T10:45:00.000Z,885,136.94471
3,6214,2021-03-07T15:30:00.000Z,310,26.292
4,6130,2021-03-02T12:30:00.000Z,3993,360.981178
5,6033,2021-03-24T22:45:00.000Z,106,11.528
6,6106,2021-03-23T14:30:00.000Z,406,38.629
7,6166,2021-03-10T14:30:00.000Z,884,79.08271
8,6030,2021-03-27T23:00:00.000Z,884,67.787
9,6170,2021-03-06T00:45:00.000Z,2147,372.849776


In [12]:
df["timestamp"] = pd.to_datetime(df["timestamp"])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16459651 entries, 0 to 16459650
Data columns (total 4 columns):
 #   Column     Dtype              
---  ------     -----              
 0   area_code  int64              
 1   timestamp  datetime64[ns, UTC]
 2   num_meter  int64              
 3   value_kwh  float64            
dtypes: datetime64[ns, UTC](1), float64(1), int64(2)
memory usage: 502.3 MB


In [13]:
# Check auf fehlende Werte
print(f"Anzahl Zeilen: {len(df)}")
print(df.isna().sum())  # Anzahl fehlender Werte pro Spalte


Anzahl Zeilen: 16459651
area_code    0
timestamp    0
num_meter    0
value_kwh    0
dtype: int64


In [14]:
# Summe des Verbrauchs pro Tag
df_daily = df.groupby(df["timestamp"].dt.date)["value_kwh"].sum().reset_index()
df_daily.columns = ["date", "total_kwh"]

fig = px.line(df_daily, x="date", y="total_kwh", title="Tägliche Gesamt-Verbrauch (kWh)")
fig.show()


In [15]:
# Sicherstellen, dass timestamp als datetime erkannt wird
df["timestamp"] = pd.to_datetime(df["timestamp"])

# Jahr extrahieren
df["year"] = df["timestamp"].dt.year

# Einzigartige num_meter pro Jahr zählen
df_unique_meters = df.groupby("year")["num_meter"].nunique().reset_index()
df_unique_meters.columns = ["year", "unique_meters"]

# Visualisieren
fig = px.line(df_unique_meters, x="year", y="unique_meters", title="Entwicklung der Anzahl Smart Meter pro Jahr")
fig.show()

In [16]:
# Jahr extrahieren
df["year"] = df["timestamp"].dt.year

# Gesamtverbrauch pro Jahr berechnen
df_total_kwh = df.groupby("year")["value_kwh"].sum().reset_index()
df_total_kwh.columns = ["year", "total_kwh"]

# Anzahl einzigartiger Smart Meter pro Jahr berechnen
df_unique_meters = df.groupby("year")["num_meter"].nunique().reset_index()
df_unique_meters.columns = ["year", "unique_meters"]

# Beide DataFrames zusammenführen
df_summary = df_total_kwh.merge(df_unique_meters, on="year")

# Verhältnis: Verbrauch pro Smart Meter berechnen
df_summary["kwh_per_meter"] = df_summary["total_kwh"] / df_summary["unique_meters"]

# Visualisierung: Entwicklung des Verbrauchs pro Smart Meter
fig = px.line(df_summary, x="year", y="kwh_per_meter", title="Durchschnittlicher Verbrauch pro Smart Meter über die Jahre")
fig.show()


In [17]:
# Erstelle eine neue Spalte 'month' (als Periode, z.B. 2025-02)
df["month"] = df["timestamp"].dt.to_period("M")

# Berechne den Gesamtverbrauch pro Monat und pro Area Code
df_monthly = df.groupby(["area_code", "month"])["value_kwh"].sum().reset_index()

# Berechne den durchschnittlichen monatlichen Verbrauch pro Area Code
df_area_monthly = df_monthly.groupby("area_code")["value_kwh"].mean().reset_index()
df_area_monthly.columns = ["area_code", "avg_monthly_kwh"]

# Visualisierung mit Plotly Express
fig = px.bar(
    df_area_monthly,
    x="area_code",
    y="avg_monthly_kwh",
    title="Durchschnittlicher monatlicher Verbrauch pro Wohnort",
    labels={
        "area_code": "Anonymisierter Code für Wohnort",
        "avg_monthly_kwh": "Durchschnittlicher Verbrauch (kWh)"
    }
)

# x-Achse auf einen Bereich beschränken
fig.update_layout(xaxis=dict(range=[6000, 6400]))

fig.show()



Converting to PeriodArray/Index representation will drop timezone information.



In [19]:
import numpy as np

# Summe des Verbrauchs pro Tag berechnen
df_daily = df.groupby(df["timestamp"].dt.date)["value_kwh"].sum().reset_index()
df_daily.columns = ["date", "total_kwh"]

# Korrekte Berechnung: Gesamtanzahl der Smart Meter pro Tag
df_meters_daily = df.groupby(df["timestamp"].dt.date)["num_meter"].nunique().reset_index()
df_meters_daily.columns = ["date", "total_meters"]

# DataFrames mergen
df_daily = df_daily.merge(df_meters_daily, on="date")

# Verbrauch pro Smart Meter berechnen (sichere Division)
df_daily["kwh_per_meter"] = df_daily["total_kwh"] / df_daily["total_meters"].replace(0, np.nan)

# Visualisierung: Gesamtverbrauch vs. Verbrauch pro Smart Meter
fig = px.line(df_daily, x="date", y=["total_kwh", "kwh_per_meter"], 
              labels={"value": "kWh", "variable": "Consumption Type"},
              title="Täglicher Gesamtverbrauch vs. Verbrauch pro Smart Meter")

fig.show()