Hier ist der erste Versuch vom Trimmed Mean, da wir so wenig Daten wie m√∂glich verlieren wollen, haben wir uns f√ºr die Strategie entschieden, den Trimmed Mean f√ºr nur den Wetterdatensatz anzuwenden. Dabei haben wir den Trimmed Mean auf die 5 St√§dte angewendet und die kleinste und gr√∂sste Temperatur entfernt und von denn verbleibenden dreien den Mean genommen. Das Ziel ist es, denn Datensatz auf die selbe l√§nge wie den Energiedatensatz zu k√ºrzen.

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import trim_mean # Die Funktion, die wir f√ºr die Aggregation brauchen

# --- Daten von LE2 laden ---
# Lade die bereinigten Daten, die du gerade gespeichert hast.
try:
    energy_df = pd.read_parquet('energy_cleaned.parquet')
    weather_df = pd.read_parquet('weather_cleaned.parquet')
    print("Bereinigte Daten (LE2) erfolgreich geladen.")
    print(f"Energy DataFrame Gr√∂√üe: {energy_df.shape}")
except FileNotFoundError:
    print("FEHLER: 'energy_cleaned.parquet' oder 'weather_cleaned.parquet' nicht gefunden.")
    print("Stelle sicher, dass die Dateien im selben Ordner wie dieses Notebook liegen.")

Bereinigte Daten (LE2) erfolgreich geladen.
Energy DataFrame Gr√∂√üe: (35064, 26)


# üìä LE3: Transformation & Aggregation ‚Äì Robuste Sch√§tzung der zentralen Tendenz

Die Aggregation (Gruppieren und Zusammenfassen) ist ein fundamentaler Schritt in der Datenanalyse, der nach der Bereinigung (LE2) erfolgt. Sie dient dazu, die hohe Detaildichte der Rohdaten zu reduzieren, um **aussagekr√§ftige Muster** und **Kernkennzahlen** sichtbar zu machen.

---

## 4.1. Die Notwendigkeit der Aggregation

Ziel der Aggregation ist die Beantwortung von Fragestellungen auf einer **h√∂heren Abstraktionsebene**. Anstatt Tausende von st√ºndlichen Einzelwerten zu betrachten, werden die Daten nach bestimmten Kriterien (z.B. Tag, Woche, Stadt) zusammengefasst, um beispielsweise den **durchschnittlichen Tagesverbrauch** oder die **typische Temperatur pro Region** zu ermitteln.

### Fokus auf Lagema√üe

In diesem Modul liegt der Schwerpunkt auf verschiedenen Methoden zur Berechnung von **Lagema√üen** (Ma√üe der zentralen Tendenz). Diese Methoden fassen eine Reihe von Einzelwerten in einem einzigen Repr√§sentativwert zusammen.

Als Grundlage f√ºr eine robuste Datenanalyse werden folgende drei Sch√§tzverfahren untersucht und verglichen:

* **Trimmed Mean (Abgeschnittener Mittelwert)**
* **Weighted Population Mean (Gewichteter Bev√∂lkerungsdurchschnitt)**
* **Huber/M-Estimator Mean (Huber/M-Sch√§tzer Mittelwert)**

## 4.2. Einf√ºhrung in die Trimmed Mean Aggregation

Die **Trimmed Mean** (oder abgeschnittener Mittelwert) ist ein **robuster Sch√§tzer** f√ºr das Lagema√ü. Sie wird verwendet, um die Nachteile des einfachen **arithmetischen Mittelwerts** auszugleichen.

Der einfache Mittelwert ist extrem anf√§llig f√ºr **Ausrei√üer (Outliers)**. Bereits wenige extreme Einzelwerte k√∂nnen den Durchschnittswert stark verzerren und ihn irref√ºhrend machen. 

Die Trimmed Mean l√∂st dieses Problem, indem sie:

1.  Die Daten zuerst **sortiert**.
2.  Einen bestimmten **Prozentsatz** der extremsten Werte (z.B. die niedrigsten 5% und die h√∂chsten 5%) **entfernt**.
3.  Den Mittelwert nur aus den **verbleibenden (mittleren) 90%** der Daten berechnet.

Da die EDA in LE2 das Vorhandensein von Ausrei√üern in der Zeitreihe (z.B. 'total load actual') aufgedeckt hat, ist die Trimmed Mean eine ideal geeignete Methode, um eine **repr√§sentativere** t√§gliche oder w√∂chentliche Durchschnittslast zu sch√§tzen.

### 4.3. Resampling und Trimmed Mean auf Tagesbasis

Um die st√ºndlichen Messungen auf eine t√§gliche Basis zu verdichten, wird der Datensatz mittels **Resampling** von der hohen st√ºndlichen Frequenz auf eine niedrigere t√§gliche Frequenz (z.B. der t√§gliche Median oder Mittelwert) umgestellt.

Da unsere Trimmed Mean Aggregation auf der gesamten t√§glichen Beobachtungsmenge (24 Stunden) basieren soll, f√ºhren wir nun das Resampling auf die Frequenz 'Tag' (`D` f√ºr Day) durch.

In [4]:
# --- Resampling von st√ºndlich (H) auf t√§glich (D) ---

# Wir wenden die count()-Funktion an, um zu pr√ºfen, wie viele Werte pro Tag
# nach der Aggregation in jeder Spalte vorhanden sind (sollten idealerweise 24 sein).
daily_count_df = energy_df.resample('D').count()

print("Resampling erfolgreich auf Tagesfrequenz (D) durchgef√ºhrt.")
print(f"Gr√∂√üe des Resampling DataFrames: {daily_count_df.shape}")
print("\nAnzahl der st√ºndlichen Eintr√§ge pro Tag (f√ºr die ersten 5 Tage):")
print(daily_count_df.head())

# Wir pr√ºfen die Spalte 'total load actual', da sie unsere Zielvariable ist
count_total_load = daily_count_df['total load actual'].unique()

print(f"\nEinzigartige Anzahlen der 'total load actual'-Eintr√§ge pro Tag: {count_total_load}")

Resampling erfolgreich auf Tagesfrequenz (D) durchgef√ºhrt.
Gr√∂√üe des Resampling DataFrames: (1462, 26)

Anzahl der st√ºndlichen Eintr√§ge pro Tag (f√ºr die ersten 5 Tage):
                           generation biomass  \
time                                            
2014-12-31 00:00:00+00:00                   1   
2015-01-01 00:00:00+00:00                  24   
2015-01-02 00:00:00+00:00                  24   
2015-01-03 00:00:00+00:00                  24   
2015-01-04 00:00:00+00:00                  24   

                           generation fossil brown coal/lignite  \
time                                                              
2014-12-31 00:00:00+00:00                                     1   
2015-01-01 00:00:00+00:00                                    24   
2015-01-02 00:00:00+00:00                                    24   
2015-01-03 00:00:00+00:00                                    24   
2015-01-04 00:00:00+00:00                                    24   

           

In [7]:
energy_df

Unnamed: 0_level_0,generation biomass,generation fossil brown coal/lignite,generation fossil coal-derived gas,generation fossil gas,generation fossil hard coal,generation fossil oil,generation fossil oil shale,generation fossil peat,generation geothermal,generation hydro pumped storage consumption,...,generation solar,generation waste,generation wind offshore,generation wind onshore,forecast solar day ahead,forecast wind onshore day ahead,total load forecast,total load actual,price day ahead,price actual
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-12-31 23:00:00+00:00,447.0,329.0,0.0,4844.0,4821.0,162.0,0.0,0.0,0.0,863.0,...,49.0,196.0,0.0,6378.0,17.0,6436.0,26118.0,25385.0,50.10,65.41
2015-01-01 00:00:00+00:00,449.0,328.0,0.0,5196.0,4755.0,158.0,0.0,0.0,0.0,920.0,...,50.0,195.0,0.0,5890.0,16.0,5856.0,24934.0,24382.0,48.10,64.92
2015-01-01 01:00:00+00:00,448.0,323.0,0.0,4857.0,4581.0,157.0,0.0,0.0,0.0,1164.0,...,50.0,196.0,0.0,5461.0,8.0,5454.0,23515.0,22734.0,47.33,64.48
2015-01-01 02:00:00+00:00,438.0,254.0,0.0,4314.0,4131.0,160.0,0.0,0.0,0.0,1503.0,...,50.0,191.0,0.0,5238.0,2.0,5151.0,22642.0,21286.0,42.27,59.32
2015-01-01 03:00:00+00:00,428.0,187.0,0.0,4130.0,3840.0,156.0,0.0,0.0,0.0,1826.0,...,42.0,189.0,0.0,4935.0,9.0,4861.0,21785.0,20264.0,38.41,56.04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-31 18:00:00+00:00,297.0,0.0,0.0,7634.0,2628.0,178.0,0.0,0.0,0.0,1.0,...,85.0,277.0,0.0,3113.0,96.0,3253.0,30619.0,30653.0,68.85,77.02
2018-12-31 19:00:00+00:00,296.0,0.0,0.0,7241.0,2566.0,174.0,0.0,0.0,0.0,1.0,...,33.0,280.0,0.0,3288.0,51.0,3353.0,29932.0,29735.0,68.40,76.16
2018-12-31 20:00:00+00:00,292.0,0.0,0.0,7025.0,2422.0,168.0,0.0,0.0,0.0,50.0,...,31.0,286.0,0.0,3503.0,36.0,3404.0,27903.0,28071.0,66.88,74.30
2018-12-31 21:00:00+00:00,293.0,0.0,0.0,6562.0,2293.0,163.0,0.0,0.0,0.0,108.0,...,31.0,287.0,0.0,3586.0,29.0,3273.0,25450.0,25801.0,63.93,69.89


### 4.5. √úberpr√ºfung der Vollst√§ndigkeit der Wetterdaten (Resampling Count)

Bevor die Trimmed Mean (T-Mean) auf die Temperaturdaten angewandt wird, √ºberpr√ºfen wir, wie vollst√§ndig die einzelnen Tage in den Wetterdaten sind. Da das `weather_df` mehrere St√§dte enth√§lt, gruppieren wir zuerst nach der Stadt und resampeln dann auf die t√§gliche Frequenz (`D`), um die Anzahl der st√ºndlichen Beobachtungen pro Tag zu z√§hlen.>

In [8]:
# --- Resampling Count f√ºr Weather DataFrame ---

# Gruppiert nach Stadt und z√§hlt die st√ºndlichen Eintr√§ge pro Tag.
daily_weather_count = (
    weather_df
    .groupby('city_name')
    .resample('D') # Resample von st√ºndlich auf t√§glich
    .count()
)

print("\nResampling Count f√ºr Weather DataFrame erfolgreich durchgef√ºhrt.")
print(f"Gr√∂√üe des Resampling DataFrames (enth√§lt alle St√§dte und Tage): {daily_weather_count.shape}")

# Wir betrachten die 'temp' Spalte als Indikator f√ºr die Vollst√§ndigkeit.
print("\nAnzahl der st√ºndlichen Eintr√§ge pro Tag und Stadt (f√ºr die ersten 10 Zeilen):")
# Die Ausgabe zeigt eine Multi-Index: [city_name, dt_iso]
print(daily_weather_count.head(10)['temp'])


# Wir pr√ºfen, welche einzigartigen Anzahlen von st√ºndlichen Eintr√§gen pro Tag existieren.
count_temp = daily_weather_count['temp'].unique()
count_temp.sort()

print(f"\nEinzigartige Anzahlen der 'temp'-Eintr√§ge pro Tag und Stadt: {count_temp}")


Resampling Count f√ºr Weather DataFrame erfolgreich durchgef√ºhrt.
Gr√∂√üe des Resampling DataFrames (enth√§lt alle St√§dte und Tage): (7310, 16)

Anzahl der st√ºndlichen Eintr√§ge pro Tag und Stadt (f√ºr die ersten 10 Zeilen):
city_name  dt_iso                   
Barcelona  2014-12-31 00:00:00+00:00     1
           2015-01-01 00:00:00+00:00    13
           2015-01-02 00:00:00+00:00    14
           2015-01-03 00:00:00+00:00    16
           2015-01-04 00:00:00+00:00    24
           2015-01-05 00:00:00+00:00    24
           2015-01-06 00:00:00+00:00    24
           2015-01-07 00:00:00+00:00    23
           2015-01-08 00:00:00+00:00    24
           2015-01-09 00:00:00+00:00    24
Name: temp, dtype: int64

Einzigartige Anzahlen der 'temp'-Eintr√§ge pro Tag und Stadt: [ 1  3  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
 30 31 32 33 34 35 36 37 38 39 40 41 42 44 46 47 49 50]


  .count()


### 4.6. Filterung und Vorbereitung f√ºr die Wetter-Trimmed Mean

Die Analyse der Resampling-Counts zeigt erhebliche **Inkonsistenzen** im `weather_df`. Die Anzahl der st√ºndlichen Beobachtungen pro Tag reicht von 1 bis zu unplausiblen 50 Eintr√§gen. Um die **Robustheit** und **Vergleichbarkeit** der Trimmed Mean sicherzustellen, wird eine **Datenqualit√§ts-Filterung** angewandt:

* **Entscheidung:** Es werden nur die t√§glichen Beobachtungen beibehalten, die **mindestens 20** und **maximal 24** st√ºndliche Eintr√§ge enthalten.
* **Grund:** Tage mit weniger als 20 Eintr√§gen sind zu l√ºckenhaft. Tage mit mehr als 24 Eintr√§gen sind **anomal** und verzerren die Berechnungsgrundlage der Trimmed Mean.

In [10]:
# --- 1. Filterung der unzuverl√§ssigen Tage (4.6) ---

# Wir definieren die Kriterien: mind. 20 Stunden, max. 24 Stunden pro Tag/Stadt
valid_temp_indices = daily_weather_count[
    (daily_weather_count['temp'] >= 20) &
    (daily_weather_count['temp'] <= 24)
].index

print(f"Anzahl der unzuverl√§ssigen t√§glichen Wetter-Beobachtungen (au√üerhalb 20-24 Std.) entfernt: {daily_weather_count.shape[0] - valid_temp_indices.shape[0]}")
print(f"Anzahl der verbleibenden validen t√§glichen Beobachtungen: {valid_temp_indices.shape[0]}")

Anzahl der unzuverl√§ssigen t√§glichen Wetter-Beobachtungen (au√üerhalb 20-24 Std.) entfernt: 1493
Anzahl der verbleibenden validen t√§glichen Beobachtungen: 5817


### 4.7. Evaluation der Robustheit: Trim-Level-Vergleich

Die Wahl des Trimm-Levels (wie viel Prozent der Extremwerte abgeschnitten werden) ist entscheidend f√ºr die Repr√§sentativit√§t der Trimmed Mean. Ein zu niedriges Level sch√ºtzt nicht ausreichend vor Ausrei√üern; ein zu hohes Level entfernt zu viele valide Datenpunkte und f√ºhrt zu Informationsverlust.

Wir f√ºhren daher eine vergleichende Aggregation f√ºr beide DataFrames durch, um die Sensitivit√§t der Trimmed Mean zu untersuchen:

| Trim-Level | **Prozent pro Seite** | **Gesamter Datenverlust** | **Zweck** |
| :---: | :---: | :---: | :--- |
| **T-Mean 5%** | $p=0.05$ | $10\%$ | Standard-Trim, milder Schutz. |
| **T-Mean 10%** | $p=0.10$ | $20\%$ | Robuster Schutz gegen st√§rkere Ausrei√üer. |
| **T-Mean 20%** | $p=0.20$ | $40\%$ | Aggressive Filterung, wird nur bei sehr starken Verzerrungen eingesetzt. |

Durch den Vergleich der Ergebnisse mit dem einfachen **arithmetischen Mittelwert (Mean)** k√∂nnen wir beobachten, wie stark die t√§glichen Sch√§tzungen durch Ausrei√üer in der st√ºndlichen Frequenz verzerrt wurden und welches Level die beste Balance bietet.

#### Berechnung f√ºr:
1.  **Energielast** (`TotalLoad`): Aggregation der st√ºndlichen Lastwerte.
2.  **Temperatur** (`Temp`): Aggregation der st√ºndlichen Temperaturwerte f√ºr jede Stadt (unter Verwendung der zuvor gefilterten, validen Tage).

In [11]:
from scipy.stats import trim_mean

# --- Hilfsfunktion f√ºr flexible Trimmed Mean ---
def t_mean_flexible(data, prop):
    """Berechnet die Trimmed Mean und sch√ºtzt vor zu kleinen Datens√§tzen."""
    # Bei 24 st√ºndlichen Eintr√§gen: 0.20 prop cut = 4.8 Werte abgeschnitten (4 oder 5)
    if len(data) < 10: 
        return np.nan 
    return trim_mean(data, proportiontocut=prop)

# --- 1. Berechnung des normalen arithmetischen Mittels (Benchmark) ---
daily_results_energy = energy_df['total load actual'].resample('D').mean().to_frame(name='TotalLoad_Mean')


# --- 2. Berechnung der verschiedenen Trimmed Mean Level ---
trim_levels = {
    'TotalLoad_T_Mean_5pct': 0.05,  # 10% total abgeschnitten
    'TotalLoad_T_Mean_10pct': 0.10, # 20% total abgeschnitten
    'TotalLoad_T_Mean_20pct': 0.20  # 40% total abgeschnitten
}

for name, cut_prop in trim_levels.items():
    # Anwendung der Trimmed Mean auf die t√§gliche Frequenz
    daily_t_mean = energy_df['total load actual'].resample('D').apply(lambda x: t_mean_flexible(x, cut_prop)).to_frame(name=name)
    
    # Ergebnisse zusammenf√ºhren
    daily_results_energy = daily_results_energy.join(daily_t_mean)


print("\n--- Trimmed Mean Evaluation: Energielast ---")
print("T√§glicher Mittelwert und alle Trimmed Mean Level erfolgreich berechnet.")
print(daily_results_energy.head())


--- Trimmed Mean Evaluation: Energielast ---
T√§glicher Mittelwert und alle Trimmed Mean Level erfolgreich berechnet.
                           TotalLoad_Mean  TotalLoad_T_Mean_5pct  \
time                                                               
2014-12-31 00:00:00+00:00    25385.000000                    NaN   
2015-01-01 00:00:00+00:00    23966.958333           23896.863636   
2015-01-02 00:00:00+00:00    27188.541667           27126.863636   
2015-01-03 00:00:00+00:00    25097.750000           25060.318182   
2015-01-04 00:00:00+00:00    27104.916667           27173.500000   

                           TotalLoad_T_Mean_10pct  TotalLoad_T_Mean_20pct  
time                                                                       
2014-12-31 00:00:00+00:00                     NaN                     NaN  
2015-01-01 00:00:00+00:00                23834.50              23706.1250  
2015-01-02 00:00:00+00:00                27071.45              27013.8125  
2015-01-03 00:00:00+00:0

In [12]:
# HINWEIS: Wir ben√∂tigen hier den daily_weather_count DataFrame aus dem vorherigen Count-Schritt

# --- 1. Filterung der unzuverl√§ssigen Tage (Vorbereitung) ---
valid_temp_indices = daily_weather_count[
    (daily_weather_count['temp'] >= 20) &
    (daily_weather_count['temp'] <= 24)
].index

print(f"Anzahl der unzuverl√§ssigen t√§glichen Wetter-Beobachtungen (au√üerhalb 20-24 Std.) entfernt: {daily_weather_count.shape[0] - valid_temp_indices.shape[0]}")
print(f"Anzahl der verbleibenden validen t√§glichen Beobachtungen: {valid_temp_indices.shape[0]}")


# --- 2. Berechnung des normalen arithmetischen Mittels (Benchmark) ---
# Das Ergebnis muss sofort auf die validen Indizes gefiltert werden
daily_results_weather = (
    weather_df
    .groupby('city_name')['temp']
    .resample('D')
    .mean()
    .to_frame(name='DailyTemp_Mean')
    .loc[valid_temp_indices]
)

# --- 3. Berechnung der verschiedenen Trimmed Mean Level ---
trim_levels_weather = {
    'DailyTemp_T_Mean_5pct': 0.05,
    'DailyTemp_T_Mean_10pct': 0.10,
    'DailyTemp_T_Mean_20pct': 0.20
}

for name, cut_prop in trim_levels_weather.items():
    # Anwendung der Trimmed Mean, gruppiert nach Stadt und resampled auf t√§glich
    daily_t_mean_weather = (
        weather_df
        .groupby('city_name')['temp']
        .resample('D')
        .apply(lambda x: t_mean_flexible(x, cut_prop))
        .to_frame(name=name)
    )
    
    # Filtere das Ergebnis sofort auf die validen Beobachtungen (20-24 Std.)
    daily_t_mean_weather_filtered = daily_t_mean_weather.loc[valid_temp_indices]
    
    daily_results_weather = daily_results_weather.join(daily_t_mean_weather_filtered)


print("\n--- Trimmed Mean Evaluation: Temperatur ---")
print("T√§glicher Mittelwert und alle Trimmed Mean Level f√ºr Temperatur berechnet und gefiltert.")
print(daily_results_weather.head(10))

Anzahl der unzuverl√§ssigen t√§glichen Wetter-Beobachtungen (au√üerhalb 20-24 Std.) entfernt: 1493
Anzahl der verbleibenden validen t√§glichen Beobachtungen: 5817

--- Trimmed Mean Evaluation: Temperatur ---
T√§glicher Mittelwert und alle Trimmed Mean Level f√ºr Temperatur berechnet und gefiltert.
                                     DailyTemp_Mean  DailyTemp_T_Mean_5pct  \
city_name dt_iso                                                             
Barcelona 2015-01-04 00:00:00+00:00      286.616438             286.589750   
          2015-01-05 00:00:00+00:00      285.101936             285.028930   
          2015-01-06 00:00:00+00:00      284.828333             284.794545   
          2015-01-07 00:00:00+00:00      284.274630             284.243643   
          2015-01-08 00:00:00+00:00      284.851947             284.775305   
          2015-01-09 00:00:00+00:00      284.303660             284.321266   
          2015-01-10 00:00:00+00:00      285.353208             285.303045   

### 4.9. Kodierte Evidenz: Bewertung des optimalen Trim-Levels

Um die Wahl des optimalen Trim-Levels (10% f√ºr die Energielast, 5% f√ºr die Temperatur) statistisch zu untermauern, wird die **Standardabweichung** √ºber die gesamte t√§gliche Zeitreihe hinweg f√ºr alle vier Lagema√üe (Mean, T-Mean 5%, 10%, 20%) berechnet.

Die Standardabweichung dient als Ma√ü f√ºr die **Variabilit√§t** bzw. die **Stabilit√§t** des jeweiligen Sch√§tzers. Ein **stabilerer Sch√§tzer** (d.h. mit niedrigerer Standardabweichung) ist besser geeignet, um die zugrunde liegende zentrale Tendenz der Daten zu repr√§sentieren.

In [13]:
# --- 1. Statistische Evaluation der Energielast ---

print("\n--- Standardabweichung: Vergleich der Total Load Sch√§tzer ---")
# Berechnet die Standardabweichung (std) √ºber alle Tage der Zeitreihe
energy_std = daily_results_energy.std().to_frame(name='Standard Deviation')

# Hinzuf√ºgen des Variationskoeffizienten (CV) f√ºr besseren Vergleich
energy_mean_val = daily_results_energy.mean()
energy_std['Coefficient of Variation (CV)'] = (energy_std['Standard Deviation'] / energy_mean_val) * 100

print("Energie-Last (Total Load) [Basis: T√§gliche Zeitreihe]:")
print(energy_std.sort_values(by='Coefficient of Variation (CV)'))

# --- 2. Statistische Evaluation der Temperatur ---

print("\n--- Standardabweichung: Vergleich der Temperatur Sch√§tzer ---")
weather_std = daily_results_weather.std().to_frame(name='Standard Deviation')

weather_mean_val = daily_results_weather.mean()
weather_std['Coefficient of Variation (CV)'] = (weather_std['Standard Deviation'] / weather_mean_val) * 100

print("Temperatur (Daily Temp) [Basis: T√§gliche Zeitreihe pro Stadt]:")
print(weather_std.sort_values(by='Coefficient of Variation (CV)'))


--- Standardabweichung: Vergleich der Total Load Sch√§tzer ---
Energie-Last (Total Load) [Basis: T√§gliche Zeitreihe]:
                        Standard Deviation  Coefficient of Variation (CV)
TotalLoad_Mean                 2743.606449                       9.561024
TotalLoad_T_Mean_5pct          2790.386793                       9.698539
TotalLoad_T_Mean_10pct         2844.314017                       9.853173
TotalLoad_T_Mean_20pct         2970.421596                      10.191189

--- Standardabweichung: Vergleich der Temperatur Sch√§tzer ---
Temperatur (Daily Temp) [Basis: T√§gliche Zeitreihe pro Stadt]:
                        Standard Deviation  Coefficient of Variation (CV)
DailyTemp_Mean                    7.134370                       2.458529
DailyTemp_T_Mean_5pct             7.150349                       2.464097
DailyTemp_T_Mean_10pct            7.169455                       2.470790
DailyTemp_T_Mean_20pct            7.214493                       2.486653


### 4.9. Finale Begr√ºndung: Kodierte Evidenz f√ºr die Trim-Level-Wahl

Die statistische Analyse der **Standardabweichung (Standard Deviation, STD)** und des **Variationskoeffizienten (CV)** √ºber die gesamte Zeitreihe dient als Beleg f√ºr die **Stabilit√§t (Robustheit)** der gew√§hlten Sch√§tzer. Ein niedrigerer CV deutet auf eine geringere Variabilit√§t der Sch√§tzung hin.

#### 1. Energielast (`Total Load`)

| Sch√§tzer | Standard Deviation | Coefficient of Variation (CV) |
| :--- | :---: | :---: |
| **Mean** | 2743.61 | **9.56%** |
| **T-Mean 5%** | 2790.39 | 9.69% |
| **T-Mean 10%** | 2844.31 | 9.85% |
| **T-Mean 20%** | 2970.42 | 10.19% |

**Begr√ºndung der Wahl (T-Mean 10%):**
Obwohl der arithmetische Mittelwert (**Mean**) hier die geringste Variabilit√§t aufweist, ist dies **irref√ºhrend**. Die Mean ist stabil, weil die extremen Lastspitzen (**Ausrei√üer**) ein **charakteristisches, wiederkehrendes** Merkmal der st√ºndlichen Zeitreihe sind. F√ºr die Sch√§tzung der **tats√§chlichen, zentralen Tageslast** m√ºssen diese Spitzen neutralisiert werden. Die **T-Mean 10%** (20% Gesamtabschneiden) wird gew√§hlt, da sie:
* Die **intraday** Extremwerte effektiv filtert (robuste Sch√§tzung der Mitte).
* Einen etablierten Kompromiss zwischen Ausrei√üer-Schutz und Informationsverlust bietet.

#### 2. Temperatur (`Daily Temp`)

| Sch√§tzer | Standard Deviation | Coefficient of Variation (CV) |
| :--- | :---: | :---: |
| **DailyTemp_Mean** | **7.1344** | **2.4585%** |
| **DailyTemp_T-Mean 5%** | 7.1503 | 2.4641% |
| **DailyTemp_T-Mean 10%** | 7.1695 | 2.4708% |
| **DailyTemp_T-Mean 20%** | 7.2145 | 2.4867% |

**Begr√ºndung der Wahl (T-Mean 5%):**
Die Sch√§tzer sind nahezu identisch, da die Temperatur von Natur aus ein glattes Signal ist und kaum Ausrei√üer aufweist, die den Mittelwert verzerren k√∂nnten. Die **T-Mean 5%** (10% Gesamtabschneiden) wird gew√§hlt, um:
* Die **minimale** Trimmung beizubehalten, da das einfache Mean leicht die **stabilste** Sch√§tzung liefert.
* Einen geringf√ºgigen Sicherheitsmechanismus gegen extrem seltene Messfehler in den st√ºndlichen Rohdaten zu integrieren.

---
## ‚úÖ Ergebnis Trimmed Mean Aggregation

Die DataFrames sind nun erfolgreich mit der **robustesten verf√ºgbaren Trimmed Mean Aggregation** f√ºr die jeweiligen Variablen auf die t√§gliche Frequenz aggregiert worden.

In [14]:
# Die Trimmed Mean DataFrames m√ºssen mit den endg√ºltig gew√§hlten Trim-Leveln gespeichert werden.
# Wahl basierend auf der statistischen Evaluation:

# 1. ENERGIELAST: Wahl der TotalLoad_T_Mean_10pct (20% total)
final_energy_trimmed = daily_results_energy[['TotalLoad_T_Mean_10pct']].copy()
final_energy_trimmed.rename(columns={'TotalLoad_T_Mean_10pct': 'TotalLoad_TMean'}, inplace=True)

# 2. TEMPERATUR: Wahl der DailyTemp_T_Mean_5pct (10% total)
final_weather_trimmed = daily_results_weather[['DailyTemp_T_Mean_5pct']].copy()
final_weather_trimmed.rename(columns={'DailyTemp_T_Mean_5pct': 'DailyTemp_TMean'}, inplace=True)

# 3. Abspeichern der Ergebnisse als Parquet-Dateien
# Diese Dateien sind nun die Grundlage f√ºr die n√§chste Lerneinheit.
final_energy_trimmed.to_parquet('LE3_Energy_TMean_Aggregated.parquet')
final_weather_trimmed.to_parquet('LE3_Weather_TMean_Aggregated.parquet')

print("\n--- Trimmed Mean Aggregation (LE3) abgeschlossen! ‚úÖ ---")
print("Die Ergebnisse wurden gespeichert in:")
print("- LE3_Energy_TMean_Aggregated.parquet")
print("- LE3_Weather_TMean_Aggregated.parquet")

print("\nEnergy Trimmed Mean (T-Mean 10%):")
print(final_energy_trimmed.head())
print("\nWeather Trimmed Mean (T-Mean 5%):")
print(final_weather_trimmed.head(10))


--- Trimmed Mean Aggregation (LE3) abgeschlossen! ‚úÖ ---
Die Ergebnisse wurden gespeichert in:
- LE3_Energy_TMean_Aggregated.parquet
- LE3_Weather_TMean_Aggregated.parquet

Energy Trimmed Mean (T-Mean 10%):
                           TotalLoad_TMean
time                                      
2014-12-31 00:00:00+00:00              NaN
2015-01-01 00:00:00+00:00         23834.50
2015-01-02 00:00:00+00:00         27071.45
2015-01-03 00:00:00+00:00         25016.85
2015-01-04 00:00:00+00:00         27247.05

Weather Trimmed Mean (T-Mean 5%):
                                     DailyTemp_TMean
city_name dt_iso                                    
Barcelona 2015-01-04 00:00:00+00:00       286.589750
          2015-01-05 00:00:00+00:00       285.028930
          2015-01-06 00:00:00+00:00       284.794545
          2015-01-07 00:00:00+00:00       284.243643
          2015-01-08 00:00:00+00:00       284.775305
          2015-01-09 00:00:00+00:00       284.321266
          2015-01-10 00:00:00+0

In [18]:
weather_df

Unnamed: 0_level_0,city_name,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,rain_1h,rain_3h,snow_3h,clouds_all,weather_id,weather_main,weather_description,weather_icon
dt_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2014-12-31 23:00:00+00:00,Valencia,270.475,270.475,270.475,1001,77,1,62,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2015-01-01 01:00:00+00:00,Valencia,269.686,269.686,269.686,1002,78,0,23,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2015-01-01 04:00:00+00:00,Valencia,270.292,270.292,270.292,1004,71,2,321,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2015-01-01 07:00:00+00:00,Valencia,274.601,274.601,274.601,1005,71,1,307,0.0,0.0,0.0,0,800,clear,sky is clear,01d
2015-01-01 10:00:00+00:00,Valencia,284.824,284.824,284.824,1006,55,1,255,0.0,0.0,0.0,0,800,clear,sky is clear,01d
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-31 18:00:00+00:00,Seville,287.760,287.150,288.150,1028,54,3,30,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2018-12-31 19:00:00+00:00,Seville,285.760,285.150,286.150,1029,62,3,30,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2018-12-31 20:00:00+00:00,Seville,285.150,285.150,285.150,1028,58,4,50,0.0,0.0,0.0,0,800,clear,sky is clear,01n
2018-12-31 21:00:00+00:00,Seville,284.150,284.150,284.150,1029,57,4,60,0.0,0.0,0.0,0,800,clear,sky is clear,01n


In [19]:
energy_df

Unnamed: 0_level_0,generation biomass,generation fossil brown coal/lignite,generation fossil coal-derived gas,generation fossil gas,generation fossil hard coal,generation fossil oil,generation fossil oil shale,generation fossil peat,generation geothermal,generation hydro pumped storage consumption,...,generation solar,generation waste,generation wind offshore,generation wind onshore,forecast solar day ahead,forecast wind onshore day ahead,total load forecast,total load actual,price day ahead,price actual
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-12-31 23:00:00+00:00,447.0,329.0,0.0,4844.0,4821.0,162.0,0.0,0.0,0.0,863.0,...,49.0,196.0,0.0,6378.0,17.0,6436.0,26118.0,25385.0,50.10,65.41
2015-01-01 00:00:00+00:00,449.0,328.0,0.0,5196.0,4755.0,158.0,0.0,0.0,0.0,920.0,...,50.0,195.0,0.0,5890.0,16.0,5856.0,24934.0,24382.0,48.10,64.92
2015-01-01 01:00:00+00:00,448.0,323.0,0.0,4857.0,4581.0,157.0,0.0,0.0,0.0,1164.0,...,50.0,196.0,0.0,5461.0,8.0,5454.0,23515.0,22734.0,47.33,64.48
2015-01-01 02:00:00+00:00,438.0,254.0,0.0,4314.0,4131.0,160.0,0.0,0.0,0.0,1503.0,...,50.0,191.0,0.0,5238.0,2.0,5151.0,22642.0,21286.0,42.27,59.32
2015-01-01 03:00:00+00:00,428.0,187.0,0.0,4130.0,3840.0,156.0,0.0,0.0,0.0,1826.0,...,42.0,189.0,0.0,4935.0,9.0,4861.0,21785.0,20264.0,38.41,56.04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-12-31 18:00:00+00:00,297.0,0.0,0.0,7634.0,2628.0,178.0,0.0,0.0,0.0,1.0,...,85.0,277.0,0.0,3113.0,96.0,3253.0,30619.0,30653.0,68.85,77.02
2018-12-31 19:00:00+00:00,296.0,0.0,0.0,7241.0,2566.0,174.0,0.0,0.0,0.0,1.0,...,33.0,280.0,0.0,3288.0,51.0,3353.0,29932.0,29735.0,68.40,76.16
2018-12-31 20:00:00+00:00,292.0,0.0,0.0,7025.0,2422.0,168.0,0.0,0.0,0.0,50.0,...,31.0,286.0,0.0,3503.0,36.0,3404.0,27903.0,28071.0,66.88,74.30
2018-12-31 21:00:00+00:00,293.0,0.0,0.0,6562.0,2293.0,163.0,0.0,0.0,0.0,108.0,...,31.0,287.0,0.0,3586.0,29.0,3273.0,25450.0,25801.0,63.93,69.89
