## Arbeiten mit Time-Indexes und Zeitumwandlungen

In dieser Aufgabe werden Sie lernen, wie man mit Zeitstempeln in einem Datensatz umgeht, insbesondere wie man Time-Indexes erstellt, Zeitumwandlungen vornimmt und Daten in regelmässige Zeitintervalle umwandelt (Resampling).

Legen Sie zunächst die folgenden Dokumentationen zu den jeweiligen Manipulationen durch:
- [Wissensdatenbank: Arbeiten mit Time-Indexes](https://abbts-dat-ski.github.io/wissensdatenbank/data-engineering/time_indexes/)

### Aufgabenstellung

Bearbeiten Sie den Solarpanel-Datensatz, der in der Datei `/data_solarpanels_4135001_unsorted.csv` im Ordner `data` gespeichert ist. Der Datensatz enthält eine Spalte mit Zeitstempeln, die Sie für die Bereinigung und Analyse umwandeln müssen.

Führen Sie die folgenden Schritte durch:

1. **Umwandlung der DATE_TIME-Spalte in Datetime-Format**:  
   Überprüfen Sie die Spalte `DATE_TIME` im Datensatz und stellen Sie sicher, dass sie im richtigen Datetime-Format vorliegt. Wenn die Spalte als String oder in einem anderen Format vorliegt, konvertieren Sie sie in das Pandas-Datetime-Format.

2. **Lokalisierung der Zeitstempel auf die Neuseeländische Zeitzone (NZST)**:  
   Lokalisisieren Sie die Zeit (mit [tz_localize](https://pandas.pydata.org/docs/reference/api/pandas.Series.tz_localize.html)) auf die Neuseeländische Standardzeit. Konsultieren Sie dafür in der [Liste der Zeitzonen](https://en.wikipedia.org/wiki/List_of_tz_database_time_zones) die Spalte "TZ identifier".

3. **Umwandlung in UTC**:  
   Konvertieren Sie die Zeitstempel (mit [tz_convert](https://pandas.pydata.org/docs/reference/api/pandas.Series.tz_convert.html)) in UTC (Koordinierte Weltzeit).

4. **Setzen der DATE_TIME-Spalte als Index**:  
   Setzen Sie die `DATE_TIME`-Spalte als Index der Tabelle.

5. **Sortieren der Daten nach dem Datetime-Index**:  
   Sortieren Sie den Datensatz nach dem Datetime-Index, sodass die Zeitstempel in chronologischer Reihenfolge angeordnet sind.

6. **Resampling auf eine 3-Stunden-Basis**:  
   Resamplen Sie die Zeitreihe, sodass die Daten auf einer 3-Stunden-Basis aggregiert werden. Verwenden Sie dazu die Pandas-Methode für Resampling und wählen Sie eine geeignete Aggregationsmethode (z. B. den Durchschnitt der Messwerte).

In [1]:
import pandas as pd

df = pd.read_csv("../data/data_solarpanels_4135001_unsorted.csv")
df

Unnamed: 0,DATE_TIME,PLANT_ID,DC_POWER,AC_POWER,DAILY_YIELD
0,15-06-2020 01:00,4135001,0.000000,0.000000,0.000000
1,23-05-2020 00:30,4135001,0.000000,0.000000,0.000000
2,30-05-2020 08:00,4135001,2849.250000,279.725000,271.875000
3,04-06-2020 16:45,4135001,3579.500000,351.337500,7215.250000
4,26-05-2020 15:30,4135001,8624.000000,843.828571,6528.714286
...,...,...,...,...,...
3153,15-06-2020 11:15,4135001,7742.857143,757.357143,3004.857143
3154,17-05-2020 10:00,4135001,9109.875000,891.125000,1679.375000
3155,25-05-2020 18:30,4135001,35.875000,3.462500,8268.000000
3156,25-05-2020 22:30,4135001,0.000000,0.000000,8268.000000


In [None]:
# YOUR CODE HERE