# Pandas Zeitzonen

In diesem Notebook lernen wir, wie man Zeitzonen in Pandas handhabt.

## 1. Einführung in Zeitzonen

Pandas ermöglicht es uns, Datums- und Zeitangaben zu manipulieren und mit verschiedenen Zeitzonen zu arbeiten. Dazu müssen wir zunächst sicherstellen, dass die Spalten im **Datetime**-Format sind.

In [1]:
import pandas as pd
import pytz

# Beispiel-Daten
daten = {'Datum': ['2024-06-01 12:00:00', '2024-06-02 14:30:00', '2024-06-03 09:00:00']}
df = pd.DataFrame(daten)

# Konvertiere die 'Datum'-Spalte in Datetime-Format
df['Datum'] = pd.to_datetime(df['Datum'])
print("Ursprüngliche Daten:")
print(df)

Ursprüngliche Daten:
                Datum
0 2024-06-01 12:00:00
1 2024-06-02 14:30:00
2 2024-06-03 09:00:00


## 2. Zeitzone zuweisen

Wir können einer Spalte mit Zeitangaben eine Zeitzone zuweisen, z.B. **UTC**.

In [2]:
# Zeitzone UTC zuweisen
df['Datum_UTC'] = df['Datum'].dt.tz_localize('UTC')
print("Daten mit zugewiesener UTC-Zeitzone:")
print(df)

Daten mit zugewiesener UTC-Zeitzone:
                Datum                 Datum_UTC
0 2024-06-01 12:00:00 2024-06-01 12:00:00+00:00
1 2024-06-02 14:30:00 2024-06-02 14:30:00+00:00
2 2024-06-03 09:00:00 2024-06-03 09:00:00+00:00


## 3. Zeitzone konvertieren

Mit `tz_convert` können wir die Zeitzone in eine andere ändern.

In [3]:
# Zeitzone in 'Europe/Berlin' konvertieren
df['Datum_Berlin'] = df['Datum_UTC'].dt.tz_convert('Europe/Berlin')
print("Daten konvertiert nach Europe/Berlin:")
print(df)

Daten konvertiert nach Europe/Berlin:
                Datum                 Datum_UTC              Datum_Berlin
0 2024-06-01 12:00:00 2024-06-01 12:00:00+00:00 2024-06-01 14:00:00+02:00
1 2024-06-02 14:30:00 2024-06-02 14:30:00+00:00 2024-06-02 16:30:00+02:00
2 2024-06-03 09:00:00 2024-06-03 09:00:00+00:00 2024-06-03 11:00:00+02:00


## 4. Zeitunterschied berechnen

Wir können den Zeitunterschied zwischen verschiedenen Zeitzonen vergleichen.

In [4]:
# Beispiel für Zeitdifferenz
df['Zeitdifferenz'] = df['Datum_Berlin'] - df['Datum_UTC']
print("Zeitdifferenz zwischen UTC und Berlin:")
print(df)

Zeitdifferenz zwischen UTC und Berlin:
                Datum                 Datum_UTC              Datum_Berlin  \
0 2024-06-01 12:00:00 2024-06-01 12:00:00+00:00 2024-06-01 14:00:00+02:00   
1 2024-06-02 14:30:00 2024-06-02 14:30:00+00:00 2024-06-02 16:30:00+02:00   
2 2024-06-03 09:00:00 2024-06-03 09:00:00+00:00 2024-06-03 11:00:00+02:00   

  Zeitdifferenz  
0        0 days  
1        0 days  
2        0 days  


## 5. Zusammenfassung

- **`tz_localize`**: Zuweisen einer Zeitzone.
- **`tz_convert`**: Konvertieren in eine andere Zeitzone.
- Arbeiten mit Zeitzonen hilft, globale Zeitunterschiede korrekt zu handhaben.

# Aufgabe: Zeitzonen 
**Beschreibung:**  
Sie haben einen **gegebenen DataFrame** mit Verkaufsdaten. Der DataFrame enthält eine Spalte **`sell_date`**, die Zeitstempel der Verkäufe in der **US/Eastern**-Zeitzone enthält. Ihre Aufgabe ist es, die folgenden Schritte durchzuführen:

1. **Zeitzone zuweisen:** Weisen Sie der Spalte **`sell_date`** die Zeitzone **`US/Eastern`** zu.

2. **Zeitzone konvertieren:** Erstellen Sie eine neue Spalte **`europe_sell_date`**, die die Zeitstempel aus **`sell_date`** in die Zeitzone **`Europe/Berlin`** konvertiert.

3. **Zeitunterschied berechnen:** Berechnen Sie den Zeitunterschied zwischen **`sell_date`** (US/Eastern) und **`europe_sell_date`** (Europe/Berlin) und speichern Sie diesen in einer neuen Spalte **`timediff`**. Da dieser Vergleich mit zeitzonen-bewussten Spalten eine Differenz von 0 aufwweisen würde, müssen die Spalten bei der Differenz-Operation als "timezone-naive" behandelt werden.

Zum Beispiel für die Spalte `europe_sell_date`:

    df_products['europe_sell_date'].dt.tz_localize(None) 


In [20]:
import random

# Erweiterung: Zufällige Produktnamen hinzufügen und 10 Einträge erstellen
products = ['Produkt_A', 'Produkt_B', 'Produkt_C', 'Produkt_D', 'Produkt_E']
sell_dates = ['2024-06-01 08:00:00', '2024-06-01 12:00:00', 
              '2024-06-01 16:30:00', '2024-06-01 23:00:00', 
              '2024-06-02 06:15:00']

# Erstellen von 10 Einträgen mit Produktnamen und Verkaufsdaten
data = {
    'product': [random.choice(products) for _ in range(10)],
    'sell_date': [random.choice(sell_dates) for _ in range(10)]
}

# Erstellen des DataFrames
df_products = pd.DataFrame(data)

# 1) konvertiere die 'sell_date'-Spalte in Datetime und weise die Zeitzone US/Eastern zu
df_products['sell_date'] = pd.to_datetime(df_products['sell_date']).dt.tz_localize('US/Eastern')

# 2) Neue Spalte europe_sell_date als Europe/Berlin Zeitzone
df_products['europe_sell_date'] = df_products['sell_date'].dt.tz_convert('Europe/Berlin')

#3 ) Neue Spalte time_diff als Differenz zwischen sell_date und europe_sell_date
df_products['timediff'] = (df_products['sell_date'] - df_products['europe_sell_date'])
df_products['timediff'] = (df_products['europe_sell_date'].dt.tz_localize(None) - df_products['sell_date'].dt.tz_localize(None)).dt.total_seconds() / 3600
df_products


Unnamed: 0,product,sell_date,europe_sell_date,timediff
0,Produkt_C,2024-06-01 08:00:00-04:00,2024-06-01 14:00:00+02:00,6.0
1,Produkt_B,2024-06-02 06:15:00-04:00,2024-06-02 12:15:00+02:00,6.0
2,Produkt_D,2024-06-01 16:30:00-04:00,2024-06-01 22:30:00+02:00,6.0
3,Produkt_A,2024-06-01 16:30:00-04:00,2024-06-01 22:30:00+02:00,6.0
4,Produkt_C,2024-06-01 12:00:00-04:00,2024-06-01 18:00:00+02:00,6.0
5,Produkt_D,2024-06-01 23:00:00-04:00,2024-06-02 05:00:00+02:00,6.0
6,Produkt_A,2024-06-01 12:00:00-04:00,2024-06-01 18:00:00+02:00,6.0
7,Produkt_B,2024-06-01 23:00:00-04:00,2024-06-02 05:00:00+02:00,6.0
8,Produkt_E,2024-06-01 08:00:00-04:00,2024-06-01 14:00:00+02:00,6.0
9,Produkt_E,2024-06-01 08:00:00-04:00,2024-06-01 14:00:00+02:00,6.0
