In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
np.random.seed(42)

# Zeitreihen erstellen

## Zeitreihen erstellen mit data_range
Um Zeitreihen zu erstellen, gibt es in Pandas die Methode `data_range`. Diese Methode erwartet die Anzahl an Zeitpunkten (`periods`) und die Frequenz (`freq`), also Tag, Stunde, Monat, etc.

### Freq-Angaben
https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases


### Beispiel
Bei der Angabe des Startdatums können wir das US-Datumsformat (mm/dd/YYYY) angeben oder ISO 8601 (YYYY-mm-dd)

In [32]:
# mit freq=d geben wir an, dass wir eine tageweise Zeitreihe haben wollen
start_date = "03/01/2022"
start_date = "1.3.2022"

### ein Dataframe erstellen mit einem monatlichen Zeitindex

In [5]:
# ein Dataframe erstellen mit einem monatlichen Zeitindex
df_sales_2021 = pd.DataFrame({
    "sales": [23, 23, 21, 43, 23, 53, 21, 42, 11, 44, 23, 23],
    "old_sales": [123, 23, 211, 431, 231, 513, 121, 42, 11, 441, 123, 123],
},
    # index = ...
)

# mit loc können wir auch über Date-Indizies slicen

## Nach Datum slicen, falls Datum der Index ist

In [4]:
# Sample data
data = {"Date": ["2023-01-01", "2023-01-02", "2023-01-03"], "Values": [10, 15, 20]}
df = pd.DataFrame(data)



In [35]:
# Bar-Chart of Sales 

### ein Dataframe erstellen mit einem stündlichen Zeitindex

In [7]:
df_result_hours = pd.DataFrame({
    "results": np.random.randint(low=1, high=3, size=(24,))
},
    # index = ...
)
df_result_hours

Unnamed: 0,results
0,2
1,2
2,2
3,2
4,2
5,2
6,1
7,1
8,2
9,2


## Konvertieren von String zu Datumsobjekt

In [37]:
# Sample data
data = {"Date": ["2023-01-01", "2023-01-02", "2023-01-05"], "Values": [10, 15, 20]}
df = pd.DataFrame(data)

# Converting the "Date" column to datetime format

# Differenz zwischen aufeinanderfolgenden Zeilen

Die diff()-Methode berechnet die Differenz zwischen aufeinanderfolgenden Zeilen in der Datumsspalte. In Kombination mit .dt.days wird die Differenz in Tagen angezeigt.

In [38]:
# ...

## Datumsformat in der Ausgabe
wir können das Datumsformat in der Ausgabe mit `strftime` ändern, wie wir es aus dem Python Standard gewohnt sind.

In [39]:
# ein Dataframe erstellen mit einem monatlichen Zeitindex, Ende des Monats
df_sales_2020_end_month = pd.DataFrame({
    "sales": [23, 23, 21, 43, 23, 53, 21, 42, 11, 44, 23, 23],
    "old_sales": [123, 23, 211, 431, 231, 513, 121, 42, 11, 441, 123, 123],
},
    index = pd.date_range("01/01/2020", periods=12, freq="ME")
)
...

Ellipsis

## Nach Index Zeiten filtern

In [40]:
# Verkäufe Monat März

In [41]:
# Verkäufe Monat März bis Monat Juli

In [42]:
# Verkäufe ab dem 8.4.2021

## Datumsstrings umformatieren
Wenn aus einer CSV-Datei oder einer anderen Quelle Daten eingelesen werden, kann Pandas oftmals nicht erkennen, dass es sich bei den Datum um ein Datumsformat handelt. Für diesen Zweck gibt es die Methode `to_datetime`.

In [28]:
dates = [
    "1. Jan 2010",
    "1. Feb 2010",
    "1. Mar 2010",
]

prices = [
    200,
    339,
    124
]

new_sales = pd.DataFrame({
    "dates": dates,
    "prices": prices
})

# Datum in Dates wird nicht als Datum erkannt
new_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   dates   3 non-null      object
 1   prices  3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes


In [46]:
# Dates Spalte in Datumsformat konvertieren

In [47]:
# jetzt Datum zum Index machen