In [1]:
import requests
import pandas as pd
import numpy as np
import json
import sys

# URL of the JSON data
url_old = "https://ec.europa.eu/eurostat/api/dissemination/statistics/1.0/data/tour_occ_nim?format=JSON&sinceTimePeriod=2012-01&geo=DK&geo=DE&geo=EL&geo=ES&geo=HR&geo=IT&geo=PT&geo=FI&geo=SE&geo=NO&unit=NR&unit=PCH_SM&unit=PCH_SM_19&c_resid=DOM&c_resid=FOR&nace_r2=I551&nace_r2=I552&nace_r2=I553&lang=de"

url_domain = "https://ec.europa.eu/eurostat/"
url_site = "api/dissemination/statistics/1.0/data/tour_occ_nim"
url_qry_base = "?format=JSON"
url_qry_period_from = "&sinceTimePeriod=2012-01"
url_qry_period_to = ""
url_qry_geo = "&geo=DK&geo=DE&geo=EL&geo=ES&geo=HR&geo=IT&geo=PT&geo=FI&geo=SE&geo=NO"
url_qry_unit = "&unit=NR&unit=PCH_SM&unit=PCH_SM_19"
url_qry_resid = "&c_resid=DOM&c_resid=FOR"
url_qry_nace = "&nace_r2=I551&nace_r2=I552&nace_r2=I553"
url_qry_lang = "&lang=de"

url = url_domain + url_site + url_qry_base + url_qry_period_from + url_qry_period_to + url_qry_geo + url_qry_unit + url_qry_resid + url_qry_nace + url_qry_lang
if url == url_old:
    print("URL PATH match.")
else:
    print ("ERROR: URL mismatch!")
# sys.exit()

# Download and parse the JSON
response = requests.get(url)
data = response.json()
dims = data['dimension']
values = data['value']

# Extract dimension metadata
dim_order = data['id']  # dimension order
dim_sizes = data['size']  # sizes of dimensions
dim_labels = {dim: dims[dim]['label'] for dim in dim_order}
dim_categories = {dim: dims[dim]['category']['label'] for dim in dim_order}
dim_category_keys = {dim: list(dims[dim]['category']['label'].keys()) for dim in dim_order}

# Flatten values
records = []
for idx, val in values.items():
    idx = int(idx)
    indexes = []
    remainder = idx
    for size in reversed(dim_sizes):
        indexes.append(remainder % size)
        remainder //= size
    indexes.reverse()

    # Map to dimension keys and values
    row = {}
    for i, dim in enumerate(dim_order):
        keys = dim_category_keys[dim]
        key = keys[indexes[i]]
        label = dim_categories[dim][key]
        dim_name = dim_labels[dim]

        # Use your specified column names
        if dim == 'freq':
            row['Zeitliche_Frequenz_Idx'] = key
            row['Zeitliche_Frequenz'] = label
        elif dim == 'c_resid':
            row['Aufenthaltsland_Idx'] = key
            row['Aufenthaltsland'] = label
        elif dim == 'unit':
            row['Maßeinheit_Idx'] = key
            row['Maßeinheit'] = label
        elif dim == 'nace_r2':
            row['NACEr2_Idx'] = key
            row['NACEr2'] = label
        elif dim == 'geo':
            row['Geopolitische_Meldeeinheit_Idx'] = key
            row['Geopolitische_Meldeeinheit'] = label
        elif dim == 'time':
            # row['Zeit_Idx'] = key
            row['JahrMonat'] = label
    row['value'] = val
    records.append(row)

# Create DataFrame
df = pd.DataFrame(records)

# Export to CSV
# csv_filename = "estat_tour_overnight_stays_2012-2025_eu10_de.csv"
# df.to_csv(csv_filename, index=False)
# print(f"Exported to {csv_filename}")

df.head(50)


URL PATH match.


Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,11022604.0
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,11916641.0
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,14018007.0
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,15472920.0
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,18319333.0
5,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-06,18486480.0
6,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-07,19202249.0
7,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-08,20631875.0
8,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-09,20677647.0
9,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-10,18473660.0


In [2]:
df["Maßeinheit_Idx"].value_counts()

Maßeinheit_Idx
NR           9716
PCH_SM       9202
PCH_SM_19    3956
Name: count, dtype: int64

In [3]:
mask_anzahl = df["Maßeinheit_Idx"] == "NR"
mask_pch_sm = df["Maßeinheit_Idx"] == "PCH_SM"
mask_pch_sm_19 = df["Maßeinheit_Idx"] == "PCH_SM_19"
df_anzahl = df[mask_anzahl].copy()  # independent copy - no. of overnight stays
df_pch_sm = df[mask_pch_sm].copy()    # independent copy - percentage change MoM (YoY)
df_pch_sm_19 = df[mask_pch_sm_19].copy()    # independent copy - percentage change MoM (vs 2019)

In [4]:
display(df_anzahl)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,11022604.0
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,11916641.0
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,14018007.0
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,15472920.0
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,18319333.0
...,...,...,...,...,...,...,...,...,...,...,...,...
16290,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-02,54382.0
16291,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-03,53157.0
16292,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-04,101956.0
16293,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-05,249936.0


In [5]:
display(df_pch_sm)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
4858,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,5.31
4859,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,10.18
4860,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,6.15
4861,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,3.93
4862,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,4.37
...,...,...,...,...,...,...,...,...,...,...,...,...
20891,M,Monatlich,FOR,Ausland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I553,Campingplätze,SE,Schweden,2025-02,23.78
20892,M,Monatlich,FOR,Ausland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I553,Campingplätze,SE,Schweden,2025-03,-14.98
20893,M,Monatlich,FOR,Ausland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I553,Campingplätze,SE,Schweden,2025-04,85.36
20894,M,Monatlich,FOR,Ausland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I553,Campingplätze,SE,Schweden,2025-05,3.10


In [6]:
display(df_pch_sm_19)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
9459,M,Monatlich,DOM,Inland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2020-01,2.84
9460,M,Monatlich,DOM,Inland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2020-02,7.72
9461,M,Monatlich,DOM,Inland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2020-03,-55.11
9462,M,Monatlich,DOM,Inland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2020-04,-89.48
9463,M,Monatlich,DOM,Inland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2020-05,-78.47
...,...,...,...,...,...,...,...,...,...,...,...,...
22869,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-02,4.62
22870,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-03,0.40
22871,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-04,-7.01
22872,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-05,13.43


In [7]:
# Define join keys
keys = ["Aufenthaltsland_Idx", "NACEr2_Idx", "Geopolitische_Meldeeinheit_Idx", "JahrMonat"]

# Select + rename value column from df_pch_sm
df_pch_sm_sel = df_pch_sm[keys + ["value"]].rename(columns={"value": "pch_sm"})

# Select + rename value column from df_pch_sm_19
df_pch_sm_19_sel = df_pch_sm_19[keys + ["value"]].rename(columns={"value": "pch_sm_19"})

# Merge step by step
df_merged = (
    df_anzahl
    .merge(df_pch_sm_sel, on=keys, how="left")
    .merge(df_pch_sm_19_sel, on=keys, how="left")
)

df_anzahl = df_merged.copy()

In [8]:
# Calculate percentage change same month over base year 2012
# Define the grouping columns
group_cols = ["Aufenthaltsland_Idx", "NACEr2_Idx", "Geopolitische_Meldeeinheit_Idx"]

# # Extract month part to align with base year
df_anzahl["month"] = df_anzahl["JahrMonat"].str[-2:]

# Create a reference DataFrame with 2012 values
base = (
    df_anzahl[df_anzahl["JahrMonat"].str.startswith("2012")]
    .loc[:, group_cols + ["month", "value"]]
    .rename(columns={"value": "base_value"})
)

# Merge base year values on group + month
df_12 = df_anzahl.merge(base, on=group_cols + ["month"], how="left")

# Calculate percentage change from base
df_12["pch_sm_12"] = np.where(
    df_12["base_value"].notnull() & (df_12["base_value"] != 0),
    round(((df_12["value"] - df_12["base_value"]) / df_12["base_value"]) * 100, 2),
    np.nan
)
df_anzahl["pch_sm_12"] = df_12["pch_sm_12"].copy()

display(df_anzahl)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value,pch_sm,pch_sm_19,month,pch_sm_12
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,11022604.0,5.31,,01,0.00
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,11916641.0,10.18,,02,0.00
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,14018007.0,6.15,,03,0.00
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,15472920.0,3.93,,04,0.00
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,18319333.0,4.37,,05,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9711,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-02,54382.0,23.78,4.62,02,11.79
9712,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-03,53157.0,-14.98,0.40,03,1.44
9713,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-04,101956.0,85.36,-7.01,04,20.76
9714,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-05,249936.0,3.10,13.43,05,32.30


In [9]:
import pandas as pd
import numpy as np

# ---  Add additional Feature columnms  --- #

# 1. Monat (month as number, regex)
df_anzahl["Monat"] = df_anzahl["JahrMonat"].str.extract(r"-(\d{2})").astype(int)

# 2. Quartal (map months to quarters)
month_to_quarter = {
    1: "1", 2: "1", 3: "1",
    4: "2", 5: "2", 6: "2",
    7: "3", 8: "3", 9: "3",
    10: "4", 11: "4", 12: "4"
}
df_anzahl["Quartal"] = df_anzahl["Monat"].map(month_to_quarter)

# 3. Season (die Saison/ die Jahreszeit)
month_to_season = {
    1: "Winter", 2: "Winter", 3: "Frühling",
    4: "Frühling", 5: "Frühling", 6: "Sommer",
    7: "Sommer", 8: "Sommer", 9: "Herbst",
    10: "Herbst", 11: "Herbst", 12: "Winter"
}
df_anzahl["Saison"] = df_anzahl["Monat"].map(month_to_season)

# 4. Jahr (year as number, regex)
df_anzahl["Jahr"] = df_anzahl["JahrMonat"].str.extract(r"(\d{4})").astype(int)

# 5. Cyclical encoding of month
df_anzahl["Month_cycl_sin"] = np.sin(2 * np.pi * df_anzahl["Monat"] / 12)
df_anzahl["Month_cycl_cos"] = np.cos(2 * np.pi * df_anzahl["Monat"] / 12)

# 6. Moving averages
df_anzahl = df_anzahl.sort_values(["Geopolitische_Meldeeinheit_Idx", 
                     "Aufenthaltsland_Idx",
                     "NACEr2_Idx",
                     "JahrMonat"]) # chronological order

df_anzahl["MA3"] = (
    df_anzahl.groupby(["Geopolitische_Meldeeinheit_Idx", 
                "Aufenthaltsland_Idx",
                "NACEr2_Idx"])["value"]
      .transform(lambda x: x.shift(1).rolling(3).mean().fillna(0).astype(int))
)

df_anzahl["MA6"] = (
    df_anzahl.groupby(["Geopolitische_Meldeeinheit_Idx", 
                "Aufenthaltsland_Idx",
                "NACEr2_Idx"])["value"]
      .transform(lambda x: x.shift(1).rolling(6).mean().fillna(0).astype(int))
)

df_anzahl["MA12"] = (
    df_anzahl.groupby(["Geopolitische_Meldeeinheit_Idx", 
                "Aufenthaltsland_Idx",
                "NACEr2_Idx"])["value"]
      .transform(lambda x: x.shift(1).rolling(12).mean().fillna(0).astype(int))
)

# 7. Lags des Targets (lag_1, lag_3, lag_12):
df_anzahl = df_anzahl.sort_values(["Geopolitische_Meldeeinheit_Idx",
                     "Aufenthaltsland_Idx",
                     "NACEr2_Idx",
                     "JahrMonat"])

# Gruppe definieren
grp = df_anzahl.groupby(["Geopolitische_Meldeeinheit_Idx",
                  "Aufenthaltsland_Idx",
                  "NACEr2_Idx"])

# Lags berechnen
for L in [1, 3, 12]:
    df_anzahl[f"Lag_{L}"] = grp["value"].shift(L).fillna(0).astype(int)

# 8. Residency × Saison (Inländer vs. Ausländer):
df_anzahl["Aufenthaltsland_Saison"] = df_anzahl["Aufenthaltsland_Idx"] + "_" + df_anzahl["Saison"].astype(str)

# 9. Unterkunft × Saison:
df_anzahl["NACEr2_Saison"] = df_anzahl["NACEr2_Idx"] + "_" + df_anzahl["Saison"].astype(str)

# 10. Land × Monat:
df_anzahl["Land_Monat"] = df_anzahl["Geopolitische_Meldeeinheit_Idx"] + "_" + df_anzahl["Monat"].astype(str)

# 10. Land × Saison:
df_anzahl["Land_Saison"] = df_anzahl["Geopolitische_Meldeeinheit_Idx"] + "_" + df_anzahl["Saison"].astype(str)

# 11. Pandemic (Covid19) Maske
# Define pandemic period (adjust dates as needed)
pandemic_start = "2020-03"
pandemic_end   = "2023-04"

df_anzahl["JahrMonat"] = pd.to_datetime(df_anzahl["JahrMonat"])   # <- use later to convert

df_anzahl["pandemic_dummy"] = (
    (df_anzahl["JahrMonat"] >= pandemic_start) &
    (df_anzahl["JahrMonat"] <= pandemic_end)
).astype(int)


display(df_anzahl)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,...,MA6,MA12,Lag_1,Lag_3,Lag_12,Aufenthaltsland_Saison,NACEr2_Saison,Land_Monat,Land_Saison,pandemic_dummy
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,0,0,0,0,0,DOM_Winter,I551_Winter,DE_1,DE_Winter,0
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,0,0,11022604,0,0,DOM_Winter,I551_Winter,DE_2,DE_Winter,0
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,0,0,11916641,0,0,DOM_Frühling,I551_Frühling,DE_3,DE_Frühling,0
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,0,0,14018007,11022604,0,DOM_Frühling,I551_Frühling,DE_4,DE_Frühling,0
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,0,0,15472920,11916641,0,DOM_Frühling,I551_Frühling,DE_5,DE_Frühling,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9711,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,...,222207,347966,39993,16442,43935,FOR_Winter,I553_Winter,SE_2,SE_Winter,0
9712,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,...,61692,348836,54382,18819,62523,FOR_Frühling,I553_Frühling,SE_3,SE_Frühling,0
9713,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,...,39363,348056,53157,39993,55004,FOR_Frühling,I553_Frühling,SE_4,SE_Frühling,0
9714,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,...,47458,351968,101956,54382,242426,FOR_Frühling,I553_Frühling,SE_5,SE_Frühling,0


In [10]:
df_anzahl.info()
na_counts = df_anzahl.isna().sum()
na_counts = na_counts[na_counts > 0]
na_counts = na_counts.to_frame(name="NaN count")
na_counts

<class 'pandas.core.frame.DataFrame'>
Index: 9716 entries, 0 to 9715
Data columns (total 33 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Zeitliche_Frequenz_Idx          9716 non-null   object        
 1   Zeitliche_Frequenz              9716 non-null   object        
 2   Aufenthaltsland_Idx             9716 non-null   object        
 3   Aufenthaltsland                 9716 non-null   object        
 4   Maßeinheit_Idx                  9716 non-null   object        
 5   Maßeinheit                      9716 non-null   object        
 6   NACEr2_Idx                      9716 non-null   object        
 7   NACEr2                          9716 non-null   object        
 8   Geopolitische_Meldeeinheit_Idx  9716 non-null   object        
 9   Geopolitische_Meldeeinheit      9716 non-null   object        
 10  JahrMonat                       9716 non-null   datetime64[ns]
 11  value    

Unnamed: 0,NaN count
pch_sm,514
pch_sm_19,5760
pch_sm_12,108


In [11]:
# Replace all NaN values with zero (0) - in 'pch_sm', 'pch_sm_19' , 'pch_sm_12'
cols_to_fix = ["pch_sm", "pch_sm_19", "pch_sm_12"]
df_anzahl[cols_to_fix] = df_anzahl[cols_to_fix].fillna(0)
df_anzahl.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9716 entries, 0 to 9715
Data columns (total 33 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Zeitliche_Frequenz_Idx          9716 non-null   object        
 1   Zeitliche_Frequenz              9716 non-null   object        
 2   Aufenthaltsland_Idx             9716 non-null   object        
 3   Aufenthaltsland                 9716 non-null   object        
 4   Maßeinheit_Idx                  9716 non-null   object        
 5   Maßeinheit                      9716 non-null   object        
 6   NACEr2_Idx                      9716 non-null   object        
 7   NACEr2                          9716 non-null   object        
 8   Geopolitische_Meldeeinheit_Idx  9716 non-null   object        
 9   Geopolitische_Meldeeinheit      9716 non-null   object        
 10  JahrMonat                       9716 non-null   datetime64[ns]
 11  value    

In [44]:
# Identify categorical (object/string) columns
cat_cols = df_anzahl.select_dtypes(include=["object"]).columns

# Count unique values per categorical column
unique_counts = df_anzahl[cat_cols].nunique().sort_values(ascending=False)

# Keep only categorical columns with more than 1 unique value
valid_cat_cols = unique_counts[unique_counts > 1].index

# Drop the rest
df_anzahl = df_anzahl.drop(columns=[col for col in cat_cols if col not in valid_cat_cols])

print("Unique values per categorical column:\n")
print(unique_counts)

for col in valid_cat_cols:
    print(f"{col}: {df_anzahl[col].nunique()} unique values\n")
    print(df_anzahl[col].value_counts().head(10))  # show top 10 categories
    print("-" * 50 + "\n")

Unique values per categorical column:

Land_Monat                        120
Land_Saison                        40
month                              12
NACEr2_Saison                      12
Geopolitische_Meldeeinheit_Idx     10
Geopolitische_Meldeeinheit         10
Aufenthaltsland_Saison              8
Saison                              4
Quartal                             4
NACEr2_Idx                          3
NACEr2                              3
Aufenthaltsland                     2
Aufenthaltsland_Idx                 2
dtype: int64
Land_Monat: 120 unique values

Land_Monat
DE_1    84
DE_2    84
DE_3    84
DE_4    84
DE_5    84
DE_6    84
DK_3    84
DK_4    84
DK_6    84
DK_5    84
Name: count, dtype: int64
--------------------------------------------------

Land_Saison: 40 unique values

Land_Saison
DE_Frühling    252
DK_Frühling    252
SE_Frühling    252
PT_Frühling    252
IT_Frühling    252
HR_Frühling    252
FI_Frühling    252
ES_Frühling    252
NO_Frühling    252
EL_Frühlin

In [47]:
df_anzahl.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9716 entries, 0 to 9715
Data columns (total 29 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Aufenthaltsland_Idx             9716 non-null   object        
 1   Aufenthaltsland                 9716 non-null   object        
 2   NACEr2_Idx                      9716 non-null   object        
 3   NACEr2                          9716 non-null   object        
 4   Geopolitische_Meldeeinheit_Idx  9716 non-null   object        
 5   Geopolitische_Meldeeinheit      9716 non-null   object        
 6   JahrMonat                       9716 non-null   datetime64[ns]
 7   value                           9716 non-null   float64       
 8   pch_sm                          9716 non-null   float64       
 9   pch_sm_19                       9716 non-null   float64       
 10  month                           9716 non-null   object        
 11  pch_sm_12

In [45]:
import pandas as pd
import plotly.express as px

# choose grouping level (example: domestic vs foreign)
groups = ["NACEr2_Saison", "Aufenthaltsland_Saison", "Land_Saison"]
# groups = ["Land_Saison"]

# numeric features only
num_cols = [
    "value", "Monat", "Jahr", "pch_sm",
    "Month_cycl_sin", "Month_cycl_cos",
    "MA3", "MA6", "MA12",
    "Lag_1", "Lag_3", "Lag_12"
]

# loop per group and plot correlation heatmap   - In Streamlit make in tabs
for group_col in groups:
    for group, df_group in df_anzahl.groupby(group_col):
        corr = df_group[num_cols].corr()
        fig1 = px.imshow(
            corr,
            text_auto=True,
            aspect="auto",
            title=f"Correlation heatmap ({group_col} = {group})",
            
        )
        fig1.update_traces(textfont=dict(size=10))
        fig1.update_layout(
        xaxis=dict(tickfont=dict(size=12)),
        yaxis=dict(tickfont=dict(size=12))
        )
        # fig1.show()

In [46]:
# Check for spikes/drops per country
# Sort for readability (optional)
df_anzahl = df_anzahl.sort_values(
    ["Geopolitische_Meldeeinheit_Idx", "Aufenthaltsland_Idx", "NACEr2_Idx", "JahrMonat"]
)

# Define threshold for anomaly detection
threshold = 50  # % change threshold, adjust as needed

# Collect anomalies across all 3 percentage change measures
anomalies = df_anzahl[
    (df_anzahl["pandemic_dummy"] == 0) & (
        (df_anzahl["pch_sm"].abs() > threshold) |
        (df_anzahl["pch_sm_19"].abs() > threshold)
        ) & (
            df_anzahl["JahrMonat"] >= "2019-01"
        )
][["Land_Saison", "JahrMonat", "value", "pch_sm", "pch_sm_19"]]

display(anomalies)  # preview anomalies
print("-- * - * - * --")
display(anomalies.describe())

Unnamed: 0,Land_Saison,JahrMonat,value,pch_sm,pch_sm_19
3329,DE_Sommer,2019-06-01,5355845.0,52.57,0.00
3376,DE_Frühling,2023-05-01,4877814.0,30.93,89.01
3380,DE_Herbst,2023-09-01,4446687.0,20.48,54.32
3386,DE_Frühling,2024-03-01,1407110.0,168.12,209.37
3388,DE_Frühling,2024-05-01,5774622.0,18.39,123.77
...,...,...,...,...,...
7932,PT_Frühling,2025-03-01,614686.0,-12.30,50.50
4855,SE_Frühling,2025-04-01,535786.0,57.96,14.37
9641,SE_Frühling,2019-04-01,109646.0,65.04,0.00
9700,SE_Frühling,2024-03-01,62523.0,54.04,18.09


-- * - * - * --


Unnamed: 0,JahrMonat,value,pch_sm,pch_sm_19
count,188,188.0,188.0,188.0
mean,2024-01-08 09:11:29.361702144,744676.3,29.402553,89.865638
min,2019-01-01 00:00:00,57.0,-94.36,-94.36
25%,2023-12-01 00:00:00,31604.0,2.595,54.0325
50%,2024-05-01 00:00:00,156970.5,17.085,66.38
75%,2024-12-08 18:00:00,441730.8,44.0775,97.4875
max,2025-06-01 00:00:00,11162060.0,585.5,555.95
std,,1588350.0,63.812676,95.609478


In [15]:
import plotly.express as px

# Select only the percentage change columns
cols_to_plot = ["pch_sm", "pch_sm_19"]

# Reshape wide → long for plotly express
anomalies_long = anomalies.melt(
    id_vars=["Land_Saison", "JahrMonat", "value"],
    value_vars=cols_to_plot,
    var_name="Measure",
    value_name="PctChange"
)

# Boxplot
fig = px.box(
    anomalies_long,
    x="Measure",
    y="PctChange",
    color="Measure",
    points="all",  # show individual outliers/points
    hover_data=["Land_Saison", "JahrMonat", "value"]
)

fig.update_layout(
    title="Distribution of Anomalies in Percentage Change",
    yaxis_title="Percentage Change (%)",
    xaxis_title="Measure",
    boxmode="group",
    template="plotly_white"
)

fig.show()


In [16]:
import plotly.express as px

# 1. Value distribution (numeric features)
fig1 = px.histogram(df_anzahl, x="value", nbins=50, title="Distribution of 'value'")
fig1.show()

# 2. Skewness check (loop numeric cols)
numeric_cols = [
    "value","pch_sm","pch_sm_19","pch_sm_12","Monat","Jahr",
    "Month_cycl_sin","Month_cycl_cos","MA3","MA6","MA12",
    "Lag_1","Lag_3","Lag_12"
]
skewness = df_anzahl[numeric_cols].skew()
print("Skewness:\n", skewness)

# 3. Category distribution normalized (example: Saison)
cat_col = "Saison"
cat_counts = df_anzahl[cat_col].value_counts(normalize=True).reset_index()
cat_counts.columns = [cat_col, "proportion"]

fig2 = px.bar(cat_counts, x=cat_col, y="proportion", title=f"Normalized distribution of {cat_col}")
fig2.show()


Skewness:
 value              3.258963
pch_sm            42.015470
pch_sm_19          6.888055
pch_sm_12         11.163184
Monat              0.048386
Jahr               0.014674
Month_cycl_sin    -0.052989
Month_cycl_cos     0.009025
MA3                3.184934
MA6                3.050153
MA12               2.960483
Lag_1              3.277977
Lag_3              3.304866
Lag_12             3.424428
dtype: float64
