In [None]:
import requests
import pandas as pd
import numpy as np
import json

# URL of the JSON data
url_old = "https://ec.europa.eu/eurostat/api/dissemination/statistics/1.0/data/tour_occ_nim?format=JSON&sinceTimePeriod=2012-01&geo=DK&geo=DE&geo=EL&geo=ES&geo=HR&geo=IT&geo=PT&geo=FI&geo=SE&geo=NO&unit=NR&unit=PCH_SM&unit=PCH_SM_19&c_resid=DOM&c_resid=FOR&nace_r2=I551&nace_r2=I552&nace_r2=I553&lang=de"

url_domain = "https://ec.europa.eu/eurostat/"
url_site = "api/dissemination/statistics/1.0/data/tour_occ_nim"
url_qry_base = "?format=JSON"
url_qry_period_from = "&sinceTimePeriod=2012-01"
url_qry_period_to = ""
url_qry_geo = "&geo=DK&geo=DE&geo=EL&geo=ES&geo=HR&geo=IT&geo=PT&geo=FI&geo=SE&geo=NO"
url_qry_unit = "&unit=NR&unit=PCH_SM&unit=PCH_SM_19"
url_qry_resid = "&c_resid=DOM&c_resid=FOR"
url_qry_nace = "&nace_r2=I551&nace_r2=I552&nace_r2=I553"
url_qry_lang = "&lang=de"

url = url_domain + url_site + url_qry_base + url_qry_period_from + url_qry_period_to + url_qry_geo + url_qry_unit + url_qry_resid + url_qry_nace + url_qry_lang
if url == url_old:
    print("URL PATH match.")
else:
    print ("ERROR: URL mismatch!")
# sys.exit()

# Download and parse the JSON
response = requests.get(url)
data = response.json()
dims = data['dimension']
values = data['value']

# Extract dimension metadata
dim_order = data['id']  # dimension order
dim_sizes = data['size']  # sizes of dimensions
dim_labels = {dim: dims[dim]['label'] for dim in dim_order}
dim_categories = {dim: dims[dim]['category']['label'] for dim in dim_order}
dim_category_keys = {dim: list(dims[dim]['category']['label'].keys()) for dim in dim_order}

# Flatten values
records = []
for idx, val in values.items():
    idx = int(idx)
    indexes = []
    remainder = idx
    for size in reversed(dim_sizes):
        indexes.append(remainder % size)
        remainder //= size
    indexes.reverse()

    # Map to dimension keys and values
    row = {}
    for i, dim in enumerate(dim_order):
        keys = dim_category_keys[dim]
        key = keys[indexes[i]]
        label = dim_categories[dim][key]
        dim_name = dim_labels[dim]

        # Use your specified column names
        if dim == 'freq':
            row['Zeitliche_Frequenz_Idx'] = key
            row['Zeitliche_Frequenz'] = label
        elif dim == 'c_resid':
            row['Aufenthaltsland_Idx'] = key
            row['Aufenthaltsland'] = label
        elif dim == 'unit':
            row['Maßeinheit_Idx'] = key
            row['Maßeinheit'] = label
        elif dim == 'nace_r2':
            row['NACEr2_Idx'] = key
            row['NACEr2'] = label
        elif dim == 'geo':
            row['Geopolitische_Meldeeinheit_Idx'] = key
            row['Geopolitische_Meldeeinheit'] = label
        elif dim == 'time':
            # row['Zeit_Idx'] = key
            row['JahrMonat'] = label
    row['value'] = val
    records.append(row)

# Create DataFrame
df = pd.DataFrame(records)

# Export to CSV
# csv_filename = "estat_tour_overnight_stays_2012-2025_eu10_de.csv"
# df.to_csv(csv_filename, index=False)
# print(f"Exported to {csv_filename}")

df.head(50)


URL PATH match.
Exported to estat_tour_overnight_stays_2012-2025_eu10_de.csv


Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,11022604.0
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,11916641.0
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,14018007.0
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,15472920.0
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,18319333.0
5,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-06,18486480.0
6,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-07,19202249.0
7,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-08,20631875.0
8,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-09,20677647.0
9,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-10,18473660.0


In [15]:
df["Maßeinheit"].value_counts()

Maßeinheit
Anzahl                                                               9716
Veränderung in Prozent gegenüber dem Vorjahreszeitraum               9202
Veränderung in Prozent gegenüber dem entsprechenden Monat in 2019    3956
Name: count, dtype: int64

In [16]:
mask_anzahl = df["Maßeinheit_Idx"] == "NR"
df_anzahl = df[mask_anzahl].copy()  # independent copy - no. of overnight stays
df_pct = df[~mask_anzahl].copy()    # # independent copy - percentage change MoM (YoY)

In [17]:
display(df_anzahl)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,11022604.0
1,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,11916641.0
2,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,14018007.0
3,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,15472920.0
4,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,18319333.0
...,...,...,...,...,...,...,...,...,...,...,...,...
16290,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-02,54382.0
16291,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-03,53157.0
16292,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-04,101956.0
16293,M,Monatlich,FOR,Ausland,NR,Anzahl,I553,Campingplätze,SE,Schweden,2025-05,249936.0


In [18]:
display(df_pct)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,JahrMonat,value
4858,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-01,5.31
4859,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-02,10.18
4860,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-03,6.15
4861,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-04,3.93
4862,M,Monatlich,DOM,Inland,PCH_SM,Veränderung in Prozent gegenüber dem Vorjahres...,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,2012-05,4.37
...,...,...,...,...,...,...,...,...,...,...,...,...
22869,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-02,4.62
22870,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-03,0.40
22871,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-04,-7.01
22872,M,Monatlich,FOR,Ausland,PCH_SM_19,Veränderung in Prozent gegenüber dem entsprech...,I553,Campingplätze,SE,Schweden,2025-05,13.43


In [None]:
import pandas as pd
import numpy as np

# ---  Add additional Feature columnms  --- #

# 1. Monat (month as number, regex)
df_anzahl["Monat"] = df_anzahl["JahrMonat"].str.extract(r"-(\d{2})").astype(int)

# 2. Quartal (map months to quarters)
month_to_quarter = {
    1: "1", 2: "1", 3: "1",
    4: "2", 5: "2", 6: "2",
    7: "3", 8: "3", 9: "3",
    10: "4", 11: "4", 12: "4"
}
df_anzahl["Quartal"] = df_anzahl["Monat"].map(month_to_quarter)

# 3. Season (die Saison/ die Jahreszeit)
month_to_season = {
    1: "Winter", 2: "Winter", 3: "Frühling",
    4: "Frühling", 5: "Frühling", 6: "Sommer",
    7: "Sommer", 8: "Sommer", 9: "Herbst",
    10: "Herbst", 11: "Herbst", 12: "Winter"
}
df_anzahl["Saison"] = df_anzahl["Monat"].map(month_to_season)

# 4. Jahr (year as number, regex)
df_anzahl["Jahr"] = df_anzahl["JahrMonat"].str.extract(r"(\d{4})").astype(int)

# 5. Cyclical encoding of month
df_anzahl["month_cycl_sin"] = np.sin(2 * np.pi * df_anzahl["Monat"] / 12)
df_anzahl["month_cycl_cos"] = np.cos(2 * np.pi * df_anzahl["Monat"] / 12)

# 6. Moving averages
df_anzahl = df_anzahl.sort_values("JahrMonat")  # chronological order
df_anzahl["MA"]    = df_anzahl["value"].expanding().mean()   # min avg
df_anzahl["MA3"]   = df_anzahl["value"].rolling(window=3).mean()
df_anzahl["MA6"]   = df_anzahl["value"].rolling(window=6).mean()
df_anzahl["MA12"]  = df_anzahl["value"].rolling(window=12).mean()

display(df_anzahl)

Unnamed: 0,Zeitliche_Frequenz_Idx,Zeitliche_Frequenz,Aufenthaltsland_Idx,Aufenthaltsland,Maßeinheit_Idx,Maßeinheit,NACEr2_Idx,NACEr2,Geopolitische_Meldeeinheit_Idx,Geopolitische_Meldeeinheit,...,Monat,Quartal,Saison,Jahr,month_cycl_sin,month_cycl_cos,MA,MA3,MA6,MA12
0,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DE,Deutschland,...,1,1,Winter,2012,5.000000e-01,0.866025,1.102260e+07,,,
14353,M,Monatlich,FOR,Ausland,NR,Anzahl,I552,Ferienunterkünfte und ähnliche Beherbergungsst...,PT,Portugal,...,1,1,Winter,2012,5.000000e-01,0.866025,5.513478e+06,,,
648,M,Monatlich,DOM,Inland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",FI,Finnland,...,1,1,Winter,2012,5.000000e-01,0.866025,3.908638e+06,3.908638e+06,,
3240,M,Monatlich,DOM,Inland,NR,Anzahl,I553,Campingplätze,DE,Deutschland,...,1,1,Winter,2012,5.000000e-01,0.866025,2.972522e+06,2.891607e+05,,
3078,M,Monatlich,DOM,Inland,NR,Anzahl,I552,Ferienunterkünfte und ähnliche Beherbergungsst...,SE,Schweden,...,1,1,Winter,2012,5.000000e-01,0.866025,2.449005e+06,4.060237e+05,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12084,M,Monatlich,FOR,Ausland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",ES,Spanien,...,6,2,Sommer,2025,1.224647e-16,-1.000000,2.172504e+06,1.021624e+07,9.248520e+06,5.268837e+06
11922,M,Monatlich,FOR,Ausland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",EL,Griechenland,...,6,2,Sommer,2025,1.224647e-16,-1.000000,2.173946e+06,1.449374e+07,1.115915e+07,6.581405e+06
11760,M,Monatlich,FOR,Ausland,NR,Anzahl,I551,"Hotels, Gasthöfe und Pensionen",DK,Dänemark,...,6,2,Sommer,2025,1.224647e-16,-1.000000,2.173815e+06,1.462580e+07,1.113319e+07,6.653718e+06
13704,M,Monatlich,FOR,Ausland,NR,Anzahl,I552,Ferienunterkünfte und ähnliche Beherbergungsst...,ES,Spanien,...,6,2,Sommer,2025,1.224647e-16,-1.000000,2.174186e+06,7.621821e+06,8.919032e+06,6.739601e+06
