In [87]:
import pandas as pd
from os import getenv
from sqlalchemy import create_engine
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
%load_ext dotenv
%dotenv

The dotenv extension is already loaded. To reload it, use:
  %reload_ext dotenv


In [44]:
# Define database connection parameters
username = getenv('DB_USER').lower()
password = getenv('DB_PASSWORD')
host = getenv('DB_HOST')
port = getenv('DB_PORT')
database = getenv('DB_NAME')

# Define the connection string
# Format: dialect+driver://username:password@host:port/database
connection_string = f'postgresql://{username}:{password}@{host}:{port}/{database}'

# Create the engine
engine = create_engine(connection_string)
# Import the data to separate dataframes
df_main =  pd.read_sql("SELECT * FROM original_data.super_duper_table_of_doom", engine)

# date to datetime and add month and year columns
df_main['date'] = pd.to_datetime(df_main['date'])
df_main['monat'] = df_main['date'].dt.month
df_main['jahr'] = df_main['date'].dt.year

In [45]:
df_main.columns

Index(['land', 'date', 'ankuenfte_anzahl',
       'ankuenfte_veraenderung_zum_vorjahreszeitraum_prozent',
       'uebernachtungen_anzahl',
       'uebernachtungen_veraenderung_zum_vorjahreszeitraum_prozent',
       'durchsch_aufenthaltsdauer_tage', 'mean_air_temp_max',
       'mean_air_temp_mean', 'mean_air_temp_min', 'mean_drought_index',
       'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth',
       'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm',
       'mean_sunshine_duration', 'std_air_temp_max', 'std_air_temp_mean',
       'std_air_temp_min', 'std_drought_index', 'std_evapo_p', 'std_evapo_r',
       'std_frost_depth', 'std_precipitation', 'std_soil_moist',
       'std_soil_temperature_5cm', 'std_sunshine_duration',
       'campingplaetze_anzahl', 'urlaubs_campingplaetze_anzahl',
       'urlaubs_campingplaetze_offen', 'urlaubs_stellplaetze_anzahl',
       'urlaubs_stellplaetze_offen',
       'change_urlaubs_stellplaetze_offen_vorjahresmonat',
       'anteil

### Datenbereinigung

Camping Umsätze pro Monat:

In [46]:
df_main_temp = df_main.groupby(['date'])['uebernachtungen_anzahl'].sum().reset_index()
fig = px.bar(df_main_temp, x='date', y='uebernachtungen_anzahl', title='Übernachtungen auf Campingplätzen je Monat von Januar 2002 bis April 2024', labels={'date': 'Datum', 'uebernachtungen_anzahl': 'Anzahl Übernachtungen'}, hover_name='uebernachtungen_anzahl')
fig.update_layout(width=1200, height=550)
fig.show()

# Beantwortung vorgegebener analytischer Fragen (Teil 1)
a. Prüfen Sie, ob ein Zusammenhang zwischen der Durchschnittstemperatur und den Umsätzen der Campingplätze nachweisbar ist.  
b. Prüfen Sie zu (a) auch, ob es einen Zusammenhang mit zeitlicher Verzögerung gibt, und ermitteln Sie ggf. mit welchem Lag.  
c. Welcher der Wettermesswerte (= Spalten in den gegebenen Wetterdaten) hängt am stärksten mit den Campingumsätzen zusammen?  
d. Welcher Anteil der (saison- und trendbereinigten) Varianz der Campingumsätze lässt sich aus den verfügbaren Wetterinformationen erklären?

### a. Prüfen Sie, ob ein Zusammenhang zwischen der Durchschnittstemperatur und den Umsätzen der Campingplätze nachweisbar ist.

In [47]:
# Select the relevant columns
df_weather_temp = df_main[['date', 'mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min']]
df_uebernachtungen_temp = df_main[['date', 'uebernachtungen_anzahl']]
# Merge df_gastro_camping and df_weather_re_temp on 'datum'
df_merged_temp = pd.merge(df_uebernachtungen_temp, df_weather_temp, left_on='date', right_on='date')

# Find the correlation between the columns
correlation = df_merged_temp.corr()

# Print the correlation between 'umsatz' and the air temperature columns
correlation_with_uebernachtungen_anzahl = correlation.loc[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min'], 'uebernachtungen_anzahl']
print(correlation_with_uebernachtungen_anzahl)

mean_air_temp_mean    0.520762
mean_air_temp_max     0.516899
mean_air_temp_min     0.518637
Name: uebernachtungen_anzahl, dtype: float64


### b. Prüfen Sie zu (a) auch, ob es einen Zusammenhang mit zeitlicher Verzögerung gibt, und ermitteln Sie ggf. mit welchem Lag.  

In [79]:
zeitraum = 'monat'
# Group by year and calculate the mean
df_uebernachtungen_mean_per_year = df_main.groupby([zeitraum])['uebernachtungen_anzahl'].mean().reset_index()
df_temperature_mean_per_year = df_main.groupby([zeitraum])[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min']].mean().reset_index()

# Drop year 2024
df_uebernachtungen_mean_per_year = df_uebernachtungen_mean_per_year[df_uebernachtungen_mean_per_year[zeitraum] != 2024]

# Divide uebernachtungen_anzahl by 1000
df_uebernachtungen_mean_per_year['uebernachtungen_anzahl'] = df_uebernachtungen_mean_per_year['uebernachtungen_anzahl'] / 10000

# Merge the grouped dataframes on 'year'
df_merged_grouped = pd.merge(df_uebernachtungen_mean_per_year, df_temperature_mean_per_year, left_on=zeitraum, right_on=zeitraum)

# Create a line plot
fig = go.Figure()

fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['uebernachtungen_anzahl'], mode='lines', name='Anzahl Übernachtungen in 10.000'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_mean'], mode='lines', name='Durchschnitts-Lufttemperatur in °C'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_max'], mode='lines', name='Maximale Lufttemperatur in °C'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_min'], mode='lines', name='Minimale Lufttemperatur in °C'))

fig.update_layout(
    title='Auf die Monate gemittelte Anzahl an Übernachtungen und Temperaturen',
    xaxis_title=zeitraum.capitalize(),
    yaxis_title='Wert',
    autosize=False,
    width=1200,
    height=550,
)

fig.show()

#### Und nochmal mit normalisierten Werten

In [80]:
from sklearn.preprocessing import MinMaxScaler

# Initialize the scaler
scaler = MinMaxScaler()

# Fit the scaler to the 'umsatz' column and transform it
df_merged_grouped['uebernachtungen_anzahl'] = scaler.fit_transform(df_merged_grouped[['uebernachtungen_anzahl']])

# Fit the scaler to the temperature columns and transform them
df_merged_grouped[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min']] = scaler.fit_transform(df_merged_grouped[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min']])

# Create a line plot
fig = go.Figure()

fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['uebernachtungen_anzahl'], mode='lines', name='Anzahl Übernachtungen'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_mean'], mode='lines', name='Gemittelte Durchschnitts-Lufttemperatur in °C'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_max'], mode='lines', name='Maximale Lufttemperatur in °C'))
fig.add_trace(go.Scatter(x=df_merged_grouped[zeitraum], y=df_merged_grouped['mean_air_temp_min'], mode='lines', name='Minimale Lufttemperatur in °C'))

fig.update_layout(
    title='Auf die Monate gemittelte Anzahl an Übernachtungen und Temperaturen (normalisiert)',
    xaxis_title=zeitraum.capitalize(),
    yaxis_title='Normalisierte Werte',
    autosize=False,
    width=1000,
    height=600,
)

fig.show()

### c. Welcher der Wettermesswerte (= Spalten in den gegebenen Wetterdaten) hängt am stärksten mit den Campingumsätzen zusammen?

In [69]:
df_uebernachtungen = df_main[['date', 'uebernachtungen_anzahl']]
df_wetter_all = df_main[['date', 'mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min', 'mean_drought_index', 'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth', 'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm', 'mean_sunshine_duration']]
# Merge df_gastro_camping and df_weather_re_temp on 'datum'
df_merged = pd.merge(df_uebernachtungen, df_wetter_all, left_on='date', right_on='date')

# Find the correlation between the columns
correlation = df_merged.corr()['uebernachtungen_anzahl']

# Print the correlation between 'umsatz' and the air temperature columns
correlation_with_umsatz = correlation.drop(['uebernachtungen_anzahl', 'date']).sort_values(ascending=False)
print(correlation_with_umsatz)

mean_soil_temperature_5cm    0.528676
mean_air_temp_mean           0.520762
mean_air_temp_min            0.518637
mean_air_temp_max            0.516899
mean_evapo_p                 0.487590
mean_evapo_r                 0.422427
mean_sunshine_duration       0.421441
mean_precipitation           0.107453
mean_frost_depth            -0.122638
mean_drought_index          -0.189390
mean_soil_moist             -0.423083
Name: uebernachtungen_anzahl, dtype: float64


### Welcher Anteil der (saison- und trendbereinigten) Varianz der Anzahl an Übernachtungen auf Campingplätzen lässt sich aus den verfügbaren Wetterinformationen erklären?

In [97]:
# Erstellen einer Kopie des DataFrame
df_copy = df_main[['date', 'uebernachtungen_anzahl', 'mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min', 'mean_drought_index', 'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth', 'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm', 'mean_sunshine_duration']].copy()
# Grupiere nach Datum und berechne den Durchschnitt
df_copy['date'] = pd.to_datetime(df_copy['date'])
df_copy = df_copy.groupby('date').mean().reset_index()

# Droppe fehlende Werte
df_copy.dropna(inplace=True)

# Setze das Datum als Index
df_copy.set_index('date', inplace=True)

# Saison- und Trendbereinigung der Anzahl an Übernachtungen
result = seasonal_decompose(df_copy['uebernachtungen_anzahl'], model='multiplicative', period=12)
df_copy['uebernachtungen_deseasonalized'] = df_copy['uebernachtungen_anzahl'] / result.seasonal

# Vorbereitung der Wetterdaten
X = df_copy[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min', 'mean_drought_index', 'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth', 'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm', 'mean_sunshine_duration']]
y = df_copy['uebernachtungen_deseasonalized']

# Multiple lineare Regression
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# Bestimmtheitsmaß R^2
r2 = r2_score(y, y_pred)

print(f"Der Anteil der (saison- und trendbereinigten) Varianz der Anzahl an Übernachtungen auf Campingplätzen, der durch die verfügbaren Wetterinformationen erklärt werden kann, beträgt: {r2:.2f}")


Der Anteil der (saison- und trendbereinigten) Varianz der Anzahl an Übernachtungen auf Campingplätzen, der durch die verfügbaren Wetterinformationen erklärt werden kann, beträgt: 0.78


In [102]:
import pandas as pd
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import plotly.graph_objs as go

# Erstellen einer Kopie des DataFrame und sortieren nach Datum
df_copy = df_main[['date', 'uebernachtungen_anzahl', 'mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min', 'mean_drought_index', 'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth', 'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm', 'mean_sunshine_duration']].copy()
df_copy['date'] = pd.to_datetime(df_copy['date'])

# Grupiere nach Datum und berechne den Durchschnitt
df_copy = df_copy.groupby('date').mean().reset_index()

df_copy.sort_values(by='date', inplace=True)

# Droppe fehlende Werte
df_copy.dropna(inplace=True)

# Setze das Datum als Index
df_copy.set_index('date', inplace=True)

# Saison- und Trendbereinigung der Anzahl an Übernachtungen
result = seasonal_decompose(df_copy['uebernachtungen_anzahl'], model='multiplicative', period=12)
df_copy['uebernachtungen_deseasonalized'] = df_copy['uebernachtungen_anzahl'] / result.seasonal
df_copy['uebernachtungen_detrended'] = df_copy['uebernachtungen_deseasonalized'] / result.trend

# Entfernen von NaN-Werten, die durch die Trendkomponente verursacht wurden
df_copy.dropna(subset=['uebernachtungen_detrended'], inplace=True)

# Vorbereitung der Wetterdaten
X = df_copy[['mean_air_temp_mean', 'mean_air_temp_max', 'mean_air_temp_min', 'mean_drought_index', 'mean_evapo_p', 'mean_evapo_r', 'mean_frost_depth', 'mean_precipitation', 'mean_soil_moist', 'mean_soil_temperature_5cm', 'mean_sunshine_duration']]
y = df_copy['uebernachtungen_detrended']

# Multiple lineare Regression
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# Bestimmtheitsmaß R^2
r2 = r2_score(y, y_pred)

print(f"Der erklärbare Anteil der (saison- und trendbereinigten) Varianz beträgt: {r2:.2f}")

# Create plot
fig = go.Figure()

# Add observed values trace
fig.add_trace(go.Scatter(
    x=df_copy.index,
    y=y,
    mode='lines',
    name='Beobachtete Übernachtungen (trend- und saisonbereinigt)',
    line=dict(color='blue')
))

# Add predicted values trace
fig.add_trace(go.Scatter(
    x=df_copy.index,
    y=y_pred,
    mode='lines',
    name='Vorhergesagte Übernachtungen',
    line=dict(color='red', dash='dash')
))

# Update layout
fig.update_layout(
    title='Regressionsanalyse: Übernachtungen auf Campingplätzen vs. Wetterdaten (trend- und saisonbereinigt)',
    xaxis_title='Datum',
    yaxis_title='Übernachtungen (bereinigt)',
    height=600,
    width=1000
)

# Add annotation in German
fig.add_annotation(
    x=df_copy.index[len(df_copy) // 2],
    y=max(y),
    xref='x',
    yref='y',
    text='Blau: Beobachtete Übernachtungen (bereinigt), Rot: Vorhergesagte Übernachtungen',
    showarrow=False,
    yanchor='bottom',
    font=dict(size=12)
)

# Show plot
fig.show()


Der erklärbare Anteil der (saison- und trendbereinigten) Varianz beträgt: 0.75
