In [56]:
import pandas as pd
from os import getenv
from sqlalchemy import create_engine
import plotly.express as px
%load_ext dotenv
%dotenv

The dotenv extension is already loaded. To reload it, use:
  %reload_ext dotenv


In [4]:
# Define database connection parameters
username = getenv('DB_USER').lower()
password = getenv('DB_PASSWORD')
host = getenv('DB_HOST')
port = getenv('DB_PORT')
database = getenv('DB_NAME')

# Define the connection string
# Format: dialect+driver://username:password@host:port/database
connection_string = f'postgresql://{username}:{password}@{host}:{port}/{database}'

# Create the engine
engine = create_engine(connection_string)

# Import the data to separate dataframes
df_gastro = pd.read_sql("SELECT * FROM original_data.Gastronomieumsaetze_flat", engine)
df_weather = pd.read_sql("SELECT * FROM original_data.weather_data", engine)

In [74]:
df_gastro.head()

Unnamed: 0,statistik_code,statistik_label,zeit_code,zeit_label,zeit,1_Merkmal_Code,1_Merkmal_Label,1_Auspraegung_Code,1_Auspraegung_Label,2_Merkmal_Code,...,3_Auspraegung_Label,4_Merkmal_Code,4_Merkmal_Label,4_Auspraegung_Code,4_Auspraegung_Label,5_Merkmal_Code,5_Merkmal_Label,5_Auspraegung_Code,5_Auspraegung_Label,UMS002__Umsatz__2015=100
0,45213,Monatsstatistik im Gastgewerbe,JAHR,Jahr,1994,DINSG,Deutschland insgesamt,DG,Deutschland,WERTE4,...,Originalwerte,MONAT,Monate,MONAT01,Januar,WZ08W9,WZ2008 (2- bis 3-Steller): Gastgewerbe,WZ08-55,Beherbergung,92.3
1,45213,Monatsstatistik im Gastgewerbe,JAHR,Jahr,1994,DINSG,Deutschland insgesamt,DG,Deutschland,WERTE4,...,Originalwerte,MONAT,Monate,MONAT01,Januar,WZ08W9,WZ2008 (2- bis 3-Steller): Gastgewerbe,WZ08-551,"Hotels, Gasthöfe und Pensionen",91.9
2,45213,Monatsstatistik im Gastgewerbe,JAHR,Jahr,1994,DINSG,Deutschland insgesamt,DG,Deutschland,WERTE4,...,Originalwerte,MONAT,Monate,MONAT01,Januar,WZ08W9,WZ2008 (2- bis 3-Steller): Gastgewerbe,WZ08-552,Ferienunterkünfte u. ähnliche Beherbergungsstä...,97.3
3,45213,Monatsstatistik im Gastgewerbe,JAHR,Jahr,1994,DINSG,Deutschland insgesamt,DG,Deutschland,WERTE4,...,Originalwerte,MONAT,Monate,MONAT01,Januar,WZ08W9,WZ2008 (2- bis 3-Steller): Gastgewerbe,WZ08-553,Campingplätze,68.4
4,45213,Monatsstatistik im Gastgewerbe,JAHR,Jahr,1994,DINSG,Deutschland insgesamt,DG,Deutschland,WERTE4,...,Originalwerte,MONAT,Monate,MONAT01,Januar,WZ08W9,WZ2008 (2- bis 3-Steller): Gastgewerbe,WZ08-559,Sonstige Beherbergungsstätten,127.1


# Beantwortung vorgegebener analytischer Fragen (Teil 1)
a. Prüfen Sie, ob ein Zusammenhang zwischen der Durchschnittstemperatur und den Umsätzen der Campingplätze nachweisbar ist.  
b. Prüfen Sie zu (a) auch, ob es einen Zusammenhang mit zeitlicher Verzögerung gibt, und ermitteln Sie ggf. mit welchem Lag.  
c. Welcher der Wettermesswerte (= Spalten in den gegebenen Wetterdaten) hängt am stärksten mit den Campingumsätzen zusammen?  
d. Welcher Anteil der (saison- und trendbereinigten) Varianz der Campingumsätze lässt sich aus den verfügbaren Wetterinformationen erklären?

In [43]:
df_gastro_short = df_gastro[['zeit','4_Auspraegung_Code','5_Auspraegung_Code','UMS002__Umsatz__2015=100']].copy()
df_gastro_short.rename(columns={'zeit':'jahr', '4_Auspraegung_Code': 'monat', 'UMS002__Umsatz__2015=100': 'umsatz'}, inplace=True)
df_gastro_short['monat'] = df_gastro_short['monat'].str.replace('MONAT', '')

In [66]:
df_gastro_camping = df_gastro_short[df_gastro_short['5_Auspraegung_Code'] == 'WZ08-553'][['jahr', 'monat', 'umsatz']]
df_gastro_camping['datum'] = df_gastro_camping['jahr'].astype(str) + df_gastro_camping['monat']
df_gastro_camping['datum'] = pd.to_datetime(df_gastro_camping['datum'], format='%Y%m')
df_gastro_camping.drop(columns=['jahr', 'monat'], inplace=True)

In [85]:
fig = px.line(df_gastro_camping, x='datum', y='umsatz', title='Camping Umsätze pro Monat', labels={'datum': 'Datum', 'umsatz': 'Umsatz'}, hover_name='umsatz')
fig.show()

In [86]:
df_weather

Unnamed: 0,STATIONS_ID,MESS_DATUM,QN_3,FX,FM,QN_4,RSK,RSKF,SDK,SHK_TAG,NM,VPM,PM,TMK,UPM,TXK,TNK,TGK,eor
0,377,1947-01-01,-999,-999,-999,5,0.0,0,2.000,6,6.3,5.9,-999,0.2,93.00,3.7,-3.9,-999.0,eor
1,377,1947-01-02,-999,-999,-999,5,0.1,7,0.000,3,7.7,5.6,-999,0.2,90.00,1.8,-3.5,-999.0,eor
2,377,1947-01-03,-999,-999,-999,5,0.0,0,0.000,3,6.0,6.0,-999,0.9,90.00,2.7,-1.0,-999.0,eor
3,377,1947-01-04,-999,-999,-999,5,0.0,0,4.700,2,3.7,3.7,-999,-4.7,81.00,1.5,-8.4,-999.0,eor
4,377,1947-01-05,-999,-999,-999,5,0.0,0,6.600,1,0.0,2.0,-999,-10.6,70.00,-4.5,-12.2,-999.0,eor
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
463643,5792,2023-12-27,3,24,11,3,0.0,0,7.683,270,4.9,1.5,712,-2.6,31.25,0.6,-7.0,-999.0,eor
463644,5792,2023-12-28,3,20,9,3,0.0,7,4.000,270,4.8,1.7,711,-2.4,33.79,-0.5,-5.7,-999.0,eor
463645,5792,2023-12-29,3,26,11,3,0.0,7,5.867,270,7.0,3.3,708,-5.4,80.75,-3.5,-7.6,-999.0,eor
463646,5792,2023-12-30,3,21,9,3,0.0,0,7.950,270,6.1,2.1,707,-6.8,58.71,-4.0,-9.9,-999.0,eor
