# Data Description

In diesem Notebook analysiere ich den verwendeten Getränkebestelldatensatz. Ziel ist es, herauszufinden, welche **Region** welche **Getränkekategorien** bevorzugt und ob es zeitliche Muster im Bestellverhalten gibt.


## 2.1 Zielvariable

Die gewählte Zielvariable ist **Region**, da ich analysieren möchte, welche Regionen bestimmte Getränkekategorien bevorzugen und wann (z. B. ob es saisonale Muster oder Unterschiede um Feiertage gibt).


In [None]:
import pandas as pd

df = pd.read_csv("synthetic_beverage_sales_data.csv", sep=';')
df['Order_Date'] = pd.to_datetime(df['Order_Date'], format='%d.%m.%Y')
df['Month'] = df['Order_Date'].dt.month
df['Weekday'] = df['Order_Date'].dt.day_name()
df.head()

## 2.2 Statistische Informationen

In [None]:
df.describe(include='all')

## 2.3 Visualisierung: Beliebte Getränkekategorien pro Region

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

product_region = df.groupby(['Region', 'Category'])['Product'].count().unstack().fillna(0)

plt.figure(figsize=(10, 6))
product_region.plot(kind='bar', stacked=True)
plt.title("Beliebte Getränkekategorien pro Region")
plt.ylabel("Anzahl verkaufter Produkte")
plt.xlabel("Region")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 2.4 Skalierung

Da die Zielvariable **Region** eine kategoriale Variable ist, ist eine Skalierung nicht notwendig. Skalierung ist in der Regel nur bei numerischen Eingabedaten relevant, wenn Modelle wie Regressionsanalysen oder neuronale Netze verwendet werden. Da hier vorwiegend deskriptive Analysen durchgeführt werden und die Zielvariable keine kontinuierlichen Werte enthält, ist eine Skalierung nicht sinnvoll.