### Title: Data exploration
### Author: Agnes Piecyk
### Content: !!! Work in progress!!! (1) imports data from 0_DataPreparation (2) feature engineering (3) data exploration

In [None]:
# import libraries
import pandas as pd # library for data manipulation
import matplotlib.pyplot as plt # library for data visualization
from scipy import stats # library for statistical tests


In [None]:
# import merged_data.csv from 0_DataPreparation
df = pd.read_csv('/workspaces/bakery_prediction_data_science_and_ml/0_DataPreparation/merged_data_withoutNaN.csv')

## inspect data
print(df.head())

In [None]:
# Working with the "Datum" data - first feature engineering

## Convert the date column to datetime
df["Datum"] = pd.to_datetime(df["Datum"])
## Create a new column for the day of the week
df["Wochentag"] = df["Datum"].dt.day_name()
## Create a new column for the month
df["Monat"] = df["Datum"].dt.month_name()
## Create a new column for the year
df["Jahr"] = df["Datum"].dt.year

In [None]:
# check the new dataframe
print(df.head())
print(df.info)

In [None]:
# Further data exploration

## check occurences of each value in the column "Warenguppe"
print(df["Warengruppe"].value_counts()) # Warengruppe "6" ("Saisonbrot") and "4" ("Konditorei") have fewer occurences than the rest

## check occurences of each value in the column "Bewoelkung"
print(df["Bewoelkung"].value_counts()) # values should be grouped into fewer categories

## check occurences of each value in the column "Windgeschwindigkeit"
print(df["Windgeschwindigkeit"].value_counts()) # values should be grouped into fewer categories

## check occurences of each value in the column "Wettercode"
print(df["Wettercode"].value_counts()) # values should be grouped into fewer categories

## check occurences of each value in the column "Wochentag"
print(df["Wochentag"].value_counts())

## check occurences of each value in the column "Monat"
print(df["Monat"].value_counts())

## check occurences of each value in the column "Jahr"
print(df["Jahr"].value_counts())

In [None]:
## Investigate in which months "Warengruppe" "6" ("Saisonbrot") has been sold
print(df[df["Warengruppe"] == 6]["Monat"].value_counts()) # "Saisonbrot" wird hauptsächlich im Winter verkauft

In [None]:
# data visualization

## plot "Umsatz" according to "Warengruppe"
plt.figure(figsize=(10,6))
df.groupby("Warengruppe")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Warengruppe")
plt.xlabel("Warengruppe")
plt.ylabel("Umsatz")
plt.show()

## plot "Umsatz" according to "Bewoelkung"
plt.figure(figsize=(10,6))
df.groupby("Bewoelkung")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Bewoelkung")
plt.xlabel("Bewoelkung")
plt.ylabel("Umsatz")
plt.show()
### die Bewölkung beeinflusst vermutlich nicht das Kaufverhalten der Kunden; in Kiel ist es einfach meist bewölkt
## plot occurences of "Bewoelkung" and order the values ascending
df["Bewoelkung"].value_counts().sort_index().plot(kind="bar")
### die Häufigkeit der Werte für "Bewoelkung" korreliert mit dem Umsatz --> vermutlich eine Korrelation und keine Kausalität

### "Temperatur" muss zunächst gebinnt werden, um die Korrelation mit "Umsatz" zu untersuchen; ggfs. gibt es hier einen Interaktoinseffekt

## plot "Umsatz" according to "Windgeschwindigkeit"
plt.figure(figsize=(10,6))
df.groupby("Windgeschwindigkeit")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Windgeschwindigkeit")
plt.xlabel("Windgeschwindigkeit")
plt.ylabel("Umsatz")
plt.show()
## plot occurences of each value in the column "Windgeschwindigkeit" and order the values ascending
df["Windgeschwindigkeit"].value_counts().sort_index().plot(kind="bar")
### auch hier gibt es eine Korrelatoin zwischen der Häufigkeit der Windgeschwindigkeiten und dem Umsatz --> vermutlich eine Korrelation und keine Kausalität

## plot "Umsatz" according to "Wettercode"
plt.figure(figsize=(10,6))
df.groupby("Wettercode")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Wettercode")
plt.xlabel("Wettercode")
plt.ylabel("Umsatz")
plt.show()
## plot occurences of each value in the column "Wettercode" and order the values ascending
df["Wettercode"].value_counts().sort_index().plot(kind="bar")
### auch hier gibt es eine Korrelatoin zwischen der Häufigkeit der Windgeschwindigkeiten und dem Umsatz --> vermutlich eine Korrelation und keine Kausalität

## plot "Umsatz" according to "Wochentag" and order from "Monday" to "Sunday"
#df["Wochentag"] = pd.Categorical(df["Wochentag"], categories=["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"], ordered=True)
plt.figure(figsize=(10,6))
df.groupby("Wochentag")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Wochentag")
plt.xlabel("Wochentag")
plt.ylabel("Umsatz")
plt.show()
### die Umsätze scheinen am Wochenende am höchsten zu sein

## plot "Umsatz" according to "Monat"
plt.figure(figsize=(10,6))
df.groupby("Monat")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Monat")
plt.xlabel("Monat")
plt.ylabel("Umsatz")
plt.show()

## plot "Umsatz" according to "Jahr"
plt.figure(figsize=(10,6))
df.groupby("Jahr")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Jahr")
plt.xlabel("Jahr")
plt.ylabel("Umsatz")
plt.show()


In [None]:
# Grouping values in the column "Bewoelkung" into fewer categories: binning and one-hot encoding
## Bewoelkung: "0" = "wolkenlos"; "1-2" = "heiter", "3" = "leicht bewoelkt", "4-6" = "wolkig", "7" = "stark bewökt", "8" = "bedeckt"

## define a function for binning the values in the column "Bewölkung"
def binning_bewoelkung(x):
    if x == 0:
        return "wolkenlos"
    elif x in [1, 2]:
        return "heiter"
    elif x == 3:
        return "leicht_bewoelkt"
    elif x in [4, 5, 6]:
        return "wolkig"
    elif x == 7:
        return "stark_bewoelkt"
    elif x == 8:
        return "bedeckt"
    else:
        return "unknown"
    
## Apply the function to create a new column "Bewoelkung_binned"
df["Bewoelkung_binned"] = df["Bewoelkung"].apply(binning_bewoelkung)

## check occurences of each value in the column "Bewoelkung_binned"
print(df["Bewoelkung_binned"].value_counts())
print(df.head())

## plot "Umsatz" according to "Bewoelkung_binned"
plt.figure(figsize=(10,6))
df.groupby("Bewoelkung_binned")["Umsatz"].sum().plot(kind="bar")
plt.title("Umsatz nach Bewoelkung")
plt.xlabel("Bewoelkung")
plt.ylabel("Umsatz")
plt.show()

## one-hot-encoding of the binned values in the column "Bewoelkung_binned" with values 0 and 1
df = pd.get_dummies(df, columns=["Bewoelkung_binned"], drop_first=True, prefix="", prefix_sep="")
print(df) ### new columns have boolean values and need to be converted to integer values

## convert only boolean columns to integers
for col in df.columns:
    if df[col].dtype == bool:
        df[col] = df[col].astype(int)  # Convert boolean to integers
print(df)


# Grouping values in the column "Windgeschwindigkeit" into fewer categories: binning and one-hot encoding
## Windgeschwindigkeit: "0-3" = "Sille bis leiser Zug", "4-6" = "leichte Brise",  "7-10" = "schwache Brise", "11-16" = "mäßige Brise", "17-21" = "frische Brise", "22-35" "starker Wind"


