# 1. Einleitung
Diese Studienarbeit beschäftigt sich mit der explorativen Datenanalyse sowie der Zeitreihenanalyse von Verkaufsdaten der letzten 2 Jahre von Rossmann in verschiedenen Filialen. Das Ziel dieser Arbeit ist auf Basis der gewonnenen Erkenntnisse eine Vorhersage der Verkaufsentwicklung für die nächsten 6 Wochen zu erstellen. Die Motivation für die Durchführung dieser Analyse liegt darin, die Verkaufsperformance von Rossmann besser zu verstehen und somit mögliche Optimierungspotenziale aufzudecken. Dabei sollen auch Unterschiede in der Verkaufsentwicklung zwischen verschiedenen Filialtypen identifiziert werden, um zielgerichtete Handlungsempfehlungen ableiten zu können.

Die Analyse der Verkaufsdaten von Rossmann ermöglicht es, auf Basis von umfassenden Daten einen Einblick in das Kaufverhalten der Kunden und die Leistung der Filialen zu erhalten. Dabei können beispielsweise saisonale Schwankungen, Einflüsse von Promo-Aktionen oder auch Unterschiede in der Verkaufsentwicklung zwischen verschiedenen Filialtypen erkannt werden. Die zeitliche Komponente der Daten erlaubt es, Trends und Muster in der Verkaufsentwicklung zu identifizieren und auf dieser Grundlage zukünftige Verkaufstrends zu prognostizieren.  

Die Erkenntnisse aus der vorliegenden Studienarbeit können somit nicht nur für Rossmann, sondern auch für andere Einzelhändler und Unternehmen mit ähnlicher Ausrichtung von großem Nutzen sein. Zudem können die Ergebnisse dieser Analyse als Grundlage für weitere Forschung und Entwicklung im Bereich des Einzelhandels dienen.

# 2. Problemstellung
Rossmann ist ein führender Drogeriemarkt in Deutschland und betreibt mehr als 4500 Filialen in Europa, davon mehr als 2200 Filialen in Deutschland.<sup>[1]</sup> Das Geschäftsmodell basiert auf einem breiten Sortiment an Produkten zu niedrigen Preisen und einem hohen Fokus auf Kundenzufriedenheit. Der Verkauf erfolgt in Filialen sowie über den Online-Shop. Zusätzlich bietet Rossmann zahlreiche Eigenmarken und führt regelmäßig Aktionen durch, um Kunden zu binden und neue Kunden zu gewinnen.  

Das Verständnis des Geschäftsmodells von Rossmann ist entscheidend für die Durchführung der explorativen Datenanalyse und der Zeitreihenanalyse. Denn nur durch das Verständnis der Geschäftspraktiken und der Verkaufsstrategie kann sichergestellt werden, dass die Analysen auf aussagekräftige Ergebnisse zurückgreifen und so praxisrelevante Handlungsempfehlungen für Rossmann abgeleitet werden können.

<sup>[1]</sup> https://unternehmen.rossmann.de/ueber-das-unternehmen.html#:~:text=Mit%2060.500%20Mitarbeitern%20in%20Europa,den%20gr%C3%B6%C3%9Ften%20Drogeriemarktketten%20in%20Europa, abgerufen am 05.05.2023.

# 3. Datensatz
Der verwendete Datensatz stammt aus der Kaggle Competition "Rossman Store Sales".<sup>[2]</sup>  
Dieser besteht aus den folgenden 4 Dateien:
- sample

<sup>[2]</sup> https://www.kaggle.com/competitions/rossmann-store-sales

## 3.1. Package-Installation & Imports
Im ersten Schritt sollte eine Python-Umgebung erstellt werden, welche alle benötigten Python-Packages installiert hat. Hierzu sind alle verwendeten Packages in der Datei "requirements.txt" aufgelistet. Diese kann verwendet werden um Beispielsweise mit anaconda über den Befehl ```conda create --name dbuas-data-mining-studienarbeit-dariusmix --file requirements.txt```  
eine neue Python-Umgebung aufzusetzen. Im Anschluss muss die neu erstellte Umgebung über den Befehl ```conda activate dbuas-data-mining-studienarbeit-dariusmix``` aktiviert werden. Die verwendeten Befehle sind zusätzlich noch einmal in der README.md unter "Setup" aufgelistet.  

Nachdem alle benötigten Packages installiert wurden, können diese mit dem folgenden Code-Block importiert werden.

In [27]:
import os
import pandas as pd
import numpy as np
import datetime

from ydata_profiling import ProfileReport

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
%matplotlib inline

## 3.2. Einlesen der Daten in ein pandas Dataframe  
Nachdem die benötigten Packages importiert wurden, werden die CSV-Dateien "train.csv", "store.csv" sowie "test.csv" eingelesen und in Pandas DataFrames gespeichert. Hierzu werden die Dateipfade der Dateien als Strings in den Variablen "filepath_train", "filepath_test" und "filepath_store" gespeichert und anschließend mithilfe von der Pandas Funktion read_csv() eingelesen und in DataFrames umgewandelt. Die 'index_col'-Parameter werden auf "Date" gesetzt, um sicherzustellen, dass das Datum als Index des DataFrames verwendet wird. low_memory=False wird verwendet, um sicherzustellen, dass Pandas genügend Speicherplatz für die Verarbeitung der Daten reserviert.

In [28]:
FILEPATH_TRAIN = os.path.join("input", "train.csv")
FILEPATH_STORE = os.path.join("input", "store.csv")
FILEPATH_TEST = os.path.join("input", "test.csv")

In [37]:
df_train = pd.read_csv(FILEPATH_TRAIN, low_memory=False)
df_store = pd.read_csv(FILEPATH_STORE)
df_test = pd.read_csv(FILEPATH_TEST, low_memory=False)

## 3.3. Explorative Datenanalyse (EDA)
Im ersten Schritt der EDA werden mithilfe des Python-Packages "ydata_profiling" die Profiling Reports für die Dateien "train.csv" und "store.csv" erstellt. Diese befinden sind als html-Dateien im output Ordner unter den Dateinamen "rossmann-store-sales-train.html" und "rossmann-store-sales-store.html".

### Profiling Report

Die Datei "train.csv" enthält die täglichen Verkaufszahlen (Sales) sowie die Anzahl der Kunden (Customers) von 1115 Filialen aus dem Zeitraum vom 01. Januar 2013 bis zum 31. Juli 2015. Weiterhin beinhaltet die Datei Informationen darüber, ob die Filiale an dem jeweiligen Tag geöffnet war (Open), ob eine Aktion (Promo) stattgefunden hat und ob es sich um einen gesetzlichen Feiertag (StateHoliday) oder Schulferien (SchoolHoliday) handelte.

Die Datei "store.csv" enthält weitere Informationen zu den Filialen wie den Filialtyp (StoreType), die Sortimentsgröße (Assortment), die Entfernung zum nächsten Wettbewerber (CompetitionDistance) sowie Angaben zu weiteren Promo-Aktionen (Promo2).

Train Variablen
- Die Daten enthalten keine leeren oder doppelten Zeilen, dementsprechend müssen keine Zellen aufgefüllt werden und keine Redundanzen entfernt werden.
- Die Variable "Date" gibt den Zeitraum der Daten an, der vom 01.01.2013 bis zum 17.09.2015 reicht.
- Die Variable "Store" ist eine eindeutige ID für jeden der 1115 unterschiedlichen Stores. Über diese eindeutige ID kann der Datensatz mit der zweiten Datei "store.csv" verbunden werden.
- Die Variable "Sales" gibt den Umsatz für den jeweiligen Tag an, wobei es 172.871 Einträge (ca. 17% aller Einträge) gibt, an denen kein Umsatz generiert wurde (Sales = 0). Der Mittelwert der Sales liegt bei 5744, beinhaltet aber auch die Tage, an denen die Sales 0 sind und die Stores geschlossen sind. Wenn diese Tage herausgefiltert werden, sollte der Mittelwert aussagekräftiger sein. 
- Die Variable "Customers" gibt die Anzahl der Kunden für den jeweiligen Tag an. Es sollte eine weitere Variable berechnet werden, die den Umsatz pro Kunden angibt (Sales / Customers).
- Die Variable "Open" gibt an, ob das Geschäft an dem jeweiligen Tag geöffnet war. Es gibt 172817 Einträge, bei denen die Stores geschlossen waren (Open = 0). 
- Die Variable "Promo" gibt an, ob ein Geschäft an dem jeweiligen Tag eine Werbeaktion durchgeführt hat. 
- Die Variable "StateHoliday" gibt an, ob es an dem Tag einen gesetzlichen Feiertag gab. Normalerweise sind alle Geschäfte, mit wenigen Ausnahmen, an gesetzlichen Feiertagen geschlossen.
- Die Variable "SchoolHoliday" gibt an, ob das Geschäft von der Schließung öffentlicher Schulen betroffen war.  

Store Variablen
- Die Variable "StoreType" unterscheidet die Stores zwischen 4 verschiedenen Typen (a, b, c, d).
- Die Variable "Assortment" gibt an, welches Sortiment der Store im Angebot hat (a = Basis, b = extra, c = erweitert).
- Die Variable "CompetitionDistance" gibt die Entfernung in Metern bis zum nächstgelegenen Konkurrenzgeschäft an.

In [30]:
profile_train = ProfileReport(df_train, title="Pandas Profiling Report", explorative=True)
profile_train.to_file(os.path.join("output", "rossmann-store-sales-train.html"))

profile_store = ProfileReport(df_store, title="Pandas Profiling Report", explorative=True)
profile_store.to_file(os.path.join("output", "rossmann-store-sales-store.html"))

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Der Unterschied zwischen dem Train-Datensatz und dem Test-Datensatz besteht darin, dass der Test-Datensatz keine Informationen über die Umsätze und Kunden enthält. Das liegt daran, dass der Test-Datensatz die Zukunft abbilden soll und der Train-Datensatz die Vergangenheit. Dementsprechend sollen für die Datumsangaben aus dem Test-Datensatz die Vekaufsdaten vorhergesagt werden.

In [31]:
df_train.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


In [32]:
df_test.head()

Unnamed: 0,Id,Store,DayOfWeek,Date,Open,Promo,StateHoliday,SchoolHoliday
0,1,1,4,2015-09-17,1.0,1,0,0
1,2,3,4,2015-09-17,1.0,1,0,0
2,3,7,4,2015-09-17,1.0,1,0,0
3,4,8,4,2015-09-17,1.0,1,0,0
4,5,9,4,2015-09-17,1.0,1,0,0


### Hinzufügen neuer Variablen  
Im nächsten Schritt wird das Datum als Index des DataFrames gesetzt und zusätzliche zeitliche Variablen (Jahr, Monat, Tag und Kalenderwoche) sowie Umsatz pro Kunde hinzugefügt. Diese Variablen werden in den nachfolgenden Codeabschnitten für eine bessere Auswertung und Darstellung benötigt.

In [38]:
# Ersetzen des index durch die Spalte 'Date'
df_train.set_index('Date', inplace=True)

# Umwandeln des Datums in den Datentyp 'datetime' 
df_train.index = pd.DatetimeIndex(df_train.index)

# Hinzufügen zeitlicher Variablen (Jahr, Monat, Tag und Kalenderwoche und das Datum als Spalte)
df_train['Year'] = df_train.index.year
df_train['Month'] = df_train.index.month
df_train['Day'] = df_train.index.day
df_train['WeekOfYear'] = df_train.index.isocalendar().week
df_train['Date'] = pd.to_datetime(df_train[['Year', 'Month', 'Day']])

# Berechnen einer neuen Variablen 'SalesPerCustomer' - gibt an, wie viel Umsatz je Kunde an dem jeweiligen Tag erwirtschaftet wurde
df_train['SalesPerCustomer'] = df_train['Sales']/df_train['Customers']

In [39]:
df_train.head()

Unnamed: 0_level_0,Store,DayOfWeek,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,Year,Month,Day,WeekOfYear,Date,SalesPerCustomer
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2015-07-31,1,5,5263,555,1,1,0,1,2015,7,31,31,2015-07-31,9.482883
2015-07-31,2,5,6064,625,1,1,0,1,2015,7,31,31,2015-07-31,9.7024
2015-07-31,3,5,8314,821,1,1,0,1,2015,7,31,31,2015-07-31,10.126675
2015-07-31,4,5,13995,1498,1,1,0,1,2015,7,31,31,2015-07-31,9.342457
2015-07-31,5,5,4822,559,1,1,0,1,2015,7,31,31,2015-07-31,8.626118


### 3.3.4. Überprüfen auf NULL-Werte

In [None]:
df_train.isnull().sum()

### 3.3.5. Untersuchung der Variable "Open"

In [None]:
df_train.Open.value_counts()

In [None]:
# Anzeige der Anzahl der Einträge, an welchen die Läden geschlossen (Open = 0) waren und an welchen kein Umsatz (Sales = 0) generiert wurde
print('Anzahl Einträge Sales 0:              ', df_train[(df_train.Sales == 0)].shape[0])

# Anzeige der Anzahl der Einträge, an denen die Stores geschlossen (Open = 0) waren und kein Umsatz (Sales = 0) generiert wurde
print('Anzahl Store geschlossen & Sales = 0: ', df_train[(df_train.Open == 0) & (df_train.Sales == 0)].shape[0])

# Anzeige der Anzahl der Einträge, an denen die Stores geöffnet waren (Open = 1) und kein Umsatz (Sales = 0) generiert wurde
print('Anzahl Store geöffnet & Sales = 0:    ', df_train[(df_train.Open == 1) & (df_train.Sales == 0)].shape[0])

# Prüfen, ob es Einträge gibt, an denen der Store geschlossen war, aber Umsatz erwirtschaft wurde (dies sollte nicht vorkommen und könnte auf Fehlerhafte Daten hinweisen)
print('Anzahl Store geschlossen & Sales > 0: ', df_train[(df_train.Open == 0) & (df_train.Sales > 0)].shape[0])

Grafik: Verteilung der Wochentage, an welchen die Läden geöffnet bzw. geschlossen waren

In [None]:
print(df_train.Open.value_counts())

sns.countplot(x = 'DayOfWeek', hue = 'Open', data = df_train)
plt.title('Verteilung der Wochentage, an welchen die Läden geöffnet bzw. geschlossen waren')

Es gibt 172817 Einträge von geschlossenen Stores mit 0 Umsatz (etwa. 17% aller Einträge). Dieser werden aus den Daten entfernt um verzerrte Prognosen zu vermeiden.

In [None]:
df_train = df_train[(df_train["Open"] != 0) & (df_train['Sales'] != 0)]
print(df_train.shape[0])

### 3.3.6. Store-Daten

#### Überblick über die Store-Daten
Anzeige der gesamten Anzahl an Zeilen und der ersten 5 Zeilen der Store-Daten

In [None]:
print('Anzahl Stores: ', df_store.shape[0])
df_store.head()

#### Überprüfen auf NULL-Werte

In [None]:
df_store.isnull().sum()

#### Ersetzen von NULL-Werten

##### CompetitionDistance  
distance in meters to the nearest competitor store

In [None]:
df_store[pd.isnull(df_store.CompetitionDistance)]

In [None]:
# Fehlende Werte der "CompetitionDistance" mit dem Median ersetzen
df_store['CompetitionDistance'].fillna(df_store['CompetitionDistance'].median(), inplace=True)

##### CompetitionOpenSince[Month/Year]  
gives the approximate year and month of the time the nearest competitor was opened

In [None]:
# Prüfen, ob es CompetitionOpenSince[Month/Year] zusammenhänge gibt, bei denen CompetitionOpenSince[Month/Year] NULL ist
df_CompetitionOpenSinceMonth = df_store[pd.isnull(df_store.CompetitionOpenSinceMonth)]
df_CompetitionOpenSinceMonth.head()

In [None]:
print('Month', df_store['CompetitionOpenSinceMonth'].median())
print('Year', df_store['CompetitionOpenSinceYear'].median())
df_store['CompetitionOpenSinceYear'].describe()

In [None]:
# Es scheint keine Zusammenhänge mit den anderen Werten zu geben, da NULLs aber entfernt werden müssen, werden die Daten mit 0 ersetzt
df_store['CompetitionOpenSinceMonth'].fillna(0, inplace=True)
df_store['CompetitionOpenSinceYear'].fillna(0, inplace=True)

##### Promo2 Zusatzfelder 

Promo2 - Promo2 is a continuing and consecutive promotion for some stores: 0 = store is not participating, 1 = store is participating  
Promo2Since[Year/Week] - describes the year and calendar week when the store started participating in Promo2  
PromoInterval - describes the consecutive intervals Promo2 is started, naming the months the promotion is started anew. E.g. "Feb,May,Aug,Nov" means each round starts in February, May, August, November of any given year for that store

In [None]:
# Prüfen, ob es zusammenhänge gibt, bei denen die Promo2 Zusatzfelder NULL sind
df_Promo2SinceWeek = df_store[pd.isnull(df_store.Promo2SinceWeek)]
df_Promo2SinceWeek.head()

In [None]:
# Es sieht so aus, als wären die Felder NULL wenn Promo2 = 0 ist

# Prüfen, ob Promo2SinceWeek, Promo2SinceYear, PromoInterval nur NULL sind, wenn Promo2 auch 0 ist (also der Store an keiner Promo teilnimmt)
df_Promo2SinceWeek = df_store[pd.isnull(df_store.Promo2SinceWeek)]
print(df_Promo2SinceWeek[df_Promo2SinceWeek.Promo2 != 0].shape[0])

df_Promo2SinceYear = df_store[pd.isnull(df_store.Promo2SinceYear)]
print(df_Promo2SinceYear[df_Promo2SinceYear.Promo2 != 0].shape[0])

df_PromoInterval = df_store[pd.isnull(df_store.PromoInterval)]
print(df_PromoInterval[df_PromoInterval.Promo2 != 0].shape[0])


In [None]:
# Ja, NULL in den 3 Spalten bedeutet, dass es keine Information über eine Promo gibt
# Ersetzen der NULL Werte durch 0
df_store['Promo2SinceWeek'].fillna(0, inplace=True)
df_store['Promo2SinceYear'].fillna(0, inplace=True)
df_store['PromoInterval'].fillna(0, inplace=True)

#### Erneutes Überprüfen auf NULL-Werte

In [None]:
df_store.isnull().sum()

### 3.3.7. Zusammenführen der Daten mit den Store-Daten

In [None]:
df_train_store = pd.merge(df_train, df_store, on="Store", how="inner")
df_test_store = pd.merge(df_test, df_store, on="Store", how="inner")
df_train_store.head()

### 3.3.8. Korrelation
Im nächsten Schritt wird analysiert, zwischen welchen Daten es eine Korrelation gibt

Es ist zu erkennen, dass eine starke Korrelation zwischen der Anzahl der Kunden und dem Umsatz besteht. Zusätzlich gibt es eine Korrelation zwischen Promo und Customers.
Die anderen Korrelationen (WeekOfYear + Month oder Promo2 + Promo2SinceYear) werden nicht näher betrachtet.

In [None]:
df_train_store.head()

In [None]:
# Neue Variable erstellen, welche die Korrelation enthält (Open wird entfernt, weil Open nur eine 1 enthält)
corr = df_train_store.copy()
corr['Assortment'] = corr['Assortment'].replace(['a', 'b', 'c'], [1, 2, 3])
corr['StoreType'] = corr['StoreType'].replace(['a', 'b', 'c', 'd'], [1, 2, 3, 4])
corr = corr.drop('Open', axis=1).corr()

# Maske für die obere Dreiecksmatrix erstellen (damit nur die untere Hälfte angezeigt wird)
mask = np.triu(np.ones_like(corr, dtype=bool))

sns.heatmap(corr, cmap='coolwarm', mask=mask)

### 3.3.9. StoreTypes

#### StoreTypes - Gesamt

Dataframe nach Storetype sortieren
damit in den folgenden Grafiken der Storetype a ganz links und der Storetype d ganz rechts ist

In [None]:
df_train_store = df_train_store.sort_values(by='StoreType')

Darstellung: Sales je Storetype

In [None]:
df_train_store.groupby('StoreType')[['StoreType', 'Sales']].describe()

In [None]:
# Wenn man die Daten nach Storetypes aufsplittet und die Sales analysiert, ist zu sehen, dass der Storetype B den höchsten Umsatz-Durchschnitt pro Store pro Tag besitzt, allerdings auch die wenigstens Einträge.

sns.boxplot(data=df_train_store, x='StoreType', y='Sales')

Darstellung: Sales, Kunden & Sales pro Kunde je Storetype

In [None]:
df_train_store.groupby('StoreType')[['Customers', 'Sales']].sum()

In [None]:
# Wenn wir uns nun die Anzahl der Kunden und die gesamten Umsatzzahlen pro Storetype angucken, sieht man, dass Storetype A die meisten Kunden und insgesamt auch den größten Umsatz erwirtschaftet.

df_sales = df_train_store.groupby('StoreType')['Sales'].sum().reset_index()
df_customers = df_train_store.groupby('StoreType')['Customers'].sum().reset_index()

fig, (ax1, ax2) = plt.subplots(ncols=2, sharey=True)

sns.barplot(data=df_sales, x='StoreType', y='Sales', color='b', ax=ax1)
sns.barplot(data=df_customers, x='StoreType', y='Customers', color='g', ax=ax2)

ax1.set_title('Sales')
ax1.set_xlabel('Store Type')

ax2.set_title('Customers')
ax2.set_xlabel('Store Type')

plt.show()

Darstellung: Sales pro Kunde je Storetype

In [None]:
df_train_store.groupby('StoreType')[['StoreType', 'SalesPerCustomer']].describe()

In [None]:
# Wenn wir uns nun den Umsatz je Kunden angucken, sieht man, dass Storetype D den höchsten und Storetype B den niedrigsten Umsatz pro Kunden erwirtschaftet.

sns.boxplot(data=df_train_store, x='StoreType', y='SalesPerCustomer')

#### StoreTypes - zeitliche Trends

Darstellung: Sales Timeline nach Jahr, Monat und StoreType

In [None]:
df_train_store.groupby(['Year', 'Month', 'StoreType'])['Sales'].sum().unstack().plot(kind='line')
plt.title('Sales nach Monat und StoreType')
plt.xlabel('Monat')
plt.ylabel('Sales')
plt.show()

Darstellung: Sales Timeline nach Jahr, Woche und StoreType

In [None]:
df_train_store.groupby(['Year', 'WeekOfYear', 'StoreType'])['Sales'].sum().unstack().plot(kind='line')
plt.title('Sales nach Woche und StoreType')
plt.xlabel('Woche')
plt.ylabel('Sales')
plt.show()

Darstellung: Sales, Customer & SalesPerCustomer monatlicher Trend je StoreType

In [None]:
sns.catplot(data=df_train_store, x='Month', y='Sales',
            col='StoreType',
            palette='bright',
            hue='StoreType',
            kind='point'
           )

sns.catplot(data=df_train_store, x='Month', y='Customers',
            col='StoreType',
            palette='bright',
            hue='StoreType',
            kind='point'
           )

sns.catplot(data=df_train_store, x='Month', y='SalesPerCustomer',
            col='StoreType',
            palette='bright',
            hue='StoreType',
            kind='point'
           )

Darstellung: Sales monatlicher Trend aufgesplittet nach Jahren und StoreType

In [None]:
sns.catplot(data=df_train_store, x='Month', y='Sales',
            col='StoreType',
            palette='bright',
            hue='Year',
            kind='point'
            )

Darstellung: Sales wöchentlicher Trend und StoreType

In [None]:
# Wird für die Anzeige der X-Achse verwendet (um nicht jeden Monat anzuzeigen)
x_ticks = [0, 4, 9, 14, 19, 24, 29, 34, 39, 44, 49]

g = sns.catplot(data=df_train_store, x='WeekOfYear', y='Sales',
                col='StoreType',
                palette='bright',
                hue='StoreType',
                kind='point'
                )

# Legt die Achseneinteilung fest
for ax in g.axes.flatten():
    ax.set_xticks(x_ticks)

plt.show()

#### StoreTypes - nach Wochentag

Darstellung: Sales nach DayOfWeek und Storetype

In [None]:
sns.catplot(data=df_train_store, x='DayOfWeek', y='Sales',
            col='StoreType',
            palette='bright',
            hue='StoreType',
            kind='point'
           )

Darstellung: Sales nach Monat, DayOfWeek und Storetype

In [None]:
sns.catplot(data=df_train_store, x='Month', y='Sales',
            col='DayOfWeek',
            palette='bright',
            hue='StoreType',
            row="StoreType",
            kind='point'
           )

### 3.3.10. Assortment

In [None]:
df_train_store.groupby('Assortment')[['Assortment', 'Sales']].describe()

Darstellung: Sales nach DayOfWeek und Assortment

In [None]:
sns.catplot(data=df_train_store, x='DayOfWeek', y='Sales',
            col='Assortment',
            palette='bright',
            hue='Assortment',
            kind='point'
           )

Darstellung: Sales, Customer & SalesPerCustomer monatlicher Trend je Assortment

In [None]:
sns.catplot(data=df_train_store, x='Month', y='Sales',
            col='Assortment',
            palette='bright',
            hue='Assortment',
            kind='point'
           )

sns.catplot(data=df_train_store, x='Month', y='Customers',
            col='Assortment',
            palette='bright',
            hue='Assortment',
            kind='point'
           )

sns.catplot(data=df_train_store, x='Month', y='SalesPerCustomer',
            col='Assortment',
            palette='bright',
            hue='Assortment',
            kind='point'
           )

### 3.3.11. Promo

Darstellung: SalesPerCustomer nach Monat, Storetype und Promo / Promo2

In [None]:
sns.catplot(data=df_train_store, x='Month', y='SalesPerCustomer',
            col='StoreType',
            palette='bright',
            hue='Promo',
            kind='point'
           )

sns.catplot(data=df_train_store, x='Month', y='SalesPerCustomer',
            col='StoreType',
            palette='bright',
            hue='Promo2',
            kind='point'
           )

Grafik: SalesPerCustomer nach DayOfWeek, Storetype und Promo / Promo2

In [None]:
sns.catplot(data=df_train_store, x='DayOfWeek', y='SalesPerCustomer',
            col='StoreType',
            palette='bright',
            hue='Promo',
            kind='point'
           )

sns.catplot(data=df_train_store, x='DayOfWeek', y='SalesPerCustomer',
            col='StoreType',
            palette='bright',
            hue='Promo2',
            kind='point'
           )

## 3.4. EDA Zusammenfassung
  - Es besteht eine starke Korrelation zwischen der Anzahl an Kunden und dem Umsatz
  - Storetype B generiert den höchsten Umsatz pro Tag
  - Storetype B generiert den niedrigsten Umsatz pro Kunden
  - Storetype D generiert den höchsten Umsatz pro Kunden
  - Storetype A generiert den größten Gesamtumsatz, hat aber auch die meisten Kunden
  - Storetype C ist an Sonntagen geschlossen
  - Storetype D ist nur im November an Sonntagen geschlossen
  -
  - Im Dezember gibt es (unabhängig vom Storetype) ein starkes Umsatzwachstum
  - 
  - 
  - 

Promo2 alone doesn't seem to be correlated to any significant change in the Sales amount.
Customers tends to buy more on Modays when there's one promotion (Promo) and on Sundays when there's no promotion at all (both Promo and Promo1 are equal to 0)


# 4. Zeitreihenanalyse und Forecasting

In [None]:
import pandas as pd
import numpy as np
import datetime

from ydata_profiling import ProfileReport

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
%matplotlib inline

import sqlite3
from statsmodels.tsa.seasonal import seasonal_decompose as sm
from prophet import Prophet
import xgboost as xgb

filepath_train = "../input/train.csv"
filepath_test = "../input/test.csv"
filepath_store = "../input/store.csv"

In [None]:
# Laden der Daten
df_train = pd.read_csv(filepath_train, low_memory=False, index_col = 'Date')
df_test = pd.read_csv(filepath_test, low_memory=False, index_col = 'Date')
df_store = pd.read_csv(filepath_store)

# Umwandeln des Datums im Index in den Datentyp 'datetime'
df_train.index = pd.to_datetime(df_train.index)
df_test.index = pd.to_datetime(df_test.index)

# Hinzufügen neuer Variablen
df_train['Year'] = df_train.index.year
df_train['Month'] = df_train.index.month
df_train['Day'] = df_train.index.day
df_train['WeekOfYear'] = df_train.index.weekofyear
df_train['Date'] = pd.to_datetime(df_train[['Year', 'Month', 'Day']])
df_train['SalesPerCustomer'] = df_train['Sales']/df_train['Customers']

df_test['Year'] = df_test.index.year
df_test['Month'] = df_test.index.month
df_test['Day'] = df_test.index.day
df_test['WeekOfYear'] = df_test.index.weekofyear
df_test['Date'] = pd.to_datetime(df_test[['Year', 'Month', 'Day']])

# Entfernen der Einträge, an denen die Stores geschlossen waren und kein Umsatz generiert haben
df_train = df_train[(df_train["Open"] != 0) & (df_train['Sales'] != 0)]

# NULLs entfernen
df_store['CompetitionDistance'].fillna(df_store['CompetitionDistance'].median(), inplace=True)
df_store['CompetitionOpenSinceMonth'].fillna(0, inplace=True)
df_store['CompetitionOpenSinceYear'].fillna(0, inplace=True)
df_store['Promo2SinceWeek'].fillna(0, inplace=True)
df_store['Promo2SinceYear'].fillna(0, inplace=True)
df_store['PromoInterval'].fillna(0, inplace=True)
df_test['Open'].fillna(1, inplace = True)

df_train_store = pd.merge(df_train, df_store, on="Store", how="inner")
df_test_store = pd.merge(df_test, df_store, on="Store", how="inner")

Anzeige eines Stores je Storetype

In [None]:
# Pro Storetype einen Store anzeigen (wird im folgenden Code in einem Array gespeichert)
store_types = df_train_store.StoreType.unique()
store_per_storetype = []

for store_type in store_types:
    store = df_train_store[df_train_store.StoreType == store_type].Store.unique()
    store_per_storetype.append([store_type, store[0]])

# Ausgabe von jeweils einem Store je Storetype
for store_type, store in store_per_storetype:
    print(store_type, ' - ', store)

## 4.1. Zeitreihenanalyse mit seasonal_decompose  

Der nachfolgende Code führt eine saisonale Zeitreihenanalyse durch, um die verschiedenen Komponenten (Trend, saisonale und Rest) der Verkaufsdaten nach StoreType zu untersuchen. Hierfür wird die Bibliothek "statsmodels.tsa.seasonal" mit der Funktion "seasonal_decompose" verwendet. Die "seasonal_decompose"-Funktion zerlegt eine Zeitreihe in ihre Komponenten, um Trends und saisonale Muster zu identifizieren.

Der Code liest das DataFrame mit den Verkaufsdaten ein und sogruppiert rtiert dieses anschließend nach "StoreType" und "Date", um die Verkaufsdaten pro Tag und StoreType zu aggregieren. Ein neuer DataFrame wird erstellt, der die aggregierten Verkaufsdaten enthält, mit "Date" als Index und "Sales" als Wert, die jeweils einem bestimmten "StoreType" zugeordnet sind.

Als nächstes wird der DataFrame auf eine tägliche Frequenz umgestellt und dann wird eine Schleife durch alle Spalten im DataFrame durchgeführt. Für jeden StoreType wird die "seasonal_decompose"-Funktion aufgerufen, um die Zeitreihe der Verkaufsdaten in die Trend-, saisonale- und Restkomponenten zu zerlegen. Das Ergebnis wird grafisch dargestellt und mit "plt.show()" angezeigt.

In [None]:
# Group by StoreType and Date
df_grouped = df_train_store.groupby(['StoreType', 'Date']).sum().reset_index()

# Create a new DataFrame with Date as index and Sales as values
df_sales = df_grouped.pivot(index='Date', columns='StoreType', values='Sales')

# Resample to daily frequency
df_sales = df_sales.resample('D').sum()

# Decompose time series into trend, seasonal, and residual components
for store_type in df_sales.columns:
    result = sm(df_sales[store_type], model='additive', period=365)
    result.plot()
    plt.show()

## 4.2. Zeitreihenanalyse und Forecast mit Prophet
Quick-Start Guide für Prophet: https://facebook.github.io/prophet/docs/quick_start.html

### 4.2.1. Prophet Forecast-Beispiel anhand von einem Store

In [None]:
store = df_train_store[df_train_store.Store == 1].loc[:, ['Date', 'Sales']]
f = plt.figure(figsize=(18,10))
ax1 = f.add_subplot(211)
ax1.plot(store['Date'], store['Sales'], '-')
ax1.set_xlabel('Zeit')
ax1.set_ylabel('Umsatz')
ax1.set_title('Umsatz Zeitreihe für Store 1')

Erstellen des Dataframes, welches zum Forecasting verwendet wird

In [None]:
# Setzen des Datums als Index für die Zeitreihenanalyse
df_train_store.set_index('Date', inplace=True)
df_train_store['Date'] = pd.to_datetime(df_train_store[['Year', 'Month', 'Day']])

# Im folgenden wird der Forecast für 
sales = df_train_store[df_train_store.Store == 1].loc[:, ['Date', 'Sales']]

# reverse to the order: from 2013 to 2015
sales = sales.sort_index(ascending = False)

# to datetime64
sales['Date'] = pd.DatetimeIndex(sales['Date'])

# from the prophet documentation every variables should have specific names
sales = sales.rename(columns = {'Date': 'ds',
                                'Sales': 'y'})
sales.head()

Erstellen des Dataframes, welches die Feiertage abbildet

In [None]:
# create holidays dataframe
state_dates = df_train_store[(df_train_store.StateHoliday == 'a') | (df_train_store.StateHoliday == 'b') & (df_train_store.StateHoliday == 'c')].loc[:, 'Date'].values
school_dates = df_train_store[df_train_store.SchoolHoliday == 1].loc[:, 'Date'].values

state = pd.DataFrame({'holiday': 'state_holiday',
                      'ds': pd.to_datetime(state_dates)})
school = pd.DataFrame({'holiday': 'school_holiday',
                      'ds': pd.to_datetime(school_dates)})

holidays = pd.concat((state, school))      
holidays.head()

Festlegen der Rahmenbedingungen

In [None]:
# set the uncertainty interval to 95% (the Prophet default is 80%)
m = Prophet(interval_width = 0.95, holidays = holidays)
m.fit(sales)

# Erstellen eines DataFrame mit zukünftigen Daten für die nächsten 6 Monate (183 Tage)
future = m.make_future_dataframe(periods = 183)

# Anzeige der letzten 7 Tage
future.tail(7)

Ausführen des Forecasts

In [None]:
forecast = m.predict(future)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()

Visualisierung der Forecastergebnisse

In [None]:
fig1 = m.plot(forecast)

Visualisierung der Komponenten des Forecasts

In [None]:
fig2 = m.plot_components(forecast)

### 4.2.2. Forecast für 5 Shops je Storetype mit Prophet  
Quick-Start Guide für Prophet: https://facebook.github.io/prophet/docs/quick_start.html

In [None]:
# Setzen des Datums als Index für die Zeitreihenanalyse 
df_train_store.set_index('Date', inplace=True)
df_train_store['Date'] = pd.to_datetime(df_train_store[['Year', 'Month', 'Day']])

# Erstellen des Dataframes für die Feiertage
state_dates = df_train_store[(df_train_store.StateHoliday == 'a') | (df_train_store.StateHoliday == 'b') & (df_train_store.StateHoliday == 'c')].loc[:, 'Date'].values
school_dates = df_train_store[df_train_store.SchoolHoliday == 1].loc[:, 'Date'].values

state = pd.DataFrame({'holiday': 'state_holiday',
                      'ds': pd.to_datetime(state_dates)})
school = pd.DataFrame({'holiday': 'school_holiday',
                      'ds': pd.to_datetime(school_dates)})

holidays = pd.concat((state, school))

# Aufteilen der Daten nach Storetyp
store_types = df_train_store.StoreType.unique()

# Initialisiere ein leeres DataFrame, um den Forecast für alle Stores zu speichern
prophet_all_forecasts = pd.DataFrame()

# Da es insgesamt 1115 Stores gibt und der Forecast für alle Stores sehr lange dauern würde, wird der Forecast für 5 Stores je Storetype durchgeführt
for store_type in store_types:
    stores = df_train_store[df_train_store.StoreType == store_type].Store.unique()[:1]

    for store in stores:
        # Sales für den aktuellen Store
        sales = df_train_store[df_train_store.Store == store].loc[:, ['Date', 'Sales']]

        # Datum von 2013 bis 2015 sortieren
        sales = sales.sort_index(ascending = False)

        # Konvertieren des Datums in datetime64
        sales['Date'] = pd.DatetimeIndex(sales['Date'])

        # Umbenennen der Spalten, da prophet das Datum als 'ds' und die abhängige Variable als 'y' erwartet
        sales = sales.rename(columns = {'Date': 'ds', 
                                        'Sales': 'y'})
        
        # Initialisieren eines Prophet-Modells mit 95% Unsicherheitsintervall und den Feiertagen
        m = Prophet(interval_width = 0.95, holidays = holidays)

        # Anpassen des Modells an die Sales
        m.fit(sales)

        # Erstellen eines DataFrame mit zukünftigen Daten für die nächsten 6 Monate (183 Tage)
        future = m.make_future_dataframe(periods = 183)

        # Generieren des Forecasts für die zukünftigen Daten
        forecast = m.predict(future)

        # Store-Informationen zum Forecast-Dataframe hinzufügen
        forecast['store'] = store
        forecast['store_type'] = store_type

        # Anhängen des Forecasts für den aktuellen Store an das all_forecasts-DataFrame
        prophet_all_forecasts = pd.concat([prophet_all_forecasts, forecast])

Export des Forecasts in eine SQLite Datenbank

In [None]:
prophet_all_forecasts.tail()

In [None]:
# Verbindung zur Datenbank herstellen - wenn die Datenbank nicht existiert, wird sie automatisch erstellt
conn = sqlite3.connect('../output/rossmann-store-sales.db')

# Cursor erstellen
c = conn.cursor()

# Tabelle erstellen, falls sie nicht bereits existiert
c.execute('''CREATE TABLE IF NOT EXISTS sales_forecast_prophet
             (id INTEGER PRIMARY KEY,
              store INTEGER,
              store_type TEXT,
              date TEXT,
              yhat REAL,
              yhat_lower REAL,
              yhat_upper REAL
              )''')

# Tabelle leeren, falls sie bereits existiert und Daten enthält
c.execute('''delete from sales_forecast_prophet''')

prophet_all_forecasts = prophet_all_forecasts[['store', 'store_type', 'ds', 'yhat', 'yhat_lower', 'yhat_upper']]

for row in prophet_all_forecasts.iterrows():
    store = row[1]['store']
    store_type = row[1]['store_type']
    ds = row[1]['ds'].strftime('%Y-%m-%d')
    yhat = row[1]['yhat']
    yhat_lower = row[1]['yhat_lower']
    yhat_upper = row[1]['yhat_upper']

    c.execute('''INSERT INTO sales_forecast_prophet (store, store_type, date, yhat, yhat_lower, yhat_upper)
                    VALUES (?, ?, ?, ?, ?, ?)''', (store, store_type, ds, yhat, yhat_lower, yhat_upper))

# Änderungen bestätigen
conn.commit()

# Verbindung schließen
conn.close()

## 4.2. Zeitreihenanalyse und Forecast mit XGBoost

### 4.3.1. XGBoost Forecast-Beispiel anhand von einem Store

### 4.3.2. Forecast für 5 Shops je Storetype mit XGBoost

In [None]:
# Set date as index for time series analysis
df_train_store.set_index('Date', inplace=True)

# Convert date to datetime format
df_train_store.index = pd.to_datetime(df_train_store.index)

# Split data by store type
store_types = df_train_store.StoreType.unique()

# Initialize an empty dataframe to store the forecast for all stores
xgboost_all_forecasts = pd.DataFrame()

# As there are a total of 1115 stores, we will forecast for 5 stores per store type
for store_type in store_types:
    stores = df_train_store[df_train_store.StoreType == store_type].Store.unique()[:1]

    for store in stores:
        # Get sales for current store
        sales = df_train_store[df_train_store.Store == store].loc[:, ['Sales']]

        # Create features for forecasting
        sales['day_of_week'] = sales.index.dayofweek
        sales['week'] = sales.index.week
        sales['month'] = sales.index.month
        sales['year'] = sales.index.year

        # Split data into training and testing sets
        train = sales[sales.index < '2015-06-01']
        test = sales[sales.index >= '2015-06-01']

        # Create DMatrix for training and testing sets
        dtrain = xgb.DMatrix(train.drop(['Sales'], axis=1), label=train['Sales'])
        dtest = xgb.DMatrix(test.drop(['Sales'], axis=1))

        # Define XGBoost parameters
        params = {
            'objective': 'reg:squarederror',
            'eta': 0.1,
            'max_depth': 6,
            'subsample': 0.7,
            'colsample_bytree': 0.7,
            'seed': 42
        }

        # Train XGBoost model
        model = xgb.train(params, dtrain, num_boost_round=100)

        # Generate forecast for future days
        future_dates = pd.date_range(start='2015-06-02', end='2015-07-31', freq='D')
        future_sales = pd.DataFrame(index=future_dates)
        future_sales['day_of_week'] = future_sales.index.dayofweek
        future_sales['week'] = future_sales.index.week
        future_sales['month'] = future_sales.index.month
        future_sales['year'] = future_sales.index.year
        future_dmatrix = xgb.DMatrix(future_sales)
        future_sales['Sales'] = model.predict(future_dmatrix)

        # Add store information to forecast dataframe
        future_sales['Store'] = store
        future_sales['StoreType'] = store_type

        # Append forecast for current store to all_forecasts dataframe
        xgboost_all_forecasts = pd.concat([xgboost_all_forecasts, future_sales])


Export des Forecasts in eine SQLite Datenbank

In [None]:
xgboost_all_forecasts.tail()

In [None]:
# Verbindung zur Datenbank herstellen - wenn die Datenbank nicht existiert, wird sie automatisch erstellt
conn = sqlite3.connect('../output/rossmann-store-sales.db')

# Cursor erstellen
c = conn.cursor()

c.execute('''drop table sales_forecast_xgboost''')

# Tabelle erstellen, falls sie nicht bereits existiert
c.execute('''CREATE TABLE IF NOT EXISTS sales_forecast_xgboost
             (id INTEGER PRIMARY KEY,
              store INTEGER,
              store_type TEXT,
              date TEXT,
              y REAL,
              y_pred REAL
              )''')

# Tabelle leeren, falls sie bereits existiert und Daten enthält
c.execute('''delete from sales_forecast_xgboost''')

xgboost_all_forecasts = xgboost_all_forecasts[['store', 'store_type', 'ds', 'y', 'y_pred']]

for row in xgboost_all_forecasts.iterrows():
    store = row[1]['store']
    store_type = row[1]['store_type']
    ds = row[1]['ds'].strftime('%Y-%m-%d')
    y = row[1]['y']
    y_pred = row[1]['y_pred']

    c.execute('''INSERT INTO sales_forecast_xgboost (store, store_type, date, y, y_pred)
                    VALUES (?, ?, ?, ?, ?)''', (store, store_type, ds, y, y_pred))

# Änderungen bestätigen
conn.commit()

# Verbindung schließen
conn.close()

## 4.4. Vergleich der Forecasts

# 5. Fazit

# 6. Test