# Project proposal

---

**Analyse des Kohortenverlaufs im Loyalty-Programm**

---


## Imports

In [153]:
import pandas as pd
import numpy as np
import altair as alt

## Data load

In [188]:
path_data = 'https://raw.githubusercontent.com/mm391-030401/project/refs/heads/main/data/processed/'
file_data= 'Datengrundlage_final.csv'

data = pd.read_csv(path_data + file_data, sep=',', encoding='utf-8')

# Obwohl diese Spalten bereits im Notebook "02_MM_convert_columns" zu Strings konvertiert wurden, wurden sie beim erneuten Einlesen wieder als Integer erkannt
# Allerdings ist es sinnvoll, diese Spalten nicht als Integer (diskret) zu betrachten 
# sondern als ordinale Variablen (Rechenoperationen sind nicht sinnig für die Zeitangaben)
to_str_cols = ['monate_seit_einfuehrung_programm_kohorte', 'monat', 'monat_jahr',
       'monat_monat', 'kohorte', 'kohorte_jahr', 'kohorte_monat', 'monate_seit_existenz_kohorte']

# Konvertierung der Spalten in string 
for col in to_str_cols: 
    data[col] = data[col].astype(str)

## Introduction

Der Datensatz bezieht sich auf die Entwicklung einzelner Kohorten (Neukundengruppen) im Loyalty Program von Lidl und lässt sich damit grundlegend in das **Forschungsumfelds des Marketings** einordnen, welche sich intensiv mit dem Kundenverhalten auseinandersetzt. Insights in das Kundenverhalten durch Analytics zu schaffen, ist elementar, um die Kunden besser zu verstehen und sie nachfolgend besser im Customer Lifecycle Management beeinflussen zu können (vgl. Sridharan & Purcell, 2015).

Das Ziel des Loyalty-Programms besteht darin, das Kundenverhalten in den Filialen so transparent wie möglich zu machen. Die Transparenz wird gemessen als der Anteil des Umsatzes, der durch das Programm sichtbar gemacht wird, am gesamten Filialumsatz. Je höher dieser Umsatzanteil, desto besser kann das Kundenverhalten nachvollzogen werden.  
Um den zu erwartenden Umsatzanteil des Loyalty-Programms zu untersuchen, wird die folgende Forschungsfrage gestellt:  
**„Wie wird sich der monatliche Umsatz entwickeln und welchen Anteil haben die einzelnen Kohorten daran?“**

Es wird erwartet, dass die verschiedenen Kundengruppen (repräsentiert durch die Kohorten) unterschiedlich profitabel sind. Die Hypothese dabei lautet **"Neuere Kohorten tragen weniger zum monatlichen Umsatz bei als spätere Kohorten"**. Wenn diese Hypothese sich bestätigen lässt, so lässt sich ableiten, dass ein Grenzwert für den monatlichen Umsatz, der durch das Programm identifiziert wird, existiert. In dem Zuge wäre die Transparenz über das Kundenverhalten limitiert.

Im Bereich des Marketings gibt es hierzu bereits Modellansätze, die die Hypothese unterstützen und das Kundenverhalten in diesem Rahmen näher erklären: 

##### Technology Adaption Curve
Das Modell zeigt auf, dass es verschiedene Kundengruppen im Produktlebenszyklus eines technischen Produkts, wie bspw. einer Kundenbindungsapp gibt. Die Kunden weisen einen unterschiedlichen Charakter auf. Early Adopters sind technikbegeistert und lassen sich gern auf die neue Technoligie ein. Late Adopters benötigen eine gewisse Argumentationsgrundlage bis sie das Produkt vollumfänglich ohne Skepsis nutzen (vgl. Moore, 2014). 
<br>

![Technology Adaption Curve](https://media.licdn.com/dms/image/v2/D4E12AQGI-is2XUC1Tw/article-cover_image-shrink_720_1280/article-cover_image-shrink_720_1280/0/1699328276677?e=2147483647&v=beta&t=yj_-mnJdAYhaY5pMZx8_kXxrQauZUcZIetE96XRGJ1A)   

Je früher sich ein Kunde dazu entschließt, die neue Technologie zu nutzen, desto eher hat er die Chance die Vorteile zu entdecken, Loyalität zu entwicklen und das Produkt an Late Adopters weiterzuempfehlen.

##### Customer Lifecycle
Das Konzept des Customer Lifecycles kann damit in Verbindung gebracht werden. Erst wenn der Kunde mit dem Produkt durch die Nutzung in Kontakt gekommen ist, ist es möglich, ihn zur Wiedernutzung zu bewegen (vgl. Crail, 2024).
<br>
 
![Customer Lifecycle](https://blog-assets.freshworks.com/freshdesk/wp-content/uploads/2022/06/17100218/Customer-lifecycle.jpg)  

Es ist anzunehmen, dass Early Adopters leichter und schneller in die "Retention" Phase gelangen, als Late Adopters. Dies wird mit der Lust zum Ausprobieren und dem grundlegend längeren Zeitraum zur Entwicklung durch die bereits frühe Teilnahme begründet. 

Somit wird deutlich, dass der Zeitpunkt, an dem eine Kohorte entsteht, entscheidend für das zukünftige Kundenverhalten ist. Doch nicht nur der Zeitpunkt zur initialen Nutzungsentscheidung beeinflusst das Kundenverhalten. Im Customer Lifecycle Management werden dem Kunden wiederholt Impulse durch Marketingmaßnahmen gegeben, damit das Verhalten zu Gunsten des Unternehmens beeinflusst wird. Bestimmte Monate werden sich auf alle Kohorten auswirken (bspw. die Weihnachtszeit mit vielen Werbeaktionen, die den Umsatz der Kunden steigern soll.)  

Der Customer Lifecycle kann auch Aufschluss darüber geben, wann ein Kunde am meisten Engagement zeigt. Eine Studie von Aali et al. (2019) konnte aufzeigen, dass die Kunden am meisten mit einem Unternehmen aggieren, wenn sie die anfängliche Skepsis überwunden haben. 

##### Kundenloyalität vs. Kundenbindung  
Eng damit verknüpft ist das Konzept der Kundenloyalität. Kundenloyalität beschreibt eine tiefe Verbundenheit mit dem Unternehmen und zeigt sich in langfristigen Erfolgen. Kundenbindung ist eher kurzfristig angedacht und wird durch Impulse wie Rabattaktionen erreicht. Das Loyalty Program kann beides steigern. Wichtig ist, inwieweit der Kunde schon eine Vertrauensbasis gegenüber dem Unternehmen hat, wobei auch hier wieder die Zeit eine wichtige Rolle spiet. (vgl. Klotz, 2024; Jagersbacher, 2024).  

##### Fazit  
Die Konzepte aus der Marketingliteratur zeigen deutlich, dass sowohl der Zeitpunkt der Erstnutzung als auch die Zeitpunkte von Marketingaktivitäten eine tragende Rolle beim Einfluss auf das Kundenverhalten einnehmen. Daher ist es wichtig, diese Variablen in das Modell zu inkludieren, um diese Faktoren korrekt abbilden zu können. 


##### Studien zur Vorhersage von Kundenumsatz
In einer initialen Literaturrecherche konnte keine öffentlich zugängliche Studie gefunden werden, die Kundenumsatz mit Hilfe einer linearen Regression bestimmt. Vielmehr werden komplexere Verfahren wie der Random Forest (vgl. Lariviere & Vandenpoel, 2005) oder Neuronale Netze (vgl. Li & Gu, 2024) verwendet. 

##### Literatur  
- Aali, S., Ibrahimi, A. & Alamdari, N. A. (2019). Analysis of Customer Engagement in Creating Value at Different Stages of the Relationship Life Cycle. DOAJ (DOAJ: Directory Of Open Access Journals). https://doi.org/10.22059/jibm.2018.259010.3072  
- Crail, C. (2024, 2. Juni). Customer Lifecycle Management (CLM): the ultimate guide. Forbes Advisor. https://www.forbes.com/advisor/business/customer-lifecycle-management/  
Jagersbacher, M. (2024, 3. April). Kundenbindung vs. Kundenloyalität: Worauf konzentrieren Sie sich? Flow. https://flowbusinessmag.com/kundenbindung-vs-kundenloyalitat-worauf-konzentrieren/  
- Klotz, J. (2024, 6. April). Kundenloyalität: Definition und Methoden zur Kundenbindung. KRAUSS Neukundengewinnung. https://www.krauss-gmbh.com/blog/kundenloyalit%C3%A4t-definition-und-methoden-zur-kundenbindung  
- Lariviere, B. & Vandenpoel, D. (2005). Predicting customer retention and profitability by using random forests and regression forests techniques. Expert Systems With Applications, 29(2), 472–484. https://doi.org/10.1016/j.eswa.2005.04.043  
- Li, N. & Gu, L. (2024). Deep neural networks: predictive research on customer turnover caused by enterprise marketing problems. Informatica, 48(12). https://doi.org/10.31449/inf.v48i12.6015  
- Moore, G. A. (2014). Crossing the chasm : marketing and selling disruptive products to mainstream customers (3. Aufl.). HarperBusiness.
- Sridharan, S. & Purcell, B. (2015, 30. Oktober). How Analytics Drives Customer Life-Cycle Management. forrester.com. https://analyticsconsultores.com.mx/wp-content/uploads/2019/03/How-Analytics-Drives-Customer-Life-Cycle-Management-S.-Sridharan-B.-Purcell-Forrester-2015.pdf


## Data description

Die Daten wurden im Rahmen des initialen Business Case für das Loyalty Program von Lidl mit Hilfe einer Consulting erhoben. Für das Projekt wurden die tatsächlichen Daten verfälscht.  

Der Datensatz zeigt den Verlauf einzelner Kohorten, die aus Neukunden eines Loyalty-Programms bestehen. Eine Kohorte umfasst alle Kunden, die innerhalb eines Kalendermonats dem Programm beitreten. Durch die eindeutige Zuordnung der Kunden-IDs ist es möglich, individuelles Verhalten über einen längeren Zeitraum hinweg zu verfolgen. Dies erlaubt eine tiefgehende Untersuchung des Kohortenverhaltens im Zeitverlauf. Die verwendeten Kennzahlen und Merkmale des Datensatzes werden im Data Dictionary näher erläutert.


## Analysis approach

#### Response Variable  
Die zu erklärende Variable ist der monatliche Umsatz der einzelnen Kohorten (`umsatz_indexiert`). Indirekt zählen dazu dann auch der monatliche Gesamtumsatz (`monatlicher_umsatz_indexiert`) sowie den Umsatzanteil der einzelnen Kohorten an diesem monatlichen Gesamtumsatz (`umsatzanteil_kohorte`).  
Ziel ist es, den monatlichen Umsatz, der durch das Loyalty Program identifiziert wird, für die zukünftigen Perioden vorherzusagen. Der Umsatz kann aufgegliedert werden in den Umsatz der einzelnen Kohorten. So wird deutlich, welche Kundengruppen wie viel monatlich zum Gesamtumsatz beitragen und inwiefern die neueren Kohorten dazu beitragen.  

#### Prediktoren
Als Prediktoren sollen folgende Variablen getestet werden:  
**Zeitliche Variablen**
- `monate_seit_einfuehrung_programm_kohorte`
- `monat`
- `monat_jahr`
- `monat_monat`
- `monat_jahreszeit`
- `kohorte`
- `kohorte_jahr`
- `kohorte_monat`
- `kohorte_jahreszeit`
- `erster_monat_kohorte_fg`
- `monate_seit_existenz_kohorte`  

**Kohortenmerkmale**
- `kohortengroesse_indexiert`
- `kohortengroesse_kumuliert_indexiert`
- `identifizierte_kunden_indexiert`
- `retentionrate`

**Kennzahlen für das Einkaufsverhalen**
- `anz_bons_indexiert`
- `abverkauf_indexiert`
- `rabatt_indexiert`
- `frequenz_indexiert`
- `durchschnittsbon_indexiert`
- `stueckbon_indexiert`
- `umsatz_je_kunde_indexiert`
- `abverkauf_je_kunde_indexiert`
- `rabatt_je_kunde_indexiert`  

#### Analysevorgang und Modellauswahl
Im Rahmen des Moduls "Data Analytics with Statistics" wird grundlegend die lineare Regression für das vorgestellte Projekt fokussiert. Obwohl in der Literaturrecherche kein Durchführung einer Regression in der Vorhersage von Kundenumsatz durchgeführt würde, eignet sich die lineare Regression grundsätzlich um eine numerische Variable vorherzusagen. Dieses Modell spiegelt den geforderten Rahmen innerhalb des Moduls wider. 

Die große Anzahl an potentiellen Prediktoren wird im Projekt genau untersucht. Insbesondere muss die sogenannte **Multikollinearität** genau betrachtet werden. Es besteht die Annahme, dass vor allem zwischen manchen Kennzahlen eine Korrelation besteht. Dies muss geprüft werden, um die Modellkomplexität nicht unnötigerweise zu erhöhen. Besteht eine Korrelation zwischen zwei Prediktoren, so sollte der ausgewählt werden, der das Modell am ehesten verbessert.  
Für die Auswahl der korrekten Prediktoren soll eine **schrittweise Auswahl** verschiedener Kombinationen erfolgen, um dann die Kombination mit der besten Modellgüte auswählen zu können. 

#### Initiale EDA der Response Variable

In [198]:
# Unternehmensfarben
custom_colors = ['#06507F', '#0076BF', '#80BADF', '#D4ECFB']

In [190]:
alt.Chart(data).mark_bar().encode(
    x = alt.X('sum(umsatz_indexiert):Q', stack = 'normalize', title = 'Normalisierte Umsatz der Kohorten (indexiert)'),
    y = alt.Y('monat', title = 'Monat im Format JJJJMM'),
    color=alt.Color('kohorte_jahr:N', 
                    scale=alt.Scale(domain= data['kohorte_jahr'].unique().tolist(), 
                    range=custom_colors), legend=alt.Legend(orient='right', title='Kohorte Jahr')),
    tooltip= ('kohorte')
).properties(
    title = 'Übersicht Response Variable Umsatz im Monatsverlauf'
).interactive()


Die Visualisierung zeigt bereits gut auf, dass die früheren Kohorten einen größeren Umsatzanteil haben (auch in den späteren Monaten, wenn die anderen Kohorten sich auch schon etabliert haben sollten.) Die Annahme, dass man sich auf einen Grenzwert zubewegen könnte ist demnach nicht unbegründet.

In [191]:
stats = pd.DataFrame(data['umsatz_indexiert'].describe().round(2))
stats

Unnamed: 0,umsatz_indexiert
count,703.0
mean,51.93
std,113.74
min,0.16
25%,16.6
50%,19.31
75%,29.75
max,654.29


Die Statistiken zeigen, dass bestimmte Kohorten-Monats-Kombinationen starke Ausreißer nach oben im Umsatz haben (Große Differenz zwischen 3. Quartil und letztem Wert). Dies macht bereits deutlich, dass Ausreißer in der EDA genau untersucht werden müssen, um sie korrekt im Modelldesign behandeln zu können. Ebenfalls gibt dies bereits einen Aufschluss darüber, dass die Daten rechtsschief sind (Mittelwert ist größer als der Median).  
Betrachtet man die Standardabweichung im Vergleich zum Mittelwert, so erscheint diese relativ hoch. Der Datensatz scheint eine große Streuung bei der Response-Variable zu haben. Dies könnte ein Indikator dafür sein, dass die Entwicklung eines qualitativen Modells komplex sein kann. Eventuell ändert sich dies aber auch durch die Eliminierung von Ausreißern.

## Data dictionary

In [192]:
data_dictionary = pd.DataFrame({
    'Name': data.columns,
    'Format': data.dtypes.values
})

In [193]:
data_dictionary['Type'] = np.where(data_dictionary['Format'] == 'float64', 'number',
                           np.where(data_dictionary['Format'] == 'bool', 'nominal',
                           np.where(data_dictionary['Name'].isin(['kohorte_jahreszeit', 'monat_jahreszeit']), 'nominal',
                           'ordinal')))

In [194]:
data_dictionary['Role'] = np.where(
    data_dictionary['Name'].isin(['umsatz_indexiert', 'monatlicher_umsatz_indexiert', 'umsatzanteil_kohorte']), 
    'Response', 
    'Predictor'
)

In [195]:
data_dictionary['Description'] = [
    'Hier wird gezeigt, in welchem Zeitraum seit offizieller Einführung des Programms die Kohorte entstanden ist. Ist der Wert hier 0 so ist die Kohorte entstanden, in dem Monat, in dem auch das Programm eingeführt wurde. Negative Werte resultieren aus Testzeiträumen, die dem Modell extra vermittelt werden müssen oder ganz aus dem Datensatz entfernt werden müssen.',
    'Der Monat sagt aus, in welchem Monat das Einkaufsverhalten einer Kohorte aufgenommen wurde.',
    'Der Jahreswert aus der Spalte "monat".',
    'Der Monatswert aus der Spalte "monat".',
    'Die Jahreszeit aus der Spalte "monat".',
    'Der Monat, an dem die Kohorte entstanden ist.',
    'Der Jahreswert aus der Spalte "kohorte".',
    'Der Monatswert aus der Spalte "kohorte".',
    'Die Jahreszeit aus der Spalte "kohorte".',
    'Hier wird eine Flag gesetzt, wenn der Monat der erste einer Kohorte ist. Hier ist der Wert der Spalte "monat" und der Spalte "kohorte" also gleich. Die Flag könnte für das Modell wichtig sein, da der erste Monat einer Kohorte sehr auffällig im Einkaufsverhalten ist und für das normale Verhalten nicht repräsentativ ist.',
    'Gibt den Zeitraum in Monaten an, wie lange die Kohorte schon exisitert. Beim Wert 0 ist die Kohorte gerade den ersten Monat aktiv.',
    'Gibt die Kohortengröße, bzw. die Kundenanzahl, der Kohorte an.',
    'Gibt die kumulierte Kohortengröße an.',
    'Zeigt, wie viele Kunden von der Gesamtkohorte im jeweiligen Monat aktiv waren.',
    'Gibt den Anteil an aktiven Kunden an der Kohortengröße an. Im ersten Monat der Kohorte liegt der Wert immer bei 100.',
    'Gibt den Umsatz der Kohorte im jeweiligen Monat an.',
    'Gibt den gesamten Monatsumsatz aller Kohorten zusammen an.',
    'Gibt den Umsatzanteil der einzelnen Kohorten am gesamten Monatsumsatz an.',
    'Gibt die Anzahl an generierten Bons der Kohorte im jeweiligen Monat an.',
    'Gibt den Abverkauf der Kohorte im jeweiligen Monat an.',
    'Gibt den genutzten Rabatt der Kohorte im jeweiligen Monat an.',
    'Gibt die durchschnittliche Anzahl der Besuche je Kunde der Kohorte im jeweiligen Monat an.',
    'Gibt den durchschnittlichen Umsatz je Einkauf der Kohorte im jeweiligen Monat an.',
    'Gibt den durchschnittlichen Abverkauf je Einkauf der Kohorte im jeweiligen Monat an.',
    'Gibt den durchschnittlichen Umsatz je Kunde der Kohorte im jeweiligen Monat an.',
    'Gibt den durchschnittlichen Abverkauf je Kunde der Kohorte im jeweiligen Monat an.',
    'Gibt den durchschnittlichen Rabatt je Kunde der Kohorte im jeweiligen Monat an.'
]

In [196]:
# Styler-Objekt verwenden, damit langer Beschreibungstext mit Zeilenumbrüchen dargestellt werden kann
def format_long_text(val): 
    '''
    Wenn der Text innerhalb einer Spalte länger als 30 Zeichen ist, wird entsprechend ein Zeilenumbruch eingefügt
    und die Spaltenbreite angepasst.
    '''
    if isinstance(val, str) and len(val) > 30: 
        return 'white-space: pre-wrap; width: 300px;' 
    else: return '' 
    
styled_data_dictionary = data_dictionary.style.map(format_long_text, subset=['Description'])
# Linksbündige Darstellung des Texts
styled_data_dictionary = styled_data_dictionary.set_properties(**{'text-align': 'left'})

In [197]:
styled_data_dictionary

Unnamed: 0,Name,Format,Type,Role,Description
0,monate_seit_einfuehrung_programm_kohorte,object,ordinal,Predictor,"Hier wird gezeigt, in welchem Zeitraum seit offizieller Einführung des Programms die Kohorte entstanden ist. Ist der Wert hier 0 so ist die Kohorte entstanden, in dem Monat, in dem auch das Programm eingeführt wurde. Negative Werte resultieren aus Testzeiträumen, die dem Modell extra vermittelt werden müssen oder ganz aus dem Datensatz entfernt werden müssen."
1,monat,object,ordinal,Predictor,"Der Monat sagt aus, in welchem Monat das Einkaufsverhalten einer Kohorte aufgenommen wurde."
2,monat_jahr,object,ordinal,Predictor,"Der Jahreswert aus der Spalte ""monat""."
3,monat_monat,object,ordinal,Predictor,"Der Monatswert aus der Spalte ""monat""."
4,monat_jahreszeit,object,nominal,Predictor,"Die Jahreszeit aus der Spalte ""monat""."
5,kohorte,object,ordinal,Predictor,"Der Monat, an dem die Kohorte entstanden ist."
6,kohorte_jahr,object,ordinal,Predictor,"Der Jahreswert aus der Spalte ""kohorte""."
7,kohorte_monat,object,ordinal,Predictor,"Der Monatswert aus der Spalte ""kohorte""."
8,kohorte_jahreszeit,object,nominal,Predictor,"Die Jahreszeit aus der Spalte ""kohorte""."
9,erster_monat_kohorte_fg,bool,nominal,Predictor,"Hier wird eine Flag gesetzt, wenn der Monat der erste einer Kohorte ist. Hier ist der Wert der Spalte ""monat"" und der Spalte ""kohorte"" also gleich. Die Flag könnte für das Modell wichtig sein, da der erste Monat einer Kohorte sehr auffällig im Einkaufsverhalten ist und für das normale Verhalten nicht repräsentativ ist."
