# Topic ideas


## Analyse des Kohortenverlaufs im Loyalty-Programm

### Data source

Die Daten wurden im Rahmen des initialen Business Case für das Loyalty Program von Lidl mit Hilfe einer Consulting erhoben. Für das Projekt wurden die tatsächlichen Daten verfälscht.


### Data characteristics

Der Datensatz zeigt den Verlauf einzelner Kohorten, die aus Neukunden eines Loyalty-Programms bestehen. Eine Kohorte umfasst alle Kunden, die innerhalb eines Kalendermonats dem Programm beitreten. Durch die eindeutige Zuordnung der Kunden-IDs ist es möglich, individuelles Verhalten über einen längeren Zeitraum hinweg zu verfolgen. Dies erlaubt eine tiefgehende Untersuchung des Kohortenverhaltens im Zeitverlauf.

Die Analyse umfasst mehrere Dimensionen, die über die App erfasst werden, wie das Einkaufsverhalten der Kunden, dokumentiert durch Kassenvorgänge und den sichtbaren Warenkorb. Auf dieser Grundlage können zentrale Kennzahlen wie:

- **Abverkauf**  
- **Umsatz**  
- **Genutzte Rabatte**  
- **Anzahl der Einkäufe je Kundengruppe**

ermittelt werden.

Die zeitliche Komponente spielt eine Schlüsselrolle bei der Analyse und umfasst folgende Aspekte:

- **Zeitpunkt der Neukundengewinnung**: Wann im Verlauf des Jahres ein Kunde dem Programm beigetreten ist. Dies kann durch saisonal verstärktes Marketing beeinflusst werden. 
- **Registrierungszeitraum des Kundenverhaltens**: In welchem Monat spezifisches Kundenverhalten gemessen wird, da ein Unterschied im Verhalten durch das saisonal bedingte Marketing erwartet wird. 
- **Zeit seit Einführung des Programms**: Wie lange das Loyalty-Programm bereits besteht und wie dies das Kundenverhalten beeinflusst.  
- **Zeit seit Kohortenbildung**: Die Dauer seit dem Beitritt der Kunden zu ihrer jeweiligen Kohorte.

**Zusammenhang mit der Technologieakzeptanzkurve**  
Diese Dimensionen sind eng mit dem Modell der **Technologieakzeptanzkurve** verknüpft. Das Modell zeigt auf, dass verschiedene Kundengruppen – beispielsweise Innovatoren, frühe und späte Mehrheit – zu unterschiedlichen Zeitpunkten neue Technologien oder Programme adaptieren. Dies führt zu unterschiedlichen Verhaltensmustern und Adoptionsebenen.

**Customer Lifecycle und Kundenverlust**  
Ein zentraler Aspekt ist die Betrachtung des **Customer Lifecycle**. Zwischen der Akquise- und der Bindungsphase tritt häufig ein signifikanter Kundenverlust auf. Nicht alle Neukunden entwickeln sich zu langfristig loyalen Teilnehmern des Programms. Besonders die **Anfangsphase einer Kohorte** ist entscheidend, da in dieser Zeit die meisten Kunden abspringen oder ihr Engagement mit dem Programm festigen.

**Marketingaktivitäten und deren Einfluss**  
Die Marketingmaßnahmen des Loyalty-Programms sind eng mit den Strategien der jeweiligen Filialen verknüpft. Diese Aktivitäten beeinflussen sowohl die Gewinnung von Neukunden als auch die Aktivität und Bindung bestehender Kunden. 

Der Datensatz umfasst also jede Kohorte mit einem eigenen Monatsverlauf mit den genannten Kennzahlen sowie mehrere Spalten hinsichtlich der zeitlichen Dimension.  


### Research question

Das Ziel des Loyalty-Programms besteht darin, das Kundenverhalten in den Filialen so transparent wie möglich zu machen. Die Transparenz wird gemessen als der Anteil des Umsatzes, der durch das Programm sichtbar gemacht wird, am gesamten Filialumsatz. Je höher dieser Umsatzanteil, desto besser kann das Kundenverhalten nachvollzogen werden.

Um den zu erwartenden Umsatzanteil des Loyalty-Programms zu untersuchen, wird die folgende Forschungsfrage gestellt:  
**„Wie wird sich der monatliche Umsatz entwickeln?“**

Zur Beantwortung dieser Frage wird der monatliche Umsatz innerhalb des Datensatzes detailliert analysiert und auf die einzelnen Kohorten heruntergebrochen. Ziel ist es, den Beitrag jeder Kohorte zum Gesamtumsatz zu ermitteln. Dabei fungiert der **Umsatz** als zu erklärende Variable.

Es wird erwartet, dass die verschiedenen Kundengruppen (repräsentiert durch die Kohorten) unterschiedlich profitabel sind. Die Charakteristika der einzelnen Kohorten sollen dabei Aufschluss über die Umsatzentwicklung geben. Innerhalb des Projekts wird daher untersucht, inwiefern die vorliegenden Daten genutzt werden können, um ein Regressionsmodell zu entwickeln, das den durch das Programm erfassten monatlichen Umsatz vorhersagt.

### Overview of data


In [1]:
import pandas as pd

path_data = 'https://raw.githubusercontent.com/mm391-030401/project/refs/heads/main/data/raw/'
file_data = 'data.csv'

data = pd.read_csv(path_data + file_data, sep=',', encoding='utf-8')

In [2]:
data.describe(include = 'all')

Unnamed: 0,MONATE_SEIT_EINFUEHRUNG_PROGRAMM_KOHORTE,MONAT,KOHORTE,ERSTER_MONAT_KOHORTE_FG,MONATE_SEIT_EXISTENZ_KOHORTE,KOHORTENGROESSE_INDEXIERT,IDENTIFIZIERTE_KUNDEN_INDEXIERT,RABATT_INDEXIERT
count,703.0,703.0,703.0,703.0,703.0,703.0,703.0,703.0
mean,10.0,201620.517781,201516.887624,0.052632,12.0,47.926743,28.301565,99.71909
std,8.838049,78.962842,81.546939,0.223456,8.838049,77.462511,53.452328,257.969362
min,-2.0,201408.0,201408.0,0.0,0.0,0.41,0.31,2.26
25%,3.0,201602.0,201501.0,0.0,5.0,23.11,10.89,21.5
50%,8.0,201610.0,201506.0,0.0,10.0,24.85,12.32,33.02
75%,16.0,201703.0,201602.0,0.0,18.0,33.93,21.215,61.045
max,34.0,201708.0,201708.0,1.0,36.0,375.13,375.13,2570.59
