# Report

## Introduction and data

### Subject Introduction

Der Vertrieb und Verkauf von Waren über das Internet ist zu einem wichtigen Vertriebskanal der modernen, digitalisierten Wirtschaft geworden. Diese Entwicklung wurde durch Covid19-Pandemie weiter verstärkt. So stiegen in Deutschland die im B2C E-Commerce erzielten Umsätze im Jahr 2020 gegenüber dem Vorjahr um fast 23% auf knapp 73 Milliarden Euro (Statista, 2022a). Auch innerhalb des B2B E-Commerce wird in den kommenden Jahren ein enormes Umsatzwachstum erwartet, in den USA wird der Umsatz im Jahr 2025 auf 2,5 Billionen steigen, dies entspricht einer Wachstumsrate von rund 11% p.a. (Statista, 2022b).

Rabe, L. (2022, 28. November). E-Commerce in Deutschland: Daten und Fakten zum boomenden Onlinegeschäft. Statista. https://de.statista.com/themen/247/e-commerce/



### Project Motivation

Während die Umsätze im E-Commerce Jahr für Jahr steigen, sind die Margen im Onlinehandel für einen Großteil der Händler marginal. Dennoch müssen Unternehmen hohe Investitionen in das Online-Geschäft tätigen, um Umsätze im stark umkämpften Online-Geschäft zu erzielen (Alvarez & Marsal, 2021). Damit sich diese nachhaltig für das Unternehmen lohnen, müssen langfristig verlässliche Gewinne erwirtschaftet werden. Dieses Ziel kann nur erreicht werden, wenn externe Risiken für das Unternehmen minimiert und intern strategisch richtige Entscheidungen zur Portfolioerweiterung getroffen werden. Im folgenden soll ein Datensatz, bestehend aus Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Königreich analysiert werden, um Abhängigkeiten von bestimmten 1.) Ländern oder Regionen 2) Kunden 3) Produkten bzw. Produktgruppen zu identifizieren und 4) Potenziale für Umsatzwachstum / Gewinnsteigerung zu entdecken.



### General Research Question

Wie können Abhängigkeiten für den E-Commerce Shop langfristig reduziert werden und welche Maßnahmen können zur langfristigen Umsatzmaximierung getroffen werden?



### Data Description

Der Datensatz zeigt Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Koenigreich. Die Daten wurden zwischen dem 01.12.2010 und dem 09.12.2011 erfasst.

Jeder Beobachtungswert stellt innerhalb des Datensatzes eine Transaktion dar, wobei mehreren Transaktionen eine Rechnung(snummer) zugeteilt werden kann.

Der Datensatz enthaelt in der ursprünglichen Version 541909 Beobachtungswerte und 8 Spalten.

Es wurden keine Informationen dazu bereitgestellt, wie die Daten erhoben wurden. Es wird davon ausgegangen, dass sie aus dem CRM oder E-Commerce Backend des Shops stammen.



### Data cleaning process

Um die Daten zu säubern und für die weitere Verarbeitung vorzubereiten, mussten einige Anpassungen vorgenommen werden. Neben den offensichlichen Anpassungen wie dem Entfernen von fehlenden Werten und Leerzeilen wurden Zeilen entfernt, in welchen die Produktnummer darauf hinwies, dass es sich nicht um eine relevante Transaktion, sondern beispielsweise um Testtransaktionen oder Postsendungen handelt. Außerdem wurde der Gesamtpreis pro Transaktion als weitere Variable hinzugefügt. Darüber hinaus wurden Zeilen ohne Kundennummer oder Beschreibung entfernt, da dies auf eine nicht korrekte Transaktion hinweist. Außerdem wurden Ausreißer mit ungewöhnlich hohen Warenkorbwerten entfernt.

### Data Dictionary / Definition of key variables

*Das Skalenniveau ist detaillierter angegeben. Statt "Numeric" wurde die Unterteilung zwischen intervall- und verhaeltnisskaliert verwendet.

| Spaltenname  | Beschreibung  | Skalenniveau | Format |
|---|---|---|---|
|InvoiceNo | Rechnungsnummer, 6-stellige Nummer, welche jeder Transaktion eindeutig zuordnet. <br>Falls die Nummer ein "c" enthält wurde die Transaktion storniert. | Nominal | object |
|StockCode | Produktnummer, 5-stellige Nummer, welche jedem einzelnem Produkt eindeutig zugeordnet ist. | Nominal | object |
|Description | Beschreibung des Produkts. | Nominal | object |
|Quantity | Menge der einzelnen Produkte pro Transaktion. | Verhaeltnis | int |
|InvoiceDate | Uhrzeit und Datum der Rechnung. | Intervall | date |
|UnitPrice | Preis pro Produkt. | Verhaeltnis | float |
|CustomerID | Kundennummer, 5-stellige Nummer, welche je einem Kunden eindeutig zugeordnet ist. | Nominal | object |
|Country | Name des Landes in welchem der Kunde ansässig ist. | Nominal | category |
|TotalPrice | Produkt aus Quantity und UnitPrice. | Verhaeltnis | float |

In [38]:
# Bibliotheken importieren
import pandas as pd
import altair as alt
from pathlib import Path
import numpy as np
# CSV Einlesen 
parent_path = str(Path().resolve().parent) + "/"
data_path = "data/"
processed_path = "processed/"
processed_file = "processed_data.csv"
df = pd.read_csv(parent_path + data_path + processed_path + processed_file, encoding= 'unicode_escape')
# Weitere Korrekturen
# Doppelte Werte löschen
df = df.drop_duplicates()
# Fehlende Werte auslesen
df.isna().sum()
# Weitere fehlende Werte löschen
df = df.dropna(subset=['CustomerID'])
df = df.dropna(subset=['Description'])


#### H1: Die Einnahmen des Online-Shops werden maßgeblich vom Land beeinflusst, in dem das Unternehmen ansässig ist.

##### Chart Beschreibung
Um die Response Variable für die Hypothese H1 zu visualisieren, werden die im jeweiligen Land erzielten Umsätze für die Top 10 Ländern gezeigt. Als Visualisierungsart wird ein Säulendiagramm verwendet, da sich so die Verhältnismäßigkeiten gut erkennen lassen. Durch das Eliminieren der horizontalen Gridlines wird Clutter minimiert. Der Fokus wird durch die Sortierung der Balken von lang nach kurz auf das für die Hypothese relevante Hauptmerkmal gelenkt. Es wurde zugunsten des Designs ein aussagekräftiger Titel sowie Untertitel gewählt und das Design bewusst schlicht gehalten.

In [55]:
# Gesamtumsatz berechnen
gesamtumsatz = df['TotalPrice'].sum()
# Berechnung des Gesamtumsatzes für jedes Land
country_totals = df.groupby('Country')['TotalPrice'].sum()

# Berechnung des prozentualen Anteils am Gesamtumsatz für jedes Land
country_percentages = country_totals / gesamtumsatz * 100

# Erstellen eines DataFrame mit den Spalten Land und Anteil am Gesamtumsatz
df_country_percentages = pd.DataFrame({'Country': country_percentages.index, 'Percentage': country_percentages.values}).sort_values(by='Percentage', ascending=False).head(10) 

# Visualisierung des prozentualen Anteils am Gesamtumsatz für die top 10 Länder
alt.Chart(df_country_percentages).mark_bar().encode(
    x=alt.X('Country', sort='-y', axis=alt.Axis(title='Country',titleAnchor='start',grid=False)),
    y=alt.Y('Percentage',  axis=alt.Axis(title='Percentage of total turnover', labelAngle=0, titleAnchor='end',grid=False)),
    color=alt.condition(
        alt.FieldOneOfPredicate("Country", ["United Kingdom"]),
        alt.value("darkred"),
        alt.value("grey")
    ),
).properties(
    title='Revenue by Country',
    width=400,
    height=300
).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=22,
    font="Arial",
    color="black",
    anchor="start"
).configure_axis(
    labelFont="Arial",
    titleFont="Arial",
    labelFontSize=14,
    titleFontSize=12,
    titleFontWeight="normal",
    labelColor="grey",
    titleColor="grey"
).properties(
    title={"text":["Turnover by country"], "subtitle":["How often orders were placed by country (percentage)"]},
)


#### H3: Die Wahrscheinlichkeit, dass ein Kunde ein Produkt zurückgibt, sinkt mit der Anzahl der getätigten Käufe.

##### Chart Beschreibung
Die Response Variable für Hypothese H3 (Rückgabewahrscheinlichkeit relativ zur Anzahl der getätigten Käufe je Kunde) wird durch ein Streudiagram visualisiert, da sich so die Beziehung zwischen den beiden Variablen visuell gut darstellen lässt. Clutter wurde wieder so weit wie möglich eliminiert. Hier ist ein Untertitel für das Verständnis nicht vonnöten. Der Titel ist für den Fokus des Betrachters ausreichend. Das Design ist schlicht und kommt mit wenigen Farben aus.

In [56]:
# Erstellen eines df, der Kunden nach ihrer CustomerID gruppiert Anzahl der Käufe und Rückgaben zählen
df_purchases_returns = df.groupby(['CustomerID']).agg({'InvoiceNo': 'count'})
df_purchases_returns['Total Returns'] = df[df['InvoiceNo'].str.contains('C')].groupby(['CustomerID'])['InvoiceNo'].count()

# Umbennenung
df_purchases_returns.rename(columns={'InvoiceNo': 'Total Purchases'}, inplace=True)

# Rückgabewahrscheinlichkeit berechnen
df_purchases_returns['Probability of Return'] = df_purchases_returns['Total Returns'] / df_purchases_returns['Total Purchases']

# Visualisierung der Beziehung zwischen der Anzahl der getätigten Käufe und der Rückgabewahrscheinlichkeit
chart = alt.Chart(df_purchases_returns).mark_circle().encode(
    x=alt.X('Total Purchases', axis=alt.Axis(title='Total purchases',grid=False,titleAnchor='start')),
    y=alt.Y('Probability of Return', axis=alt.Axis(title='Probability of return',grid=False,titleAnchor='end')),
    color=alt.condition(
        alt.FieldOneOfPredicate("Probability of Return", [""]),
        alt.value("darkred"),
        alt.value("grey")
    ),
    tooltip = ['Total Purchases', 'Probability of Return']
).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=22,
    font="Arial",
    color="black",
    anchor="start"
).configure_axis(
    labelFont="Arial",
    titleFont="Arial",
    labelFontSize=14,
    titleFontSize=12,
    titleFontWeight="normal",
    labelColor="grey",
    titleColor="grey"
).properties(
    title={"text":["Return probability vs. number of purchases made"], "subtitle":[""]},
)

# Chart darstellen
chart

## Visualizations

> REMOVE THE FOLLOWING TEXT

This section includes a brief description of your visualization creation process.

Explain the reasoning for the type of visualization you're using and what other types you considered. 

Additionally, show how you arrived at the final visualization by describing the plot selection process, variable transformations (if needed), and any other relevant considerations that were part of the visualization creation process.

# H3 

In [33]:
purchases = df[~df['InvoiceNo'].str.contains('C')]
returns = df[df['InvoiceNo'].str.contains('C')]
# Delet the numbners of returns out of the purchases
purchases = purchases[~purchases['InvoiceNo'].isin(returns['InvoiceNo'])]
purchases_count = purchases.shape[0]
returns_count = returns.shape[0]
# Create a dataframe with the counts
data = pd.DataFrame({'Category': ['Purchases', 'Returns'], 'Count': [purchases_count, returns_count]})



# Chart Beschreibung

Um einen klaren Fokus zu schaffen, habe ich den Rahmen des Diagramms entfernt und die Legende durch den Text im Chart ersetzt. Das besonders hervorgehobene Stück ist durch ein leuchtendes Rot hervorgehoben und zieht so die Aufmerksamkeit des Betrachters auf sich. Dabei habe ich bei der Gestaltung auf Einfachheit geachtet und das einheitliche Grau-Rot Farbschema verwendet.

In [34]:
chart = alt.Chart(data).encode(
    theta=alt.Theta("Count:Q"),
    color=alt.condition(
        alt.FieldOneOfPredicate("Category", ["Returns"]),
        alt.value("darkred"),     
        alt.value("grey")     
    )
).properties(
    title={"text":["Distribution of returns versus keept purchases"], "subtitle":["In the period from 01.12.2010 to 30.11.2011"]},
    width=550,
    height=350
)

pie = chart.mark_arc(outerRadius=130,angle=270)

text_returns = alt.Chart().mark_text(
    align="left",
    baseline="bottom",
    fontSize=14,
    fontWeight=700,
    color="darkred"
).encode(
    x=alt.value(55),  # pixels from left
    y=alt.value(173),  # pixels from top
    text=alt.value("Returns: 2%")
)

text_purchases = alt.Chart().mark_text(
    align="left",
    baseline="bottom",
    fontSize=14,
    fontWeight=700,
    color="grey"
).encode(
    x=alt.value(410),  # pixels from left
    y=alt.value(173),  # pixels from top
    text=alt.value("Purchases: 98%")
)

alt.layer(pie, text_returns, text_purchases).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=22,
    font="Arial",
    color="black",
    anchor="start"
).configure_axis(
    labelFont="Arial",
    titleFont="Arial",
    labelFontSize=14,
    titleFontSize=16
)

# Conclusion 

Eine Retourenrate von 2% ist in der Welt des Online-Handels relativ gering und hat normalerweise keinen signifikanten Einfluss auf das Geschäft. In der Tat ist eine geringe Retourenrate ein Indikator für eine hohe Kundenzufriedenheit und eine effektive Produktpräsentation. Es ist wichtig zu beachten, dass jede Branche unterschiedliche Retourenraten hat und ein Vergleich zu anderen Online-Händlern sinnvoll sein kann. Trotzdem bleibt es wichtig, die Ursachen für jede Rücksendung zu überwachen und zu analysieren, um kontinuierlich Verbesserungen vornehmen zu können.

In [35]:
#df drop Dexcription, quantity, InvoiceDate, UnitPrice ,Country	,TotalPrice
df = df.drop(['Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'Country', 'TotalPrice'], axis=1)
#CustomerID to int
df['CustomerID'] = df['CustomerID'].astype(int)
#Add a cloum with Retunrned and ad a 1 if in InvoiceNo is a C
df['Returned'] = np.where(df['InvoiceNo'].str.contains('C'), 1, 0)
df['Bought'] = np.where(df['InvoiceNo'].str.contains('C'), 0, 1)

#Group by CustomerID and sum the Bought and Returned
df = df.groupby(['CustomerID']).agg({'Bought': 'sum', 'Returned': 'sum'})
#drop all rows where Retundes is bigger than Bought
df = df[df['Returned'] <= df['Bought']]
df['ReturnRate'] =( df['Returned'] / df['Bought'])*100
#df drop rows where Returned is 0
df = df[df['Returned'] != 0]




# Chart Beschreibung

Um einen klaren Fokus auf die Datenpunkte zu schaffen, habe ich die Achsen leicht ausgegraut und die Labels nah an den Achsen positioniert, um zu verdeutlichen, dass sie zusammengehören. Durch die Entfernung des Rahmens und das Ausblenden des Grids wird die Ablenkung minimiert und der Betrachter kann sich voll und ganz auf die Datenpunkte konzentrieren. Dies erleichtert das Verständnis der Daten und verbessert die visuelle Übersicht.

In [36]:
chart5 = alt.Chart(df).mark_circle().encode(
    x=alt.X('Bought:Q',
             axis=alt.Axis(title='Purchases',
                           titleAnchor='start',
                           labelAngle=0,
                           grid=False)
        ),
    y=alt.Y('ReturnRate:Q',
            axis=alt.Axis(title='Return Rate',
                          titleAnchor='end',
                          labelAngle=0,
                          grid=False,)
                          ),
    color=alt.condition(
        alt.FieldOneOfPredicate("Purchases", [""]),
        alt.value("darkred"),
        alt.value("grey")
    ),
).properties(
    title={"text":["Returnrate compared to number of purchases"], "subtitle":["In the period from 01.12.2010 to 30.11.2011"] },
    width=500,
    height=350
)

alt.layer(chart5).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=22,
    font="Arial",
    color="black",
    anchor="start"
).configure_axis(
    labelFont="Arial",
    titleFont="Arial",
    labelFontSize=14,
    titleFontSize=12,
    titleFontWeight="normal",
    labelColor="grey",
    titleColor="grey"
).transform_filter(
    (alt.datum.Bought < 500) 
)

# Conclusion 
Zusammenfassend lässt sich sagen, dass es einen negativen Zusammenhang zwischen der Anzahl der Einkäufe eines Kunden und seiner Returnrate gibt. Je mehr Einkäufe ein Kunde getätigt hat, desto niedriger ist seine Returnrate.

# Empfehlung

Eine Empfehlung für den Online-Shop könnte sein, Kundenbelohnungsprogramme oder Rabatte für treue Kunden anzubieten, um ihre Bindung an den Shop zu stärken und ihre Returnrate zu verringern. Eine gute Kundenbetreuung kann ebenfalls dazu beitragen, die Zufriedenheit der Kunden zu erhöhen und somit die Returnrate zu verringern. Generell ist die Retunrate des Onlineshops sehr gering mit 2 % im Vergleich mit zu dem Durchschnitt von 10-15% (vgl. Repko 2022). Deshalb sollte die weitere Verringerung nicht der Hauptfokus des Online-Shops sein.

## Conclusion + recommended action


> REMOVE THE FOLLOWING TEXT

In this section you'll include a summary of what you have learned about your (research) question along with (statistical) arguments supporting your conclusions.

In addition, discuss the limitations of your analysis and provide suggestions on ways the analysis could be improved.

Any potential issues pertaining to the reliability and validity of your data and appropriateness of the statistical analysis should also be discussed here.

Lastly, this section will include your recommended action.