# Project proposal

---

Group name: Gruppe A | Ardit Fazliu, Lukas Laib, Marcus Wild

---


## Introduction

The introduction section includes

-   an introduction to the subject matter you're investigating
-   the motivation for your question (citing any relevant literature/study results ...)
-   the general (research) question you wish to explore
-   your hypotheses regarding the (research) question of interest.

Der Vertrieb und Verkauf von Waren über das Internet ist zu einem wichtigen Vertriebskanal der modernen, digitalisierten Wirtschaft geworden. Diese Entwicklung wurde durch Covid19-Pandemie weiter verstärkt. So stiegen in Deutschland die im B2C E-Commerce erzielten Umsätze im Jahr 2020 gegenüber dem Vorjahr um fast 23% auf knapp 73 Milliarden Euro (Statista, 2022a). Auch innerhalb des B2B E-Commerce wird in den kommenden Jahren ein enormes Umsatzwachstum erwartet, in den USA wird der Umsatz im Jahr 2025 auf 2,5 Billionen steigen, dies entspricht einer Wachstumsrate von rund 11% p.a. (Statista, 2022b). 

### Motivation

Während die Umsätze im E-Commerce Jahr für Jahr steigen, sind die Margen im Onlinehandel für einen Großteil der Händler marginal. Dennoch müssen Unternehmen hohe Investitionen in das Online-Geschäft tätigen, um Umsätze im stark umkämpften Online-Geschäft zu erzielen (Alvarez & Marsal, 2021). Damit sich diese nachhaltig für das Unternehmen lohnen, müssen langfristig verlässliche Gewinne erwirtschaftet werden. Dieses Ziel kann nur erreicht werden, wenn externe Risiken für das Unternehmen minimiert und intern strategisch richtige Entscheidungen zur Portfolioerweiterung getroffen werden. Im folgenden soll ein Datensatz, bestehend aus Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Königreich analysiert werden, um Abhängigkeiten von bestimmten  1.) Ländern oder Regionen 2) Kunden 3) Produkten bzw. Produktgruppen zu identifizieren und Potenziale für Umsatzwachstum zu entdecken.

### General Research Question

**Wie können Abhängigkeiten für den E-Commerce Shop langfristig reduziert werden und welche Maßnahmen können zur langfristigen Umsatzmaximierung getroffen werden?**

### Hypotheses

**H1: Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.** <br>

**H2: Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.** <br>

**H3: Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%.**<br>

**H4: Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert.** <br>

**H5: Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte.** <br>

**H6: Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate.**

**Datenwörterbuch**

| Feld- bezeichnung | Datentyp  | Datenformat      | Feldgröße | Beschreibung                                                                                                                                           | Beispiel                           |
|-------------------|-----------|------------------|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------|
| InvoiceNo         | Nominal   | NNNNNN           | 6         | Rechnungsnummer: Eine Nummer, die jeder Transaktion eindeutig zugeordnet ist. Wenn diese mit einem "c" beginnt, handelt es sich um eine Stornierung.   | 536365                             |
| StockCode         | Nominal   | NNNNN(b)         | 5         | Artikel-Code: Eine Nummer, die jedem einzelnen Produkt eindeutig zugeordnet ist. Kann einen Buchstaben am Ende enthalten, der eine Variation markiert. | 85123A                             |
| Description       | Nominal   |                  | 0-35      | Name des Artikels.                                                                                                                                     | WHITE HANGING HEART T-LIGHT HOLDER |
| Quantity          | Numerisch | NNNNN            | 1-5       | Die Mengen der einzelnen Artikel je Transaktion.                                                                                                       | 6                                  |
| InvoiceDate       | Numerisch | DD/MM/YYYY HH:MM | 20        | Datum und Uhrzeit der Rechnung.                                                                                                                        | 01.12.2010  08:26                  |
| UnitPrice         | Numerisch | NNNNN,NN         | 0-8       | Preis pro Einheit in Pfund Sterling.                                                                                                                   | 2,55                               |
| CustomerID        | Nominal   | NNNNN            | 0-5       | Kundennummer: Eine Nummer, die jedem Kunden eindeutig zugeordnet ist.                                                                                  | 17850                              |
| Country           | Nominal   |                  | 3-20      | Der Name des Landes, in dem ein Kunde wohnt.                                                                                                           | United Kingdom                     |


## Data description

In this section, you will describe the data set you wish to explore. This includes

-   description of the observations in the data set,
-   description of how the data was originally collected (not how you found the data but how the original curator of the data collected it).

### Data characterisitcs

Jeder Beobachtungswert stellt innerhalb des Datensatzes eine Transaktion dar, wobei auch mehrere Transaktionen einer Rechnung(snummer) zugeteilt werden könen.

Der Datensatz enthaelt 541909 Beobachtungswerte mit 8 Spalten.

### Data collection

Der Datensatz zeigt Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Koenigreich. Die Daten wurden zwischen dem 01.12.2010 und dem 09.12.2011 erfasst.

Mithilfe des UCI Machine Learning Repository wurde der Datensatz von Dr Daqing Chen zur Verfuegung gestellt.<br>
[Quelle:](https://archive.ics.uci.edu/ml/datasets/online+retail#) Dr Daqing Chen, Director: Public Analytics group. chend@lsbu.ac.uk, School of Engineering, London South Bank University, London SE1 0AA, UK.

## Analysis approach

In this section, you will provide a brief overview of your analysis approach. This includes:

-   Description of the relevant variable.
-   Exploratory data analysis and summary statistics for the relevant variables.
-   The visualization types (what kind of visualizations you will you use)

In [189]:
# Setup
# Import relevanter Python-Bibliotheken

import pandas as pd
import altair as alt

In [190]:
# Import des Datensatzes
raw_data = "https://raw.githubusercontent.com/ArditFazliu/Analytics-und-Data-Storytelling/main/data/raw_data.csv" 
df = pd.read_csv(raw_data, encoding= 'unicode_escape')

In [191]:
# Erstellen einer neuen Variable, um den gesamten Preis pro Transaktion zu ermitteln
df["TotalPrice"] = df["Quantity"] * df["UnitPrice"]

In [192]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
 8   TotalPrice   541909 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 37.2+ MB


#### Anpassung der Datentypen

In [193]:
# Anpassung des Datums
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"], format="%m/%d/%Y %H:%M")

In [194]:
# Anpassung der kategorialen Variablen
df = df.astype(
    {
        "InvoiceNo": "category",
        "StockCode": "category",
        "CustomerID": "category",
        "Country": "category"

})

#### Fehlende Werte

In [195]:
#Fehlende Werte 
df.isna().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
TotalPrice          0
dtype: int64

In [196]:
# Fehlende Werte in Prozent
round(df.isna().sum() * 100 / len(df),2)

InvoiceNo       0.00
StockCode       0.00
Description     0.27
Quantity        0.00
InvoiceDate     0.00
UnitPrice       0.00
CustomerID     24.93
Country         0.00
TotalPrice      0.00
dtype: float64

In [197]:
df.dropna()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.30
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.00
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
...,...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France,10.20
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France,12.60
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60


In [198]:
non_stockcode = []
for s in df["StockCode"]:
    if any(i.isdigit() for i in s) == False:
        non_stockcode.append(s)

In [199]:
pd.value_counts(non_stockcode)

POST            1256
DOT              710
M                571
D                 77
S                 63
BANK CHARGES      37
AMAZONFEE         34
CRUK              16
DCGSSGIRL         13
DCGSSBOY          11
PADS               4
B                  3
m                  1
dtype: int64

In [200]:
set_stockcode = set(non_stockcode)
df = df[~df["StockCode"].isin(set_stockcode)]

### Description of the relevant variables

- **InvoiceNo:** Rechnungsnummer, welche jeder Transaktion eindeutig zuordnet.
- **StockCode:** Produktnummer, welche jedem Produkt eindeutig zuordnet.
- **Description:** Beschreibung des Produkts.
- **Quantity:** Menge der bestellten Produkte pro Transaktion.
- **InvoiceDate:** Uhrzeit und Datum der Rechnung.
- **UnitPrice:** Preis pro Produkt.
- **CustomerID:** Kundennummer, welche jedem Kunden eindeutig zuordnet.
- **Country:** Name des Landes in welchem der Kunde ansässig ist.
- **TotalPrice:** Gesamtwert der Transaktion.
<br><br>

| Nummer | (Alternativ-)Hypothese  | Relevante Variablen |
|---|---|---|
| H1 | Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt. | CustomerID, TotalPrice |
| H2 | Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt. | StockCode, TotalPrice |
| H3 | Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%. | Country, TotalPrice |
| H4 | Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert. | Country, InvoiceNo, TotalPrice |
| H5 | Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte. | InvoiceDate, StockCode |
| H6 | Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate. | InvoiceNo, StockCode, TotalPrice |

### Exploratory data analysis and summary statistics for the relevant variables

#### EDA - Explorative data analysis
Im folgenden wird die explorative Datenanalyse für jede Hypothese durchgeführt.

#### H1: Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.

In [206]:
df_sales = df[df["Quantity"] > 0]

In [207]:
# Filter nach den umsatzstärksten Kunden
df_plot = df_sales.groupby("CustomerID").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["CustomerID"] = df_plot.index

# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="Umsatz", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("CustomerID",
            sort="-x", 
            axis=alt.Axis(title = "Kundennummer",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärkste Kunden",
    width=400,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [208]:
# Umsatz der 75 umsatzstärksten Kunden
df_plot = df_sales.groupby("CustomerID").sum().sort_values(["TotalPrice"], ascending=False)[:75]
df_plot["CustomerID"] = df_plot.index

# Visualisierung der Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach dem Umsatz
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice:Q",
            bin=alt.BinParams(maxbins=20),
            axis=alt.Axis(title="Umsatz pro Kunde", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("count()",
            axis=alt.Axis(title = "Anzahl an Kunden",
                          titleAnchor="middle",
                          grid=False))
).properties(
    title="Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach Umsatz",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H2: Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.

In [209]:
# Filter nach den umsatzstärksten Produkten
df_plot = df_sales.groupby("StockCode").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["StockCode"] = df_plot.index

# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="Umsatz", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("StockCode",
            sort="-x", 
            axis=alt.Axis(title = "Produktnummer",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärkste Produkte",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [210]:
# Umsatz der 75 umsatzstärksten Produkte
df_plot = df_sales.groupby("StockCode").sum().sort_values(["TotalPrice"], ascending=False)[:75]
df_plot["StockCode"] = df_plot.index

# Visualisierung der Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach dem Umsatz
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice:Q",
            bin=alt.BinParams(maxbins=20),
            axis=alt.Axis(title="Umsatz", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("count()",
            axis=alt.Axis(title = "Anzahl an Produkten",
                          titleAnchor="middle",
                          grid=False))
).properties(
    title="Häufigkeitsverteilung der 75 umsatzstärksten Produkte",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H3: Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%.

In [211]:
# Filter nach den umsatzstärksten Produkten
df_sales = df_sales[~df_sales["StockCode"].isin(set_stockcode)]
df_plot = df_sales.groupby("Country").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["Country"] = df_plot.index


# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("Country",
            sort="-x", 
            axis=alt.Axis(title = "Land",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärksten Länder",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [212]:
# Umsatz der Länder
df_plot = df_sales.groupby("Country").sum().sort_values(["TotalPrice"], ascending=False)[:75]
df_plot["Country"] = df_plot.index

# Visualisierung der Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach dem Umsatz
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice:Q",
            bin=alt.BinParams(maxbins=60),
            axis=alt.Axis(title="Umsatz", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("count()",
            axis=alt.Axis(title = "Anzahl an Ländern",
                          titleAnchor="middle",
                          grid=False))
).properties(
    title="Häufigkeitsverteilung der Absatzländer nach Umsatz",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H4: Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert.

In [213]:
#Create a df that sums all TotalPrice grouped by InvoiceNo and Country
df_plot = df_sales.groupby(["Country"]).sum().sort_values(["TotalPrice"], ascending=False)
#Create a df that counts all InvoiceNo per Country
df_plot2 = df_sales.groupby(["Country"]).count().sort_values(["InvoiceNo"], ascending=False)
#Create a data frame with a column that divides the TotalPrice by the InvoiceNo
df_plot["TotalPrice/InvoiceNo"] = df_plot["TotalPrice"]/df_plot2["InvoiceNo"]
df_plot = df_plot.sort_values("TotalPrice/InvoiceNo", ascending=False)[:10]


In [214]:
df_plot["Country"]= df_plot.index

In [215]:
#Create a altair bar chart from df_plot that shows the top 10 countries with the highest average TotalPrice per InvoiceNo
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice/InvoiceNo",
            axis=alt.Axis(title="Warenkorbwert",
                            labelAngle=0,
                            titleAnchor="start",
                            grid=False)),
    y=alt.Y("Country",
            sort="-x",
            axis=alt.Axis(title = "Land",
                            titleAnchor="middle"))
).properties(
    title="Top 10 Länder mit dem höchsten Warenkorbwert",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)


#### H5: Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte.

In [216]:
df_sales["Year"] = df_sales.InvoiceDate.dt.year
df_sales["Month"] = df_sales.InvoiceDate.dt.month
df_sales["Weekday"] = df_sales.InvoiceDate.dt.weekday
df_sales["Day"] = df_sales.InvoiceDate.dt.day

In [217]:
df_plot = df_sales.groupby(["Year","Month"]).sum().sort_values(["Year","Month"], ascending=True)
df_plot["Year"] = df_plot.index.get_level_values(0)
df_plot["Month"] = df_plot.index.get_level_values(1)

In [218]:
df_plot = df_plot.reset_index(drop=True)

In [219]:
df_plot["Year_Month"] = df_plot["Year"].astype(str) + "-" + df_plot["Month"].astype(str)

In [220]:
# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("Year_Month",
            sort = ["2010-12","2011-1","2011-2","2011-3","2011-4"],
            axis=alt.Axis(title="Monat", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("TotalPrice",
            sort="-x", 
            axis=alt.Axis(title = "Umsatz",
                          titleAnchor="middle"))
).properties(
    title="Umsatz pro Monat | Dezember 2010 - Dezember 2011",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [221]:
df_plot = df_sales.loc[(df_sales["Year"] == 2010) & (df_sales["Month"] == 12)]

In [222]:
df_plot

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice,Year,Month,Weekday,Day
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.30,2010,12,2,1
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010,12,2,1
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.00,2010,12,2,1
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010,12,2,1
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010,12,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42476,539991,21618,4 WILDFLOWER BOTANICAL CANDLES,1,2010-12-23 16:49:00,1.25,,United Kingdom,1.25,2010,12,3,23
42477,539991,72741,GRAND CHOCOLATECANDLE,4,2010-12-23 16:49:00,1.45,,United Kingdom,5.80,2010,12,3,23
42478,539992,21470,FLOWER VINE RAFFIA FOOD COVER,1,2010-12-23 17:41:00,3.75,,United Kingdom,3.75,2010,12,3,23
42479,539992,22258,FELT FARM ANIMAL RABBIT,1,2010-12-23 17:41:00,1.25,,United Kingdom,1.25,2010,12,3,23


In [223]:
df_plot = df_plot.groupby("Day").sum()
df_plot["Day"]= df_plot.index

In [224]:
# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("Day",
            axis=alt.Axis(title="Dezember 2010", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("TotalPrice", 
            axis=alt.Axis(title = "Umsatz",
                          titleAnchor="middle"))
).properties(
    title="Umsatz pro Tag im Dezember 2010",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [225]:
df_plot = df_sales.loc[(df_sales["Year"] == 2011) & (df_sales["Month"] == 12)]
df_plot = df_plot.groupby("Day").sum()
df_plot["Day"]= df_plot.index

In [226]:
# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("Day",
            axis=alt.Axis(title="Dezember 2011", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("TotalPrice", 
            axis=alt.Axis(title = "Umsatz",
                          titleAnchor="middle"))
).properties(
    title="Umsatz pro Tag im Dezember 2011",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H6: Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate.

In [229]:
df_plot = df_sales["InvoiceNo"].str.contains(pat = "C")
df_plot

0         False
1         False
2         False
3         False
4         False
          ...  
541904    False
541905    False
541906    False
541907    False
541908    False
Name: InvoiceNo, Length: 529071, dtype: bool

In [264]:
df_return = df["InvoiceNo"].str.contains(pat = "C")
df_return.name = "Return"

df_sales_return = pd.concat([df, df_return],axis=1)

In [265]:
df_sales_return

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice,Return
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.30,False
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,False
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.00,False
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,False
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,False
...,...,...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France,10.20,False
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France,12.60,False
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60,False
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60,False


In [266]:
df_plot = df_sales_return[df_sales_return["Return"]==True]

In [270]:
df_plot["Return"] = df_plot["Return"].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_plot["Return"] = df_plot["Return"].astype(int)


In [262]:
df_plot.groupby("StockCode").sum()

Unnamed: 0_level_0,Quantity,UnitPrice,TotalPrice,Return
StockCode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10002,0,0.0,0.0,0
10080,0,0.0,0.0,0
10120,0,0.0,0.0,0
10123C,0,0.0,0.0,0
10123G,0,0.0,0.0,0
...,...,...,...,...
gift_0001_20,0,0.0,0.0,0
gift_0001_30,0,0.0,0.0,0
gift_0001_40,0,0.0,0.0,0
gift_0001_50,0,0.0,0.0,0


In [259]:
df_plot.groupby("").sum()

Unnamed: 0_level_0,Quantity,UnitPrice,TotalPrice,Return
StockCode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10002,0,0.0,0.0,0
10080,0,0.0,0.0,0
10120,0,0.0,0.0,0
10123C,0,0.0,0.0,0
10123G,0,0.0,0.0,0
...,...,...,...,...
gift_0001_20,0,0.0,0.0,0
gift_0001_30,0,0.0,0.0,0
gift_0001_40,0,0.0,0.0,0
gift_0001_50,0,0.0,0.0,0


In [None]:
#Create a altair bar chart from df_plot that shows the top 10 countries with the highest average TotalPrice per InvoiceNo
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice/InvoiceNo",
            axis=alt.Axis(title="Warenkorbwert",
                            labelAngle=0,
                            titleAnchor="start",
                            grid=False)),
    y=alt.Y("Country",
            sort="-x",
            axis=alt.Axis(title = "Land",
                            titleAnchor="middle"))
).properties(
    title="Top 10 Länder mit dem höchsten Warenkorbwert",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title(
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [276]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [275]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 539113 entries, 0 to 541908
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    539113 non-null  category      
 1   StockCode    539113 non-null  category      
 2   Description  537664 non-null  object        
 3   Quantity     539113 non-null  int64         
 4   InvoiceDate  539113 non-null  datetime64[ns]
 5   UnitPrice    539113 non-null  float64       
 6   CustomerID   405043 non-null  category      
 7   Country      539113 non-null  category      
 8   TotalPrice   539113 non-null  float64       
dtypes: category(4), datetime64[ns](1), float64(2), int64(1), object(1)
memory usage: 45.9+ MB


In [277]:
# Überblick der nummerischen Variablen
df.describe()


Unnamed: 0,Quantity,UnitPrice,TotalPrice
count,539113.0,539113.0,539113.0
mean,9.583215,3.282171,18.178166
std,218.591696,4.560479,367.046393
min,-80995.0,0.0,-168469.6
25%,1.0,1.25,3.4
50%,3.0,2.08,9.36
75%,10.0,4.13,17.4
max,80995.0,649.5,168469.6


In [278]:

# Überblick des Rechnungsdatums
df.describe(include="datetime64[ns]")


  df.describe(include="datetime64[ns]")


Unnamed: 0,InvoiceDate
count,539113
unique,22775
top,2011-10-31 14:41:00
freq,1113
first,2010-12-01 08:26:00
last,2011-12-09 12:50:00


In [279]:


# Überblick der kategorialen Variablen
df.describe(include=[object,"category"])

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
count,539113,539113,537664,405043.0,539113
unique,25303,4057,4211,4363.0,38
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841.0,United Kingdom
freq,1113,2313,2369,7971.0,493890


### The visualization types (what kind of visualizations you will you use)

**H1:** Balkendiagramm (Vergleich der Umsätze zwischen mehreren Kunden), Kreisdiagramm (Vergleich zwischen einem Kunden und den restlichen Kunden), Liniendiagramm (Verlauf der Bestellung eines oder aggregiert weniger einflussreicher Kunden).<br><br>
**H2:** Balkendiagramm (Vergleich der Umsätze zwischen mehreren Produkten), Kreisdiagramm (Vergleich zwischen einem Produkt und den restlichen Produkten), Liniendiagramm (Verlauf der Bestellung eines oder aggregiert mehrerer Produkte).<br><br>
**H3:** Balkendiagramm (Vergleich der Umsätze zwischen mehreren Ländern), Kreisdiagramm (Vergleich zwischen einem Land und den restlichen Ländern), Liniendiagramm (Verlauf der Bestellung eines oder aggregiert mehrerer Produkte), (Welt- /Europa-)Karte mit Ländern und deren Umsätze. Visualisierungen wären generell je für Land oder Region möglich.<br><br>
**H4:** Balkendiagramm (Median und Durchschnitt des Warenkorbes je Land im Vergleich zu den weiteren Ländern), Karte mit Ländern und deren Warenkorbwertes.<br><br>
**H5:** Balken-/ Liniendiagramm der Verkäufe in Tagen, Liniendiagramm zur Veranschaulichung des Verlaufs von Produkten, Wordcloud (mit Produktbeschreibungen). <br><br>
**H6:** Balkendiagramm (Absolut, Prozent), Liniendiagramm zur Veranschaulichung des Verlaufs. 

## Data dictionary

*Create a data dictionary for all the variables in your data set. You may fill out the data description table or create your own table with Pandas:*

<br>


| Name  |   Description	   	| Type   	|  Format 	|
|---	|---	          	|---	    |---	|
|   	|   	            |   	    |   	|
|   	|   	       	    |   	    |   	|
|   	|   	       	    |   	    |   	|


<br>


- `Type`: nominal, ordinal or numeric

- `Format`: int, float, string, category, date or object

*Das Skalenniveau ist eindeutiger angegeben. Statt "Numeric" wurde die Unterteilung zwischen intervall- und verhaeltnisskaliert verwendet.

| Spaltenname  | Beschreibung  | Skalenniveau | Format |
|---|---|---|---|
|InvoiceNo | Rechnungsnummer, 6-stellige Nummer, welche jeder Transaktion eindeutig zuordnet. <br>Falls die Nummer ein "c" enthält wurde die Transaktion storniert. | Nominal | category |
|StockCode | Produktnummer, 5-stellige Nummer, welche jedem einzelnem Produkt eindeutig zugeordnet ist. | Nominal |category |
|Description | Beschreibung des Produkts. | Nominal | object |
|Quantity | Menge der einzelnen Produkte pro Transaktion. | Verhaeltnis | int |
|InvoiceDate | Uhrzeit und Datum der Rechnung. | Intervall | date |
|UnitPrice | Preis pro Produkt. | Verhaeltnis | float |
|CustomerID | Kundennummer, 5-stellige Nummer, welche je einem Kunden eindeutig zugeordnet ist. | Nominal | category |
|Country | Name des Landes in welchem der Kunde ansässig ist. | Nominal | category |
|TotalPrice | Produkt aus Quantity und UnitPrice. | Verhaeltnis | float |

### Literature

Alvarez & Marsal. (2021). The shape of retail: the true cost of online. In https://www.alvarezandmarsal.com/.

Statista. (2022a, Mai 11). Prognose der Marktentwicklung des Online-Handels in Deutschland bis 2022. https://de.statista.com/statistik/daten/studie/202905/umfrage/prognostiziertes-marktvolumen-des-deutschen-versandhandels/

Statista. (2022b, Juli 25). Prognose der Umsätze im B2B-E-Commerce in den USA bis 2025. https://de.statista.com/statistik/daten/studie/1321716/umfrage/umsaetze-im-b2b-e-commerce-in-den-usa/