# Project proposal

---

Group name: Gruppe A | Ardit Fazliu, Lukas Laib, Marcus Wild

---


## Introduction

The introduction section includes

-   an introduction to the subject matter you're investigating
-   the motivation for your question (citing any relevant literature/study results ...)
-   the general (research) question you wish to explore
-   your hypotheses regarding the (research) question of interest.

Der Vertrieb und Verkauf von Waren über das Internet ist zu einem wichtigen Vertriebskanal der modernen, digitalisierten Wirtschaft geworden. Diese Entwicklung wurde durch Covid19-Pandemie weiter verstärkt. So stiegen in Deutschland die im B2C E-Commerce erzielten Umsätze im Jahr 2020 gegenüber dem Vorjahr um fast 23% auf knapp 73 Milliarden Euro (Statista, 2022a). Auch innerhalb des B2B E-Commerce wird in den kommenden Jahren ein enormes Umsatzwachstum erwartet, in den USA wird der Umsatz im Jahr 2025 auf 2,5 Billionen steigen, dies entspricht einer Wachstumsrate von rund 11% p.a. (Statista, 2022b). 

### Motivation

Während die Umsätze im E-Commerce Jahr für Jahr steigen, sind die Margen im Onlinehandel für einen Großteil der Händler marginal. Dennoch müssen Unternehmen hohe Investitionen in das Online-Geschäft tätigen, um Umsätze im stark umkämpften Online-Geschäft zu erzielen (Alvarez & Marsal, 2021). Damit sich diese nachhaltig für das Unternehmen lohnen, müssen langfristig verlässliche Gewinne erwirtschaftet werden. Dieses Ziel kann nur erreicht werden, wenn externe Risiken für das Unternehmen minimiert und intern strategisch richtige Entscheidungen zur Portfolioerweiterung getroffen werden. Im folgenden soll ein Datensatz, bestehend aus Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Königreich analysiert werden, um Abhängigkeiten von bestimmten  1.) Ländern oder Regionen 2) Kunden 3) Produkten bzw. Produktgruppen zu identifizieren und Potenziale für Umsatzwachstum zu entdecken.

### General Research Question

**Wie können Abhängigkeiten für den E-Commerce Shop langfristig reduziert werden und welche Maßnahmen können zur langfristigen Umsatzmaximierung getroffen werden?**

### Hypotheses

**H1: Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.** <br>

**H2: Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.** <br>

**H3: Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%.**<br>

**H4: Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert.** <br>

**H5: Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte.** <br>

**H6: Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate.**

**Datenwörterbuch**

| Feld- bezeichnung | Datentyp  | Datenformat      | Feldgröße | Beschreibung                                                                                                                                           | Beispiel                           |
|-------------------|-----------|------------------|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------|
| InvoiceNo         | Nominal   | NNNNNN           | 6         | Rechnungsnummer: Eine Nummer, die jeder Transaktion eindeutig zugeordnet ist. Wenn diese mit einem "c" beginnt, handelt es sich um eine Stornierung.   | 536365                             |
| StockCode         | Nominal   | NNNNN(b)         | 5         | Artikel-Code: Eine Nummer, die jedem einzelnen Produkt eindeutig zugeordnet ist. Kann einen Buchstaben am Ende enthalten, der eine Variation markiert. | 85123A                             |
| Description       | Nominal   |                  | 0-35      | Name des Artikels.                                                                                                                                     | WHITE HANGING HEART T-LIGHT HOLDER |
| Quantity          | Numerisch | NNNNN            | 1-5       | Die Mengen der einzelnen Artikel je Transaktion.                                                                                                       | 6                                  |
| InvoiceDate       | Numerisch | DD/MM/YYYY HH:MM | 20        | Datum und Uhrzeit der Rechnung.                                                                                                                        | 01.12.2010  08:26                  |
| UnitPrice         | Numerisch | NNNNN,NN         | 0-8       | Preis pro Einheit in Pfund Sterling.                                                                                                                   | 2,55                               |
| CustomerID        | Nominal   | NNNNN            | 0-5       | Kundennummer: Eine Nummer, die jedem Kunden eindeutig zugeordnet ist.                                                                                  | 17850                              |
| Country           | Nominal   |                  | 3-20      | Der Name des Landes, in dem ein Kunde wohnt.                                                                                                           | United Kingdom                     |


## Data description

In this section, you will describe the data set you wish to explore. This includes

-   description of the observations in the data set,
-   description of how the data was originally collected (not how you found the data but how the original curator of the data collected it).

### Data characterisitcs

Jeder Beobachtungswert stellt innerhalb des Datensatzes eine Transaktion dar, wobei auch mehrere Transaktionen einer Rechnung(snummer) zugeteilt werden könen.

Der Datensatz enthaelt 541909 Beobachtungswerte mit 8 Spalten.

### Data collection

Der Datensatz zeigt Transaktionsdaten eines E-Commerce Unternehmen aus dem Vereinigten Koenigreich. Die Daten wurden zwischen dem 01.12.2010 und dem 09.12.2011 erfasst.

Mithilfe des UCI Machine Learning Repository wurde der Datensatz von Dr Daqing Chen zur Verfuegung gestellt.<br>
[Quelle:](https://archive.ics.uci.edu/ml/datasets/online+retail#) Dr Daqing Chen, Director: Public Analytics group. chend@lsbu.ac.uk, School of Engineering, London South Bank University, London SE1 0AA, UK.

## Analysis approach

In this section, you will provide a brief overview of your analysis approach. This includes:

-   Description of the relevant variable.
-   Exploratory data analysis and summary statistics for the relevant variables.
-   The visualization types (what kind of visualizations you will you use)

In [2]:
# Setup
# Import relevanter Python-Bibliotheken

import pandas as pd
import altair as alt

In [3]:
# Import des Datensatzes
raw_data = "https://raw.githubusercontent.com/ArditFazliu/Analytics-und-Data-Storytelling/main/data/raw_data.csv" 
df = pd.read_csv(raw_data, encoding= 'unicode_escape')

In [4]:
# Erstellen einer neuen Variable, um den gesamten Preis pro Transaktion zu ermitteln
df["TotalPrice"] = df["Quantity"] * df["UnitPrice"]

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
 8   TotalPrice   541909 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 37.2+ MB


#### Anpassung der Datentypen

In [6]:
# Anpassung des Datums
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"], format="%m/%d/%Y %H:%M")

In [7]:
# Anpassung der kategorialen Variablen
df = df.astype(
    {
        "InvoiceNo": "category",
        "StockCode": "category",
        "CustomerID": "category",
        "Country": "category"

})

#### Fehlende Werte

In [27]:
#Fehlende Werte 
df.isna().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
TotalPrice          0
dtype: int64

In [28]:
# Fehlende Werte in Prozent
round(df.isna().sum() * 100 / len(df),2)

InvoiceNo       0.00
StockCode       0.00
Description     0.27
Quantity        0.00
InvoiceDate     0.00
UnitPrice       0.00
CustomerID     24.93
Country         0.00
TotalPrice      0.00
dtype: float64

In [None]:
df.dropna()

### Description of the relevant variables

- **InvoiceNo:** Rechnungsnummer, welche jeder Transaktion eindeutig zuordnet.
- **StockCode:** Produktnummer, welche jedem Produkt eindeutig zuordnet.
- **Description:** Beschreibung des Produkts.
- **Quantity:** Menge der bestellten Produkte pro Transaktion.
- **InvoiceDate:** Uhrzeit und Datum der Rechnung.
- **UnitPrice:** Preis pro Produkt.
- **CustomerID:** Kundennummer, welche jedem Kunden eindeutig zuordnet.
- **Country:** Name des Landes in welchem der Kunde ansässig ist.
- **TotalPrice:** Gesamtwert der Transaktion.
<br><br>

| Nummer | (Alternativ-)Hypothese  | Relevante Variablen |
|---|---|---|
| H1 | Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt. | CustomerID, TotalPrice |
| H2 | Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt. | StockCode, TotalPrice |
| H3 | Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%. | Country, TotalPrice |
| H4 | Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert. | Country, InvoiceNo, TotalPrice |
| H5 | Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte. | InvoiceDate, StockCode |
| H6 | Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate. | InvoiceNo, StockCode, TotalPrice |

### Exploratory data analysis and summary statistics for the relevant variables

In [31]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    406829 non-null  category      
 1   StockCode    406829 non-null  category      
 2   Description  406829 non-null  object        
 3   Quantity     406829 non-null  int64         
 4   InvoiceDate  406829 non-null  datetime64[ns]
 5   UnitPrice    406829 non-null  float64       
 6   CustomerID   406829 non-null  category      
 7   Country      406829 non-null  category      
 8   TotalPrice   406829 non-null  float64       
dtypes: category(4), datetime64[ns](1), float64(2), int64(1), object(1)
memory usage: 22.9+ MB


In [33]:
# Überblick der nummerischen Variablen
df.describe()

Unnamed: 0,Quantity,UnitPrice,TotalPrice
count,406829.0,406829.0,406829.0
mean,12.061303,3.460471,20.401854
std,248.69337,69.315162,427.591718
min,-80995.0,0.0,-168469.6
25%,2.0,1.25,4.2
50%,5.0,1.95,11.1
75%,12.0,3.75,19.5
max,80995.0,38970.0,168469.6


In [34]:
# Überblick des Rechnungsdatums
df.describe(include="datetime64[ns]")

  df_wmv.describe(include="datetime64[ns]")


Unnamed: 0,InvoiceDate
count,406829
unique,20460
top,2011-11-14 15:27:00
freq,543
first,2010-12-01 08:26:00
last,2011-12-09 12:50:00


In [35]:
# Überblick der kategorialen Variablen
df.describe(include=[object,"category"])

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
count,406829,406829,406829,406829.0,406829
unique,22190,3684,3896,4372.0,37
top,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841.0,United Kingdom
freq,542,2077,2070,7983.0,361878


#### EDA - Explorative data analysis
Im folgenden wird die explorative Datenanalyse für jede Hypothese durchgeführt.

#### H1: Mit einem Kunden wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.

In [52]:
df_sales = df[df["Quantity"] > 0]

In [190]:
# Filter nach den umsatzstärksten Kunden
df_plot = df_sales.groupby("CustomerID").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["CustomerID"] = df_plot.index

# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("CustomerID",
            sort="-x", 
            axis=alt.Axis(title = "CustomerID",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärkste Kunden",
    width=400,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [188]:
# Umsatz der 75 umsatzstärksten Kunden
df_plot = df_sales.groupby("CustomerID").sum().sort_values(["TotalPrice"], ascending=False)[:75]
df_plot["CustomerID"] = df_plot.index

# Visualisierung der Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach dem Umsatz
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice:Q",
            bin=alt.BinParams(maxbins=20),
            axis=alt.Axis(title="Umsatz pro Kunde", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("count()",
            axis=alt.Axis(title = "Anzahl an Kunden",
                          titleAnchor="middle",
                          grid=False))
).properties(
    title="Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach Umsatz",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H2: Mit einem Produkt wird ein Umsatz von mindestens zehn Prozent des Gesamtumsatzes erzielt.

In [227]:
# Filter nach den umsatzstärksten Produkten
df_plot = df_sales.groupby("StockCode").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["StockCode"] = df_plot.index

# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("StockCode",
            sort="-x", 
            axis=alt.Axis(title = "StockCode",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärkste Produkten",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

Innerhalb der Produkte scheinen auch weitere Kosten oder Umsätze verbucht zu sein die nicht auf herkömmliche Umsätze durch den Produktverkauf zurückzuführen sind.

In [200]:
non_stockcode = []
for s in df["StockCode"]:
    if any(i.isdigit() for i in s) == False:
        non_stockcode.append(s)

In [201]:
pd.value_counts(non_stockcode)

POST            1256
DOT              710
M                571
D                 77
S                 63
BANK CHARGES      37
AMAZONFEE         34
CRUK              16
DCGSSGIRL         13
DCGSSBOY          11
PADS               4
B                  3
m                  1
dtype: int64

In [202]:
set_stockcode = set(non_stockcode)

In [205]:
set_stockcode

{'AMAZONFEE',
 'B',
 'BANK CHARGES',
 'CRUK',
 'D',
 'DCGSSBOY',
 'DCGSSGIRL',
 'DOT',
 'M',
 'PADS',
 'POST',
 'S',
 'm'}

In [209]:
df_plot = df_plot[~df_plot["StockCode"].isin(set_stockcode)]

In [218]:
# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("StockCode",
            sort="-x", 
            axis=alt.Axis(title = "StockCode",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärkste Produkten",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

In [216]:
# Umsatz der 75 umsatzstärksten Kunden
df_plot = df_sales.groupby("StockCode").sum().sort_values(["TotalPrice"], ascending=False)[:75]
df_plot["StockCode"] = df_plot.index
df_plot = df_plot[~df_plot["StockCode"].isin(set_stockcode)]

# Visualisierung der Häufigkeitsverteilung der 75 umsatzstärksten Kunden nach dem Umsatz
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice:Q",
            bin=alt.BinParams(maxbins=20),
            axis=alt.Axis(title="Umsatz pro Produkt", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("count()",
            axis=alt.Axis(title = "Anzahl an Produkten",
                          titleAnchor="end",
                          grid=False))
).properties(
    title="Häufigkeitsverteilung der 75 umsatzstärksten Produkte nach Umsatz",
    width=500,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H3: Der erzielte Umsatz innerhalb eines Landes beträgt mindestens 40%.

In [233]:
# Filter nach den umsatzstärksten Produkten
df_sales = df_sales[~df_sales["StockCode"].isin(set_stockcode)]
df_plot = df_sales.groupby("Country").sum().sort_values(["TotalPrice"], ascending=False)[:10]
df_plot["Country"] = df_plot.index


# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("Country",
            sort="-x", 
            axis=alt.Axis(title = "Land",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärksten Länder",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

#### H4: Welchen Einfluss hat der Kundenstandort auf den Warenkorbwert.

In [234]:
# Filter nach den umsatzstärksten Produkten
df_sales = df_sales[~df_sales["StockCode"].isin(set_stockcode)]



In [243]:

df_plot = df_sales.groupby(["InvoiceNo", "Country"]).sum().sort_values(["TotalPrice"], ascending=False)
df_plot["InvoiceNo"] = df_plot.index.get_level_values(0)
df_plot["Country"] = df_plot.index.get_level_values(1)


In [244]:
df_plot

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,UnitPrice,TotalPrice,InvoiceNo,Country
InvoiceNo,Country,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
581483,United Kingdom,80995,2.08,168469.60,581483,United Kingdom
541431,United Kingdom,74215,1.04,77183.60,541431,United Kingdom
574941,United Kingdom,14149,498.89,52940.94,574941,United Kingdom
576365,United Kingdom,13956,469.51,50653.91,576365,United Kingdom
556444,United Kingdom,60,649.50,38970.00,556444,United Kingdom
...,...,...,...,...,...,...
554328,Italy,0,0.00,0.00,554328,Italy
554328,Japan,0,0.00,0.00,554328,Japan
554328,Lebanon,0,0.00,0.00,554328,Lebanon
554328,Lithuania,0,0.00,0.00,554328,Lithuania


In [245]:


# Visualisierung der umsatzstärksten Kunden
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X("TotalPrice",
            axis=alt.Axis(title="TotalPrice", 
                          labelAngle=0,
                          titleAnchor="start",
                          grid=False)),
    y=alt.Y("Country",
            sort="-x", 
            axis=alt.Axis(title = "Land",
                          titleAnchor="middle"))
).properties(
    title="Zehn umsatzstärksten Länder",
    width=450,
    height=200
).configure_view(
    strokeWidth=0
).configure_title( 
    fontSize=16,
    font='Arial',
    color='black',
    anchor='start'
)

MaxRowsError: The number of rows in your dataset is greater than the maximum allowed (5000). For information on how to plot larger datasets in Altair, see the documentation

alt.Chart(...)

#### H5: Welchen Einfluss hat die Weihnachtssaison auf die verkauften Produkte.

#### H6: Welche Produkte sind besonders problematisch aufgrund von einer hohen Retourenrate.

In [82]:
df["InvoiceNo"].str.contains(pat = "C")

0         False
1         False
2         False
3         False
4         False
          ...  
541904    False
541905    False
541906    False
541907    False
541908    False
Name: InvoiceNo, Length: 541909, dtype: bool

In [26]:
df[(df["TotalPrice"] < 0)].sort_values(["UnitPrice"], ascending=False)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
222681,C556445,M,Manual,-1,2011-06-10 15:31:00,38970.00,15098.0,United Kingdom,-38970.00
524602,C580605,AMAZONFEE,AMAZON FEE,-1,2011-12-05 11:36:00,17836.46,,United Kingdom,-17836.46
43702,C540117,AMAZONFEE,AMAZON FEE,-1,2011-01-05 09:55:00,16888.02,,United Kingdom,-16888.02
43703,C540118,AMAZONFEE,AMAZON FEE,-1,2011-01-05 09:57:00,16453.71,,United Kingdom,-16453.71
16356,C537651,AMAZONFEE,AMAZON FEE,-1,2010-12-07 15:49:00,13541.33,,United Kingdom,-13541.33
...,...,...,...,...,...,...,...,...,...
182729,C552569,D,Discount,-240,2011-05-10 12:06:00,0.03,12901.0,United Kingdom,-7.20
4287,C536757,84347,ROTATING SILVER ANGELS T-LIGHT HLDR,-9360,2010-12-02 14:23:00,0.03,15838.0,United Kingdom,-280.80
108088,C545478,D,Discount,-720,2011-03-03 11:08:00,0.01,16422.0,United Kingdom,-7.20
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom,-11062.06


In [92]:
df["Description"][df["InvoiceNo"].str.contains('C')]

141                               Discount
154        SET OF 3 COLOURED  FLYING DUCKS
235         PLASTERS IN TIN CIRCUS PARADE 
236       PACK OF 12 PINK PAISLEY TISSUES 
237       PACK OF 12 BLUE PAISLEY TISSUES 
                        ...               
540449     ZINC T-LIGHT HOLDER STARS SMALL
541541                              Manual
541715          VICTORIAN SEWING BOX LARGE
541716    HANGING HEART JAR T-LIGHT HOLDER
541717       36 PENCILS TUBE RED RETROSPOT
Name: Description, Length: 9288, dtype: object

In [36]:
# Meistverkaufte Produkte

df_wmv.groupby("Description").sum().sort_values(["Quantity"], ascending=False)[:5]

Unnamed: 0_level_0,Quantity,UnitPrice,TotalPrice
Description,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,53215,139.59,13332.33
JUMBO BAG RED RETROSPOT,45066,3345.7,83236.76
ASSORTED COLOUR BIRD ORNAMENT,35314,2383.46,56499.22
WHITE HANGING HEART T-LIGHT HOLDER,34147,5985.12,93823.85
PACK OF 72 RETROSPOT CAKE CASES,33409,591.83,16247.95


In [71]:
# Teuersten Produkte

df.groupby("Description").sum().sort_values(["UnitPrice"], ascending=False)[:5]

Unnamed: 0_level_0,Quantity,UnitPrice,TotalPrice
Description,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AMAZON FEE,-30,249042.68,-221520.5
Manual,3165,214450.96,-68671.64
DOTCOM POSTAGE,707,206252.06,206245.48
POSTAGE,3003,46388.47,66230.64
REGENCY CAKESTAND 3 TIER,13033,30360.61,164762.19


In [70]:
# Produkte die den meisten Umsatz generiert haben

df.groupby("Description").sum().sort_values(["TotalPrice"], ascending=False)[:5]

Unnamed: 0_level_0,Quantity,UnitPrice,TotalPrice
Description,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DOTCOM POSTAGE,707,206252.06,206245.48
REGENCY CAKESTAND 3 TIER,13033,30360.61,164762.19
WHITE HANGING HEART T-LIGHT HOLDER,35317,7590.87,99668.47
PARTY BUNTING,18022,9979.62,98302.98
JUMBO BAG RED RETROSPOT,47363,5333.3,92356.03


In [57]:
pd.value_counts(df["UnitPrice"])

1.25      50496
1.65      38181
0.85      28497
2.95      27768
0.42      24533
          ...  
84.21         1
46.86         1
28.66         1
156.45        1
224.69        1
Name: UnitPrice, Length: 1630, dtype: int64

In [62]:
df_eda = df.sample(n=5000)

In [64]:
# Histogram 
# boxplot 
box = alt.Chart(df_eda).mark_boxplot().encode(
    x = alt.X("Quantity")
)
box

In [59]:
box_unitprice = alt.Chart(df).mark_boxplot().encode(
    x = alt.X("UnitPrice")
)

### The visualization types (what kind of visualizations you will you use)

## Data dictionary

*Create a data dictionary for all the variables in your data set. You may fill out the data description table or create your own table with Pandas:*

<br>


| Name  |   Description	   	| Type   	|  Format 	|
|---	|---	          	|---	    |---	|
|   	|   	            |   	    |   	|
|   	|   	       	    |   	    |   	|
|   	|   	       	    |   	    |   	|


<br>


- `Type`: nominal, ordinal or numeric

- `Format`: int, float, string, category, date or object

| Spaltenname  | Beschreibung  | Skalenniveau | Format |
|---|---|---|---|
|InvoiceNo | Rechnungsnummer, 6-stellige Nummer, welche jeder Transaktion eindeutig zuordnet. <br>Falls die Nummer ein "c" enthält wurde die Transaktion storniert. | Nominal | category |
|StockCode | Produktnummer, 5-stellige Nummer, welche jedem einzelnem Produkt eindeutig zugeordnet ist. | Nominal |category |
|Description | Beschreibung des Produkts. | Nominal | object |
|Quantity | Menge der einzelnen Produkte pro Transaktion. | Verhaeltnis | int |
|InvoiceDate | Uhrzeit und Datum der Rechnung. | Intervall | date |
|UnitPrice | Preis pro Produkt. | Verhaeltnis | float |
|CustomerID | Kundennummer, 5-stellige Nummer, welche je einem Kunden eindeutig zugeordnet ist. | Nominal | category |
|Country | Name des Landes in welchem der Kunde ansässig ist. | Nominal | category |

### Literature

Alvarez & Marsal. (2021). The shape of retail: the true cost of online. In https://www.alvarezandmarsal.com/.

Statista. (2022a, Mai 11). Prognose der Marktentwicklung des Online-Handels in Deutschland bis 2022. https://de.statista.com/statistik/daten/studie/202905/umfrage/prognostiziertes-marktvolumen-des-deutschen-versandhandels/

Statista. (2022b, Juli 25). Prognose der Umsätze im B2B-E-Commerce in den USA bis 2025. https://de.statista.com/statistik/daten/studie/1321716/umfrage/umsaetze-im-b2b-e-commerce-in-den-usa/