# Imports

In [None]:
from __future__ import division
from datetime import datetime
from sklearn.cluster import KMeans
from IPython.display import display
from typing import List

import pandas as pd
import numpy as np
import plotly.graph_objs as go

In [None]:
# Pandas anweisen, immer alle Zeilen und Spalten eines Datenrahmens anzuzeigen
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [None]:
# Set the random state for the whole notebook
rand_state=1

# Schritt 1: Grundlegende Datenaufbereitung / Exploration

Datenquelle = Online Retail Dataset: alle Einkäufe, die für ein Online-Einzelhandelsunternehmen mit Sitz im Vereinigten Königreich während eines Zeitraums von etwa 12 Monaten getätigt wurden.

Chen, Daqing, Sai Laing Sain, and Kun Guo. "Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining." Journal of Database Marketing & Customer Strategy Management 19.3 (2012): 197-208.

Eine CSV-Datei wird mit Ihrem Kursmaterial bereitgestellt. Wenn Sie die Datei direkt von der Quelle herunterladen möchten, können Sie "Online Retail.xlsx" von der folgenden URL herunterladen und in eine CSV-Datei umwandeln: https://archive.ics.uci.edu/ml/datasets/online+retail

### Daten Lesen; Einfache Preprocessing

In [None]:
# Die Daten lesen
# Ersetzen Sie "OnlineRetail.csv" durch den Pfad zu dem Ort, an dem Sie die Datei gespeichert haben
# Es wird empfohlen, die Daten am gleichen Ort wie dieses Notebook zu speichern.
df_data = pd.read_csv('OnlineRetail.csv', encoding='unicode-escape')
df_data.head() # Show the first five rows

In [None]:
# Show a random sample of 20 rows
df_data.sample(20)

In [None]:
# Display basic information about the data (e.g. data types)
df_data.info()

In [None]:
# nans entfernen (nur für CustomerID, Description ist kein Problem)
print(df_data.isna().sum())
df_data.dropna(inplace=True, subset=['CustomerID'])
# By specifying inplace=True, we manipulate df_data directly. Otherwise the function would only return a copy of 
# the dataframe, which we would need to save somehow, e.g. with: 
# df_data = df_data.dropna(subset=['CustomerID'])
f"Data shape after dropping nans: {df_data.shape}"

In [None]:
# Konvertiert den Typ von 'InvoiceDate' in datetime
df_data.InvoiceDate = pd.to_datetime(df_data.InvoiceDate)
f"Min/max dates: {df_data.InvoiceDate.min()}, {df_data.InvoiceDate.max()}"

In [None]:
# Doppelte Zeilen entfernen
duplicates = df_data.duplicated(keep='first')
df_data = df_data[~duplicates]
f"Num duplicates: {duplicates.sum()}. Data shape after dropping duplicates: {df_data.shape}"

### Daten Verstehen

In [None]:
# Die numerischen Werte anschauen
print(f"Number of customers: {df_data.CustomerID.nunique()}, number of transactions: {df_data.InvoiceNo.nunique()}")
print(f"Description of numeric values:")
df_data[['Quantity', 'UnitPrice']].describe().round(3) 

Es gibt einige Artikel, bei denen UnitPrice == 0 ist. Lassen Sie uns herausfinden, warum.

In [None]:
# Explore data where UnitPrice == 0
df_zero_price = df_data.query('UnitPrice == 0')
# Alternativ
# df_zero_price = df_data[df_data.UnitPrice == 0]
print(f"Num transactions where UnitPrice == 0: {len(df_zero_price)}")
df_zero_price

Es gibt nur 40 Zeilen, in denen UnitPrice == 0 ist, so dass wir sie getrost weglassen können.

In [None]:
# Remove transactions where UnitPrice == 0
df_data = df_data.query('UnitPrice > 0')
print(f"Data shape after dropping transactions where UnitPrice == 0: {df_data.shape}")

__Challenge: Arbeiten mit Pandas query()__

Pandas query() ist eine experimentelle neue Funktion mit einer (meiner Meinung nach) einfachen und intuitiven Syntax. In der Pandas-Dokumentation [1] heißt es außerdem, dass es bei großen Datensätzen (über 200.000 Zeilen, wie wir sie haben) einen kleinen Geschwindigkeitszuwachs gegenüber der Python-Indizierung bringen kann. 

Wenn Sie noch nie mit query() gearbeitet haben, finden Sie hier einige Beispiele für die Verwendung:

- String ist gleich: df.query('Land == "Australien"')
- Mathematische Operationen: df.query('Einkommen_Main+Einkommen_Sonstige > 60000'), df.query('Punktzahl_Dezimal * 100 != Punktzahl_Prozent') # z.B. um zu sehen, welche prozentualen Punktzahlen nicht korrekt berechnet wurden

- Vergleich mit einem Variablennamen: favourite_song='Gimme Shelter', df.query('Song == @favourite_song')
- Prüfen, ob Element in einer Liste: df.query("Zutat in ['Eierr','Mehl']")

Vervollständigen Sie mit diesen Hinweisen die folgenden Aufgaben (Um Ihr Notebook nicht zu verlangsamen, verwenden Sie .head(), um nur die ersten 5 Zeilen eines jeden Ergebnisses anzuzeigen.):

- Transaktionen anzeigen, die *nicht* in dem 'United Kingdom' stattgefunden haben.
- Transaktionen anzeigen, bei denen der Wert (Menge * Stückpreis) £2000 übersteigt (alle Transaktionen sind in £).
- Eine Variable definieren, die das Produkt '23168' bezeichnet (Achtung: Der StockCode ist eine Zeichenkette und keine Zahl, daher muss er in Anführungszeichen angegeben werden). Transaktionen für diesen Artikel anzeigen.
- Transaktionen für der folgenden Artikel anzeigen: ['CHILDS GARDEN TROWEL PINK',
 'CREAM SWEETHEART MINI CHEST',
 'LUNCH BAG CARS BLUE',
 'WALL ART DOLLY GIRL ',
 'CHRISTMAS TREE HANGING GOLD']
 
 
Schreiben Sie Ihren Code in eine neue Zelle, unten. Sie können eine neue Zelle hinzufügen, indem Sie "Esc" gedrückt halten und die "B"-Taste drücken, oder klicken Sie einfach auf die Plus-Schaltfläche im oberen Menü, wie so:

![image.png](attachment:image.png)

Die Lösung finden Sie unten.

[1] https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html Siehe den Abschnitt 'Performance of query()'.

In [None]:
# Challenge: Working with Pandas query() - solutions
print("Transactions which did not occur in the United Kingdom:")
display(df_data.query('Country != "United Kingdom"').head())

print("\nTransactions where the total value exceeded £2000:")
display(df_data.query('Quantity*UnitPrice > 2000').head())

print("\nTransactions for product 23168:")
stock_code = '23168'
display(df_data.query('StockCode == @stock_code').head())

print("\nTransactions for any of a given list of products:")
product_list = ['CHILDS GARDEN TROWEL PINK', 'CREAM SWEETHEART MINI CHEST', 'LUNCH BAG CARS BLUE',
                'WALL ART DOLLY GIRL ', 'CHRISTMAS TREE HANGING GOLD']
display(df_data.query(f'Description in {product_list}').head())

# Notice the use of display() here. We didn’t need it when viewing dataframes before, because it was always the
# last line of the cell, which Jupyter displays automatically. We don't need it on the last line of this cell,
# but I left it here for visual consistency.

In [None]:
# Explore the UnitPrice values above 95th quantile
(df_data
 .drop_duplicates(['StockCode', 'UnitPrice'])
 .query('UnitPrice > UnitPrice.quantile(.95)')
 .sort_values(by='UnitPrice', ascending=False)
 .head(100)
)

In [None]:
# Explore UnitPrice per Description
(df_data
 .groupby('Description')
 .mean()
 .sort_values(by='UnitPrice', ascending=False)
 .head(25)
)

# A note on groupby(), for the unsure:
# groupby() splits the data frame into 'chunks', one for each unique value in the given column (here 'Description').
# Then for each chunk, it applies the function after the groupby; here it gets the mean() per column, per chunk.
# The result is a dataframe with an index containing all the descriptions, and then three numeric columns,
# containing the mean Quantity, UnitPrice and CustomerID per description (clearly mean CustomerID makes no sense)
# We then sort this data frame by ascending UnitPrice, and display the first 25 rows

In [None]:
# Let's find the stock codes which seem to be causing the bulk of the strange values
[sc for sc in df_data.StockCode.unique() if not sc.isnumeric()]

In [None]:
# Let's refine the unusual stock codes
[sc for sc in df_data.StockCode.unique() if not sc[:-1].isnumeric()]

__Challenge: Indizierung in Python (für die Ungeübte)__

Wenn Sie bereits mit der Indizierung in Python vertraut sind, können Sie diese Zelle überspringen. 

In [None]:
# Challenge: Python indexing for the unfamiliar:

# The indexing used in sc[:-1], above, works as follows:
# A number inside the brackets would indicate only the character at that position.
# eg. 'Hello World'[0] selects 'H'
# Notice that indexes start with 0, not 1. So 'Hello World' is 11 characters, with indexes [0,1,2,3,4,5,6,7,8,9,10]
# A negative number counts backwards, e.g. 'Hello World'[-1] selects 'd' (it's the same as 'Hello World'[10]
# but saves you from having to count the length of the string and subtract 1)
# You can specify a start and end range using : and giving a start and end value.
# This will select from (including) the start value up to (but excluding) the end value
# e.g. 'Hello World'[1:-1] and 'Hello World'[1:10] will both select 'ello Worl'
# You don't have to include a start AND end value; you can leave out either, as long as you include the :
# e.g. for a stock code sc='85123A', we get sc[:-1] selects '85123'

# Feel free to use this cell to write some examples and play around. Try to answer these questions:
# If you have a 5 letter string, what's the highest index you can use?
# Why is it smaller than the length of the string?
# What will you get from 'abcdefghijklmnop'[4:-4]?
# What is your full name, ignoring the first two and last three letters?
# What will be the results of '123abc'.isnumeric()? What about '123abc'[:3].isnumeric()
# What about '123abc'.isalpha()? Or '123abc'[3:].isalpha()? (isalpha() checks whether a string is all alphabetical)
# What happens if you select an end index which is equal to or greater than the length of your string? Try it!

# If you run into an IndexError while experimenting, perfect! That means you're doing it right. 
# But errors are ugly, so when you're finished, you can clear your output by clicking this cell
# and selecting from the top menu Cell > Current Outputs > Clear)

In [None]:
# Challenge: Python indexing for the unfamiliar - solution:
# If you have a 5 letter string, what's the highest index you can use? --> 4
# Why is it smaller than the length of the string? --> Because indexes start at 0, i.e. 'Hello' = [0,1,2,3,4]
# What will you get from 'abcdefghijklmnop'[4:-4]? --> 'efghijkl'
# What is your name, ignoring the first two and last three letters? --> 'Katherine'[2:-3] --> 'ther'
# What will be the results of '123abc'.isnumeric()? What about '123abc'[:3].isnumeric() --> False, True
# What about '123abc'.isalpha()? Or '123abc'[3:].isalpha()? --> False, True
# What happens if you select an end index which is equal to or greater than the length of your string? Try it!
# --> '123abc'[10] --> IndexError: string index out of range

In [None]:
# Display the data for a specific StockCode of interest
df_data.query("StockCode == '15056BL'")
# Alternativ: 
# df_data[df_data.StockCode == '15056BL']

In [None]:
# Describe the UnitPrice distribution for the unusual stock codes
unusual_codes = ['POST', 'D', 'C2', 'M', 'BANK CHARGES', 'PADS', 'DOT']
for sc in unusual_codes:
    # The use of \n in the string prints a newline, which is just done for my own visual preferencce
    print(f'\nData described, where StockCode == {sc}')
    # We need 'display' since we are looping, so we can't just rely on Jupyter outputting the last line of the cell
    display(df_data.query(f"StockCode == '{sc}'")[['UnitPrice']]
           .describe()
           .round(3)
           .T)
            # 'T' for 'Transpose' flips the dataframe from being tall and skinny to short and wide.
            # You can re-run the cell with a # in front of the .T, if you are curious how it would look.

In [None]:
# Do only a small group of customers use the unusual stock codes? Part 1: Customers per Stock Code
sc_unusual = df_data.query('StockCode in @unusual_codes')
sc_normal = df_data.query('StockCode not in @unusual_codes')

print('Unique Customers per Stock Code: unusual Stock Codes')
display(sc_unusual
        .groupby('StockCode')
        .agg({'CustomerID': 'nunique'})
       )

print('Overview Unique Customers per Stock Code: Normal Stock Codes')
display(sc_normal
        .groupby('StockCode')
        .agg({'CustomerID': 'nunique'})
        .describe()
        .round(3)
       )

# A note on agg(), for the unfamiliar:
# We've seen that Pandas' groupby() splits the dataframe into one chunk per unique value in the given column.
# We then have to perform some kind of aggregation on eacch of those chunks. So far we've used mean();
# Here, we use agg() and specify a dictionary of ColumnName: function.
# We are asking: for  each chunk of the data representing one StockCode, how many unique CustomerIDs are there?
# Note that because we only specify one column:function pair here, we'll only get one column back as a result.
# However, one can use multiple pairs, to specify different aggregations for different columns. 

__Challenge: Anzeige der Anzahl der eindeutigen StockCodes pro Kunde__

In der letzten Zelle teilten wir die Daten in sc_unusual, d. h. alle Transaktionen mit ungewöhnlichen Bestandscodes, und sc_normal, d. h. alle anderen. Dann erhielten wir für jeden StockCode die Anzahl der eindeutigen Kunden-IDs. Bei den normalen Lagerbestandsdaten hätte dies zu einer großen Anzahl von Zeilen geführt, so dass wir eine describe()-Funktion hinzugefügt haben, um die Ergebnisse zusammenzufassen.

Diesmal ist die Logik genau umgekehrt. Sowohl für sc_unusual als auch für sc_normal wollen wir die Anzahl der eindeutigen Bestandscodes pro CustomerID anzeigen. Und da es sehr viele CustomerIDs gibt, wollen wir wieder die Funktion summary verwenden. Sind Sie der Herausforderung gewachsen? Fügen Sie eine neue Zelle hinzu (Esc+B) und probieren Sie es aus, bevor Sie mit dem Video fortfahren. Viel Erfolg!

In [None]:
# Solution: Do only a small group of customers use the unusual stock codes? Part 2: Stock Codes per Customer
print('Unique Stock Codes per Customer: unusual Stock Codes')
display(sc_unusual
        .groupby('CustomerID')
        .agg({'StockCode': 'nunique'})
        .describe()
        .round(3)
       )

print('Overview Unique Stock Codes per Customer: Normal Stock Codes')
display(sc_normal
        .groupby('CustomerID')
        .agg({'StockCode': 'nunique'})
        .describe()
        .round(3)
       )


Die ungewöhnlichen Lagercodes haben im Allgemeinen nur wenige Kunden (mit Ausnahme von "M" und "POST"), während der Durchschnitt für die anderen Lagercodes bei etwa 72 liegt. Außerdem haben die Kunden in den Daten zu den anormalen Codes jeweils nur etwa einen Lagercode, während die Kunden in den übrigen Daten jeweils etwa 61 Codes haben.  Mit anderen Worten, nur eine sehr kleine Anzahl von Kunden verursacht den Großteil der seltsamen Transaktionen. In Anbetracht der Tatsache, dass diese Transaktionen offensichtlich eher mit Dienstleistungen als mit Produkten zusammenhängen, sollte das Unternehmen diese Kunden getrennt behandeln. Daher werden wir alle Zeilen mit diesen seltsamen Lagercodes streichen.

In [None]:
# Remove the rows with unusual stock codes
df_data = df_data.query('StockCode not in @unusual_codes')
print(f"After dropping rows with unusual stock codes, data shape: {df_data.shape}. Summary:")
display(df_data.describe().round(3))
print(f"Number of customers: {df_data.CustomerID.nunique()}, number of transactions: {df_data.InvoiceNo.nunique()}")

__Challenge: Erkunden Sie die Mengenwerte über dem 95. Perzentil__

Bisher haben wir die Transaktionen mit den obersten 5 % der UnitPrice-Werte angezeigt. Können Sie dies wiederholen, aber für die Menge? Wenn Sie einen Hinweis benötigen, klappen Sie die nächste Zelle auf.

In [None]:
# Challenge Hint
# The solution could include some of these steps, but not necessarily in this order: 
# - Sorting values 
# - Querying or otherwise slicing the dataframe df_data
# - Taking the dataframe head()
# - Using the quantile() function
# - Wrapping these steps in brackets () to make a pipeline

In [None]:
# Solution: Explore the Quantity values above 95th percentile
(df_data
 .drop_duplicates(['StockCode', 'UnitPrice'])
 .query('Quantity > Quantity.quantile(.95)')
 .sort_values(by='Quantity', ascending=False)
 .head(100)
)

__Challenge: Erforschen Menge pro Beschreibung__
    
Zuvor haben wir den durchschnittlichen Stückpreis pro Beschreibung angezeigt. Können Sie dies wiederholen, aber für die Menge? Wenn Sie einen Hinweis benötigen, klappen Sie die nächste Zelle auf.

In [None]:
# Challenge Hint
# The solution could include some of these steps, but not necessarily in this order: 
# Grouping the data
# Sorting values
# Calculating a mean()
# Viewing the dataframe head()

In [None]:
# Solution: Explore Quantity per Description
(df_data
 .groupby('Description')
 .mean()
 .sort_values(by='Quantity', ascending=False)
 .head(20)
)

Es gibt nichts Ungewöhnliches an den großen Werten für Menge, also behalten wir diese Zeilen bei; sie enthalten legitime Informationen, die wir modellieren müssen.

Bei der ursprünglichen Beschreibung der numerischen Daten hatte die Menge einen Höchstwert von 80995 und einen Mindestwert von -80995. Woran kann das Ihrer Meinung nach liegen?

In [None]:
# Check for some specific, suspicious values
df_data.query('Quantity in [80995.000000, -80995.000000]')

Eine Rechnungsnummer mit "C" bedeutet eine Rücksendung:

In [None]:
returns = df_data.query('InvoiceNo.str.startswith("C")')
# Alternativ: returns = df_data[df_data['InvoiceNo'].str.startswith('C')]
returns.sample(5)

... was wir überprüfen können, indem wir prüfen, ob ein Wert in der Spalte "Menge" größer als 0 ist, wenn die Rechnungsnummer mit "C" beginnt: 

In [None]:
print((returns.Quantity.values > 0).any())

In [None]:
# Define is_return_without_purchase, for identifying such transactions
def is_return_without_purchase(df: pd.DataFrame, df_row: pd.Series) -> bool:
    """
    Determine whether a transaction is a return without a corresponding purchase    
    Args:
        df: a dataframe of transaction data, including at least the columns 'CustomerID', Quantity' and 'StockCode'
        df_row: a row of a dataframe of transaction data, also including these columns
    Returns:
        True if a transaction is a return without a corresponding purchase, else False
    """
    if df_row['Quantity'] > 0:
        return False # Can't be a return without purchase as it's not a return
    else:
        customer_id = df_row['CustomerID']
        quantity = df_row['Quantity']
        stock_code = df_row['StockCode']

        matching_purchases = df[
            (df['CustomerID'] == customer_id) & (df['StockCode'] == stock_code) & (df['Quantity'] == abs(quantity))
        ]

        if len(matching_purchases) > 0:
            return False # Can't be a return without purchase as corresponding purchases were found
        else:
            return True

In [None]:
# Identify whether returns have purchases or not
returns = df_data.query('Quantity <= 0')
returns = returns.copy(deep=True) # Create a new copy, to avoid Pandas SettingWithCopyWarning
purchases = df_data.query('Quantity > 0')

returns['return_without_purchase'] = returns.apply(
    lambda x: is_return_without_purchase(df=purchases, df_row=x), axis=1)

In [None]:
# Combine return details with original dataframe
df_data = df_data.merge(
    returns[['return_without_purchase', 'InvoiceNo', 'InvoiceDate', 'StockCode', 'Quantity', 'UnitPrice']],
    how='left',
    on=['InvoiceNo', 'InvoiceDate', 'StockCode', 'Quantity', 'UnitPrice']
)
df_data.fillna(False, inplace=True)
print("Value counts for 'return_without_purchase:'", \
      df_data.return_without_purchase.value_counts())

In [None]:
# Remove the returns without purchases
df_data = df_data[~df_data.return_without_purchase]
df_data.drop(columns=['return_without_purchase'], inplace=True)

In [None]:
# Save the preprocessed data as a csv; we'll need it in the next notebook
df_data.to_csv("OnlineRetail_Preprocessed.csv", index=False)

In [None]:
# Get the number of invoices per day
df_data['InvoiceDate_Date'] = df_data['InvoiceDate'].dt.normalize()
counts = (df_data
          .groupby('InvoiceDate_Date')
          .count()
          .reset_index()
         )
# A note on reset_index(), and it's usage above, for the unsure:
# Our groupby().count() produces a DataFrame with a so-called 'multi-level Index', which reset_index() flattens
# (you can picture the effect by adding a cell and simply displaying the pipeline with and without reset_index()). 
# Flattening isn't always necessary, but here it is, as it will convert 'InvoiceDate_Date' from being an index 
# for the grouping, to being a column again.

In [None]:
# Display the number of invoices per day

# import plotly.graph_objects as go - just a reminder, this is how we imported plotly graph objects already
fig = go.Figure()
fig.add_trace(
    go.Bar(x=counts['InvoiceDate_Date'], y=counts['InvoiceNo'])
)

fig.update_layout(xaxis_title='Date',
                  yaxis_title='Invoices',
                  title=f'Count of Invoices Recorded per Day',
                  hovermode='x unified')

# Feel free to re-run this cell with different hover modes to control the label style.
# Choose between 'closest', 'x', 'y', 'x unified' (my favourite) or 'y unified'
# More details here: https://plotly.com/python/hover-text-and-formatting/

Es gibt Tage ohne Rechnungen. Dies könnte bedeuten, dass an diesem Tag wirklich keine Verkäufe getätigt wurden, oder es könnte ein Problem mit der Datenerfassung vorliegen. Idealerweise könnten wir das Unternehmen bitten, seine Pipelines zu überprüfen, aber wir können auch mit den Daten arbeiten, die wir haben. 

Wir werden den oben beschriebenen Vorgang des Plottens ziemlich oft wiederholen. Also verpacken wir sie in eine Funktion

In [None]:
# Define plot_histogram
def plot_histogram(data: pd.Series, x_title: str, y_title: str, title: str) -> None:
    """
    Plot a histogram given a pandas data series
    
    Args:
        data: the pandas series, e.g. df[some_column]
        x_title, y_title: titles for the x and y axes, respectively
        title: title of the plott itself
    """
    fig = go.Figure()
    fig.add_trace(
        go.Histogram(x=data)
    )
        
    fig.update_layout(xaxis_title=x_title,
                      yaxis_title=y_title,
                      title=title,
                      hovermode='x unified')
    fig.show()

Nun ist es an der Zeit, die Verteilung der Daten zu überprüfen.

__Challenge: Visualisierung der Daten mit selbst definierten Plotly-Funktionen__
    
Eine großartige Fähigkeit ist es, sich eine Funktionsdefinition und ihren Docstring anzusehen und herauszufinden, wie sie zu verwenden ist. Aus diesem Grund habe ich in der Definition von plot_histogram() "type hints" hinzugefügt. Typ-Hinweise zeigen dem Benutzer, welche Argumente die Funktion erwartet und von welchem Typ sie sein sollten (z. B. sollte 'title' ein String sein), und zeigen auch, was die Funktion zurückgibt (in diesem Fall ist die Ausgabe None, da die Funktion das Diagramm anzeigt, aber nicht zurückgibt). 

Für die nächste Aufgabe erstellen Sie also zwei neue Zellen, in denen Sie die Anwendung von plot_histogram() üben. Eine Zelle sollte die Verteilung der Mengenwerte darstellen, die andere die Werte des Stückpreises aus unserem df_data-Datenframe. Viel Erfolg!

In [None]:
# Plot distribution of 'Quantity' values
plot_histogram(data=df_data['Quantity'],
               x_title='Quantity Values',
               y_title='Count',
               title='Count of Quantity of Purchases Per Transaction')

In [None]:
# Plot distribution of 'Unit Price' values
plot_histogram(data=df_data['UnitPrice'],
               x_title='Unit Prices',
               y_title='Count',
               title='Count of Unit Price Values Per Transaction')

Diese Daten sind eindeutig verzerrt, was auf einige extrem hohe Werte zurückzuführen ist. Ihr erster Gedanke könnte sein, diese Werte zu entfernen, aber wir haben bereits bestätigt, dass sie legitime Informationen enthalten, mit denen unsere Modelle umgehen müssen. Wir werden also keine derartigen Daten entfernen. 

# Schritt 2: Die Werte für Recency, Frequency und Revenue berechnen

## Recency

Für die Recency (Aktualität) verwenden wir das letzte Kaufdatum pro Kunde*, um die inaktiven Tage zu berechnen. *Wir verwenden das InvoiceDate

In [None]:
# Prepare Recency values
# Create a generic customer dataframe to keep CustomerID and new segmentation scores
df_customer = pd.DataFrame(df_data.CustomerID.unique(), columns=['CustomerID'])

# Get the MaxPurchaseDate for each customer and create a dataframe with it
df_max_purchase = df_data.groupby('CustomerID').InvoiceDate.max().reset_index()
df_max_purchase.columns = ['CustomerID','MaxPurchaseDate']

# Calculate the max of all MaxPurchaseDates, then calculate recency for each customer 
# based on the difference between this and their MaxPurchaseDate
max_of_max_dates = df_max_purchase['MaxPurchaseDate'].max()
df_max_purchase['Recency'] = (max_of_max_dates - df_max_purchase['MaxPurchaseDate']).dt.days

# Merge this dataframe to our new customer dataframe
df_customer = pd.merge(df_customer, df_max_purchase, on='CustomerID')
df_customer.sample(10)

## Frequency

In [None]:
# Add each customer's minimum purchase date
df_min_purchase = df_data.groupby('CustomerID').InvoiceDate.min().reset_index()
df_min_purchase.columns = ['CustomerID','MinPurchaseDate']
# Merge this dataframe to our new customer dataframe
df_customer = pd.merge(df_customer, df_min_purchase, on='CustomerID')

In [None]:
# Calculate each customer's lifespan
df_customer['Lifespan'] = (df_customer.MaxPurchaseDate - df_customer.MinPurchaseDate).dt.days

In [None]:
# Prepare Frequency values
# Get the number of purchases for each customer and create a dataframe with it; combine with df_customer
df_frequency = df_data.groupby('CustomerID').InvoiceDate_Date.nunique().reset_index()
df_data.drop(columns=['InvoiceDate_Date'], inplace=True)
df_frequency.columns = ['CustomerID', 'Frequency']

df_customer = pd.merge(df_customer, df_frequency, on='CustomerID')

In [None]:
# Remove 'MaxPurchaseDate', 'MinPurchaseDate' as they are no longer needed
df_customer.drop(columns=['MaxPurchaseDate', 'MinPurchaseDate'], inplace=True)

## MonetaryValue

__Challenge: MonetaryValue Berechnen__

Für diese Aufgabe müssen wir eine neue Spalte mit der Bezeichnung "MonetaryValue" hinzufügen. Für jede Zeile in den Daten sollte MonetaryValue der UnitPrice multipliziert mit der Quantity sein. Auf diese Weise können wir den Geldwert pro Kunde ermitteln. 

Das mag kompliziert klingen, aber sobald wir die neue Spalte haben, ist der Prozess derselbe wie bei den Spalten "Recency" und "Frequency". Testen Sie also Ihr Gedächtnis, und wenn Sie wirklich nicht weiterkommen, können Sie sich von dem, was wir oben gemacht haben, inspirieren lassen. 

Viel Erfolg!

In [None]:
# Solution: Prepare Monetary Value values
df_data['MonetaryValue'] = df_data['UnitPrice'] * df_data['Quantity']
df_monetary_value = df_data.groupby('CustomerID').MonetaryValue.sum().reset_index()
df_customer = pd.merge(df_customer, df_monetary_value, on='CustomerID')

## Der vorbereiteten R-, F- und M-Werte Visualisieren

In [None]:
# Examine the final R, F & M scores
print("Sample:")
display(df_customer.sample(10))

print("Summary statistics:")
rfm_cols = ['Recency', 'Frequency', 'MonetaryValue']
display(df_customer[rfm_cols].describe().round(3))

In [None]:
# Visualise the distributions of R, F & M values per shopper
titles = ['Recency Values (Days Since Last Purchase) Per Shopper',
          'Purchase Frequency Values per Shopper',
          'Monetary Value Values per Shopper']

for col, title in zip(rfm_cols, titles):
    plot_histogram(data=df_customer[col], x_title=col, y_title='Count', title=title)
    
# A note on zip(), for the unfamiliar:
# Zip takes in iterables (lists, pandas Series, etc), which are objects that can return their members one at a time.
# It then iterates over the iterables, always returning one of each. 

# Example:
# for col, title in zip(rfm_cols, titles):
#     print(f"Columm: {col}; Title: {title}")
# This will print:
# Columm: Recency; Title: Recency Values (Days Since Last Purchase) Per Shopper
# Columm: Frequency; Title: Purchase Frequency Values per Shopper
# Columm: MonetaryValue; Title: Monetary Value Values per Shopper

# Schritt 3: Kunden anhand ihrer R-, F- und M-Bewertungen clustern

## Wichtiger Hinweis: K-Means-Annahmen (Assumptions)

Die Annahmen von K-Means sind:

- symmetrische Verteilungen (keine Skewness/Schiefe) zwischen den Variablen
- gleicher Durchschnittswert für alle Variablen (damit sie die Segmentierung nicht verzerren)
- gleiche Standardabweichung für alle Variablen

Wir haben gesehen, dass keine der Verteilungen symmetrisch ist. In der Tat waren sie alle rechtsschief. Daher sollten wir sie transformieren.

Es gibt jedoch noch ein Problem, mit dem wir umgehen müssen: Die beiden Spalten MonetaryValue und Recency enthalten jetzt 0s, die die Log-Transformation nicht verarbeiten kann. Daher fügen wir zu all ihren Werten 1 hinzu, bevor wir die Transformation durchführen.

In [None]:
# Add 1 to all Recency and MonetaryValue scores, so that the log transformation works correctly for them
df_customer['Recency'] += 1
df_customer['MonetaryValue'] += 1

In [None]:
# Apply the log transformation
for col in rfm_cols:
    df_customer[f'{col}_log'] = np.log10(df_customer[[col]])
    # A note on log10, for the unsure:
    # An explanation of logarithms is beyond the scope of this course, but resources are available online
    # Example: https://www.mathsisfun.com/algebra/logarithms.html
    
    #  Visualise the transformed scores
    plot_histogram(data=df_customer[f'{col}_log'],
                   x_title=f'{col} (Log-Transformed)',
                   y_title='Count',
                   title=col)

## Recency clustern

Jetzt können wir die Kunden auf der Grundlage ihrer Recency Bewertungen clustern. 

Zunächst müssen wir K mithilfe der Elbow-Methode definieren.
Beachten Sie, dass das optimale K auch von den Unternehmenszielen beeinflusst werden kann. 

In [None]:
# Try K-Means clustering with different values of K for the log-transformed recency scores
ssd={}

tmp = df_customer[['Recency_log']].reset_index()
for k_tmp in range(1, 10):
    kmeans = KMeans(n_clusters=k_tmp, max_iter=1000, random_state=rand_state).fit(tmp)
    ssd[k_tmp] = kmeans.inertia_

In [None]:
# Visualise the inertia / sum of squared distances (ssd.values()) for each value of k (ssd.keys()) we tried
fig = go.Figure()
fig.add_trace(
            go.Scatter(x=list(ssd.keys()),
                       y=list(ssd.values()),
                       mode='lines'))

fig.update_layout(xaxis_title='Number of Clusters',
                  yaxis_title='SSD',
                  title='SSD per Number of Clusters',
                  hovermode='x unified')

fig.show()

Die Grafik zeigt, dass zwei Cluster wahrscheinlich ideal sind. Je nach Geschäftsanforderungen können Sie auch mit mehr, z. B. drei Clustern experimentieren, die Ihre Kunden mit hohem, mittlerem und niedrigem Wert widerspiegeln.

Sie haben bereits gesehen, wie man ein Clustering durchführt. Da wir das jetzt ein paar Mal machen müssen, erstellen wir eine Funktion, die die Arbeit für uns erledigt.

In [None]:
# Define cluster_data()

def cluster_data(data: pd.DataFrame, kmeans: KMeans, cols_to_cluster: List[str]) -> None:
    """
    Fit a Kmeans model to a dataframe for a specified cluster column; assign cluster values to the data
    
    Args:
        data: the data to process
        kmeans: an object of the class sklearn.cluster._kmeans.KMeans
        cols_to_cluster: the columns upon which to cluster, e.g. ['Recency']
    """
    kmeans.fit(data[cols_to_cluster])
    new_col_name = '_'.join(cols_to_cluster)
    data[f'{new_col_name}_Cluster_(k={kmeans.n_clusters})'] = kmeans.predict(data[cols_to_cluster])
    # An example final new column, if e.g. cols_to_cluster = ['Recency', 'Frequency'] and kmeans.n_clusters = 2,
    # would be 'Recency_Frequency_Cluster_(k=2)' 

    return data

In [None]:
# Build our clusters for recency and add them to the dataframe
k_range = [2,3,4]
for k_tmp in k_range:
    kmeans = KMeans(n_clusters=k_tmp, max_iter=1000, random_state=rand_state)
    df_customer = cluster_data(data=df_customer, kmeans=kmeans, cols_to_cluster=['Recency_log'])

K-means weist die Labels nicht in geordneter Weise zu, d. h. 1 ist nicht unbedingt das beste/schlechteste im Vergleich zu k. Wir müssen die Cluster neu ordnen, so dass ein höheres Label eine bessere R-, F- oder M-Bewertung anzeigt. Zum Beispiel erhalten die Kunden mit den ältesten Aktualitätswerten eine niedrigere Label (0).

In [None]:
# Re-order cluster labels so that a high label number indicates a more desirable score

for k_tmp in k_range:
    # Group by cluster labels and get the mean of the Recency values per cluster label,
    tmp = (df_customer
           .groupby(f'Recency_log_Cluster_(k={k_tmp})')['Recency']
           .mean()
           .reset_index()
           # Then sort by the Recency values and drop the index
           .sort_values(by='Recency', ascending=False)
           .reset_index(drop=True))
    
    # Assign a new rank column using the index of the sorted data
    tmp['Rank'] = tmp.index

    
    # Merge the data frames on the cluster labels, drop the original cluster label column, replacing it with rank
    df_customer = (pd.merge(df_customer, tmp[[f'Recency_log_Cluster_(k={k_tmp})', 'Rank']],
                            on=f'Recency_log_Cluster_(k={k_tmp})')
                   .drop([f'Recency_log_Cluster_(k={k_tmp})'], axis=1)
                   .rename(columns={'Rank': f'Recency_log_Cluster_(k={k_tmp})'}))

__Challenge: Eine Cluster Relabelling Funktion Definieren__

Da wir diese Aktion mehrmals durchführen müssen, verpacken wir den Vorgang wieder in eine Funktion.

Wenn Sie darüber nachdenken, wie Sie diese Funktion aufbauen wollen, können Sie den obigen Code als Leitfaden verwenden. Aber denken Sie daran, dass Sie die for-Schleife nicht brauchen: Wir können die Funktion stattdessen später innerhalb einer for-Schleife aufrufen. 

Wenn Sie wirklich nicht weiterkommen, habe ich in der nächsten Zelle einen Hinweis vorbereitet. Viel Glück!

In [None]:
# Challenge Hint: This is the function definition and docstring I used in my answer.
def relabel_clusters(data: pd.DataFrame, cluster_col: str, cluster_col_orig: str, ascending: bool) -> pd.DataFrame:
    """
    Re-label clusters so that a higher cluster label indicates a better R, F or M score
    
    Args:
        data: the data to process
        cluster_col: the column containing cluster labels, e.g. 'Recency_Cluster'
        cluster_col_orig: the column which was used to create the clusters, e.g. 'Recency'
        ascending: whether a higher mean cluster_col_orig value is better (ascending=True) or worse
        (ascending=False). E.g. if cluster_col_orig='MonetaryValue', ascending=True
        
    """
    
    raise NotImplementedError("This is just a function definition and docstring; your challenge is to implement it")

In [None]:
# Challenge Solution: Define relabel_clusters()
def relabel_clusters(data: pd.DataFrame, cluster_col: str, cluster_col_orig: str, ascending: bool) -> pd.DataFrame:
    """
    Re-label clusters so that a higher cluster label indicates a better R, F or M score
    
    Args:
        data: the data to process
        cluster_col: the column containing cluster labels, e.g. 'Recency_Cluster'
        cluster_col_orig: the column which was used to create the clusters, e.g. 'Recency'
        ascending: whether a higher mean cluster_col_orig value is better (ascending=True) or worse
        (ascending=False). E.g. if cluster_col_orig='MonetaryValue', ascending=True
        
    """
    # Group by cluster labels and get the mean of cluster_col_orig per cluster label
    data_tmp = data.groupby(cluster_col)[cluster_col_orig].mean().reset_index()
    # Sort by cluster_col_orig values and drop the index
    data_tmp = data_tmp.sort_values(by=cluster_col_orig, ascending=ascending).reset_index(drop=True)
    # Assign a new rank column using the index of the sorted data
    data_tmp['Rank'] = data_tmp.index
    # Merge the two data frames on the cluster labels, drop the original cluster label column, replace it with rank
    data_new = (pd.merge(data, data_tmp[[cluster_col, 'Rank']], on=cluster_col)
                .drop([cluster_col], axis=1)
                .rename(columns={"Rank": cluster_col}))
                
    return data_new


In [None]:
# Visualise the clusters in order to help choose the best value of k
col = 'Recency'
k_range = [2, 3, 4]
for k_tmp in k_range:
    fig = go.Figure()
    fig.add_trace(
        go.Scatter(
            x=df_customer[col], y=np.random.randint(low=0, high=100, size=len(df_customer)), mode='markers',
            marker_color=df_customer[f'{col}_log_Cluster_(k={k_tmp})'], marker_colorscale='plotly3',
            hovertemplate='Recency: %{x}'
                          '<extra></extra>'
        )
    )
    # Other plotly colorscales can be found here: https://plotly.com/python/builtin-colorscales/
    fig.update_layout(
        xaxis_title=col, title=f'{col} Values in {k_tmp} Clusters',
        yaxis=go.layout.YAxis(title='Random Scatter', showticklabels=False)
    )
    fig.show()

## Frequency & MonetaryValue clustern

Probieren wir noch einmal zahlreiche k-Werte für die Frequency- und MonetaryValue aus und entscheiden wir, wie viele Cluster jeweils verwendet werden sollen.

Die Fehlerkurven sehen fast identisch zueinander und zu der Kurve aus, die wir für verschiedene Anzahlen von Recency-Clustern gesehen haben. Das liegt daran, dass wir die Daten logarithmisch skaliert haben, so dass die Werte für alle drei Variablen in einem ähnlichen Bereich liegen. Daher sind auch die Fehler ähnlich.

In [None]:
# Try different k values for Frequency and MonetaryValue_log and plot the results
for col in ['Frequency_log', 'MonetaryValue_log']:
    ssd={}
    
    tmp = df_customer[[col]].reset_index()
    for k_tmp in range(1, 10):
        kmeans = KMeans(n_clusters=k_tmp, max_iter=1000, random_state=rand_state).fit(tmp)
        ssd[k_tmp] = kmeans.inertia_
        
    fig = go.Figure()
    fig.add_trace(
        go.Scatter(x=list(ssd.keys()),
                   y=list(ssd.values()),
                   mode='lines'))

    fig.update_layout(xaxis_title='Number of Clusters',
                      yaxis_title='SSD',
                      title=f'SSD per Number of Clusters for {col}',
                      hovermode='x unified')
    fig.show()
    print(ssd)

Auf der Grundlage dieser Ergebnisse sollten wir bei einem k-Wert von 2 bleiben. 

Wir können nun ganz einfach die Frequency- und MonetaryValue-Cluster ableiten und sie neu anordnen, indem wir die zuvor definierten Funktionen und eine einfache for-loop verwenden.

In [None]:
# Build our clusters for Frequency and MonetaryValue and add them to the dataframe
for k_tmp in k_range:
    for col in  ['Frequency_log', 'MonetaryValue_log']:
        kmeans = KMeans(n_clusters=k_tmp, max_iter=1000, random_state=rand_state)
        df_customer = cluster_data(data=df_customer, kmeans=kmeans, cols_to_cluster=[col])
        df_customer = relabel_clusters(data=df_customer,
                                       cluster_col=f'{col}_Cluster_(k={k_tmp})',
                                       cluster_col_orig=col,
                                       ascending=True)

In [None]:
# Visualise the clusters in order to help choose the best value of k
k_range = [2,3,4]
for col in ['Frequency', 'MonetaryValue']:
    for k_tmp in k_range:
        fig = go.Figure()    
        fig.add_trace(
            go.Scatter(
                x=df_customer[col], y=np.random.randint(low=0, high=100, size=len(df_customer)), mode='markers',
                marker_color=df_customer[f'{col}_log_Cluster_(k={k_tmp})'], marker_colorscale='plotly3',
                hovertemplate=f'{col}'+': %{x}'
                              '<extra></extra>'
            )
        )
        
        fig.update_layout(
            xaxis_title=col, title=f'{col} Values in {k_tmp} Clusters',
            yaxis = go.layout.YAxis(title='Random Scatter', showticklabels=False)
        )
        fig.show()

## Schritt 4: Berechnung der Gesamtpunktzahl pro Kunde

Wir werden einfach die Summe aller drei R, F & M Scores verwenden.

Danach können wir die Daten nach der OverallScore gruppiert betrachten und die Mittelwerte der ursprünglichen (d. h. nicht transformierten) R-, F- und M-Werte pro OverallScore überprüfen.

In [None]:
# Calculate overall scores
k=2
df_customer['OverallScore'] = (df_customer[f'Recency_log_Cluster_(k={k})']
                           + df_customer[f'Frequency_log_Cluster_(k={k})']
                           + df_customer[f'MonetaryValue_log_Cluster_(k={k})'])
                           
df_customer.groupby('OverallScore')[rfm_cols].mean()

In [None]:
# Visualise the number of customers per score (helps in assigning Tiers)
pd.DataFrame(df_customer.value_counts('OverallScore')).reset_index().sort_values(by='OverallScore')

Schließlich weisen wir jedem Wert von OverallScore einen Namen zu und visualisieren das Ergebnis.

- 0 = Low Value
- 1 = Low-Mid Value
- 2 = Mid-High Value
- 3 = High Value

In [None]:
# Assign customers to tiers; show how many customers we have per tier
df_customer['Tier'] = 'Low-Value'
df_customer.loc[df_customer['OverallScore'] == 1,'Tier'] = 'Low-Mid-Value' 
df_customer.loc[df_customer['OverallScore'] == 2,'Tier'] = 'Mid-High-Value'
df_customer.loc[df_customer['OverallScore'] == 3,'Tier'] = 'High-Value'

In [None]:
# Plot MonetaryValue and Frequency
plot_data = [
    go.Scatter(
        x=df_customer.query("Tier == 'Low-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Low-Value'")['MonetaryValue'],
        mode='markers',
        name='Low',
        marker=dict(size= 7,
            line=dict(width=1),
            color='blue',
                    
            opacity=0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Low-Mid-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Low-Mid-Value'")['MonetaryValue'],
        mode='markers',
        name='Low-Mid',
        marker=dict(size=7,
            line=dict(width=1),
            color='red',
            opacity=0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Mid-High-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Mid-High-Value'")['MonetaryValue'],
        mode='markers',
        name='Mid-High',
        marker=dict(size=7,
            line=dict(width=1),
            color='green',
            opacity=0.5
           )
    ),
        go.Scatter(
            x=df_customer.query("Tier == 'High-Value'")['Frequency'],
            y=df_customer.query("Tier == 'High-Value'")['MonetaryValue'],
            mode='markers',
            name='High',
            marker=dict(size=7,
                line=dict(width=1),
                color='purple',
                opacity=0.5
               )
        )
]

plot_layout = go.Layout(
        yaxis={'title': "MonetaryValue"},
        xaxis={'title': "Frequency"},
        title='Tiering Customers For MonetaryValue and Frequency'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
fig.show()

In [None]:
# Plot MonetaryValue and Recency
plot_data = [
    go.Scatter(
        x=df_customer.query("Tier == 'Low-Value'")['Recency'],
        y=df_customer.query("Tier == 'Low-Value'")['MonetaryValue'],
        mode='markers',
        name='Low',
        marker= dict(size= 7,
            line= dict(width=1),
            color= 'blue',
            opacity= 0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Low-Mid-Value'")['Recency'],
        y=df_customer.query("Tier == 'Low-Mid-Value'")['MonetaryValue'],
        mode='markers',
        name='Low-Mid',
        marker= dict(size=7,
            line= dict(width=1),
            color= 'red',
            opacity= 0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Mid-High-Value'")['Recency'],
        y=df_customer.query("Tier == 'Mid-High-Value'")['MonetaryValue'],
        mode='markers',
        name='Mid-High',
        marker= dict(size=7,
            line= dict(width=1),
            color= 'green',
            opacity= 0.5
           )
    ),
        go.Scatter(
            x=df_customer.query("Tier == 'High-Value'")['Recency'],
            y=df_customer.query("Tier == 'High-Value'")['MonetaryValue'],
            mode='markers',
            name='High',
            marker= dict(size=7,
                line= dict(width=1),
                color= 'purple',
                opacity= 0.5
               )
        )
]

plot_layout = go.Layout(
        yaxis= {'title': "MonetaryValue"},
        xaxis= {'title': "Recency"},
        title='Tiering Customers For MonetaryValue and Recency'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
fig.show()

In [None]:
# Plot Frequency and Recency
plot_data = [
    go.Scatter(
        x=df_customer.query("Tier == 'Low-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Low-Value'")['Recency'],
        mode='markers',
        name='Low',
        marker= dict(size= 7,
            line= dict(width=1),
            color= 'blue',
            opacity= 0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Low-Mid-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Low-Mid-Value'")['Recency'],
        mode='markers',
        name='Low-Mid',
        marker= dict(size=7,
            line= dict(width=1),
            color= 'red',
            opacity= 0.5
           )
    ),
        go.Scatter(
        x=df_customer.query("Tier == 'Mid-High-Value'")['Frequency'],
        y=df_customer.query("Tier == 'Mid-High-Value'")['Recency'],
        mode='markers',
        name='Mid-High',
        marker= dict(size=7,
            line= dict(width=1),
            color= 'green',
            opacity= 0.5
           )
    ),
        go.Scatter(
            x=df_customer.query("Tier == 'High-Value'")['Frequency'],
            y=df_customer.query("Tier == 'High-Value'")['Recency'],
            mode='markers',
            name='High',
            marker= dict(size=7,
                line= dict(width=1),
                color= 'purple',
                opacity= 0.5
               )
        )
]

plot_layout = go.Layout(
        yaxis= {'title': 'Recency'},
        xaxis= {'title': 'Frequency'},
        title='Tiering Customers For Frequency and Recency'
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
fig.show()