In [1]:
# Import aller benötigten Programmbibliotheken

import pandas as pd
import numpy as np
import scipy.sparse as sparse
from scipy.sparse.linalg import spsolve
import random
import implicit
import nmslib
import annoy
from implicit.evaluation import precision_at_k, mean_average_precision_at_k

# Import des Online Retail-Datensatzes

OnlineRetail = pd.read_excel(r"C:\Users\patri\Google Drive\Uni!\Master WiInfo\IV. Semester\Seminararbeit\Datensätze\Online Retail\Online Retail.xlsx")

# Anzeigen des 'Datensatzkopfes'

OnlineRetail.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [2]:
# Der Datensatz enhält insgesamt 541909 Zeilen

OnlineRetail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
InvoiceNo      541909 non-null object
StockCode      541909 non-null object
Description    540455 non-null object
Quantity       541909 non-null int64
InvoiceDate    541909 non-null datetime64[ns]
UnitPrice      541909 non-null float64
CustomerID     406829 non-null float64
Country        541909 non-null object
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


In [37]:
# Zeilen, die keine CustomerID enthalten, entfernen. 
# Ohne CustomerID kann später in der Matrix keien Zuordnung zu einem Pordukt erfolgen. 

CleanedData = OnlineRetail.loc[pd.isnull(OnlineRetail.CustomerID) == False]

In [4]:
# Nach dem Entfernen der Zeilen ohne CustomerID enhält der Datensatz noch 406829 Zeilen

CleanedData.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 8 columns):
InvoiceNo      406829 non-null object
StockCode      406829 non-null object
Description    406829 non-null object
Quantity       406829 non-null int64
InvoiceDate    406829 non-null datetime64[ns]
UnitPrice      406829 non-null float64
CustomerID     406829 non-null float64
Country        406829 non-null object
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 27.9+ MB


In [5]:
#Erstellen einer separaten Tabelle, die nur den StockCode und die eine Description der Artikel enthält

ItemData = CleanedData[["StockCode", "Description"]].drop_duplicates()

# Formatieren der Spalte "StockCode" von einem numerischen Wert in einen String

ItemData["StockCode"] = ItemData["StockCode"].astype(str)

In [6]:
# Die separate Tabelle 'ItemData' enthält die 3916 Produkte des Unternehmens
 
ItemData.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3916 entries, 0 to 540421
Data columns (total 2 columns):
StockCode      3916 non-null object
Description    3916 non-null object
dtypes: object(2)
memory usage: 91.8+ KB


In [7]:
# Anzeigen des 'Tabellenkopfes'

ItemData.head()

Unnamed: 0,StockCode,Description
0,85123A,WHITE HANGING HEART T-LIGHT HOLDER
1,71053,WHITE METAL LANTERN
2,84406B,CREAM CUPID HEARTS COAT HANGER
3,84029G,KNITTED UNION FLAG HOT WATER BOTTLE
4,84029E,RED WOOLLY HOTTIE WHITE HEART.


In [8]:
# Der Datensatz enthält nicht nur Verkäufe, sondern auch Rückgaben, da negative Mengen in der Spalte 'Quantity' vorhanden sind.

CleanedData["Quantity"].describe()

count    406829.000000
mean         12.061303
std         248.693370
min      -80995.000000
25%           2.000000
50%           5.000000
75%          12.000000
max       80995.000000
Name: Quantity, dtype: float64

In [9]:
# Überführen der CustomerID in numerischen Wert (int)
CleanedData["CustomerID"] = CleanedData["CustomerID"].astype(int)
CleanedData.info()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 8 columns):
InvoiceNo      406829 non-null object
StockCode      406829 non-null object
Description    406829 non-null object
Quantity       406829 non-null int64
InvoiceDate    406829 non-null datetime64[ns]
UnitPrice      406829 non-null float64
CustomerID     406829 non-null int32
Country        406829 non-null object
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(4)
memory usage: 26.4+ MB


In [10]:
# Reduzieren des Online Retail Datensatzes auf die benötigten Daten für die Kunden-Produkt-Matrix:

CleanedData = CleanedData[["StockCode", "Quantity", "CustomerID"]]

# Gruppieren und aufsummieren der Daten, um Rückgaben und Käufe 'auszugleichen':

GroupedData = CleanedData.groupby(["CustomerID", "StockCode"]).sum().reset_index()

# Sollten durch das Aufsummieren von Rückgaben und Käufen 0-Werte entstanden sein, werden diese nun durch 1 ersetzt.
# Dies gibt weiterhin ein Kaufinteresse des Kunden an diesem Artikel wieder.

GroupedData["Quantity"].loc[GroupedData["Quantity"] == 0] = 1

# Anzeigen des 'Tabellenkopfes' des reduzierten Datensatzes

GroupedData.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,CustomerID,StockCode,Quantity
0,12346,23166,1
1,12347,16008,24
2,12347,17021,36
3,12347,20665,6
4,12347,20719,40


In [11]:
# Es sind weiterhin mehrere Werte, die kleiner 0 sind,im Datensatz vorhanden d.h. im betrachteten Zeitraum wurden mehr Produkte zurückgegeben als gekauft wurden.

GroupedData["Quantity"].describe()

count    267615.000000
mean         18.341240
std          97.388138
min       -9360.000000
25%           2.000000
50%           6.000000
75%          12.000000
max       12540.000000
Name: Quantity, dtype: float64

In [12]:
# Mengen, die weiterhin kleiner 0 sind, werden herausgefiltert (d.h. mehr Rückgaben als Verkäufe).
# Dies wird getan, da sich diese negativen Mengen nicht korrekt gegenüber früheren Bestelleungen gegengerechnen lassen.

PurchasedData = GroupedData[GroupedData["Quantity"] > 0]
PurchasedData.head()

Unnamed: 0,CustomerID,StockCode,Quantity
0,12346,23166,1
1,12347,16008,24
2,12347,17021,36
3,12347,20665,6
4,12347,20719,40


In [13]:
# Erstellen einer Liste von Kunden aus dem DataFrame 'PurchasedData'

Customers = list(np.sort(PurchasedData["CustomerID"].unique()))

# Erstellen einer Liste von Produkten aus dem DataFrame 'PurchasedData'

Products = list(PurchasedData["StockCode"].unique())

# Erstellen einer Liste von Mengen aus dem DataFrame 'PurchasedData'

Quantities = list(PurchasedData["Quantity"])

In [14]:
# Implicit benötigt eine Sparse Matrix der Form Produkt / Kunde / Bewertung

# Erstellen der Spalten der Matrix

cols = PurchasedData["CustomerID"].astype("category", categories = Customers).cat.codes

# Erstellen der Reihen der Matrix

rows = PurchasedData["StockCode"].astype("category", categories = Products).cat.codes

# Erstellen der Matrix

PurchaseMatrix = sparse.csr_matrix((Quantities, (rows, cols)), shape = (len(Products), len(Customers)))

  exec(code_obj, self.user_global_ns, self.user_ns)


In [15]:
# Anzeigen der Matrix

PurchaseMatrix

<3664x4338 sparse matrix of type '<class 'numpy.int32'>'
	with 266723 stored elements in Compressed Sparse Row format>

In [16]:
# Berechnung der 'Sparsity' der Matrix
# Mit einer Sparsity von 98,32 % ist die Matrix ausreichend befüllt, um aussagelräftige Empfehlungen generieren zu können. 

MatrixSize = PurchaseMatrix.shape[0]*PurchaseMatrix.shape[1]
NumberPurchases = len(PurchaseMatrix.nonzero()[0])
Sparsity = 100*(1 - (NumberPurchases/MatrixSize))
Sparsity

98.32190920694744

In [38]:
# Für das Training und die spätere Bewertung der Algorithmen wird der Datensatz in Trainings- & Testdaten unterteilt.
# 80 % der Daten werden für das Training der Algorithmen verwendet.

def train(ratings, pct_test = 0.2):
    test_set = ratings.copy()
    test_set[test_set != 0] = 1
    training_set = ratings.copy()
    nonzero_inds = training_set.nonzero()
    nonzero_pairs = list(zip(nonzero_inds[0], nonzero_inds[1]))
    random.seed(0)
    num_samples = int(np.ceil(pct_test * len(nonzero_pairs)))
    samples = random.sample(nonzero_pairs, num_samples)
    user_inds = [index[0] for index in samples]
    item_inds = [index[1] for index in samples]
    training_set[user_inds, item_inds] = 0
    training_set.eliminate_zeros()
    return training_set, test_set, list(set(user_inds))

ProductTrain, ProductTest, ProductUsersAltered = train(PurchaseMatrix, pct_test = 0.2)

In [20]:
# Anzeigend er Trainings-Matrix

ProductTrain

<3664x4338 sparse matrix of type '<class 'numpy.int32'>'
	with 213378 stored elements in Compressed Sparse Row format>

In [21]:
# Anzeigen der Trainings-Matrix

ProductTest

<3664x4338 sparse matrix of type '<class 'numpy.int32'>'
	with 266723 stored elements in Compressed Sparse Row format>

In [22]:
from implicit.nearest_neighbours import (BM25Recommender, CosineRecommender,
                                         TFIDFRecommender, bm25_weight)

In [39]:
# Initialisieren der verschiedenen Algorithmen

# Alternating Least Square

ALS = implicit.als.AlternatingLeastSquares(iterations = 15)

# Bayesian Personalized Ranking

BPR = implicit.bpr.BayesianPersonalizedRanking()

# Alternating Least Squares unter Verwendung der NMSLib zur Berechnung der Nearest Neigbours

NMSL_ALS = implicit.approximate_als.NMSLibAlternatingLeastSquares()

# Alternating Least Squares unter Verwendung von Annoy zur Berechnung ähnlicher Produkte 

AN_ALS = implicit.approximate_als.AnnoyAlternatingLeastSquares()

In [40]:
# Trainieren der verschiedenen Modelle

# Alternating Least Square

ALS.fit(ProductTrain)

# Bayesian Personalized Ranking

BPR.fit(ProductTrain)

# Alternating Least Squares unter Verwendung der NMSLib zur Berechnung der Nearest Neigbours

NMSL_ALS.fit(ProductTrain)

# Alternating Least Squares unter Verwendung von Annoy zur Berechnung ähnlicher Produkte 

AN_ALS.fit(ProductTrain)

100%|██████████| 15.0/15 [00:01<00:00, 14.94it/s]
100%|██████████| 100/100 [00:02<00:00, 32.81it/s, correct=93.01%, skipped=8.91%]
100%|██████████| 15.0/15 [00:01<00:00, 11.39it/s]
100%|██████████| 15.0/15 [00:01<00:00, 10.00it/s]


In [26]:
UserItems = ProductTrain.T.tocsr()
CustomersArr = np.array(Customers)
ProductsArr = np.array(Products)

In [27]:
# Definieren der Empfehlungsfunktion mit der Auswahlmöglichkeit des Algorithmus

def recommendProduct(rec_type, customer_id, mf_train, customer_list, item_list, num_items,item_database):
    cust_ind = np.where(customer_list == customer_id)[0][0]
    
    counter = 0
    FirstLevelRecommendations = []
    for i in range(0, num_items - 1):
        RecSysResults = rec_type.recommend(cust_ind, UserItems)[counter]
        counter = counter + 1
        RecSysResults = RecSysResults[0]
        FirstLevelRecommendations.append(RecSysResults)
    RecommendationsList = []
    for index in FirstLevelRecommendations:
        ProductCode = ProductsArr[index]
        RecommendationsList.append(ProductCode)
    return item_database[item_database["StockCode"].isin (RecommendationsList)]

In [28]:
recommendProduct(BPR, 12361, ProductTrain, CustomersArr, ProductsArr, 10, ItemData)

Unnamed: 0,StockCode,Description
35,22629,SPACEBOY LUNCH BOX
37,22631,CIRCUS PARADE LUNCH BOX
39,21731,RED TOADSTOOL LED NIGHT LIGHT
235,22556,PLASTERS IN TIN CIRCUS PARADE
671,22551,PLASTERS IN TIN SPACEBOY
672,22554,PLASTERS IN TIN WOODLAND ANIMALS
3853,21249,WOODLAND HEIGHT CHART STICKERS
6965,22331,WOODLAND PARTY BAG + STICKER SET
151454,23255,CHILDRENS CUTLERY CIRCUS PARADE


In [29]:
recommendProduct(ALS, 12361, ProductTrain, CustomersArr, ProductsArr, 10, ItemData)

Unnamed: 0,StockCode,Description
35,22629,SPACEBOY LUNCH BOX
174,22662,LUNCH BAG DOLLY GIRL DESIGN
235,22556,PLASTERS IN TIN CIRCUS PARADE
371,22384,LUNCH BAG PINK POLKADOT
411,22383,LUNCH BAG SUKI DESIGN
412,20728,LUNCH BAG CARS BLUE
413,20727,LUNCH BAG BLACK SKULL.
671,22551,PLASTERS IN TIN SPACEBOY
672,22554,PLASTERS IN TIN WOODLAND ANIMALS
97457,22383,LUNCH BAG SUKI DESIGN


In [30]:
recommendProduct(NMSL_ALS, 12361, ProductTrain, CustomersArr, ProductsArr, 10, ItemData)

Unnamed: 0,StockCode,Description
35,22629,SPACEBOY LUNCH BOX
174,22662,LUNCH BAG DOLLY GIRL DESIGN
235,22556,PLASTERS IN TIN CIRCUS PARADE
371,22384,LUNCH BAG PINK POLKADOT
411,22383,LUNCH BAG SUKI DESIGN
412,20728,LUNCH BAG CARS BLUE
413,20727,LUNCH BAG BLACK SKULL.
671,22551,PLASTERS IN TIN SPACEBOY
672,22554,PLASTERS IN TIN WOODLAND ANIMALS
97457,22383,LUNCH BAG SUKI DESIGN


In [31]:
recommendProduct(AN_ALS, 12361, ProductTrain, CustomersArr, ProductsArr, 10, ItemData)

Unnamed: 0,StockCode,Description
21,22960,JAM MAKING SET WITH JARS
37,22631,CIRCUS PARADE LUNCH BOX
463,22716,CARD CIRCUS PARADE
652,22367,CHILDRENS APRON SPACEBOY DESIGN
665,21916,SET 12 RETRO WHITE CHALK STICKS
693,21716,BOYS VINTAGE TIN SEASIDE BUCKET
1154,22974,CHILDRENS DOLLY GIRL MUG
153157,23199,JUMBO BAG APPLES
294290,23333,IVORY WICKER HEART MEDIUM


In [33]:
# Evaluieren der Algorithmen mittels Precision (P)

P_ALS = precision_at_k(ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)
P_BPR = precision_at_k(BPR, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)
P_NMSL_ALS = precision_at_k(NMSL_ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)
P_AN_ALS = precision_at_k(AN_ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)

100%|██████████| 4338/4338 [00:02<00:00, 1847.75it/s]
100%|██████████| 4338/4338 [00:02<00:00, 1946.13it/s]
100%|██████████| 4338/4338 [00:01<00:00, 3869.75it/s]
100%|██████████| 4338/4338 [00:01<00:00, 3275.30it/s]


In [34]:
print(P_ALS, P_BPR, P_NMSL_ALS, P_AN_ALS)

0.14121473976956694 0.1024284862932062 0.1403456495828367 0.11084624553039332


In [35]:
# Evaluieren der Algorithmen mittels Mean Average Precision (MAP)

MAP_ALS= mean_average_precision_at_k(ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, show_progress=True, num_threads=1)
MAP_BPR = mean_average_precision_at_k(BPR, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)
MAP_NMSL_ALS = mean_average_precision_at_k(NMSL_ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)
MAP_AN_ALS = mean_average_precision_at_k(AN_ALS, ProductTrain.T.tocsr(), ProductTest.T.tocsr(), K=10, num_threads=4)

100%|██████████| 4338/4338 [00:01<00:00, 3263.02it/s]
100%|█████████▉| 4337/4338 [00:02<00:00, 1981.60it/s]
100%|██████████| 4338/4338 [00:01<00:00, 4061.25it/s]
100%|██████████| 4338/4338 [00:01<00:00, 3686.10it/s]


In [36]:
print(MAP_ALS, MAP_BPR, MAP_NMSL_ALS, MAP_AN_ALS)

0.07382026050990385 0.05042132031978824 0.07482068960765664 0.058252356632679206
