## Import Libraries and Load Data

In [1]:
import pandas as pd
import numpy as np
import random
from tqdm import tqdm
from gensim.models import Word2Vec 
import matplotlib.pyplot as plt
%matplotlib inline

import warnings;
warnings.filterwarnings('ignore')

ModuleNotFoundError: No module named 'gensim'

In [57]:
df_raw = pd.read_excel('tnved-CIS-02.xls')

Let's take a quick look at our data. You can __download it from [here](https://archive.ics.uci.edu/ml/machine-learning-databases/00352/).__

In [58]:
df_raw.head()

Unnamed: 0,TNVED,Cust_ID,Name,Unit,FULL_TEXT
0,101,6116.0,"Лошади, ослы, мулы и лошаки живые:",,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ:"
1,101210000,5129.0,––чистопородные племенные животные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИ..."
2,10129,6730.0,––прочие:,,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР..."
3,101291000,6689.0,–––убойные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР..."
4,101299000,5596.0,–––прочие,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР..."


In [44]:
df_raw.shape

(15927, 5)

## Treat Missing Data

In [59]:
# check for missing values
df_raw.isnull().sum()

TNVED           0
Cust_ID       135
Name           31
Unit         4375
FULL_TEXT      31
dtype: int64

<br>
Since we have sufficient data, we will drop all the rows with missing values.

In [61]:
# remove missing values
df_raw.dropna(inplace=True)

# again check missing values
df_raw.isnull().sum()

TNVED        0
Cust_ID      0
Name         0
Unit         0
FULL_TEXT    0
dtype: int64

## Data Preparation

Let's convert the StockCode to string datatype.

In [62]:
df_raw['TNVED']= df_raw['TNVED'].astype(str)

Let's check out the number of unique customers in our dataset.

In [63]:
customers = df_raw["Cust_ID"].unique().tolist()
len(customers)

1996

In [64]:
import string
import nltk
import nltk
nltk.download('stopwords')
lst_stopwords = nltk.corpus.stopwords.words('russian')
lst_stopwords.append('прочие')
lst_stopwords.append('включая')

lst_stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Jora\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [65]:
def clean_text(text, tokenizer, stopwords):
    """Pre-process text and generate tokens

    Args:
        text: Text to tokenize.

    Returns:
        Tokenized text.
    """
    text = str(text).lower()  # Lowercase words
    text = re.sub(r"\[(.*?)\]", "", text)  # Remove [+XYZ chars] in content
    text = re.sub(r"\s+", " ", text)  # Remove multiple spaces in content
    text = re.sub(r"\w+…|…", "", text)  # Remove ellipsis (and last word)
    text = re.sub(r"(?<=\w)-(?=\w)", " ", text)  # Replace dash between words
    text = re.sub(
        f"[{re.escape(string.punctuation)}]", "", text
    )  # Remove punctuation

    tokens = tokenizer(text)  # Get tokens from text
    tokens = [t for t in tokens if not t in lst_stopwords]  # Remove stopwords
    tokens = ["" if t.isdigit() else t for t in tokens]  # Remove digits
    tokens = [t for t in tokens if len(t) > 1]  # Remove short tokens
    return tokens

In [66]:
text_columns = ['FULL_TEXT']

df = df_raw
df[ "FULL_TEXT"] = df[ "FULL_TEXT"].fillna(" ")

for col in text_columns:
    df[col] = df[col].astype(str)

# Create text column based on title, description, and content
df["text"] = df[text_columns].apply(lambda x: " | ".join(x), axis=1)
df["tokens"] = df["text"].map(lambda x: clean_text(x, word_tokenize, lst_stopwords))

#Remove duplicated after preprocessing
_, idx = np.unique(df["tokens"], return_index=True)
df = df.iloc[idx, :]

# Remove empty values
df = df.loc[df.tokens.map(lambda x: len(x) > 0), ["text", "tokens"]]

print(f"Original dataframe: {df_raw.shape}")
print(f"Pre-processed dataframe: {df.shape}")

Original dataframe: (11454, 7)
Pre-processed dataframe: (10686, 2)


In [71]:
df_raw

Unnamed: 0,TNVED,Cust_ID,Name,Unit,FULL_TEXT,text,tokens
1,0101210000,5129.0,––чистопородные племенные животные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИ...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИ...","[лошади, ослы, мулы, лошаки, живые, лошади, чи..."
3,0101291000,6689.0,–––убойные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","[лошади, ослы, мулы, лошаки, живые, лошади, уб..."
4,0101299000,5596.0,–––прочие,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","[лошади, ослы, мулы, лошаки, живые, лошади]"
5,0101300000,5117.0,–ослы,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ОСЛЫ","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ОСЛЫ","[лошади, ослы, мулы, лошаки, живые, ослы]"
6,0101900000,5686.0,–прочие,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ПРОЧИЕ","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ПРОЧИЕ","[лошади, ослы, мулы, лошаки, живые]"
...,...,...,...,...,...,...,...
15785,9506620000,5694.0,––мячи надувные,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15787,9506691000,6802.0,–––мячи для крикета и поло,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15788,9506699000,5291.0,–––прочие,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15790,9506701000,5769.0,––ледовые коньки,пар,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."


It is a good practice to set aside a small part of the dataset for validation purpose. Therefore, I will use data of 90% of the customers to create word2vec embeddings. Let's split the data.

In [72]:
# shuffle customer ID's
random.shuffle(customers)

# extract 90% of customer ID's
customers_train = [customers[i] for i in range(round(0.9*len(customers)))]

# split data into train and validation set
train_df = df_raw[df_raw['Cust_ID'].isin(customers_train)]
validation_df = df_raw[~df_raw['Cust_ID'].isin(customers_train)]train_df

Unnamed: 0,TNVED,Cust_ID,Name,Unit,FULL_TEXT,text,tokens
1,0101210000,5129.0,––чистопородные племенные животные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИ...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИ...","[лошади, ослы, мулы, лошаки, живые, лошади, чи..."
3,0101291000,6689.0,–––убойные,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","[лошади, ослы, мулы, лошаки, живые, лошади, уб..."
4,0101299000,5596.0,–––прочие,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ПР...","[лошади, ослы, мулы, лошаки, живые, лошади]"
5,0101300000,5117.0,–ослы,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ОСЛЫ","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ОСЛЫ","[лошади, ослы, мулы, лошаки, живые, ослы]"
6,0101900000,5686.0,–прочие,шт,"ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ПРОЧИЕ","ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ПРОЧИЕ","[лошади, ослы, мулы, лошаки, живые]"
...,...,...,...,...,...,...,...
15784,9506610000,5595.0,––мячи для тенниса,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15787,9506691000,6802.0,–––мячи для крикета и поло,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15788,9506699000,5291.0,–––прочие,шт,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."
15790,9506701000,5769.0,––ледовые коньки,пар,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,ИНВЕНТАРЬ И ОБОРУДОВАНИЕ ДЛЯ ЗАНЯТИЙ ОБЩЕЙ ФИ...,"[инвентарь, оборудование, занятий, общей, физк..."


Let's create sequences of purchases made by the customers in the dataset for both the train and validation set.

In [74]:
# list to capture purchase history of the customers
purchases_train = []

# populate the list with the product codes
for i in tqdm(customers_train):
    temp = train_df[train_df["Cust_ID"] == i]["TNVED"].tolist()
    purchases_train.append(temp)

100%|████████████████████████████████████████████████████████████████████████████| 1796/1796 [00:00<00:00, 5250.31it/s]


In [75]:
# list to capture purchase history of the customers
purchases_val = []

# populate the list with the product codes
for i in tqdm(validation_df['Cust_ID'].unique()):
    temp = validation_df[validation_df["Cust_ID"] == i]["TNVED"].tolist()
    purchases_val.append(temp)

100%|██████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 4877.75it/s]


[['0102219000',
  '2826300000',
  '4407296800',
  '4810923000',
  '5101110000',
  '8518408001',
  '8716310000'],
 ['0103921100',
  '0714201000',
  '3401209000',
  '4811510001',
  '7312106900',
  '8462399900'],
 ['0104101000',
  '2710129001',
  '2710192500',
  '4202390000',
  '6107290000',
  '7223009900',
  '8424890009'],
 ['0105130000', '2845901000', '7013331100', '7219219000', '9503002900'],
 ['0105940000', '2009315101', '9405608000'],
 ['0106141010',
  '0207456101',
  '2205901000',
  '3208901100',
  '4503900000',
  '8408101900',
  '8426490091',
  '8472903000'],
 ['0106190091', '0307499900', '1701139011', '7608100000', '8443110000'],
 ['0106410008',
  '2517410000',
  '5903209000',
  '8108300000',
  '8544601000',
  '8545110081',
  '9206000000'],
 ['0201202001', '2009491908', '4102101000', '7228502000'],
 ['0201203002',
  '1210201000',
  '1602321900',
  '2008996708',
  '3824909709',
  '3922100000'],
 ['0201205002', '0304833000', '1005101100', '7615109001'],
 ['0202201002', '0207266009',

In [79]:
docs = df_raw["tokens"].values
tokenized_docs = df_raw["tokens"].values
vocab = Counter()
for token in tokenized_docs:
    vocab.update(token)

## Build word2vec Embeddings for Products

In [89]:
# train word2vec model
model = Word2Vec(window = 10, sg = 1, hs = 0,
                 negative = 10, # for negative sampling
                 alpha=0.03, min_alpha=0.0007,
                 seed = 14)

In [90]:
model.build_vocab(tokenized_docs)

In [93]:
model.train(tokenized_docs, total_examples=model.corpus_count, epochs=30, report_delay=1)

(6879091, 7517850)

In [14]:
# save word2vec model
model.save("word2vec_2.model")

As we do not plan to train the model any further, we are calling init_sims(), which will make the model much more memory-efficient.

In [94]:
model.init_sims(replace=True)

In [95]:
print(model)

Word2Vec(vocab=5634, size=100, alpha=0.03)


Now we will extract the vectors of all the words in our vocabulary and store it in one place for easy access.

In [96]:
# extract all vectors
X = model[model.wv.vocab]

X.shape

(5634, 100)

In [118]:
model.wv.similar_by_vector("купить")

KeyError: "word 'купить' not in vocabulary"

## Visualize word2vec Embeddings

It is always quite helpful to visualize the embeddings that you have created. Over here we have 100 dimensional embeddings. We can't even visualize 4 dimensions let alone 100. Therefore, we are going to reduce the dimensions of the product embeddings from 100 to 2 by using the UMAP algorithm, it is used for dimensionality reduction. 

In [97]:
import umap

cluster_embedding = umap.UMAP(n_neighbors=30, min_dist=0.0,
                              n_components=2, random_state=42).fit_transform(X)

plt.figure(figsize=(10,9))
plt.scatter(cluster_embedding[:, 0], cluster_embedding[:, 1], s=3, cmap='Spectral')

ModuleNotFoundError: No module named 'umap'

Every dot in this plot is a product. As you can see, there are several tiny clusters of these datapoints. These are groups of similar products.

## Start Recommending Products

Congratulations! We are finally ready with the word2vec embeddings for every product in our online retail dataset. Now our next step is to suggest similar products for a certain product or a product's vector. 

Let's first create a product-ID and product-description dictionary to easily map a product's description to its ID and vice versa.

In [101]:
products = train_df[["TNVED", "FULL_TEXT"]]

# remove duplicates
products.drop_duplicates(inplace=True, subset='TNVED', keep="last")

# create product-ID and product-description dictionary
products_dict = products.groupby('TNVED')['FULL_TEXT'].apply(list).to_dict()

In [102]:
# test the dictionary
products_dict['0101210000']

[' ЛОШАДИ, ОСЛЫ, МУЛЫ И ЛОШАКИ ЖИВЫЕ: ЛОШАДИ: ЧИСТОПОРОДНЫЕ ПЛЕМЕННЫЕ ЖИВОТНЫЕ']

<br>

I have defined the function below. It will take a product's vector (n) as input and return top 6 similar products.

Let's try out our function by passing the vector of the product '90019A' ('SILVER M.O.P ORBIT BRACELET')

<br>

Cool! The results are pretty relevant and match well with the input product. However, this output is based on the vector of a single product only. What if we want recommend a user products based on the multiple purchases he or she has made in the past?

One simple solution is to take average of all the vectors of the products he has bought so far and use this resultant vector to find similar products. For that we will use the function below that takes in a list of product ID's and gives out a 100 dimensional vector which is mean of vectors of the products in the input list.

In [61]:
def aggregate_vectors(products):
    product_vec = []
    for i in products:
        try:
            product_vec.append(model[i])
        except KeyError:
            continue
        
    return np.mean(product_vec, axis=0)

If you can recall, we have already created a separate list of purchase sequences for validation purpose. Now let's make use of that.

In [63]:
len(purchases_val[0])

314

The length of the first list of products purchased by a user is 314. We will pass this products' sequence of the validation set to the function *aggregate_vectors*.

In [65]:
aggregate_vectors(purchases_val[0]).shape

(100,)

Well, the function has returned an array of 100 dimension. It means the function is working fine. Now we can use this result to get the most similar products. Let's do it.

In [66]:
similar_products(aggregate_vectors(purchases_val[0]))

[('PARTY BUNTING', 0.661663293838501),
 ('ALARM CLOCK BAKELIKE RED ', 0.640213131904602),
 ('ALARM CLOCK BAKELIKE IVORY', 0.6287959814071655),
 ('ROSES REGENCY TEACUP AND SAUCER ', 0.6286610960960388),
 ('SPOTTY BUNTING', 0.6270893216133118),
 ('GREEN REGENCY TEACUP AND SAUCER', 0.6261675357818604)]

As it turns out, our system has recommended 6 products based on the entire purchase history of a user. Moreover, if you want to get products suggestions based on the last few purchases only then also you can use the same set of functions.

Below I am giving only the last 10 products purchased as input.

In [82]:
similar_products(aggregate_vectors(purchases_val[0][-10:]))

[('PARISIENNE KEY CABINET ', 0.6296610832214355),
 ('FRENCH ENAMEL CANDLEHOLDER', 0.6204789876937866),
 ('VINTAGE ZINC WATERING CAN', 0.5855435729026794),
 ('CREAM HANGING HEART T-LIGHT HOLDER', 0.5839680433273315),
 ('ENAMEL FLOWER JUG CREAM', 0.5806118845939636)]

Feel free to play this code, try to get product recommendation for more sequences from the validation set