# DATA MINING PROJECT: Analysis of a Supermarket’s Customers
## 4) Pattern Mining
### *Antonio Strippoli, Valerio Mariani*

In [1]:
from gsp import apriori
import pandas as pd
import pickle
import time
import logging
import os

# Set logging
if os.path.exists('log.txt'):
    os.remove('log.txt')
logging.basicConfig(level=logging.INFO, filename="log.txt", filemode="a+", format="%(message)s")
logging.getLogger().addHandler(logging.StreamHandler())

### Functions

In [2]:
def read_dataset():
    """Read the dataset using Pandas, keeping only bought items."""
    df = pd.read_csv("../DM_25_TASK1/customer_supermarket_2.csv", index_col=0, parse_dates=["PurchaseDate"])
    return df[df['Qta'] > 0]

In [3]:
def remove_baskets(df, threshold):
    """Keep only customers with more than `threshold` baskets."""
    customers = df.groupby('CustomerID').agg({'BasketID': 'nunique'})
    customers = customers[customers >= threshold].dropna().index.values
    return df[df['CustomerID'].isin(customers)]

In [4]:
# Convert data in sequential form
def get_sequential_form(df):
    """Convert a dataset into its sequential form."""
    seq_data = []
    for customer in df.groupby('CustomerID'):
        customer = customer[1]
        tmp = []
        for basket in customer.groupby('BasketID'):
            basket = basket[1]
            purchases = list( basket['ProdID'].unique() )
            tmp.append(purchases)
        seq_data.append(tmp)
    return seq_data

In [5]:
def save_to_pickle(result_set, min_baskets, min_sup):
    """Save gsp results"""
    with open(f'gsp_res/{min_baskets}mb_{int(min_sup*100)}ms.pickle', 'wb') as handle:
        pickle.dump(result_set, handle, protocol=pickle.HIGHEST_PROTOCOL)

### Apply GSP on sequential data

In [None]:
# Main cycle: apply GSP multiple times
params = {
    'min_sup': [0.4, 0.35, 0.3, 0.25, 0.2, 0.15],
    'min_baskets': [20, 10, 5, 3, 2],
}
for min_sup in params['min_sup']:
    for min_baskets in params['min_baskets']:
        logging.info(f"MIN_BASKETS: {min_baskets}, MIN_SUP: {min_sup}")

        # Read the dataset
        df = read_dataset()
        # Remove some baskets
        df = remove_baskets(df, min_baskets)
        # Convert into seq form
        seq_data = get_sequential_form(df)
        
        # Apply GSP
        t0 = time.time()
        result_set = apriori(seq_data, min_sup, verbose=False)
        t1 = time.time()

        # Compute n. of sequences with len > 2 and n. of sequences containing duplicates
        cnt_len_2 = 0
        cnt_duplicates = 0
        for r in result_set:
            r = r[0]
            tmp = []
            for l in r:
                tmp.extend(l)
            if len(tmp) >= 2:
                cnt_len_2 += 1
                if len(set(tmp)) < len(tmp):
                    cnt_duplicates += 1

        logging.info(
            f"TOTAL TIME:\t{round(t1-t0, 2)} s\n"\
            f"LEN RESULT SET:\t{len(result_set)}\n"\
            f"LEN SEQ > 2:\t{cnt_len_2}\nN. DUPLICATES:\t{cnt_duplicates}\n"
        )

        # Save
        save_to_pickle(result_set, min_baskets, min_sup)

### Considerazioni

Prendendo quelli che hanno fatto almeno 20 baskets, otteniamo una mole maggiore di risultati. Abbassando min_baskets, il supporto comincia a diventare sempre più basso in generale, il che lascia comunque presagire che nei clienti più occasionali non ci siano pattern evidenti.

Il parametro min_baskets è importante perché altrimenti trovare dei pattern un po' più interessanti (che spazino tra basket diversi) è molto difficile (richiedono min_support bassi che alzano il costo computazionale). Alla fine abbiamo scelto 10 come giusto compromesso tra un numero di clienti abbastanza alto (il 10% di quelli di partenza) e sequenze variegate/lunghe.

### Analyze results and collect statistics

In [6]:
# Config (which result do we want to analyze)
min_baskets = 10
min_sup = 25

# Read gsp results
with open(f'gsp_res/{min_baskets}mb_{min_sup}ms.pickle', 'rb') as handle:
    result_set = pickle.load(handle)
# Sort by support
result_set.sort(key=lambda x: x[1], reverse=True)
# Prepare a copy
result_set_original = result_set

# Read and prepare the dataset
df = read_dataset()
df = remove_baskets(df, min_baskets)

In [12]:
# Compute distribution of the lengths of sequences and n. of sequences containing duplicates
cnt_len = {1:0, 2:0, 3:0, 4:0, 5:0}
cnt_duplicates = 0
for r in result_set:
    r = r[0]
    tmp = []
    for l in r:
        tmp.extend(l)
    len_tmp = len(tmp)
    cnt_len[len_tmp] += 1
    if len(set(tmp)) < len_tmp:
        cnt_duplicates += 1

print(f"Distribution of lengths: {cnt_len}")
print(f"Sequences containing duplicates: {cnt_duplicates} / {len(result_set)}")

Distribution of lengths: {1: 56, 2: 14, 3: 3, 4: 0, 5: 0}
Sequences containing duplicates: 11 / 73


In [13]:
""" PSEUDOCODICE
per ogni cliente in clienti:
    per ogni risultato in risultati:
        per ogni carrello_1 in risultato: # carrello_res
            per ogni carrello_2 in cliente: # carrello_customer
                carrello_1 è contenuto in carrello_2?
                    SI: scorri carrello_1 col prossimo carrello (fino a quando non finiscono, se finiscono allora questo cliente è ok)
                    NO: scorri carrello_2 col prossimo carrello (fino a quando non finiscono, se finiscono allora questo cliente NON è ok)
"""
from copy import deepcopy

result_set = deepcopy(result_set_original)

# Prepare result_set
for i in range(len(result_set)):
    # Convert from tuple to list
    result_set[i] = list(result_set[i])
    tmp = []
    # Create a nested list for future storage of mean qta of each item in the patterns
    for basket in result_set[i][0]:
        tmp2 = []
        for item in basket:
            tmp2.append(0)
        tmp.append(tmp2)
    result_set[i].append(tmp)

# Find original transactions for each pattern and collect statistics
out = []
n_customers = len(df['CustomerID'].unique())
for customer_i, customer in enumerate(df.groupby('CustomerID')):
    # Progress
    print(f"{customer_i+1} / {n_customers}")
    # Extract baskets from the customer
    baskets_customer = list(enumerate([x[1] for x in customer[1].groupby('BasketID')]))
    
    for result_i in range(len(result_set)):
        res = result_set[result_i][0]

        # Compare the baskets in the result against those of the customer
        bc_i = 0
        transactions = []
        for basket_res in res:
            for i, basket_customer in baskets_customer[bc_i:]:
                entries = basket_customer[basket_customer['ProdID'].isin(basket_res)]
                entries = entries.groupby('ProdID').aggregate({'Qta': 'sum'})
                if len(entries) >= len(basket_res):
                    bc_i = i + 1
                    transactions.append(entries)
                    break
            else: # We iterated over all the baskets of the customer without finding a match for basket_res
                break
        else:
            # Compute qta for each item in the pattern
            for i, basket in enumerate(transactions):
                for j in range(len(basket)):
                    item = basket.iloc[j]
                    result_set[result_i][2][i][j] += item['Qta']

            out.append(transactions)

# Compute mean of the qta previously found
for res in result_set:
    min_sup = res[1]
    sup = min_sup * n_customers
    for i in range(len(res[2])):
        for j in range(len(res[2][i])):
            res[2][i][j] /= sup

1 / 391
2 / 391
3 / 391
4 / 391
5 / 391
6 / 391
7 / 391
8 / 391
9 / 391
10 / 391
11 / 391
12 / 391
13 / 391
14 / 391
15 / 391
16 / 391
17 / 391
18 / 391
19 / 391
20 / 391
21 / 391
22 / 391
23 / 391
24 / 391
25 / 391
26 / 391
27 / 391
28 / 391
29 / 391
30 / 391
31 / 391
32 / 391
33 / 391
34 / 391
35 / 391
36 / 391
37 / 391
38 / 391
39 / 391
40 / 391
41 / 391
42 / 391
43 / 391
44 / 391
45 / 391
46 / 391
47 / 391
48 / 391
49 / 391
50 / 391
51 / 391
52 / 391
53 / 391
54 / 391
55 / 391
56 / 391
57 / 391
58 / 391
59 / 391
60 / 391
61 / 391
62 / 391
63 / 391
64 / 391
65 / 391
66 / 391
67 / 391
68 / 391
69 / 391
70 / 391
71 / 391
72 / 391
73 / 391
74 / 391
75 / 391
76 / 391
77 / 391
78 / 391
79 / 391
80 / 391
81 / 391
82 / 391
83 / 391
84 / 391
85 / 391
86 / 391
87 / 391
88 / 391
89 / 391
90 / 391
91 / 391
92 / 391
93 / 391
94 / 391
95 / 391
96 / 391
97 / 391
98 / 391
99 / 391
100 / 391
101 / 391
102 / 391
103 / 391
104 / 391
105 / 391
106 / 391
107 / 391
108 / 391
109 / 391
110 / 391
111 / 39

In [14]:
# DA SPOSTARE SOTTOOOOOOOOOO e fare in modo che converta non crei nuovo

# Convert ProductIDs to readable descriptions
for r_i, result in enumerate(result_set):
    tmp = []
    for b_i, basket in enumerate(result_set[r_i][0]):
        tmp2 = []
        for p_i, p in enumerate(basket):
            tmp2.append(df[df['ProdID'] == p]['ProdDescr'].iloc[0])
        tmp.append(tmp2)
    result_set[r_i][0] = tmp

In [15]:
result_set

[[[['REGENCY CAKESTAND 3 TIER']], 0.42, [[9.609061015710632]]],
 [[['JUMBO BAG RED RETROSPOT']], 0.42, [[26.47667762757277]]],
 [[['PACK OF 72 RETROSPOT CAKE CASES']], 0.4, [[30.06393861892583]]],
 [[['PARTY BUNTING']], 0.4, [[11.982097186700766]]],
 [[['LUNCH BAG RED SPOTTY']], 0.39, [[14.964915732179158]]],
 [[['WHITE HANGING HEART T-LIGHT HOLDER']], 0.39, [[27.083743196275165]]],
 [[['SET OF 3 CAKE TINS PANTRY DESIGN']], 0.38, [[9.065823125588908]]],
 [[['JUMBO BAG VINTAGE DOILY']], 0.37, [[20.425796640630402]]],
 [[['LUNCH BAG VINTAGE DOILY']], 0.35, [[15.56448666423091]]],
 [[['SPOTTY BUNTING']], 0.35, [[8.213372305443917]]],
 [[['ASSORTED COLOUR BIRD ORNAMENT']], 0.34, [[51.18850609297427]]],
 [[['REGENCY CAKESTAND 3 TIER'], ['REGENCY CAKESTAND 3 TIER']],
  0.33,
  [[11.384949236611641], [9.9356738742928]]],
 [[['JUMBO BAG RED RETROSPOT'], ['JUMBO BAG RED RETROSPOT']],
  0.33,
  [[29.326513213981244], [26.46671316748043]]],
 [[['WHITE HANGING HEART T-LIGHT HOLDER'],
   ['WHITE HA

### Considerazioni su RESULT_SET
- Conta sequenze che hanno doppioni e quelle che non ce l'hanno (in percentuale?)
- ogni evento è formato da un singolo elemento (non ci sono carrelli che hanno in comune più di un elemento, ma solo sequenze di carrelli con oggetti comuni)
- Contare quante sono sequenze lunghe 1, 2, 3...

### Considerazioni su transazioni e clienti a cui si riferiscono le sequenze
- quantità media di oggetti presa per ogni oggetto di ogni sequenza
- tempo passato tra una transazione e l'altra

### Considerazioni
due casi:
- oggetti uguali: l'oggetto vende bene? Vengono ricomprati per essere venduti ancora
- oggetti diversi: oggetto1 magari non ha venduto benissimo e se n'è comprato uno simile per provare a vendere quello, oppure ha comprato semplicemente un'altra variante.