In [3]:
import mlxtend
print(mlxtend.__version__)


0.23.1


In [4]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

data = pd.read_excel('merged_clean.xlsx')

# Create a basket matrix
basket = (data.groupby(['Document_number', 'Product'])['Product']
          .count().unstack().reset_index().fillna(0)
          .set_index('Document_number'))

# Convert values to 1 and 0
basket = basket.applymap(lambda x: 1 if x > 0 else 0)

print(basket.head())


Product          Pain Flandrien  Pain Montagnard  SALAM BANATEAN  \
Document_number                                                    
1                             0                0               0   
2                             0                0               0   
3                             0                0               0   
4                             0                0               0   
5                             0                0               0   

Product          SALAM BANATEAN GASTRO  SALAM PICANT  SALAM SINAIA  \
Document_number                                                      
1                                    0             0             0   
2                                    0             0             0   
3                                    0             0             0   
4                                    0             0             0   
5                                    0             0             0   

Product          Salam Toscana G

In [5]:
basket.head(2)

Product,Pain Flandrien,Pain Montagnard,SALAM BANATEAN,SALAM BANATEAN GASTRO,SALAM PICANT,SALAM SINAIA,Salam Toscana GASTRO,Агнешка дроб сърма /внос/ замразена,Агнешка дроб сърма БГ замразена,Агнешка плешка охладена,...,Чоризо (вакуум),Шишчета свински кг. замразени,"Шпеков ГАСТРО - ""Вкусна трапеза"" (вакуум)",Шунков колбас 0.300,Шунков колбас ГАСТРО,Шунков шпек,Шунков шпек (вакуум),Шунков шпек 0.300 кг. (вакуум),Шункова наденица,"Шункова наденица ""Деликатесна"""
Document_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [6]:
# Apply Apriori algorithm
frequent_itemsets = apriori(basket, min_support=0.1, use_colnames=True)

print("Frequent Itemsets:")
print(frequent_itemsets)



Frequent Itemsets:
     support                                           itemsets
0   0.220225                                    (Бирени пръчки)
1   0.279203                                           (Бургас)
2   0.102016                                  (Бургас (вакуум))
3   0.484684                                  (Варена наденица)
4   0.226276                                       (Винервурст)
5   0.116659                           (Домашна кайма охладена)
6   0.132623                                       (Дуросторум)
7   0.118387                 (Кайма плик по 0.500кг. замразена)
8   0.134530                   (Кебапчета грил 0.500 замразени)
9   0.111879      (Кебапчета печени по 4 бр. във вакуум 170гр.)
10  0.119099                                        (Кълцаница)
11  0.166256                     (Кюфтета грил 0.500 замразени)
12  0.143376   (Кюфтета с лук 10 бр. в тар. (800 гр.)замразени)
13  0.111574                               (Луканка "Добруджа")
14  0.129318         

In [8]:
# Get the list of products in frequent itemsets
frequent_products = set()
for itemset in frequent_itemsets['itemsets']:
    for product in itemset:
        frequent_products.add(product)

# Convert the set to a list
frequent_products = list(frequent_products)

# Filter the basket matrix to include only the frequent products
basket_filtered = basket.loc[:, frequent_products]

print("Filtered Basket Matrix (Frequent Products Only):")
print(basket_filtered.head())

Filtered Basket Matrix (Frequent Products Only):
Product          Кюфтета с лук 10 бр. в тар. (800 гр.)замразени  \
Document_number                                                   
1                                                             1   
2                                                             0   
3                                                             0   
4                                                             0   
5                                                             0   

Product          Домашна кайма охладена  Дуросторум  Пилешки кренвирш  \
Document_number                                                         
1                                     0           0                 0   
2                                     0           1                 0   
3                                     0           0                 0   
4                                     0           0                 0   
5                                     0    

In [9]:
from mlxtend.frequent_patterns import association_rules

# Generate association rules
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

# Display the rules
print("Association Rules:")
print(rules)

Association Rules:
                                 antecedents  \
0                                   (Бургас)   
1                            (Бирени пръчки)   
2                          (Варена наденица)   
3                            (Бирени пръчки)   
4                    (Пилешко печено вакуум)   
5                            (Бирени пръчки)   
6                        (Суджук "Добруджа")   
7                            (Бирени пръчки)   
8                                   (Бургас)   
9                          (Варена наденица)   
10                              (Винервурст)   
11                                  (Бургас)   
12                                  (Бургас)   
13                   (Пилешко печено вакуум)   
14                                  (Бургас)   
15                       (Суджук "Добруджа")   
16                              (Винервурст)   
17                         (Варена наденица)   
18                         (Варена наденица)   
19          (Кебапчет

In [10]:
# Filter rules to focus on those with high confidence and lift
filtered_rules = rules[(rules['confidence'] > 0.5) & (rules['lift'] > 1.2)]

# Display filtered rules
print("Filtered Association Rules:")
print(filtered_rules)

Filtered Association Rules:
                                 antecedents              consequents  \
1                            (Бирени пръчки)                 (Бургас)   
3                            (Бирени пръчки)        (Варена наденица)   
5                            (Бирени пръчки)  (Пилешко печено вакуум)   
8                                   (Бургас)        (Варена наденица)   
10                              (Винервурст)                 (Бургас)   
15                       (Суджук "Добруджа")                 (Бургас)   
16                              (Винервурст)        (Варена наденица)   
19          (Кебапчета грил 0.500 замразени)        (Варена наденица)   
21            (Кюфтета грил 0.500 замразени)        (Варена наденица)   
23                     (Македонска наденица)        (Варена наденица)   
25                        (Пилешки кренвирш)        (Варена наденица)   
26                   (Пилешко печено вакуум)        (Варена наденица)   
28               (Свинс

In [11]:
# Generate a report summarizing the insights
report = []

for index, rule in filtered_rules.iterrows():
    antecedents = ', '.join(list(rule['antecedents']))
    consequents = ', '.join(list(rule['consequents']))
    report.append({
        'Antecedents': antecedents,
        'Consequents': consequents,
        'Support': rule['support'],
        'Confidence': rule['confidence'],
        'Lift': rule['lift'],
        'Recommendation': f"Consider promoting {consequents} to customers who buy {antecedents}."
    })

report_df = pd.DataFrame(report)

# Save the report to a CSV file
report_df.to_csv('association_rules_report.csv', index=False)

print("Report generated and saved as 'association_rules_report.csv'.")


Report generated and saved as 'association_rules_report.csv'.
