## 1.1 Đọc dữ liệu

In [1]:
import pandas as pd

# Import details.csv
dt = pd.read_csv('details.csv')

# Sort by bill_id
dt = dt.sort_values('bill_id')
dt

Unnamed: 0,bill_id,item_name,quantity,price
0,1,Rau Luộc Thập Cẩm,1,39.0
43626,1,Bún thêm,1,5.0
43627,1,Cơm Rang Hãi Sãn,1,79.0
43628,1,Mực Pattaya,1,69.0
43629,1,.Tàu Hủ Sã Ớt,1,39.0
...,...,...,...,...
42726,4608,Sai Gòn Đỏ,12,11.0
20914,4608,Sai Gòn Đỏ,12,11.0
20913,4608,Sài Gòn special,1,15.0
64538,4608,Sai Gòn Đỏ,12,11.0


## 1.2 Tiền xử lý dữ liệu

In [2]:
import numpy as np
_dt = dt.groupby(['bill_id']).agg({' item_name': lambda x : list(np.unique(x))})
_dt

Unnamed: 0_level_0,item_name
bill_id,Unnamed: 1_level_1
1,"[.Tàu Hủ Sã Ớt, Bún thêm, Cơm Rang Hãi Sãn, He..."
2,"[Gà Nia, Mực Pattaya, Nước Ngọt.Suối]"
3,"[Cơm Rang Hãi Sãn, Lẫu Gà Chanh Ớt, Mực Pattay..."
4,"[Bò Lúc Lắc Khoai Tây, Cơm Rang Cá Mặn, Gà Nia..."
5,"[Bao Tử Cá Chiên Giòn, Bún thêm, Lẫu Thái, Mực..."
...,...
4604,"[.Mì thêm, Bao Tử Cá Chiên Giòn, Bò cuộn phô m..."
4605,"[Beck's, Mực Hấp Gừng, Tiger Nâu, Ếch sapo]"
4606,"[Cá Đuối Nướng Lá Lốt, Gỏi SonTamThái Bò, Hein..."
4607,"[Cơm Trắng, Lẫu Gà Chanh Ớt, Nước Ngọt.Suối]"


In [3]:
dt_preprocessed = list(_dt[' item_name'])

## 2. Tìm các frequent itemsets

In [4]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_arr = te.fit(dt_preprocessed).transform(dt_preprocessed)
df = pd.DataFrame(te_arr, columns=te.columns_)

In [5]:
df

Unnamed: 0,.Mì thêm,.Rau Thêm Lẫu,.Sụn Gà Chiên Nước Mắm,.Sụn Gà Cháy Tỏi,.Tàu Hủ Sã Ớt,.Ốc Hấp Thái,.Ốc Hấp Tiêu,.Ốc Hấp Xả,.Ốc Nướng Tiêu,Ba Khía Thêm,...,Ếch Nướng Muối Ớt,Ếch Thêm Lẩu Ếch,Ếch Xào Lăn,Ếch Xào Sate,Ếch Xào Xã Ớt,Ếch sapo,Ốc Bưu Quay Lu,Ốc Hấp Thái shock,Ốc Hấp Tiêu shock,Ớt Chiên Giòn
0,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4603,True,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4604,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,False,False
4605,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4606,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [6]:
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

min_sup = 0.3

freq_itemsets = apriori(df, min_support=min_sup, use_colnames=True)
freq_itemsets

Unnamed: 0,support,itemsets
0,0.518012,(Mực Pattaya)
1,0.646484,(Nước Ngọt.Suối)
2,0.360894,"(Mực Pattaya, Nước Ngọt.Suối)"


In [7]:
freq_itemsets['length'] = freq_itemsets['itemsets'].apply(lambda x: len(x))
freq_itemsets

Unnamed: 0,support,itemsets,length
0,0.518012,(Mực Pattaya),1
1,0.646484,(Nước Ngọt.Suối),1
2,0.360894,"(Mực Pattaya, Nước Ngọt.Suối)",2


## 3. Sinh luật

In [8]:
rules = association_rules(freq_itemsets, metric='confidence', min_threshold=0.5)
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Mực Pattaya),(Nước Ngọt.Suối),0.518012,0.646484,0.360894,0.69669,1.07766,0.026007,1.165527
1,(Nước Ngọt.Suối),(Mực Pattaya),0.646484,0.518012,0.360894,0.558241,1.07766,0.026007,1.091065


## 4. Danh sách gợi ý

In [9]:
!pip install prettytable
from prettytable import PrettyTable

table = PrettyTable(['', 'Gợi ý'])
table.align[''] = 'l'
table.align['Gợi ý'] = 'l'

for x, y in rules['antecedents'], rules['consequents']:
    table.add_row(['%s'.join(x), '%s'.join(y)])

print(table)

+----------------+----------------+
|                | Gợi ý          |
+----------------+----------------+
| Mực Pattaya    | Nước Ngọt.Suối |
| Nước Ngọt.Suối | Mực Pattaya    |
+----------------+----------------+
