# Market Basket Analysis

Apriori is a popular algorithm for extracting frequent itemsets with applications in association rule learning.

##Example 1: Generating Frequent Itemsets

###Dataset

In [1]:
dataset = [['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Beans', 'Eggs'],
           ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

dataset

[['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Milk', 'Apple', 'Beans', 'Eggs'],
 ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
 ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

We can Transform it into the right format via the TransactionEncoder as follows:

In [3]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

# เปลี่ยนจากชื่อสินค้า เป็น One-Hot Encoding 
encoder = TransactionEncoder()
encoder = encoder.fit(dataset)
encoder_array = encoder.transform(dataset)

data = pd.DataFrame(encoder_array, columns=encoder.columns_)

data
# สร้างตัวเข้ารหัส
# ส่ง dataset เข้าไปแปลง
# แปลง dataset ให้อยู่ในรูปของ array

# จัดเก็บข้อมูลในรูปของ DataFrame


Unnamed: 0,Apple,Beans,Beer,Corn,Dill,Eggs,Ice cream,Milk,Onion,Orange,Yogurt
0,False,True,True,False,False,True,False,True,True,False,True
1,False,True,True,False,True,True,False,False,True,False,True
2,True,True,False,False,False,True,False,True,False,False,False
3,False,True,False,True,False,False,False,True,False,True,True
4,False,True,False,True,False,True,True,False,True,False,False


Now, let us return the items and itemsets with at least 60% support:

In [6]:
# นำเข้า Library Apriori จาก mlxtend.frequent_patterns
from mlxtend.frequent_patterns import apriori


# จัดกลุ่มรายการสินค้า โดยกำหนดค่าสนับสนุนไม่ต่ำกว่า 60% และแสดงตามดัชนี (index)
apriori(data, min_support=0.6, use_colnames=True)


Unnamed: 0,support,itemsets
0,1.0,(Beans)
1,0.8,(Eggs)
2,0.6,(Milk)
3,0.6,(Onion)
4,0.6,(Yogurt)
5,0.8,"(Beans, Eggs)"
6,0.6,"(Milk, Beans)"
7,0.6,"(Beans, Onion)"
8,0.6,"(Beans, Yogurt)"
9,0.6,"(Eggs, Onion)"


By default, apriori returns the column indices of the items, which may be useful in downstream operations such as association rule mining. 

For better readability, we can set use_colnames=True to convert these integer values into the respective item names:

In [None]:
# จัดกลุ่มรายการสินค้า โดยกำหนดค่าสนับสนุนไม่ต่ำกว่า 60% และแสดงเป็นชื่อสินค้า

## Example 2: Selecting and Filtering Results

Let's assume we are only interested in itemsets of length 2 that have a support of at least 80 percent. First, we create the frequent itemsets via apriori and add a new column that stores the length of each itemset:

In [8]:
# สร้าง ตาราง (DataFrame) เพื่อจัดเก็บ frequent itemsets
# เพิ่มคอลัมน์ใหม่ ชื่อ 'length' เพื่อจัดเก็บจำนวนของ itemsets
frq_item = apriori(data, min_support=0.6, use_colnames=True)


frq_item['length'] = frq_item['itemsets'].apply(lambda x: len(x))
print(frq_item)

    support              itemsets  length
0       1.0               (Beans)       1
1       0.8                (Eggs)       1
2       0.6                (Milk)       1
3       0.6               (Onion)       1
4       0.6              (Yogurt)       1
5       0.8         (Beans, Eggs)       2
6       0.6         (Milk, Beans)       2
7       0.6        (Beans, Onion)       2
8       0.6       (Beans, Yogurt)       2
9       0.6         (Eggs, Onion)       2
10      0.6  (Beans, Eggs, Onion)       3


Then, we can select the results that satisfy our desired criteria as follows:

In [9]:
# จำนวนสินค้า 2 ชิ้น และมีค่าสนับสนุน >= 80%
frq_item [(frq_item['length'] == 2) & (frq_item['support'] >= 0.8)]

Unnamed: 0,support,itemsets,length
5,0.8,"(Beans, Eggs)",2


## **ผู้เรียนลอง แสดงรายการสินค้าที่ซื้อพร้อมกัน 3 ชิ้น และมีค่าสนับสนุน >= 60%**

In [13]:
# ผู้เรียนลองเขียนเองนะครับ (คัดลอกจากข้างบน แล้วแก้ไขตามเงื่อนไข...นะครับ)
frq_item[frq_item['itemsets'] == {'Onion','Eggs', 'Beans'}]

Unnamed: 0,support,itemsets,length
10,0.6,"(Beans, Eggs, Onion)",3


Similary, using the Pandas API, we can select entries based on the "itemsets" column:

In [None]:
# แสดงค่าสนับสนุนของการซื้อ หอมหัวใหญ่ พร้อมกับ ไข่

## Example 3: Working with Sparse Representations

To save memory, you may want to represent your transaction data in the sparse format. This is especially useful if you have lots of products and small transactions

### Dataset

In [None]:
dataset = [['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Beans', 'Eggs'],
           ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

dataset

[['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Milk', 'Apple', 'Beans', 'Eggs'],
 ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
 ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

In [None]:
# เปลี่ยนจากชื่อสินค้า เป็น One-Hot Encoding โดยใช้ TransactionEncoder จาก mlxtend.preprocessing

# สร้างตัวเข้ารหัส
# ส่ง dataset เข้าไปแปลง
# แปลง dataset ให้อยู่ในรูปของ array

# จัดเก็บข้อมูลในรูปของ DataFrame


In [None]:
# นำเข้า Library Apriori จาก mlxtend.frequent_patterns

In [None]:
# จัดกลุ่มรายการสินค้า โดยกำหนดค่าสนับสนุนไม่ต่ำกว่า 60% และแสดงเป็นชื่อสินค้า