<a href="https://colab.research.google.com/github/Gmajorseven/training-data-sci/blob/main/lab10_market_basket_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## การวิเคราะห์ความสัมพันธ์ของการสั่งซื้อสินค้า (Market Basket Analysis): Unsupervised Learning

### Step 1: การจัดเตรียมข้อมูล

In [1]:
dataset = [['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Beans', 'Eggs'],
           ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

dataset

[['Milk', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Dill', 'Onion', 'Beer', 'Beans', 'Eggs', 'Yogurt'],
 ['Milk', 'Apple', 'Beans', 'Eggs'],
 ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
 ['Corn', 'Onion', 'Onion', 'Beans', 'Ice cream', 'Eggs']]

### Step 2: Data Encoding

In [2]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder      # เปลี่ยนชื่อสินค้าด้วย One-Hot Encoding

encoder = TransactionEncoder()              # สร้างตัวเข้ารหัส
encoder = encoder.fit(dataset)              # ส่ง dataset เพื่อแปลงค่า
encoder_array = encoder.transform(dataset)  # แปลง dataset ให้อยู่ในรูปของ array

data = pd.DataFrame(encoder_array, columns=encoder.columns_)
data

Unnamed: 0,Apple,Beans,Beer,Corn,Dill,Eggs,Ice cream,Milk,Onion,Orange,Yogurt
0,False,True,True,False,False,True,False,True,True,False,True
1,False,True,True,False,True,True,False,False,True,False,True
2,True,True,False,False,False,True,False,True,False,False,False
3,False,True,False,True,False,False,False,True,False,True,True
4,False,True,False,True,False,True,True,False,True,False,False


### Step 3: คำนวณความสัมพันธ์ของตัวแปร ด้วย Apriori

In [3]:
from mlxtend.frequent_patterns import apriori

apriori(data, min_support=0.6)    # จัดกลุ่มรายการสินค้า โดยกำหนดค่าสนับสนุนไม่ต่ำกว่า 60% และแสดงค่าดัชนี (index)

Unnamed: 0,support,itemsets
0,1.0,(1)
1,0.8,(5)
2,0.6,(7)
3,0.6,(8)
4,0.6,(10)
5,0.8,"(1, 5)"
6,0.6,"(1, 7)"
7,0.6,"(8, 1)"
8,0.6,"(1, 10)"
9,0.6,"(8, 5)"


In [4]:
apriori(data, min_support=0.6, use_colnames=True) # จัดกลุ่มรายการสินค้า โดยกำหนดค่าสนับสนุนไม่ต่ำกว่า 60% และแสดงชื่อสินค้าในตะกร้า

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,1.0,(Beans)
1,0.8,(Eggs)
2,0.6,(Milk)
3,0.6,(Onion)
4,0.6,(Yogurt)
5,0.8,"(Beans, Eggs)"
6,0.6,"(Beans, Milk)"
7,0.6,"(Onion, Beans)"
8,0.6,"(Beans, Yogurt)"
9,0.6,"(Onion, Eggs)"


### Step 4: การเลือก (Selecting) และกรองผลลัพธ์ (Filtering Results)

In [5]:
frequent_itemsets = apriori(data, min_support=0.6, use_colnames=True)
frequent_itemsets['length'] = frequent_itemsets['itemsets'].apply(lambda x: len(x))   # สร้างคอลัมน์ใหม่ ที่จัดเก็บจำนวนสินค้าในตะกร้า
frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets,length
0,1.0,(Beans),1
1,0.8,(Eggs),1
2,0.6,(Milk),1
3,0.6,(Onion),1
4,0.6,(Yogurt),1
5,0.8,"(Beans, Eggs)",2
6,0.6,"(Beans, Milk)",2
7,0.6,"(Onion, Beans)",2
8,0.6,"(Beans, Yogurt)",2
9,0.6,"(Onion, Eggs)",2


In [8]:
# จำนวนสินค้า 2 ชิ้น และมีค่าสนับสนุนมากกว่า 80%
frequent_itemsets[ (frequent_itemsets['length'] >= 2) &
                   (frequent_itemsets['support'] >= .6)]

  and should_run_async(code)


Unnamed: 0,support,itemsets,length
5,0.8,"(Beans, Eggs)",2
6,0.6,"(Beans, Milk)",2
7,0.6,"(Onion, Beans)",2
8,0.6,"(Beans, Yogurt)",2
9,0.6,"(Onion, Eggs)",2
10,0.6,"(Onion, Eggs, Beans)",3


In [9]:
# แสดงค่าสนับสนุน หอมหัวใหญ่ พร้อมกับ ไข่
frequent_itemsets[ frequent_itemsets['itemsets'] == {'Onion', 'Eggs'} ]

  and should_run_async(code)


Unnamed: 0,support,itemsets,length
9,0.6,"(Onion, Eggs)",2
