# Market Basket Analysis
Suatu analisa atas perilaku konsumen secara spesifik dari suatu golongan / kelompok tertentu. Market basket analysis umumnya dimanfaatkan sebagai titik awal pencarian pengetahuan dari suatu transaksi data ketika kita tidak mengetahui pola spesifik apa yang kita cari. Kebutuhan market basket analysis berawal dari keakuratan dan manfaat yang dihasilkannya dalam wujud aturan assosiasi (association rules) pola-pola keterkaitan data dalam basis data.

##  DATA PREPARATION
Mempersiapkan data kita agar masuk ke modeling

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt

import mlxtend
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules



In [None]:
data = pd.read_excel("DATA MBA 10.xlsx")
data.head()

Unnamed: 0,user_id,product_id,sold_at,product_category,product_name,product_brand
0,29050,17357,2019-01-05,Fashion Hoodies & Sweatshirts,Diamond Supply - Mens Supply Co. Hoodie in Black,Diamond Chain
1,29050,25284,2019-01-08,Socks,Polo Ralph Lauren Men's Sport 3-Pair Socks 10-13,Polo Ralph Lauren
2,95675,18164,2019-01-10,Active,Duofold Men's Mid Weight Single-Layer Thermal ...,Duofold
3,62413,16447,2019-01-12,Tops & Tees,Fox Men's Hacker Tee,Fox
4,33204,19579,2019-01-13,Sweaters,Paul Fredrick 100% Cotton Solid Cardgian Sweat...,Paul Fredrick


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180508 entries, 0 to 180507
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   user_id           180508 non-null  int64         
 1   product_id        180508 non-null  int64         
 2   sold_at           180508 non-null  datetime64[ns]
 3   product_category  180508 non-null  object        
 4   product_name      180496 non-null  object        
 5   product_brand     180222 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 8.3+ MB


In [None]:
data = data.drop(["product_name", "product_category", "sold_at", ],axis=1)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180508 entries, 0 to 180507
Data columns (total 3 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user_id        180508 non-null  int64 
 1   product_id     180508 non-null  int64 
 2   product_brand  180222 non-null  object
dtypes: int64(2), object(1)
memory usage: 4.1+ MB


In [None]:
data=data.dropna()
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 180222 entries, 0 to 180507
Data columns (total 3 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user_id        180222 non-null  int64 
 1   product_id     180222 non-null  int64 
 2   product_brand  180222 non-null  object
dtypes: int64(2), object(1)
memory usage: 5.5+ MB


In [None]:
data= data.head(80000)

# MENGUBAH FORMAT DATA SESUAI LIBRARY mlxtend

In [None]:
data.product_brand.value_counts()

Allegra K       1041
Calvin Klein     509
Carhartt         387
Hanes            333
Volcom           324
                ... 
Sprawl             1
Solemio            1
Wolford            1
AIRBLASTER         1
Plejue             1
Name: product_brand, Length: 2372, dtype: int64

### Jumlah Product Brand Kita ada 2.752
Dengan Jumlah transaksi 180.222 dan Jumlah product Brand Kita sebanyak  2.752 

In [None]:
basket = data.groupby(['user_id','product_brand'])['product_brand'].count()
basket

user_id  product_brand    
1        Calvin Klein         1
         Coolibar             1
         Fox                  1
         RVCA                 1
         Savane               1
                             ..
99988    Quiksilver           1
         SmartWool            1
99997    Elements of Style    1
         Nautica              1
         Rafaella             1
Name: product_brand, Length: 29892, dtype: int64

In [None]:
basket = data.groupby(['user_id','product_brand'])['product_brand'].count().unstack()
basket.head()

product_brand,5.11,1826,!it Jeans,'47 Brand,007Lingerie,10 Deep,106Shades,12XLShop Inc.,180s,1WorldSarong,...,pennylanegifts,phistic,point6,prAna,robesale,stonepowerss,tabbisocks,tasc Performance,under.me,vip boutique
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,,
13,,,,,,,,,,,...,,,,,,,,,,
14,,,,,,,,,,,...,,,,,,,,,,
16,,,,,,,,,,,...,,,,,,,,,,
18,,,,,,,,,,,...,,,,,,,,,,


In [None]:
basket = basket.reset_index().fillna(0).set_index("user_id")
basket.head()

product_brand,5.11,1826,!it Jeans,'47 Brand,007Lingerie,10 Deep,106Shades,12XLShop Inc.,180s,1WorldSarong,...,pennylanegifts,phistic,point6,prAna,robesale,stonepowerss,tabbisocks,tasc Performance,under.me,vip boutique
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
13,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
14,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
16,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
18,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Encode Data
Dalam MARKET BASKET ANALYSIS, jumlah setiap barang yang dibeli tidak terlalu penting. Yang penting apakah suatu barang dibeli atau tidak. Karena,dalam analisa ini hanya ingin melihat hubungan membeli beberapa item dan membeli Item lainnya. Jadi, perlu mengkodekan data keranjang menjadi data biner yang menunjukkan apakah suatu barang dibeli (1) atau tidak (0).

In [None]:
def encode_units(x):
    if x <= 0:
        return 0
    if x >=1:
        return 1
basket_sets = basket.applymap(encode_units)

In [None]:
basket_sets

product_brand,5.11,1826,!it Jeans,'47 Brand,007Lingerie,10 Deep,106Shades,12XLShop Inc.,180s,1WorldSarong,...,pennylanegifts,phistic,point6,prAna,robesale,stonepowerss,tabbisocks,tasc Performance,under.me,vip boutique
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
13,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
14,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
16,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
18,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99975,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99976,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99979,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99988,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Filter Transaksi : Beli Lebih Dari 1 Item Saja
Dalam MARKET BASKET ANALYSIS, kita akan melihat hubungan antara 2 atau lebih item yang dibeli menurut data historis. Jadi, kurang bermanfaat jika dalam transaksi hanya membeli satu item saja. Oleh karena itu, langkah selanjutnya adalah menyaring transaksi yang membeli lebih dari 1 item.

In [None]:
basket_filter= basket_sets[(basket_sets>0).sum(axis=1)>=3]

In [None]:
basket_filter

product_brand,5.11,1826,!it Jeans,'47 Brand,007Lingerie,10 Deep,106Shades,12XLShop Inc.,180s,1WorldSarong,...,pennylanegifts,phistic,point6,prAna,robesale,stonepowerss,tabbisocks,tasc Performance,under.me,vip boutique
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
51,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
58,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
61,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
73,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99767,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99817,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99900,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
99975,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Menerapkan Algoritma Apriori
Setelah menghasilkan dataset di atas, sekarang saatnya kita menggunakan algoritma apriori. Algoritma Apriori hanya digunakan untuk menemukan item yang sering dibeli dalam dataset.
Dalam menerapkan algoritma apriori, memerlukan libraray "mlxtend".

In [None]:
frequent_itemsets = apriori(basket_filter, min_support=0.005, use_colnames=True)
frequent_itemsets.head()



Unnamed: 0,support,itemsets
0,0.009088,(2(x)ist)
1,0.005842,(2b by bebe)
2,0.023044,(7 For All Mankind)
3,0.007465,(A Pea in the Pod)
4,0.010386,(A:X Armani Exchange)


# INTERPRESTASI
Dalam penerapan algoritma apriori, kita dapat mendefinisikan data frequent yang kita inginkan dengan memberikan nilai support. Dalam hal ini saya mendefinisikan barang yang sering dibeli adalah barang yang dibeli sebanyak 0.5% dari keseluruhan transaksi, artinya saya akan memberikan nilai support sebesar 0,005.

Dalam tabel frequent_itemsets Brand A|X Armani Exchange memiliki support 0.010386, 
yang berarti barang tersebut sudah dibeli sebanyak 28 Kali

BERIKUT PERHITUNGANNYA

In [None]:
#Banyaknya barang dibeli = Jumlah Transaksi * Support
Banyaknya_barang_dibeli = 3081 * 0.009088
Banyaknya_barang_dibeli

28.000128

# Menemukan Association  Antara Barang Yang Sering Dibeli
Setelah menerapkan algoritma apriori dan menemukan barang yang sering dibeli, kini saatnya menerapkan aturan asosiasi. 
Dari aturan asosiasi, kami dapat mengekstrak informasi dan bahkan menemukan pengetahuan tentang item mana yang lebih efektif untuk dijual bersama.

In [None]:
rules =association_rules(frequent_itemsets, metric='confidence',
                          min_threshold = 0.000001).sort_values('confidence', ascending = False).reset_index(drop=True)
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Calvin Klein),(Allegra K),0.061668,0.12074,0.007465,0.121053,1.002589,1.9e-05,1.000356
1,(Carhartt),(Allegra K),0.04901,0.12074,0.005518,0.112583,0.93244,-0.0004,0.990808
2,(Allegra K),(Calvin Klein),0.12074,0.061668,0.007465,0.061828,1.002589,1.9e-05,1.00017
3,(Allegra K),(Carhartt),0.12074,0.04901,0.005518,0.045699,0.93244,-0.0004,0.99653


# INTERPRESTASI

### Association Rule
JIka Seseorang membeli Product Brand (Calvin Klein) ada kemungkinan 0.12(12%) orang membeli (Allegra K)

JIka Seseorang membeli Product Brand (Carhartt) ada kemungkinan 0.11(11%) orang membeli (Allegra K)

### LIFT  = rasio kekuatan kemunculan aturan X dan Y

Dari hasil association_rules di atas, kita dapat melihat bahwa CALVIN KLEIN dan ALLEGRA K adalah item yang memiliki asosiasi tertinggi satu sama lain karena kedua item ini memiliki nilai “lift” tertinggi dan konfidence tinggi.

Semakin tinggi nilai lift maka semakin tinggi pula asosiasi antar item. Jika nilai lift lebih dari 1, bisa di katakan bahwa kedua item tersebut saling terkait.  Jadi CALVIN KLEIN dan ALLEGRA K sangat cocok dijual bersamaan

### SUPPORT = Indikasi seberapa  sering itemset X dan Y muncul
Selain itu kita juga dapat melihat nilai support dari CALVIN KLEIN dan ALLEGRA K adalah sebesar 0.007465 yang berarti dari total transaksi terdapat 0,74% yang 2 item ini dijual secara bersamaan. Jumlahnya adalah 30 kali.

Jumlah transaksi* SUPPORT [CALVIN KLEIN dan ALLEGRA K]

### CONFIDENCE = Seberapa  sering itemset X dan Y muncul bersamaan
Dari confidence, Kita dapat mengekstrak lebih banyak informasi. Pada Teorinya nilai confidence dipengaruhi oleh anteseden dan konsekuen. dan nilai confidence dapat menjadi informasi yang sangat berharga, karena kita sekarang tahu produk mana yang harus diberi diskon. 


Dalam data kita Asosiasi memiliki 2 pasangan, sebagai contoh apakah kita akan memilih (Calvin Klein) → (Allegra K)
atau sebaliknya untuk memilih mana yang terbik maka kita melihat nilai confidence terbesar
terlihat nilai confidence yg lebih besar adalah No 0: (Calvin Klein) → (Allegra K) dengan 0.12 tingkat Confidence

Dalam penjelasan lebih rinci, ini berarti bahwa pelanggan akan cenderung membeli Produk (Allegra K) SETELAH mereka membeli (Calvin Klein) bukan sebaliknya. 

Ini bisa menjadi informasi yang sangat berharga, karena kita sekarang tahu produk mana yang harus diberi diskon. 
Sebagai Contoh Kita akan memberi diskon untuk (Allegra K) jika pelanggan membeli(Calvin Klein).

# Kesimpulan
Hasil analisis keranjang pasar ini dapat digunakan untuk strategi pemasaran dan pengambilan keputusan berbasis data. Dalam kumpulan data ini, kami dapat menghasilkan beberapa wawasan bisnis sebagai berikut:
1. Penempatan Barang
Kita bisa meletakkan  Brand CALVIN KLEIN dan ALLEGRA K di tempat yang dekat
2. Products Bundling
Kita dapat menempatkan Brand CALVIN KLEIN dan ALLEGRA K sebagai satu paket produk dengan harga yang lebih rendah dibandingkan dengan setiap harga yang tidak digabungkan. Cara ini akan menarik lebih banyak penjualan dan menghasilkan lebih banyak pendapatan.