In [1]:
# データ加工・処理・分析ライブラリ
import numpy as np
import numpy.random as random
import scipy as sp
from pandas import Series, DataFrame
import pandas as pd

# 可視化ライブラリ
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

# 機械学習ライブラリ
import sklearn

# 小数第三位まで表示
%precision 3

'%.3f'

In [2]:
trans = pd.read_excel('Online Retail.xlsx', sheet_name='Online Retail')
trans.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [3]:
# InvoiceNoの先頭１文字をcancel_flgとして追加
trans['cancel_flg'] = trans.InvoiceNo.map(lambda x:str(x)[0])

# cancel_flgとしてグルーピングして集計
trans.groupby('cancel_flg').size()

cancel_flg
5    532618
A         3
C      9288
dtype: int64

**アソシエーションルール**

In [4]:
# StockCodeごとに件数を数え、上位５件を表示
trans['StockCode'].value_counts().head()

85123A    2313
22423     2203
85099B    2159
47566     1727
20725     1639
Name: StockCode, dtype: int64

**支持度（support）**

In [5]:
# すべてのInvoiceNoをtrans_allとして抽出
trans_all = set(trans.InvoiceNo)

# 商品85123Aを購入したデータをtrans_aとする
trans_a = set(trans[trans['StockCode'] == '85123A'].InvoiceNo)
print(len(trans_a))

# 商品85099Bを購入したデータをtrans_bとする
trans_b = set(trans[trans['StockCode'] == '85099B'].InvoiceNo)
print(len(trans_b))

# 商品85123Aおよび商品85099Bを購入したデータをtrans_abとする
trans_ab = trans_a & trans_b
print(len(trans_ab))


2246
2135
404


In [6]:
# trans_abの両商品を含むバスケットの数を表示
print('両商品を含むバスケットの数:{}'.format(len(trans_ab)))
print('両商品を含むバスケットの全体に占める割合:{:.3f}'.format(len(trans_ab)/len(trans_all)))

両商品を含むバスケットの数:404
両商品を含むバスケットの全体に占める割合:0.016


In [7]:
print('商品85123Aのバスケットの数:{}'.format(len(trans_a)))
print('商品85123Aを含むバスケットの全体に占める割合:{:.3f}'.format(len(trans_a)/len(trans_all)))

商品85123Aのバスケットの数:2246
商品85123Aを含むバスケットの全体に占める割合:0.087


**確信度（confidence）**

In [8]:
# 「商品85123Aを購入するならば、商品85099Bも購入する」というルールの確信度
print('確信度:{:.3f}'.format(len(trans_ab)/len(trans_a)))

# 「商品85099Bを購入するならば、商品85123Aも購入する」というルールの確信度
print('確信度:{:.3f}'.format(len(trans_ab)/len(trans_b)))

確信度:0.180
確信度:0.189


**リフト値（lift）**

In [10]:
# 全体のバスケットに占める商品Bの購買率を計算
support_b = len(trans_b) / len(trans_all)

# 商品Aを購買した時の商品Bの購買率を計算
confidence = len(trans_ab) / len(trans_a)

# リフト値を計算
lift = confidence / support_b
print('lift:{:.3f}'.format(lift))

lift:2.182
