# url: https://toukei-lab.com/association-analysis

## 1. ライブラリのインストール

In [1]:
# 今回はmlxtendと呼ばれるライブラリを使用します。

!pip install mlxtend



In [2]:
# また、分析で使用するモジュール等もここで全てimportしておきます。

import mlxtend
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import pandas as pd

## 2. データの準備

In [3]:
# データは以下のように作成したものを用います。

dataset = [
    ['玉ねぎ', 'にんじん','じゃがいも', '牛乳', 'カレー粉'],
    ['玉ねぎ', 'じゃがいも', 'シチュー粉', '牛乳'],
    ['牛乳', 'シチュー粉', 'にんじん', 'カレー粉'],
    ['牛乳','にんじん','玉ねぎ', 'シチュー粉'],
    ['玉ねぎ', 'にんじん', '牛乳', 'シチュー粉', 'じゃがいも'],
    ['玉ねぎ', 'カレー粉' ,'じゃがいも', '牛乳'],
    ['にんじん', 'シチュー粉', '玉ねぎ', 'じゃがいも'],
    ['シチュー粉', '牛乳', '玉ねぎ', 'カレー粉'],
    ['シチュー粉', '牛乳', 'にんじん'],
]

  and should_run_async(code)


## 3. データの加工

In [4]:
# データをテーブル形式に加工
# 続いて、データセットをテーブル形式に加工します。
# 後でアソシエーション分析のためのモデルを構築するんだけど、その際のデータ形式は「テーブル型」という制約がある

table = TransactionEncoder()
table_array = table.fit(dataset).transform(dataset)
df = pd.DataFrame(table_array, columns=table.columns_)
display(df)

# 購入された商品であれば「True」、購入されていなければ「False」がそれぞれ格納されています。

  and should_run_async(code)


Unnamed: 0,じゃがいも,にんじん,カレー粉,シチュー粉,牛乳,玉ねぎ
0,True,True,True,False,True,True
1,True,False,False,True,True,True
2,False,True,True,True,True,False
3,False,True,False,True,True,True
4,True,True,False,True,True,True
5,True,False,True,False,True,True
6,True,True,False,True,False,True
7,False,False,True,True,True,True
8,False,True,False,True,True,False


## 4. 支持度(Support)の算出

In [5]:
# 支持度の算出
# 続いて、商品の組み合わせごとに支持度を算出していきます。

freq_items = apriori(df,  # データフレーム
min_support  = 0.01,    # 支持度(support)の最小値
use_colnames = True,    # 出力値のカラムに購入商品名を表示
max_len      = None,    # 生成されるitemsetsの個数
#verbose = 0,            # low_memory=Trueの場合のイテレーション数
#low_memory = False,    # メモリ制限あり＆大規模なデータセット利用時に有効
)

# 結果出力
freq_items = freq_items.sort_values("support", ascending = False).reset_index(drop=True)
display(freq_items)

# 支持度の大きい順に並んでいることがわかります。

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.888889,(牛乳)
1,0.777778,(シチュー粉)
2,0.777778,(玉ねぎ)
3,0.666667,(にんじん)
4,0.666667,"(玉ねぎ, 牛乳)"
5,0.666667,"(シチュー粉, 牛乳)"
6,0.555556,(じゃがいも)
7,0.555556,"(シチュー粉, 玉ねぎ)"
8,0.555556,"(玉ねぎ, じゃがいも)"
9,0.555556,"(シチュー粉, にんじん)"


## 5. アソシエーション・ルール抽出のための評価指標の算出

In [6]:
# アソシエーション・ルール抽出のための評価指標の算出
# 次に、信頼度やリフト値などの各評価指標を算出していきます。

df_rules = association_rules(
freq_items,             # supportとitemsetsを持つデータフレーム
metric = "confidence",  # アソシエーション・ルールの評価指標
min_threshold = 0.0,    # metricsの閾値
)

display(df_rules)

# 全ての商品の組み合わせにおける支持度、信頼度、リフト値が算出されています。

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(玉ねぎ),(牛乳),0.777778,0.888889,0.666667,0.857143,0.964286,-0.024691,0.777778,-0.142857
1,(牛乳),(玉ねぎ),0.888889,0.777778,0.666667,0.750000,0.964286,-0.024691,0.888889,-0.250000
2,(シチュー粉),(牛乳),0.777778,0.888889,0.666667,0.857143,0.964286,-0.024691,0.777778,-0.142857
3,(牛乳),(シチュー粉),0.888889,0.777778,0.666667,0.750000,0.964286,-0.024691,0.888889,-0.250000
4,(シチュー粉),(玉ねぎ),0.777778,0.777778,0.555556,0.714286,0.918367,-0.049383,0.777778,-0.285714
...,...,...,...,...,...,...,...,...,...,...
353,(にんじん),"(シチュー粉, 玉ねぎ, じゃがいも, 牛乳)",0.666667,0.222222,0.111111,0.166667,0.750000,-0.037037,0.933333,-0.500000
354,(シチュー粉),"(玉ねぎ, じゃがいも, 牛乳, にんじん)",0.777778,0.222222,0.111111,0.142857,0.642857,-0.061728,0.907407,-0.714286
355,(玉ねぎ),"(シチュー粉, じゃがいも, 牛乳, にんじん)",0.777778,0.111111,0.111111,0.142857,1.285714,0.024691,1.037037,1.000000
356,(じゃがいも),"(シチュー粉, 玉ねぎ, 牛乳, にんじん)",0.555556,0.222222,0.111111,0.200000,0.900000,-0.012346,0.972222,-0.200000


## 6. アソシエーション・ルールの抽出

In [7]:
#結果を絞る

# 5.で述べたように、上記のコードの「metric = 」と「min_threshold = 」の部分でアソシエーション・ルールを抽出することができますが、ここで改めてルールを抽出していきます。

df_rules2 = df_rules[(df_rules["support"]>=0.4)&(df_rules["confidence"]>=0.8)&(df_rules["lift"]>1.0)]
display(df_rules2)

# 出力結果より、支持度が0.4以上かつ、信頼度が0.8以上かつ、リフト値が1.0より大きい商品組み合わせが抽出できていることがわかります
# （自分で作成したデータなので「カレー粉」と「牛乳」の組み合わせもルールとして抽出されてしまいました、、、）。
# 実際には膨大な量のデータに対して分析を行うので、より各指標の値が高い組み合わせを抽出できると思います！

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
7,(じゃがいも),(玉ねぎ),0.555556,0.777778,0.555556,1.0,1.285714,0.123457,inf,0.5
9,(にんじん),(シチュー粉),0.666667,0.777778,0.555556,0.833333,1.071429,0.037037,1.333333,0.2
20,"(じゃがいも, 牛乳)",(玉ねぎ),0.444444,0.777778,0.444444,1.0,1.285714,0.098765,inf,0.4
30,(カレー粉),(牛乳),0.444444,0.888889,0.444444,1.0,1.125,0.049383,inf,0.2


  and should_run_async(code)
