## 8.2 バスケット分析

* バスケット分析
    * 推薦システムを学習するための分析手法
    * どのアイテムが一緒に購入されているかに注目
        * 購入したアイテムを気に入ったかなどの情報は無視
        * スコアデータより簡単に集めることが可能
    * Amazon のレコメンドシステムのイメージ
    * ビールとおむつの話

---

### 8.2.1 役立つ予測を行う

* 「この商品を買った人はこんな商品も買っています」は実際のシステムと異なる
* もしその通りのシステムだった場合
    * よく購入されるアイテムに”騙される”
    * 単に人気のあるアイテムを推薦することになる
* 例：
    * スーパーで 50 % の人がパンを買うとする
    * 食器洗剤について一緒に購入されるアイテムを見た場合、パンが一緒に買われている
    * しかし、パンは誰もがよく買うアイテムなため、意味はない
* 求めたいこと：
    * 「ある商品を買った人は、別のある商品を買う傾向が統計的に平均より高い」ということ
    
---

### スーパーの買い物かごを分析する

* あるスーパーマーケットのトランザクションデータを匿名で利用
* 購入回数と該当する商品の数の表を作成

In [2]:
import numpy as np
from collections import defaultdict
from itertools import chain
from gzip import GzipFile
dataset = [[int(tok) for tok in line.strip().split()]
           for line in GzipFile('./data/retail.dat.gz')]
counts = defaultdict(int)
for elem in chain(*dataset):
    counts[elem] += 1
counts = np.array(list(counts.values()))
bins = [1, 2, 4, 8, 16, 32, 64, 128, 512]
print(' {0:11} | {1:12}'.format('Nr of baskets', 'Nr of products'))
print('--------------------------------')
for i in range(len(bins)):
    bot = bins[i]
    top = (bins[i + 1] if (i + 1) < len(bins) else 100000000000)
    print('  {0:4} - {1:3}   | {2:12}'.format(
        bot, (top if top < 1000 else ''), np.sum((counts >= bot) & (counts < top))))

 Nr of baskets | Nr of products
--------------------------------
     1 -   2   |         2224
     2 -   4   |         2438
     4 -   8   |         2508
     8 -  16   |         2251
    16 -  32   |         2182
    32 -  64   |         1940
    64 - 128   |         1523
   128 - 512   |         1225
   512 -       |          179


### 表の結果

* 数回しか購入されていない商品が多く存在
    * 購入回数 4 回以下は全体の 33 %
    * それらが売上に占める割合は 1 %
    * ロングテール
        * 多くの商品は少ししか売れない現象

---

### アプリオリ・アルゴリズム

* アプリオリ(Apriori)アルゴリズム
    * ある集合（買い物かごの中身）を多数集めたものを入力
    * よく起こる組み合わせの集合（多くの買い物で一緒に買われることが多いアイテムの組み合わせ）を返却
    * 最小の支持度を設定し、閾値を上回る組み合わせからなるアイテム集合を見つける
        * 支持度： アイテムが同時に購入された回数のこと
        * 支持度の大きいアイテム集合では、それを構成する各アイテムの支持度も閾値より大きくなる
    * 今回は要素が一つだけの集合を考える
    * 閾値より大きい支持度をもつ要素から構成されるため、頻出アイテム集合と呼ばれる
    

### アソシエーション・ルール・マイニング

* バスケット分析と同意
* アソシエーション・ルール
    * 「X ならば Y である」という形式で表現
    * 例：
        * 「本A を買った人は本Bを買う」
    * ルールは決定的ではない点に注意（X を買った人全てが Y を買うわけではない）
    * 正確には、「X を買った人は通常より Y を買う傾向が高い」
    * X(条件), Y(結論) には複数の要素が入りうる
        * 「X1, X2, X3 を買った人は Y1, Y2, Y3 を買う」などと表記可能
        * 条件に複数のアイテムが入るほうが、異凸だけの場合より明確な予測が出来る
    * 組み合わせを全て試行することで、いくらでもルールを作成可能
    * しかし、意味のあるルールだけを取り出す必要がある
    * => リフト値
        * 「通常の場合のYが買われる確率」と「ルールを適用した場合の Y が買われる確率」の比率
        * lift(X ➞ Y) = P(X|Y)/P(Y)
        * リフト値が大きいほど意味のあるルール（目安として少なくても 10から100くらい）
        * ベストセラー商品の場合、値は 1 に近くなる

---

* 結果は表8-2
* 頻出アイテム集合を選択しないと、リフト値の意味がなくなる（または誤差が大きくなる）
* 表示したもの以外にもアソシエーションルールは数多く存在
* 各ユーザにとっては一部のルールだけが関係するため、レコメンドされる商品の数は少なくなる

In [4]:
def apriori(dataset, minsupport, maxsize):
    '''
    freqsets, baskets = apriori(dataset, minsupport, maxsize)
    Parameters
    ----------
    dataset : sequence of sequences
        input dataset
    minsupport : int
        Minimal support for frequent items
    maxsize : int
        Maximal size of frequent items to return
    Returns
    -------
    freqsets : sequence of sequences
    baskets : dictionary
    '''
    from collections import defaultdict

    baskets = defaultdict(list)
    pointers = defaultdict(list)
    for i, ds in enumerate(dataset):
        for ell in ds:
            pointers[ell].append(i)
            baskets[frozenset([ell])].append(i)
    pointers = dict([(k, frozenset(v)) for k, v in pointers.items()])
    baskets = dict([(k, frozenset(v)) for k, v in baskets.items()])

    valid = set(list(el)[0]
                for el, c in baskets.items() if (len(c) >= minsupport))
    dataset = [[el for el in ds if (el in valid)] for ds in dataset]
    dataset = [ds for ds in dataset if len(ds) > 1]
    dataset = map(frozenset, dataset)

    itemsets = [frozenset([v]) for v in valid]
    freqsets = []
    for i in range(maxsize - 1):
        print(len(itemsets))
        newsets = []
        for i, ell in enumerate(itemsets):
            ccounts = baskets[ell]
            for v_, pv in pointers.items():
                if v_ not in ell:
                    csup = (ccounts & pv)
                    if len(csup) >= minsupport:
                        new = frozenset(ell | set([v_]))
                        if new not in baskets:
                            newsets.append(new)
                            baskets[new] = csup
        freqsets.extend(itemsets)
        itemsets = newsets
    return freqsets, baskets

In [10]:
def association_rules(dataset, freqsets, baskets, minlift):
    '''
    for (antecendent, consequent, base, py_x, lift) in association_rules(dataset, freqsets, baskets, minlift):
        ...
    This function takes the returns from ``apriori``.
    Parameters
    ----------
    dataset : sequence of sequences
        input dataset
    freqsets : sequence of sequences
    baskets : dictionary
    minlift : int
        minimal lift of yielded rules
    '''
    nr_transactions = float(len(dataset))
    freqsets = [f for f in freqsets if len(f) > 1]
    for fset in freqsets:
        for f in fset:
            consequent = frozenset([f])
            antecendent = fset - consequent
            base = len(baskets[consequent]) / nr_transactions
            py_x = len(baskets[fset]) / float(len(baskets[antecendent]))
            lift = py_x / base
            if lift > minlift:
                yield (antecendent, consequent, base, py_x, lift)

In [11]:
freqsets, baskets = apriori(dataset, 80, maxsize=5)
nr_transactions = float(len(dataset))
for ant, con, base, pyx, lift in association_rules(dataset, freqsets, baskets, 30):
    print('{} | {} | {} ({:%}) | {} | {} | {}'
          .format(ant, con, len(baskets[con]), len(baskets[con]) / nr_transactions, len(baskets[ant]), len(baskets[con | ant]), int(lift)))

2370
3797
2131
483
frozenset({16431}) | frozenset({16430}) | 426 (0.483201%) | 351 | 348 | 205
frozenset({16430}) | frozenset({16431}) | 351 (0.398131%) | 426 | 348 | 205
frozenset({3502}) | frozenset({53}) | 509 (0.577346%) | 381 | 87 | 39
frozenset({53}) | frozenset({3502}) | 381 (0.432159%) | 509 | 87 | 39
frozenset({107}) | frozenset({1067}) | 584 (0.662417%) | 765 | 171 | 33
frozenset({1067}) | frozenset({107}) | 765 (0.867721%) | 584 | 171 | 33
frozenset({117}) | frozenset({976}) | 817 (0.926703%) | 1026 | 312 | 32
frozenset({976}) | frozenset({117}) | 1026 (1.163767%) | 817 | 312 | 32
frozenset({961}) | frozenset({136}) | 467 (0.529707%) | 540 | 88 | 30
frozenset({136}) | frozenset({961}) | 540 (0.612509%) | 467 | 88 | 30
frozenset({1067}) | frozenset({136}) | 467 (0.529707%) | 584 | 112 | 36
frozenset({136}) | frozenset({1067}) | 584 (0.662417%) | 467 | 112 | 36
frozenset({165}) | frozenset({164}) | 330 (0.374311%) | 274 | 160 | 156
frozenset({164}) | frozenset({165}) | 274 (0.

### 8.2.4 進んだバスケット分析

* 数が多くなった場合、アルゴリズムの改良が必要
* 処理速度の問題が発生する


* 買い物の順番も考慮する手法が存在
* 例：
    * パーティをするために必要なグッズを購入 -> ごみ袋を買いに戻ってくる
    * => パーティグッズを買う際にゴミ袋をレコメンド
    * 逆は成立しない
    * => ゴミ袋を買う -> パーティグッズをレコメンド


## まとめ

* 前半
    * ユーザの映画スコアを予測する問題を扱い、予測器を改善
    * 予測を行うためにいくつかの手法を組み合わせ
    * 各手法の重みは、アンサンブル学習を用いて決定
    * 異なるアイデアを組み合わせて、最終結果を出力可能
* 後半
    * アソシエーション・ルール・マイニング
    * 確率的な関連性のルールを発見する
    * 必要なデータセットが購入履歴のみという利点
    * ベストセラーに騙されない注意が必要
    * リフト値を指標に、通常に比べどれだけ効果があるかの評価が必要