## 8.2 バスケット分析

* バスケット分析
    * 推薦システムを学習するための分析手法
    * どのアイテムが一緒に購入されているかに注目
        * 購入したアイテムを気に入ったかなどの情報は無視
        * スコアデータより簡単に集めることが可能
    * Amazon のレコメンドシステムのイメージ
    * ビールとおむつの話

---

### 8.2.1 役立つ予測を行う

* 「この商品を買った人はこんな商品も買っています」は実際のシステムと異なる
* もしその通りのシステムだった場合
    * よく購入されるアイテムに”騙される”
    * 単に人気のあるアイテムを推薦することになる
* 例：
    * スーパーで 50 % の人がパンを買うとする
    * 食器洗剤について一緒に購入されるアイテムを見た場合、パンが一緒に買われている
    * しかし、パンは誰もがよく買うアイテムなため、意味はない
* 求めたいこと：
    * 「ある商品を買った人は、別のある商品を買う傾向が統計的に平均より高い」ということ
    
---

### スーパーの買い物かごを分析する

* あるスーパーマーケットのトランザクションデータを匿名で利用
* 購入回数と該当する商品の数の表を作成

In [35]:
import numpy as np
from collections import defaultdict
from itertools import chain
from gzip import GzipFile
dataset = [[int(tok) for tok in line.strip().split()]
           for line in GzipFile('./data/retail.dat.gz')]
counts = defaultdict(int)
for elem in chain(*dataset):
    counts[elem] += 1
counts = np.array(list(counts.values()))
bins = [1, 2, 4, 8, 16, 32, 64, 128, 512]
print(' {0:11} | {1:12}'.format('Nr of baskets', 'Nr of products'))
print('--------------------------------')
for i in range(len(bins)):
    bot = bins[i]
    top = (bins[i + 1] if (i + 1) < len(bins) else 100000000000)
    print('  {0:4} - {1:3}   | {2:12}'.format(
        bot, (top if top < 1000 else ''), np.sum((counts >= bot) & (counts < top))))

TypeError: 'dict_items' object is not callable

* 数回しか購入されていない商品が多く存在
    * 購入回数 4 回以下は全体の 33 %
    * それらが売上に占める割合は 1 %
    * ロングテール
        * 多くの商品は少ししか売れない現象


* アプリオリ(Apriori)アルゴリズム
    * ある集合（買い物かごの中身）を多数集めたものを入力
    * よく起こる組み合わせの集合（多くの買い物で一緒に買われることが多いアイテムの組み合わせ）を返却
    

In [24]:
def apriori(dataset, minsupport, maxsize):
    '''
    freqsets, baskets = apriori(dataset, minsupport, maxsize)
    Parameters
    ----------
    dataset : sequence of sequences
        input dataset
    minsupport : int
        Minimal support for frequent items
    maxsize : int
        Maximal size of frequent items to return
    Returns
    -------
    freqsets : sequence of sequences
    baskets : dictionary
    '''
    from collections import defaultdict

    baskets = defaultdict(list)
    pointers = defaultdict(list)
    for i, ds in enumerate(dataset):
        for ell in ds:
            pointers[ell].append(i)
            baskets[frozenset([ell])].append(i)
    pointers = dict([(k, frozenset(v)) for k, v in pointers.items()])
    baskets = dict([(k, frozenset(v)) for k, v in baskets.items()])

    valid = set(list(el)[0]
                for el, c in baskets.items() if (len(c) >= minsupport))
    dataset = [[el for el in ds if (el in valid)] for ds in dataset]
    dataset = [ds for ds in dataset if len(ds) > 1]
    dataset = map(frozenset, dataset)

    itemsets = [frozenset([v]) for v in valid]
    freqsets = []
    for i in range(maxsize - 1):
        print(len(itemsets))
        newsets = []
        for i, ell in enumerate(itemsets):
            ccounts = baskets[ell]
            for v_, pv in pointers.items():
                if v_ not in ell:
                    csup = (ccounts & pv)
                    if len(csup) >= minsupport:
                        new = frozenset(ell | set([v_]))
                        if new not in baskets:
                            newsets.append(new)
                            baskets[new] = csup
        freqsets.extend(itemsets)
        itemsets = newsets
    return freqsets, baskets

In [25]:
minsupport = 80
maxsize = 1000

freq, baskets = apriori(dataset, minsupport, maxsize)
print(freq)
print(baskets)
print({0}|{1}).format(freq, baskets)

TypeError: first argument must be callable or None

In [14]:
valid = set(k for k, v in counts.items() if (v >= minsupport))
print(valid)

AttributeError: 'numpy.ndarray' object has no attribute 'items'

dict_items([('yamada', 75), ('endou', 82)])
