In [2]:
# 協調フィルタリング（共起 + ジャッカード指数）
# https://qiita.com/haminiku/items/f5008a57a870e0188f63

# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import unicode_literals
from collections import defaultdict


def jaccard(e1, e2):
    """
    ジャッカード指数を計算する
    :param e1: list of int
    :param e2: list of int
    :rtype: float
    """
    set_e1 = set(e1)
    set_e2 = set(e2)
    return float(len(set_e1 & set_e2)) / float(len(set_e1 | set_e2))

# 商品Xを購入した顧客IDが1,3,5ということ
product_x = [1, 3, 5]
product_a = [2, 4, 5]
product_b = [1, 2, 3]
product_c = [2, 3, 4, 7]
product_d = [3]
product_e = [4, 6, 7]

# 商品データ
products = {
    'A': product_a,
    'B': product_b,
    'C': product_c,
    'D': product_d,
    'E': product_e,
}

# Xとの共起値を計算する
print("共起")
r = defaultdict(int)

for key in products:
    overlap = list(set(product_x) & set(products[key]))
    r[key] = len(overlap)
print(r)

# Xとのジャッカード指数を計算する
print("ジャッカード指数")
r2 = defaultdict(float)
for key in products:
    r2[key] = jaccard(product_x, products[key])
print(r2)

共起
defaultdict(<class 'int'>, {'A': 1, 'B': 2, 'C': 1, 'D': 1, 'E': 0})
ジャッカード指数
defaultdict(<class 'float'>, {'A': 0.2, 'B': 0.5, 'C': 0.16666666666666666, 'D': 0.3333333333333333, 'E': 0.0})


In [None]:
# -> 共起でもジャッカード指数でも傾向は似ている
#    共起の方が計算結果は大雑把だが、計算コストは低い