In [78]:
# 協調フィルタリング(差集合)
import numpy as np

# 顧客ごと商品ごとの販売実績行列作成（20行30列の配列。20人、30商品の購入是非を0、１で表す）
r = np.random.RandomState(seed=0)
a = r.uniform(0,1,(20,30))
data0 = (a > 0.5).astype(int)
data0.shape

(20, 30)

In [79]:
# 顧客0の購入実績（買った：1、買わない：0）
data0[0]

array([1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 1, 0, 1, 1, 0])

In [94]:
# 購入数が3以上の顧客（購入数が少なすぎると参考にならないので除外）（sum(axis=1)は、2次元なら「行」の合計を表す）
data1 = data0[data0.sum(1) >= 3]
data1.sum(1)

array([20, 13, 12, 18, 19, 15, 13, 14, 15, 17, 10, 14, 19,  7, 16, 16, 12,
       15, 21, 13])

In [95]:
# 顧客数と商品数
data1.shape  

(20, 30)

In [96]:
# 商品数を変数に格納
num = data1.shape[1]
num

30

In [93]:
# 相関行列（対象者と他の顧客との相関係数のベクトル）から、対象者（target_id行目）の相関係数ベクトルの取得
target_id = 0  # 対象者のインデックス作成
data2 = np.corrcoef(data1)[target_id] # 相関行列（corrcoef）
data2

array([ 1.00000000e+00, -2.37825747e-01, -1.44337567e-01, -1.44337567e-01,
        1.95646395e-01,  1.41421356e-01, -9.51302988e-02, -4.72455591e-02,
        1.57009246e-17, -4.75651494e-02,  2.00000000e-01, -4.72455591e-02,
       -9.78231976e-02,  5.57278213e-02, -2.36227796e-01, -9.44911183e-02,
       -7.47818822e-18, -1.41421356e-01, -1.82731874e-17, -9.51302988e-02])

In [60]:
# 相関係数の高い順のインデックス取得（デフォルトでは小さい順のため、マイナスをつける）
data3 = (-data2).argsort()
data3

array([ 0, 10,  4,  5, 13,  8, 16, 18,  7, 11,  9, 15,  6, 19, 12, 17,  3,
        2, 14,  1], dtype=int64)

In [61]:
# 参考顧客のインデックス取得（data3[0]は最も相関の高い人＝自分自身のため、２番目に高い人data3[1]を選択）
ref_id = data3[1]
ref_id

10

In [62]:
# 購入かどうか（0か1）の配列を、購入した商品の番号の配列に変換（[1,2,3,4,5...]の配列rangeと積をとる）
data4 = data1 * range(1, num + 1)
data4[:2]  # 最初の2人

array([[ 1,  2,  3,  4,  0,  6,  0,  8,  9,  0, 11, 12, 13, 14,  0,  0,
         0, 18, 19, 20, 21, 22,  0, 24,  0, 26,  0, 28, 29,  0],
       [ 0,  2,  0,  4,  0,  6,  7,  8,  9, 10,  0,  0, 13,  0, 15, 16,
         0,  0,  0,  0, 21,  0, 23,  0,  0,  0, 27,  0,  0,  0]])

In [63]:
# 参考顧客との共通部分（対象顧客：ref_id）（参照顧客：target_id）（積集合：intersect）
data5 = np.intersect1d(data4[ref_id], data4[target_id])
data5 # 対象者と参照顧客が共に購入した商品番号

array([ 0,  1,  2,  9, 11, 18, 19, 20, 28])

In [64]:
# 参考顧客との差集合(：setdiff)
data6 = np.setdiff1d(data4[ref_id], data4[target_id])
data6  # レコメンド商品番号

array([15, 27])

In [65]:
# -> 上記商品をおすすめすれば良い。