In [8]:
import pandas as pd


In [9]:
import numpy as np


In [10]:
dates = pd.date_range("20130101", periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [11]:
df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = list("ABCD"))
df


Unnamed: 0,A,B,C,D
2013-01-01,-1.777942,0.967202,-0.878753,-0.775671
2013-01-02,-1.472593,-1.033987,-0.420884,0.162655
2013-01-03,-0.005515,0.206417,-1.04226,-1.666765
2013-01-04,2.079013,0.295181,-1.474097,-0.202246
2013-01-05,0.319465,-1.353948,-0.291035,-0.012237
2013-01-06,-0.45176,0.007097,-0.40482,-1.102058


In [12]:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2



Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


In [13]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

In [30]:
"""
協調フィルタリングのサンプル実装
"""
import pandas as pd

"""
1.行動データを読み込む
"""
conv_df = pd.read_csv("testdata.csv",encoding="utf-8")
conversions = [tuple(x) for x in conv_df[["customer","item"]].values]

"""
2.行動データを商品ごとにまとめる
"""
data_dic= {}
for customer,item in conversions:
    if customer in data_dic:
        data_dic[customer].append(item)
    else:
        data_dic[customer]= [item]
print(data_dic)
        
customer_base= "Aさん"
items_base = data_dic[customer_base]
count_dic = {}
for customer, items in data_dic.items():
    if customer_base != customer:
        """
        set(x) & set(y)で、xとyの両方に残っている
        """
        count_dic[customer] = len(list(set(items_base) & set(items)))
        
count_list = sorted(count_dic.items(),key=lambda x:x[1],reverse=True)
print("共起:")
print(count_list)
print("\n")

"""
4.共起の度合いが高い順にお勧めとして表示する
"""
max_recommend_count = 3
rec_item_list = []
for customer,items in count_list:
    print(data_dic[customer])
    for item in data_dic[customer]:
        if item not in rec_item_list:
            rec_item_list.append(item)
    if len(rec_item_list) <= max_recommend_count:
        continue
print("おすすめ商品:")
print(rec_item_list[:5])


{'Gさん': ['商品F', '商品G', '商品D'], 'Cさん': ['商品B', '商品C', '商品M'], 'Aさん': ['商品A', '商品B'], 'Bさん': ['商品C', '商品G', '商品H'], 'Eさん': ['商品B', '商品D', '商品E', '商品G'], 'Zさん': ['商品A', '商品B', '商品Y', '商品X', '商品Z'], 'Dさん': ['商品A'], 'Fさん': ['商品D', '商品T', '商品E']}
共起:
[('Zさん', 2), ('Cさん', 1), ('Eさん', 1), ('Dさん', 1), ('Gさん', 0), ('Bさん', 0), ('Fさん', 0)]


['商品A', '商品B', '商品Y', '商品X', '商品Z']
['商品B', '商品C', '商品M']
['商品B', '商品D', '商品E', '商品G']
['商品A']
['商品F', '商品G', '商品D']
['商品C', '商品G', '商品H']
['商品D', '商品T', '商品E']
おすすめ商品:
['商品A', '商品B', '商品Y', '商品X', '商品Z']


[('Aさん', '商品A'), ('Aさん', '商品B'), ('Bさん', '商品C'), ('Bさん', '商品G'), ('Bさん', '商品H'), ('Cさん', '商品B'), ('Cさん', '商品C'), ('Cさん', '商品M'), ('Dさん', '商品A'), ('Eさん', '商品B'), ('Eさん', '商品D'), ('Eさん', '商品E'), ('Eさん', '商品G'), ('Fさん', '商品D'), ('Fさん', '商品T'), ('Fさん', '商品E'), ('Gさん', '商品F'), ('Gさん', '商品G'), ('Gさん', '商品D'), ('Zさん', '商品A'), ('Zさん', '商品B'), ('Zさん', '商品Y'), ('Zさん', '商品X'), ('Zさん', '商品Z')]


In [23]:
print(conv_df)

   customer item
0       Aさん  商品A
1       Aさん  商品B
2       Bさん  商品C
3       Bさん  商品G
4       Bさん  商品H
5       Cさん  商品B
6       Cさん  商品C
7       Cさん  商品M
8       Dさん  商品A
9       Eさん  商品B
10      Eさん  商品D
11      Eさん  商品E
12      Eさん  商品G
13      Fさん  商品D
14      Fさん  商品T
15      Fさん  商品E
16      Gさん  商品F
17      Gさん  商品G
18      Gさん  商品D
19      Zさん  商品A
20      Zさん  商品B
21      Zさん  商品Y
22      Zさん  商品X
23      Zさん  商品Z
