# 验证推荐的精度和召回
**训练集中为用户推荐的商品与测试集中用户喜欢的商品**
    1. 将测试集地区与训练集作相同划分
    2. 训练集中为用户推荐的商品与测试集中用户喜欢的商品作精度召回

In [1]:
import numpy as np
import pandas as pd
import _pickle as cPickle
from collections import defaultdict

#### 读取推荐列表

In [2]:
feature_recommand = cPickle.load(open('./data/feature_recommand.pkl','rb'))
feature_recommand

defaultdict(dict,
            {'australia': {0: ['0099771519',
               '1857022424',
               '1844262553',
               '0439139597',
               '0439136350',
               '0439064864',
               '0877017883',
               '0618002227',
               '0590353403',
               '0671027344',
               '0385199570',
               '0771060548',
               '0156528207',
               '0618129022',
               '0552131059',
               '0811801802',
               '0670032379',
               '0812550706',
               '0679785892',
               '0670894605'],
              1: ['1844262553',
               '0439139597',
               '0439136350',
               '0439064864',
               '0877017883',
               '0618002227',
               '0590353403',
               '0671027344',
               '0385199570',
               '0771060548',
               '0156528207',
               '0618129022',
               '0552131059',
     

In [3]:
# import os
# print(os.path.abspath(__file__))  #显示当前文件的地址

#### 导入测试集

In [4]:
df_data_text = cPickle.load(open('./data/df_data_test.pkl','rb'))
df_data_text.head()

Unnamed: 0,user_id,location,age,item_id,rating
109814,27462,usa,0,1587492695,0
561359,137190,france,3,552997234,8
182843,42721,canada,3,671024108,8
854047,208829,canada,0,140503897,0
559003,136348,usa,4,807220299,9


In [5]:
df_data_text.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 344931 entries, 109814 to 473426
Data columns (total 5 columns):
user_id     344931 non-null int64
location    344931 non-null object
age         344931 non-null int64
item_id     344931 non-null object
rating      344931 non-null int32
dtypes: int32(1), int64(2), object(2)
memory usage: 14.5+ MB


#### 测试集下的location与训练集作同样的划分

In [6]:
top_location_s = list(feature_recommand.keys())

In [7]:
df_data_text['location'] = df_data_text['location'].apply(lambda location : location if location in top_location_s else 'other')

In [8]:
df_data_text['location'].value_counts()

usa               230427
canada             31331
other              25235
united kingdom     15239
germany            11986
australia           7873
spain               7792
france              4142
n/a                 4097
italy               3665
portugal            3144
Name: location, dtype: int64

#### 得到准确率和召回率

In [9]:
union_quantity = 0        # 为用户推荐的，有多少用户喜欢的
recommand_quantity = 0    # 总共推荐商品数
user_fav_quantity = 0     # 用户总的喜欢商品数

In [10]:
# 遍历测试集的数据
for location,groupby_location in df_data_text.groupby('location'):
    for age,groupby_location_age in groupby_location.groupby('age'):
        print('执行到：',location,age)
        # 地区-年龄段-用户 喜欢的商品和为其推荐的商品
        for user_id,groupby_location_age_userid in groupby_location_age.groupby('user_id'):
            # 将用户对多个商品的多次打分（用户对一个商品可能打分多次）取均值并降序排列
            items_rating = groupby_location_age_userid.groupby('item_id')['rating'].mean().sort_values(ascending=False)
            # 取用户最喜欢的商品
            user_fav_items = [
                item_id
                for item_id in items_rating.index if items_rating[item_id] >= 5
            ]
            # 为用户推荐的商品
            recommand_items = feature_recommand[location][age]
            # 为用户推荐的，有多少用户喜欢的（用户最喜欢的商品和为用户推荐的商品 取 交集）
            union_quantity += len(
                set(user_fav_items) & set(recommand_items)
            )
            # 总共推荐商品数
            recommand_quantity += len(recommand_items)
            # 用户总的喜欢商品数
            user_fav_quantity += len(user_fav_items)
print('准确率:',union_quantity / recommand_quantity)
print('召回率:',union_quantity / user_fav_quantity)

执行到： australia 0
执行到： australia 1
执行到： australia 2
执行到： australia 3
执行到： australia 4
执行到： australia 5
执行到： canada 0
执行到： canada 1
执行到： canada 2
执行到： canada 3
执行到： canada 4
执行到： canada 5
执行到： france 0
执行到： france 2
执行到： france 3
执行到： france 4
执行到： france 5
执行到： germany 0
执行到： germany 1
执行到： germany 2
执行到： germany 3
执行到： germany 4
执行到： germany 5
执行到： italy 0
执行到： italy 2
执行到： italy 3
执行到： italy 4
执行到： n/a 0
执行到： other 0
执行到： other 1
执行到： other 2
执行到： other 3
执行到： other 4
执行到： other 5
执行到： portugal 0
执行到： portugal 2
执行到： portugal 3
执行到： portugal 4
执行到： portugal 5
执行到： spain 0
执行到： spain 2
执行到： spain 3
执行到： spain 4
执行到： spain 5
执行到： united kingdom 0
执行到： united kingdom 1
执行到： united kingdom 2
执行到： united kingdom 3
执行到： united kingdom 4
执行到： united kingdom 5
执行到： usa 0
执行到： usa 1
执行到： usa 2
执行到： usa 3
执行到： usa 4
执行到： usa 5
准确率: 0.0003796827539655754
召回率: 0.003253064306253916
