![try](laopo.png)

这张图是用来测试能否插入图片的，不用在意


## 关于写这个的目的

首先我们一直强调的是，我们做的是交流而不是报告，我们想在这个过程中告诉大家我们自己做了哪些东西，遇到了哪些坑，并告诉大家如何避免这些坑，当然，也是为了展示这个内容的工作量有多大

### 本文分成以下基本部分

- 数据清洗过程中的坑
- 用户/商品相似度 计算过程中的坑
- 用户/商品距离 计算中遇到的坑
- 权重计算中遇到的坑
- 交叉验证中遇到的坑

### part 1 数据清洗过程中遇到的坑


一切的开始首先要做的事情肯定是进行数据清洗


首先把数据读进来


#### 注意：这里读入数据有几个技巧

- 使用dtype 在读取数据时可以声明类型
- iterator 可以逐步的读入数据，在测试时可以加速运行
- 关于时间的处理技巧：
    - 虽然这里没有涉及时间的变量，但是简单的提一下，pandas 支持在输入时处理时间
    - 方法如下
    
```python
    # dataparse 声明时间类型的格式，parse_dates指明哪些数据会处理为时间类型
    dateparse = lambda x: pd.datetime.strptime(x, '%Y%m%d')
    user = pd.read_csv(usertable,encoding = "UTF-8",
                parse_dates= ['registration_init_time','expiration_date']
                ,date_parser=dateparse
                ,iterator= True
                       )
    # 顺便，获取时间差的方法为：
    user['cntinue'] =user.expiration_date\
                        -user.registration_init_time

    user.cntinue = user.cntinue.dt.days

```

In [5]:
import pandas as pd

fileplace = "C:\\Users\\22560\\Desktop\\recommand Sys\\recommand Sys\\songsCSV.csv"
song = pd.read_csv(fileplace,dtype ={
        "song_id" : str,
        "genre_ids" : str   
    },iterator = True
)
chunksize =100 #30000
song  = song.get_chunk(chunksize)
song = song.loc[8:9,['song_id','genre_ids']]
song.reset_index(inplace =True)
song.song_id = song.song_id.str.slice(0,5)
song.drop(columns='index',inplace  = True)
song.loc[0,'genre_ids'] = '352'
song.head()

Unnamed: 0,song_id,genre_ids
0,oTi7o,352
1,btcG0,352|1995


注意到这里有两个问题需要处理：


- 需要对于song_id 编码
- 一首歌有可能对应多个genre_ids,对此我们需要进行处理

接下来我们一步一步解决


#### 关于编码

推荐的方式为使用sklearn 的encoder 方法

In [6]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(song['song_id'])
originalName = song['song_id']
song['song_id'] = le.transform(song['song_id'])

In [7]:
# 可以看到 song_id 被编码了
song.head()

Unnamed: 0,song_id,genre_ids
0,1,352
1,0,352|1995


#### 关于处理genre_id

我们希望把数据处理成这个样子,即每一行都只有一首歌对应一个体裁

In [8]:
# part1 执行结束后再来执行
song.head()

Unnamed: 0,song_id,genre_ids
0,1,352
1,0,352|1995


下面来讲如何做到这样

####  step 1 利用 series.str.* 这些预置文本函数处理文本
首先，我们需要利用pandas的str类函数 ， 把genre_ids split 开

In [9]:
song.genre_ids = song.genre_ids.str.split(r"|")
song.head()

Unnamed: 0,song_id,genre_ids
0,1,[352]
1,0,"[352, 1995]"


先做些准备工作：
#### step2 使用apply 函数生成中间使用的变量

首先，希望把歌曲id变成和体裁一样的形式（处理结果为song_id_forSpread），

方便后面展开

In [10]:
song['numofType'] = song.genre_ids.apply(lambda x: len(x))

song['song_id_forSpread'] = song.song_id.apply(lambda x: [x] ) * song.numofType

song.head()

Unnamed: 0,song_id,genre_ids,numofType,song_id_forSpread
0,1,[352],1,[1]
1,0,"[352, 1995]",2,"[0, 0]"


#### step3 用python风格的for来生成数据


然后就会遇到新的问题，对于一个list ,  a = [[465],[352,1995]] ，

如何展开成a = [465,352,1995]

这个处理是非常python的：



In [11]:
a = [[1,2,3],[1,2]]

spreada = [j for i in a for j in i]

spreada

[1, 2, 3, 1, 2]

现在用这个思路来处理数据

In [12]:

genre_ids = [ j for  i in song.genre_ids for j in i]

song_ids = [j for i in song.song_id_forSpread for j in i ]

song = pd.DataFrame({'song_id': song_ids,'genre_id' : genre_ids})




In [13]:
song = song.reindex(columns  = ['song_id','genre_id'])
song.head()

Unnamed: 0,song_id,genre_id
0,1,352
1,0,352
2,0,1995


可以看出已经实现了想要的结果


### part 2 用户/商品相似度 计算过程中的坑

在将数据导入后，就需要将用户和用户的相似度计算出来

这部分的问题主要有两个

- 相似度如何计算？

- 计算后的数据如何存储

- 关于用户/商品缺失tag

#### 2.1 相似度如何计算？

相似度的计算分为两个部分：

- item-tag 稀疏矩阵的创建
- 余弦相似度的计算

下面一一介绍这些内容

##### 2.1.1 item-tag 稀疏矩阵的创建

在进行数据的清洗后，我们获得了如下的数据形式：

In [14]:
song.head()

Unnamed: 0,song_id,genre_id
0,1,352
1,0,352
2,0,1995


首先，我们需要对于genre_id进行编码

In [15]:
le = LabelEncoder()
le.fit(song['genre_id'])
originalName = song['genre_id']
song['genre_id'] = le.transform(song['genre_id'])
song.head()

Unnamed: 0,song_id,genre_id
0,1,1
1,0,1
2,0,0


现在，我们希望把这个数据化为sparse矩阵的形式，使得每行代表一首歌，每列代表一个tag，

稀疏矩阵中，x[i,j] = 1 表示第i个商品有第j个tag，x[i,j] = 0 表示没有这个tag

使用csr_matrix 工具，我们可以轻易的完成这个步骤

In [16]:
from  scipy.sparse import csr_matrix

In [17]:
# 设置需要填充进稀疏矩阵的数值
song['value'] = 1

# 创建矩阵

song_tag = csr_matrix((song.value,(song.song_id,song.genre_id)))

In [18]:
song_tag.todense()

matrix([[1, 1],
        [0, 1]], dtype=int64)

##### 2.1.2 item-item 余弦相似度的计算

在获得了item-tag 矩阵后，我们依据这个矩阵，对于每个item，都有一个对应的向量

而根据这个向量，可以计算item-item的相似度

*但是注意： csr_matrix 默认只要和numpy.array 做运算，会转化为numpy的实矩阵，*


*很容易造成内存不足！所以做运算是必须尽量使用csr_matrix自带的矩阵预算*

扩展：余弦相似度如何计算:

![1](./cosine/1.png)

- step 1 计算内积
![step1](./cosine/step1.png)

In [24]:
_dot = song_tag.dot(song_tag.transpose()).todense()
_dot

matrix([[2, 1],
        [1, 1]], dtype=int64)

- step 2 计算每个item总共有几个标签
![step2](./cosine/step2.png)

In [37]:
_sum = song_tag.multiply(song_tag).sum(1)
_sum =_sum.A.ravel()
_sum

array([2, 1], dtype=int64)

![step3](./cosine/step3.png)

In [43]:
from scipy.sparse import diags
import numpy as np
B = diags( 1/np.sqrt(_sum) )
B.todense()

matrix([[ 0.70710678,  0.        ],
        [ 0.        ,  1.        ]])

*注意，这里diags不能接受matrix作为参数，必须接受shape为(L,)形式的arrayy*

*所以使用了 _sum =_sum.A.ravel() 对matrix 转成array*

![step4](./cosine/step4.png)

In [45]:
# in python3 ：  ‘@’ means ‘dot’
result = B @ _dot @ B
result

matrix([[ 1.        ,  0.70710678],
        [ 0.70710678,  1.        ]])

#### 2.2  计算结果如何存储？

注意到这里计算出来的 item-item相似度矩阵，虽然是稀疏的，但是实际上是很大的

所以在计算时，不能一次把全部的余弦相似度计算出来，而应该按照如下思路处理：

   - 每次计算n个item和全部商品的相似度，得到一个$ [n*N] $ 大小的子矩阵
   - 然后将这个部分的数据存到外存中
   - 重复上述操作，得到所有的结果

而这一过程涉及到将稀疏矩阵存储到外存中的问题，我们找了很多方法，最终使用的工具是h5sparse

其官方链接如下：
https://pypi.python.org/pypi/h5sparse/0.0.4

在此不详细展开

最后，贴一段计算用户相似度的代码，感受下工作量：
其中，还有很多小细节，如：

   - 对于相似度小于阈值的相关关系的去除
   - 只取每个item 相关关系最强的N个相似度的方法
   - 当item缺失tag信息的处理方法
   
在此不详细说明
   
   
```python


def LargeSparseMatrixCosine(largeSparseMatrix,ObjectNoAttr,
                            num = 5000,select = 0.7,
                            fileplace = "D:\\tempdata\\",
                            prefix = "item",plan = 'A'
                            ):
    # 如果对应对象没有分类，那么会把它和任何人的关系设为1
    # this method will save the result in disk
    (rowNum,colNum) = largeSparseMatrix.shape
    sep = np.linspace(0,rowNum,endpoint=True,dtype=np.int64,num=num)
    # calculate the L2 of each vector
    lenOfVec = np.sqrt(largeSparseMatrix.multiply(largeSparseMatrix).\
                            sum(axis=1).A.ravel()
                            )
    lenOfVecAll = diags(1 / lenOfVec)
    print("#############  please  be patient ############## \n \n")
    print("### object size is   " +str(rowNum) +"*"+ str(rowNum) + "  ####" )
    for index,value in enumerate(sep):
        if index+1 < len(sep):
        #if i < 40:
            #print(i,j)
            # get a block from the ogininal matrix
            block_of_sparse = largeSparseMatrix[value:sep[index+1],:]

            # calculate the dot
            dot_product_of_block = block_of_sparse.dot(
                                        largeSparseMatrix.transpose()
                                    )
            lenOfBlockVec = diags(1/ lenOfVec[value:sep[index+1]])

            dot_cosine = lenOfBlockVec @ dot_product_of_block @ lenOfVecAll

            #　we just select few of them to build net work
            if select <=1 :
                # then just select the relationship with doc_cosine > select
                dot_cosine = dot_cosine.multiply( dot_cosine > select )
            else:
                if plan == 'A':
                    # if select = 100
                    # then select the first 100 friends of each user
                    #dot_cosine_data = sparseToPandas(dot_cosine)
                    dot_cosine = dot_cosine.todense()
                    dot_cosineSort = dot_cosine.copy()
                    dot_cosineSort.sort()
                    dot_cosineSort = dot_cosineSort[:,-select]
                    # return a sparse
                    dot_cosine[dot_cosine < dot_cosineSort] = 0
                    dot_cosine = csr_matrix(dot_cosine)
                else:
                    dot_cosineDF = sparseToPandas(dot_cosine)
                    dot_cosineDF = dot_cosineDF.groupby('row').apply(lambda df:df.nlargest(select,'data'))
                    dot_cosine = pandasToSparse(dot_cosineDF)



            HasObjectWithNoAttr =np.array(list( set(ObjectNoAttr) & set(list(range(value, sep[index + 1])))))

            if( len(HasObjectWithNoAttr) != 0 ):
                dot_cosine[HasObjectWithNoAttr-value,:] = 1


            gc.collect()


            if index == 0:
                # if its the first loop
                # check if dot_cosine.h5 is exists or not
                # if exists , clean it
                # create the file dot_cosine.h5
                with  h5py.File(fileplace+prefix+"dot_cosine.h5") as h5f:
                    for key in h5f.keys():
                        del h5f[key]
                with h5sparse.File(fileplace+prefix+"dot_cosine.h5") as h5f:
                    h5f.create_dataset(
                        "dot_cosineData/data", data=dot_cosine,
                        chunks=(10000,), maxshape=(None,)
                    )
            else:
                with h5sparse.File(fileplace+prefix+"dot_cosine.h5") as h5f:
                    h5f['dot_cosineData/data'].append(dot_cosine)


            del dot_cosine,lenOfBlockVec,h5f
            gc.collect()
            print("Social net work for " + prefix +  " is now  preparing ")
            preparePercent = (1+index)/(len(sep)-1)
            preparePercent = round(preparePercent,4)
            print(str(preparePercent) ," percent of Social Network is prepared ")
    print("#####  social net work data for  " +prefix +"  is prepared successful   ##########")




```

### part 3 关于用户距离计算中遇到的坑

在整个计算过程中，最难得一点无疑是计算这个鬼东西：


![question](./dis/question.png)

这个问题的解法如下

![hint](./dis/hint.png)

具体步骤为

![answer](./dis/answer.png)

另外，注意到用户(item)和用户(item)间的distance如果直接存储是一个实矩阵，则占用的存储空间会是十分巨大的，所以在计算时，

还需要把用户(item)和用户(item)的相似性矩阵中的稀疏性应用到distance的存储中

即：如果两个用户之间没有相关性，则不存储他们两个之间的距离
