#### 测试，数值型特征

In [1]:
from math import exp
import numpy as np
from random import normalvariate  # 正态分布
from datetime import datetime
import pandas as pd

In [2]:
trainData = 'C:/Users/hedy/Downloads/fm/diabetes_train.txt'   #请换为自己文件的路径
testData = 'C:/Users/hedy/Downloads/fm/diabetes_test.txt'

In [3]:
def preprocessData(data):
    """预处理"""
    # 获取特征
    feature = np.array(data.iloc[:, :-1])
    # 将标签转为 1 和 -1
    label = data.iloc[:, -1].map(lambda x: 1 if x == 1 else -1)
    
    # 将数组按行进行归一化（最大最小值归一化）
    zmax, zmin = feature.max(axis=0), feature.min(axis=0)
    feature = (feature - zmin) / (zmax - zmin)
    
    label = np.array(label)
    
    return feature, label

In [4]:
def sigmoid(inx):
    #return 1. / (1. + exp(-max(min(inx, 15.), -15.)))
    return 1.0 / (1 + exp(-inx))

In [5]:
np.shape

<function numpy.shape>

In [6]:
def SGD_FM(dataMatrix, classLabels, k, iter):
    '''
    :param dataMatrix:  特征矩阵 mat
    :param classLabels: 类别矩阵 列表
    :param k:           辅助向量的大小
    :param iter:        迭代次数
    :return:
    '''
    m, n = np.shape(dataMatrix)   #矩阵的行列数，即样本数和特征数
    
    alpha = 0.01
    # 初始化参数
    # w = random.randn(n, 1)#其中n是特征的个数
    w = np.zeros((n, 1))      #一阶特征的系数
    w_0 = 0.
    v = normalvariate(0, 0.2) * np.ones((n, k))   #即生成辅助向量，用来训练二阶交叉特征的系数
    
    for it in range(iter):
        for x in range(m):  # 随机优化，每次只使用一个样本
            # 二阶项的计算
            inter_1 = dataMatrix[x] * v
            inter_2 = np.multiply(dataMatrix[x], dataMatrix[x]) * np.multiply(v, v)  #二阶交叉项的计算
            interaction = sum(np.multiply(inter_1, inter_1) - inter_2) / 2.       #二阶交叉项计算完成
            
            p = w_0 + dataMatrix[x] * w + interaction  # 计算预测的输出，即FM的全部项之和
            loss = 1-sigmoid(classLabels[x] * p[0, 0])    #计算损失
            
            w_0 = w_0 + alpha * loss * classLabels[x]
            
            for i in range(n):
                if dataMatrix[x, i] != 0:
                    w[i, 0] = w[i, 0] + alpha * loss * classLabels[x] * dataMatrix[x, i]
                    for j in range(k):
                        v[i, j] = v[i, j] + alpha * loss * classLabels[x] * (dataMatrix[x, i] * inter_1[0, j] - v[i, j] * dataMatrix[x, i] * dataMatrix[x, i])
        print("第{}次迭代后的损失为{}".format(it, loss))
        
    return w_0, w, v

In [7]:
def getAccuracy(dataMatrix, classLabels, w_0, w, v):
    m, n = np.shape(dataMatrix)
    allItem = 0
    error = 0
    result = []
    for x in range(m):   #计算每一个样本的误差
        allItem += 1
        inter_1 = dataMatrix[x] * v
        inter_2 = np.multiply(dataMatrix[x], dataMatrix[x]) * np.multiply(v, v)
        interaction = sum(np.multiply(inter_1, inter_1) - inter_2) / 2.
        p = w_0 + dataMatrix[x] * w + interaction  # 计算预测的输出
        
        pre = sigmoid(p[0, 0])
        result.append(pre)
        
        if pre < 0.5 and classLabels[x] == 1.0:
            error += 1
        elif pre >= 0.5 and classLabels[x] == -1.0:
            error += 1
        else:
            continue
            
    return float(error) / allItem

In [8]:
if __name__ == '__main__':
    train = pd.read_csv(trainData)
    test = pd.read_csv(testData)
    dataTrain, labelTrain = preprocessData(train)
    dataTest, labelTest = preprocessData(test)
    date_startTrain = datetime.now()
    
    print    ("开始训练")
    
    w_0, w, v = SGD_FM(np.mat(dataTrain), labelTrain, 20, 200)
    print("训练准确性为：%f" % (1 - getAccuracy(np.mat(dataTrain), labelTrain, w_0, w, v)))
    
    date_endTrain = datetime.now()
    print("训练用时为：%s" % (date_endTrain - date_startTrain))
    
    print("开始测试")
    print("测试准确性为：%f" % (1 - getAccuracy(np.mat(dataTest), labelTest, w_0, w, v)))

开始训练
第0次迭代后的损失为0.38879551291228154
第1次迭代后的损失为0.39841261970832487
第2次迭代后的损失为0.4173696802918623
第3次迭代后的损失为0.4353136138477911
第4次迭代后的损失为0.4510093170084324
第5次迭代后的损失为0.46421451900845767
第6次迭代后的损失为0.475040706528265
第7次迭代后的损失为0.48373985996401114
第8次迭代后的损失为0.49060134623983254
第9次迭代后的损失为0.49590520873762156
第10次迭代后的损失为0.49990262529883056
第11次迭代后的损失为0.5028098033052779
第12次迭代后的损失为0.5048085960161126
第13次迭代后的损失为0.5060501977687205
第14次迭代后的损失为0.5066598785210406
第15次迭代后的损失为0.5067416699847744
第16次迭代后的损失为0.5063824943110815
第17次迭代后的损失为0.5056555648446419
第18次迭代后的损失为0.5046230713027383
第19次迭代后的损失为0.5033382469100804
第20次迭代后的损失为0.5018469421865372
第21次迭代后的损失为0.5001888256784427
第22次迭代后的损失为0.49839831293674475
第23次迭代后的损失为0.49650530178175345
第24次迭代后的损失为0.4945357700175428
第25次迭代后的损失为0.4925122738430131
第26次迭代后的损失为0.49045437191325936
第27次迭代后的损失为0.4883789909431734
第28次迭代后的损失为0.48630074305888027
第29次迭代后的损失为0.4842322018367402
第30次迭代后的损失为0.4821841422706584
第31次迭代后的损失为0.48016574910945287
第32次迭代后的损失为0.4781847976404363
第33次