
示例：使用Logistic回归估计马疝病的死亡率

（1）收集数据：给定数据文件。
（2）准备数据：用Python解析文本文件并填充缺失值。
（3）分析数据：可视化并观察数据。
（4）训练算法：使用优化算法，找到最佳的系数。
（5）测试算法：为了量化回归的效果，需要观察错误率。
根据错误率决定是否退回到训练阶段，通过改变迭代的次数和步长等参数来得到更好的回归系数。
（6）使用算法：实现一个简单的命令行程序来收集马的症状并输出预测结果。


In [10]:
import numpy as np

In [1]:
def sigmoid(inX):
    # return np.longfloat(1.0/(1+np.exp(-inX)))
    if inX>=0:
        return 1.0/(1+np.exp(-inX))
    else:
        return np.exp(inX)/(1+np.exp(inX))

In [2]:
"""
函数说明:改进的随机梯度上升算法

Parameters:
    dataMatrix - 训练数据数组
    classlabels - 训练标签列表
    numIter - 迭代次数
Returns:
    weights - 最佳回归系数
"""
def stocGradAscent1(dataMatrix, classLabels, numIter = 150):
    m,n = np.shape(dataMatrix)          #返回dataMatrix的大小
    weights = np.ones(n)                #初始化权重
    for j in range(numIter):
        dataIndex = list(range(m))
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.01                                #降低alpha的大小
            randIndex = int(np.random.uniform(0,len(dataIndex)))    #随机选择样本
            h = sigmoid(sum(dataMatrix[randIndex]*weights))         #h是一个数值
            error = classLabels[randIndex] - h
            weights = weights + alpha*error*dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

In [3]:
"""
函数说明:Logistic回归分类函数

Parameters:
    inX - 待分类的特征向量
    weights - 训练好的回归系数
Returns:
    分类结果
"""
def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

In [8]:
"""
函数说明:Logistic回归分类测试函数

Parameters:
    无
Returns:
    errorRate - 错误率
"""
def colicTest():
    frTrain = open('horseColicTraining.txt')        #打开训练集数据文件
    frTest = open('horseColicTest.txt')             #打开测试集数据文件
    trainingSet = []; trainingLabels = []           #存放训练数据集和测试数据集
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr = []
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)                 #获取训练数据样本
        trainingLabels.append(float(currLine[21]))  #获取训练数据样本标签
    trainWeights = stocGradAscent1(np.array(trainingSet), trainingLabels, 500)  #通过logistic回归获得回归系数
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr = []
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(np.array(lineArr),trainWeights)) != int(currLine[21]):    #判断是否分类正确
            errorCount +=1
    errorRate = (float(errorCount/numTestVec))
    print('the error rate of this test is: %.2f' % errorRate)
    return errorRate

In [5]:
"""
函数说明:Logistic回归分类测试函数
进行多次
Parameters:
    无
Returns:
    无
"""
def multiTest():
    numTests = 10; errorSum = 0.0
    for k in range(numTests):
        errorSum += colicTest()
    print('after %d iterations the average error rate is: %.2f' % (numTests, errorSum/float(numTests)))

In [11]:
multiTest()

the error rate of this test is: 0.42
the error rate of this test is: 0.40
the error rate of this test is: 0.37
the error rate of this test is: 0.34
the error rate of this test is: 0.37
the error rate of this test is: 0.34
the error rate of this test is: 0.39
the error rate of this test is: 0.34
the error rate of this test is: 0.40
the error rate of this test is: 0.40
after 10 iterations the average error rate is: 0.38
