逻辑斯特回归模型（peter）
线性回归

In [55]:
#包含各种头部文件
# 包含头部文件(科学计算包)
import numpy as np
#包含数据分析包
import pandas as pd
#包含绘图包matplotlib
import matplotlib.pyplot as plt
#包含scipy包
from scipy.optimize import minimize
#包含sklearn包
from sklearn.preprocessing import PolynomialFeatures

In [56]:
#初始化matplotlib的参数
#将matplotlib绘制的图标显示在Notebook中
%matplotlib inline

In [57]:
#定义文件导入方法 
'''
@file - 文件名（包含文件路径）
@delimeter - 文件中特征的分隔符 
'''
def loaddata(file, delimeter):
    #载入文本数据 np.loadtxt 
    data = np.loadtxt(file, delimiter=delimeter)
    #显示数据的维度、
    print "dimension:", data.shape
    #显示数据的前六行, 所有列
    print data[:6, :]
    #返回data
    return data

In [58]:
#定义绘图的方法
'''
@data
@label_x
@label_y
@label_pos
@label_neg
@axes
'''
def plotdata(data, label_x, label_y, label_pos, label_neg, axes=None):b
    #获得负样本的下标
    neg = data[:, 2] == 0
    #获得正样本的下标
    pos = data[:, 2] == 1
    #指明采用何种axes
    if axes == None:
        axes = plt.gca() #采用当前axes
    #在当前的axes上进行绘图
    #绘制正样本的散点图
    axes.scatter(data[pos][:,0], data[pos][:,1], marker='+',c='k', s=60, linewidth=2, label=label_pos)
    #绘制负样本的散点图
    axes.scatter(data[neg][:,0], data[neg][:, 1],marker='o',c='y',  s=60, linewidth=2, label=label_neg)
    #设置x轴的标签
    axes.set_xlabel(label_x)
    #设置y轴的标签
    axes.set_ylabel(label_y)
    #在frame上画图，同时采用fancybox
    axes.legend(frameon=True, fancybox=True)

IndentationError: unexpected indent (<ipython-input-58-bf5ce0bc0b1b>, line 12)

In [None]:
#定义sigmoid函数
def sigmoid(z):
    r = (1 / (1 + np.exp(-z)))
    return r

#### 损失函数
#### $$ J(\theta) = \frac{1}{m}\sum_{i=1}^{m}\big[-y^{(i)}\, log\,( h_\theta\,(x^{(i)}))-(1-y^{(i)})\,log\,(1-h_\theta(x^{(i)}))\big]$$
#### 向量化的损失函数(矩阵形式)
#### $$ J(\theta) = \frac{-1}{m}\big((\,log\,(g(X\theta))^Ty+(\,log\,(1-g(X\theta))^T(1-y)\big)$$

In [None]:
#定义损失函数
'''
@theta -- 权重
@X -- 样本集的所有特征矩阵
@y -- 样本集的结果列向量
'''
def costFunction(theta, X, y):
    # m - 样本总数
    m = y.shape[0] # 取行的值
    
    # g - g(X*theta)
    g = sigmoid(X.dot(theta))
    
    # 损失值
    cost = (-1) * (1.0 / m) * (np.log(g).T.dot(y) + np.log(1 - g).T.dot(1 - y))

    if np.isnan(cost[0]):
        return np.inf
    
    return cost[0]

#### 求偏导(梯度)

#### $$ \frac{\delta J(\theta)}{\delta\theta_{j}} = \frac{1}{m}\sum_{i=1}^{m} ( h_\theta (x^{(i)})-y^{(i)})x^{(i)}_{j} $$ 
#### 向量化的偏导(梯度)
#### $$ \frac{\delta J(\theta)}{\delta\theta_{j}} = \frac{1}{m} X^T(g(X\theta)-y)$$

In [None]:
#定义梯度函数
'''
@theta -- 权重
@X     -- 样本集的所有特征的矩阵
@y     -- 样本集的结果列向量
'''
def gradient(theta, X, y):
    #样本的总数
    m = y.shape[0]

    #sigmoid 函数
    g = sigmoid(X.dot(theta.reshape(-1, 1)))
    
    #梯度值
    grad = (1.0 / m) * (X.T).dot(g - y)
    
    return grad.flatten()

In [None]:
#自定义梯度下降函数，但是效果很差。使用scipy的优化minimize效果较好
def gradientDescent(theta, X, y):
    #梯度下降迭代的次数
    maxCycles = 1000000
    
    #学习率 或者 步长
    alpha = 0.01
    
    #梯度下降
    cost = costFunction(theta.reshape(-1, 1), X, y)
    for i in range(maxCycles):
        theta = theta - alpha * gradient(theta, X, y)
        
    #返回theta的值
    return theta

In [None]:
#以下为核心的调用过程

In [None]:
#调用文本数据
data = loaddata('data1.txt', ',')

In [None]:
#查看数据的分布情况，散点图
plotdata(data, 'Exam 1 Score', 'Exam 2 Score', 'Pass', 'Fail')

In [None]:
#初始化样本集X （注：样本集中的第一列必须全部为1，1是指theat0 的系数恒为1。 其余列为样本集的所有列，不包含最后一列）
X = np.c_[np.ones(data.shape[0]), data[:,:2]]
#初始化结果集y
y = np.c_[data[:,2]]
#初始化theta
theta = np.c_[np.zeros(X.shape[1])]
#初始化损失函数
cost = costFunction(theta, X, y)
 #初始化梯度
grad = gradient(theta, X, y)

In [None]:
#实施梯度下降
#效果较差，使用minimize较好
#theta = gradientDescent(theta, X, y)

In [None]:
#初始化theta
theta = np.c_[np.zeros(X.shape[1])]
#初始化损失函数
cost = costFunction(theta, X, y)
print cost
#初始化梯度
grad = gradient(theta, X, y)
print grad

In [None]:
#最损失函数进行梯度下降，以期求得最小值
#入参
#costFunction --  损失函数
# theta       --  权重值
# args（X，y）--  样本特征集合和正负样本集
# jac         --  梯度下降方式
# options={‘maxiter’：400} -- 迭代400次
#出参
# x 也即最佳的权重值， 它为行向量
res = minimize(costFunction, theta, args=(X,y), method=None, jac=gradient, options={'maxiter':400})
res

数据预测

In [None]:
#定义预测函数
def predict(theta, X, threshhold=0.5):
    #得到预测后的向量P, 为列向量
    P = sigmoid(X.dot(theta)) >= threshhold
    return P.astype('int') #将true 或者false 转换成为 1 和 0

In [None]:
# 第一门课45分，第二门课85分的同学
# 咱们对他做个预测，拿到通过考试的概率
sigmoid(np.array([1, 45, 85]).dot(res.x.T))

In [None]:
#计算整个样本集的预测精度
P = predict(res.x.reshape(-1, 1), X)
#打印整个训练集的精度
print "Train accuracu {}%".format(100.0 * sum( P == y)[0] / P.size)

绘制决策边界

In [None]:
#绘制整个数据集的散点图
plotdata(data, "Exam1 score", "Exam2 score", "Fail", "Pass")
#在该散点图中加入奇异值点
plt.scatter(45, 85, s=60, c='r', marker='v', label='(45, 85)')
#取得第1维的最小值
x1_min = X[:,1].min()
#取得第1维的最大值
x1_max = X[:,1].max()
#取得第2维的最小值
x2_min = X[:,2].min()
#取得第2维的最大值
x2_max = X[:,2].max()
#生成网格点xx1和xx2
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
#计算sigmoid的值
h = sigmoid(np.c_[np.ones((xx1.ravel().shape[0],1)), xx1.ravel().reshape(-1, 1), xx2.ravel().reshape(-1, 1)].dot(res.x.reshape(-1, 1)))
#将列向量重新构成与xx1 和 xx2 相同shape的数组
h = h.reshape(xx1.shape)
#绘制决策边界，取概率值为0.5 的决策边界
plt.contour(xx1, xx2, h, [0.5], linewidths=1, colors='b')

逻辑斯特回归 非线性模型（增加了正则化项）

In [None]:
#加载数据集
data1 = loaddata("data2.txt", ',')

In [None]:
#提取样本集的所有特征
X = np.c_[data1[:,0:2]] 
#提取正负样本值
y = np.c_[data1[:,2]]

In [None]:
#绘制散点图
plotdata(data1, 'Exam1 score', 'Exam2 score','Pass','Fail')
#通过绘制可以看到，该散点图具有非线性边界，因此线性逻辑斯特回归并不适用该数据集。
#必须采用非线性回归才能找出决策边界。
#要进行非线性回归，第一步就是进行特征映射，生成多项式特征。

In [None]:
#生成多项式特征，最高的次数是6
poly = PolynomialFeatures(6)
#生成多项式特征的值
XX = poly.fit_transform(data1[:, 0:2])
#初始化theta的值
theta = np.ones(XX.shape[1])

#### 带正则化项的损失函数
#### $$ J(\theta) = \frac{1}{m}\sum_{i=1}^{m}\big[-y^{(i)}\, log\,( h_\theta\,(x^{(i)}))-(1-y^{(i)})\,log\,(1-h_\theta(x^{(i)}))\big] + \frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}$$
#### 向量化的损失函数
#### $$ J(\theta) = \frac{1}{m}\big((\,log\,(g(X\theta))^Ty+(\,log\,(1-g(X\theta))^T(1-y)\big) + \frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}$$

In [None]:
#带正则化项的损失函数
def costFunctionReg(theta, X, y, Lambda):
    #样本的个数
    m = y.size
    #g(X*theta)的值
    g = sigmoid(X.dot(theta.reshape(-1, 1)))
    #损失函数的表达式
    J = (-1) * (1.0 / m) * (np.log(g).T.dot(y) + (np.log(1 - g).T.dot(1 - y))) + (Lambda / (2.0 * m)) * sum(np.square(theta))
    
    #返回值
    if np.isnan(J[0]):
        return np.inf
    else:
        return J[0]

#### 还是偏导(梯度)

#### $$ \frac{\delta J(\theta)}{\delta\theta_{j}} = \frac{1}{m}\sum_{i=1}^{m} ( h_\theta (x^{(i)})-y^{(i)})x^{(i)}_{j} + \frac{\lambda}{m}\theta_{j}$$ 
#### 向量化
#### $$ \frac{\delta J(\theta)}{\delta\theta_{j}} = \frac{1}{m} X^T(g(X\theta)-y) + \frac{\lambda}{m}\theta_{j}$$
##### $$\text{Note: 要注意的是参数 } \theta_{0} \text{ 是不需要正则化的}$$

In [None]:
#定义向量化后的梯度函数
def gradientReg(theta, X, y, Lambda):
    #样本的个数m
    m = y.size
    #函数g的值
    g = sigmoid(X.dot(theta.reshape(-1, 1)))
    #梯度值
    grad = (1.0 / m) * (X.T.dot(g - y)) + ( (1.0 * Lambda) / m ) * theta.reshape(-1, 1)
    return grad.flatten()


In [None]:
# 决策边界，咱们分别来看看正则化系数lambda太大太小分别会出现什么情况
# Lambda = 0 : 就是没有正则化，这样的话，就过拟合咯
# Lambda = 1 : 这才是正确的打开方式
# Lambda = 100 : 卧槽，正则化项太激进，导致基本就没拟合出决策边界

In [None]:
#绘制非线性边界（绘制三个子窗口， 大小为17 * 5）
fig, axes = plt.subplots(1,3, sharey = True, figsize=(17,5))
#初始化theta
theta = np.zeros(XX.shape[1])
print theta.shape
print XX.shape
print y.shape
print costFunctionReg(theta, XX, y, 1)
print gradientReg(theta, XX, y, 1)
#分别计算每种Lambda情况下的拟合情况

for i, C in enumerate([0, 1, 100]):
    theta = np.zeros(XX.shape[1])
    #调用最小化函数，进行损失函数的梯度下降的最小化
    res = minimize(costFunctionReg, theta, args=(XX, y, C), method=None, jac=gradientReg, options={"maxiter":3000})
    print res.x
    #绘制第i副图
    plotdata(data1, "Exam1 score", "Exam2 score", "Pass", "Fail", axes.flatten()[i])
    #计算准确率
    train_accuracy = 100.0 * (sum(predict(res.x.reshape(-1, 1), XX) == y)[0])/ y.size
    #绘制拟合的边界
    x1_min = X[:,0].min()
    x1_max = X[:,0].max()
    x2_min = X[:,1].min()
    x2_max = X[:,1].max()
    xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
    h = sigmoid(poly.fit_transform(np.c_[xx1.ravel(), xx2.ravel()]).dot(res.x.reshape(-1, 1)))
    h = h.reshape(xx1.shape)
    axes.flatten()[i].contour(xx1, xx2, h,[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9], linewidths=1, colors='g')
    axes.flatten()[i].set_title('Train accuracy {}% with Lambda = {}'.format(np.round(train_accuracy, decimals=2), C))