创建演示数据：

In [1]:
import numpy as np
from sklearn.datasets import make_classification

X, y = make_classification(n_features = 2, n_informative = 2, n_redundant = 0, n_samples = 1000, n_classes = 2, random_state = 42)
y_classes = np.unique(y)
y[y == y_classes[0]] = -1
y[y == y_classes[1]] = 1

演示数据：

In [2]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib notebook

plt.rcParams['font.sans-serif'] = ['PingFang HK']  # 选择一个本地的支持中文的字体
fig, ax = plt.subplots()
ax.set_facecolor('#f8f9fa')

x1 = X[y==1][:, 0]
y1 = X[y==1][:, 1]
x2 = X[y==-1][:, 0]
y2 = X[y==-1][:, 1]
p1 = plt.scatter(x1, y1, c='#e63946', marker='o', s=20)
p2 = plt.scatter(x2, y2, c='#457b9d', marker='x', s=20)

ax.set_title('对数几率回归', color='#264653')
ax.set_xlabel('X1', color='#264653')
ax.set_ylabel('X2', color='#264653')
ax.tick_params(labelcolor='#264653')
plt.legend([p1, p2], ["1", "-1"], loc="upper left")
plt.show()

<IPython.core.display.Javascript object>

使用 scikit-learn 拟合（无正则化）：

In [3]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，无正则化
reg = LogisticRegression(penalty="none")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
W = reg.coef_
# 截距
b = reg.intercept_
print("W", W, "b", b)

W [[-0.30229259  2.17711999]] b [0.22766562]


使用 scikit-learn 拟合（L1正则化）：

In [4]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，L1正则化，使用坐标下降法
reg_l1 = LogisticRegression(penalty="l1", C=0.01, solver="liblinear")
# 拟合线性模型
reg_l1.fit(X, y)
# 权重系数
W = reg_l1.coef_
# 截距
b = reg_l1.intercept_
print("W", W, "b", b)

W [[0.         1.18654157]] b [0.]


使用 scikit-learn 拟合（L2正则化）：

In [5]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，L2正则化
reg_l2 = LogisticRegression(penalty="l2", C=0.01)
# 拟合线性模型
reg_l2.fit(X, y)
# 权重系数
W = reg_l2.coef_
# 截距
b = reg_l2.intercept_
print("W", W, "b", b)

W [[-0.11784694  1.13030143]] b [0.08226438]


使用 scikit-learn 拟合（弹性网络正则化）：

In [6]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，弹性网络正则化
reg_en = LogisticRegression(penalty="elasticnet", C=0.01, l1_ratio=0.5, solver="saga")
# 拟合线性模型
reg_en.fit(X, y)
# 权重系数
W = reg_en.coef_
# 截距
b = reg_en.intercept_
print("W", W, "b", b)

W [[0.         1.15249876]] b [0.08816543]


对数几率回归正则化对比:

In [7]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

%matplotlib notebook

plt.rcParams['font.sans-serif'] = ['PingFang HK']  # 选择一个本地的支持中文的字体
fig, axs = plt.subplots(2,2)
plt.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=0.2, hspace=0.3)
ax1 = axs[0,0]
ax2 = axs[0,1]
ax3 = axs[1,0]
ax4 = axs[1,1]

clist=['#8ecae6', '#ffadad']
newcmp = LinearSegmentedColormap.from_list('point_color', clist)

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, .01), np.arange(y_min, y_max, .01))
Z = reg.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
ax1.pcolormesh(xx, yy, Z, cmap = newcmp)
ax1.set_title('无正则化', fontsize=10)

Z_l1 = reg_l1.predict(np.c_[xx.ravel(), yy.ravel()])
Z_l1 = Z_l1.reshape(xx.shape)
ax2.pcolormesh(xx, yy, Z_l1, cmap = newcmp)
ax2.set_title('L1正则化', fontsize=10)

Z_l2 = reg_l2.predict(np.c_[xx.ravel(), yy.ravel()])
Z_l2 = Z_l2.reshape(xx.shape)
ax3.pcolormesh(xx, yy, Z_l2, cmap = newcmp)
ax3.set_title('L2正则化', fontsize=10)

Z_en = reg_en.predict(np.c_[xx.ravel(), yy.ravel()])
Z_en = Z_en.reshape(xx.shape)
ax4.pcolormesh(xx, yy, Z_en, cmap = newcmp)
ax4.set_title('弹性网络正则化', fontsize=10)

x1 = X[y==1][:, 0]
y1 = X[y==1][:, 1]
x2 = X[y==-1][:, 0]
y2 = X[y==-1][:, 1]
ax1.scatter(x1, y1, c='#e63946', marker='o', s=1)
ax1.scatter(x2, y2, c='#457b9d', marker='x', s=1)
ax2.scatter(x1, y1, c='#e63946', marker='o', s=1)
ax2.scatter(x2, y2, c='#457b9d', marker='x', s=1)
ax3.scatter(x1, y1, c='#e63946', marker='o', s=1)
ax3.scatter(x2, y2, c='#457b9d', marker='x', s=1)
ax4.scatter(x1, y1, c='#e63946', marker='o', s=1)
ax4.scatter(x2, y2, c='#457b9d', marker='x', s=1)

fig.suptitle('对数几率回归正则化对比', color='#264653')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.show()

<IPython.core.display.Javascript object>



对数几率回归假设函数：

In [8]:
import numpy as np

def hypothesis(X, W):
    """
    对数几率回归的假设函数
    args:
        X - 训练数据集
        W - 权重系数
    return:
        预测值
    """
    result = 1 / (1 + np.exp(-X.dot(W)))
    result[result>= 0.5] = 1
    result[result < 0.5] = -1
    return result

对数几率回归，使用梯度下降法（gradient descent）:

In [9]:
import numpy as np

c_1 = 1e-4
c_2 = 0.9

def cost(X, y, W):
    """
    对数几率回归的代价函数
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
    return:
        代价函数值
    """
    power = -np.multiply(y, X.dot(W))
    p1 = power[power <= 0]
    p2 = -power[-power < 0]
    # 解决 python 计算 e 的指数幂溢出的问题
    return np.sum(np.log(1 + np.exp(p1))) + np.sum(np.log(1 + np.exp(p2)) - p2)

def dcost(X, y, W):
    """
    对数几率回归的代价函数的梯度
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
    return:
        代价函数的梯度
    """
    return X.T.dot(np.multiply(-y, 1 / (1 + np.exp(np.multiply(y, X.dot(W))))))

def direction(d):
    """
    更新的方向
    args:
        d - 梯度
    return:
        更新的方向
    """
    return -d

def sufficientDecrease(X, y, W, step):
    """
    判断是否满足充分下降条件（sufficient decrease condition）
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step - 步长
    return:
        是否满足充分下降条件
    """
    d = dcost(X, y, W)
    p = direction(d)
    return cost(X, y, W + step * p) <= cost(X, y, W) + c_1 * step * p.T.dot(d)

def curvature(X, y, W, step):
    """
    判断是否满足曲率条件（curvature condition）
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step - 步长
    return:
        是否满足曲率条件
    """
    d = dcost(X, y, W)
    p = direction(d)
    return -p.T.dot(dcost(X, y, W + step * p)) <= -c_2 * p.T.dot(d)

def select(step_low, step_high):
    """
    在范围内选择一个步长，直接取中值
    args:
        step_low - 步长范围开始值
        step_high - 步长范围结束值
    return:
        步长
    """
    return (step_low + step_high) / 2

def lineSearch(X, y, W, step_init, step_max):
    """
    线搜索步长，使其满足 Wolfe 条件
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        步长
    """
    step_i = step_init
    step_low = step_init
    step_high = step_max
    i = 1
    d = dcost(X, y, W)
    p = direction(d)
    while (True):
        # 不满足充分下降条件或者后面的代价函数值大于前一个代价函数值
        if (not sufficientDecrease(X, y, W, step_i) or (cost(X, y, W + step_i * p) >= cost(X, y, W + step_low * p) and i > 1)):
            # 将当前步长作为搜索的右边界
            # return search(X, y, W, step_prev, step_i)
            step_high = step_i
        else:
            # 满足充分下降条件并且满足曲率条件，即已经满足了 Wolfe 条件
            if (curvature(X, y, W, step_i)):
                # 直接返回当前步长
                return step_i
            step_low = step_i
        # 选择下一个步长
        step_i = select(step_low, step_high)
        i = i + 1

def logisticRegressionGd(X, y, max_iter=1000, tol=1e-4, step_init=0, step_max=10):
    """
    对数几率回归，使用梯度下降法（gradient descent）
    args:
        X - 训练数据集
        y - 目标标签值
        max_iter - 最大迭代次数
        tol - 变化量容忍值
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        W - 权重系数
    """
    # 初始化 W 为零向量
    W = np.zeros(X.shape[1])
    # 开始迭代
    for it in range(max_iter):
        # 计算梯度
        d = dcost(X, y, W)
        # 当梯度足够小时，结束迭代
        if np.linalg.norm(x=d, ord=1) <= tol:
            break
        # 使用线搜索计算步长 
        step = lineSearch(X, y, W, step_init, step_max)
        # 更新权重系数 W
        W = W + step * direction(d)
    return W

拟合演示数据：

In [10]:
import numpy as np

X_b = np.c_[np.ones((X.shape[0], 1)), X]
W = logisticRegressionGd(X_b, y)
print(W)

[ 0.22766855 -0.30228964  2.17712409]


可视化：

In [11]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

%matplotlib notebook

plt.rcParams['font.sans-serif'] = ['PingFang HK']  # 选择一个本地的支持中文的字体
fig, ax = plt.subplots()
ax.set_facecolor('#f8f9fa')

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, .01), np.arange(y_min, y_max, .01))
Z = hypothesis(np.c_[np.ones((xx.shape[0] * xx.shape[1], 1)), xx.ravel(), yy.ravel()], W)
Z = Z.reshape(xx.shape)
clist=['#8ecae6', '#ffadad']
newcmp = LinearSegmentedColormap.from_list('point_color', clist)
plt.pcolormesh(xx, yy, Z, cmap = newcmp)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())

x1 = X[y==1][:, 0]
y1 = X[y==1][:, 1]
x2 = X[y==-1][:, 0]
y2 = X[y==-1][:, 1]
p1 = plt.scatter(x1, y1, c='#e63946', marker='o', s=20)
p2 = plt.scatter(x2, y2, c='#457b9d', marker='x', s=20)

ax.set_title('对数几率回归-梯度下降法', color='#264653')
ax.set_xlabel('X1', color='#264653')
ax.set_ylabel('X2', color='#264653')
ax.tick_params(labelcolor='#264653')
plt.legend([p1, p2], ["1", "-1"], loc="upper left")
plt.show()

<IPython.core.display.Javascript object>



对数几率回归，使用牛顿法（newton's method）：

In [12]:
import numpy as np

c_1 = 1e-4
c_2 = 0.9

def cost(X, y, W):
    """
    对数几率回归的代价函数
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
    return:
        代价函数值
    """
    power = -np.multiply(y, X.dot(W))
    p1 = power[power <= 0]
    p2 = -power[-power < 0]
    # 解决 python 计算 e 的指数幂溢出的问题
    return np.sum(np.log(1 + np.exp(p1))) + np.sum(np.log(1 + np.exp(p2)) - p2)

def dcost(X, y, W):
    """
    对数几率回归的代价函数的梯度
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
    return:
        代价函数的梯度
    """
    return X.T.dot(np.multiply(-y, 1 / (1 + np.exp(np.multiply(y, X.dot(W))))))

def ddcost(X, y, W):
    """
    对数几率回归的代价函数的黑塞矩阵
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
    return:
        代价函数的黑塞矩阵
    """
    exp = np.exp(np.multiply(y, X.dot(W)))
    result = np.multiply(exp, 1 / np.square(1 + exp))
    X_r = np.zeros(X.shape)
    for i in range(X.shape[1]):
        X_r[:, i] = np.multiply(result, X[:, i])
    return X_r.T.dot(X)

def direction(d, H):
    """
    更新的方向
    args:
        d - 梯度
        H - 黑塞矩阵
    return:
        更新的方向
    """
    return - np.linalg.inv(H).dot(d)

def sufficientDecrease(X, y, W, step):
    """
    判断是否满足充分下降条件（sufficient decrease condition）
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step - 步长
    return:
        是否满足充分下降条件
    """
    d = dcost(X, y, W)
    H = ddcost(X, y, W)
    p = direction(d, H)
    return cost(X, y, W + step * p) <= cost(X, y, W) + c_1 * step * p.T.dot(d)

def curvature(X, y, W, step):
    """
    判断是否满足曲率条件（curvature condition）
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step - 步长
    return:
        是否满足曲率条件
    """
    d = dcost(X, y, W)
    H = ddcost(X, y, W)
    p = direction(d, H)
    return -p.T.dot(dcost(X, y, W + step * p)) <= -c_2 * p.T.dot(d)

def select(step_low, step_high):
    """
    在范围内选择一个步长
    args:
        step_low - 步长范围开始值
        step_high - 步长范围结束值
    return:
        步长
    """
    return (step_low + step_high) / 2
    
def lineSearch(X, y, W, step_init, step_max):
    """
    线搜索步长，使其满足 Wolfe 条件
    args:
        X - 训练数据集
        y - 目标标签值
        W - 权重系数
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        步长
    """
    step_i = step_init
    step_low = step_init
    step_high = step_max
    i = 1
    d = dcost(X, y, W)
    H = ddcost(X, y, W)
    p = direction(d, H)
    while (True):
        # 不满足充分下降条件或者后面的代价函数值大于前一个代价函数值
        if (not sufficientDecrease(X, y, W, step_i) or (cost(X, y, W + step_i * p) >= cost(X, y, W + step_low * p) and i > 1)):
            # 将当前步长作为搜索的右边界
            # return search(X, y, W, step_prev, step_i)
            step_high = step_i
        else:
            # 满足充分下降条件并且满足曲率条件，即已经满足了 Wolfe 条件
            if (curvature(X, y, W, step_i)):
                # 直接返回当前步长
                return step_i
            step_low = step_i
        # 选择下一个步长
        step_i = select(step_low, step_high)
        i = i + 1

def logisticRegressionNewton(X, y, max_iter=1000, tol=1e-4, step_init=0, step_max=10):
    """
    对数几率回归，使用牛顿法（newton's method）
    args:
        X - 训练数据集
        y - 目标标签值
        max_iter - 最大迭代次数
        tol - 变化量容忍值
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        W - 权重系数
    """
    # 初始化 W 为零向量
    W = np.zeros(X.shape[1])
    # 开始迭代
    for it in range(max_iter):
        # 计算梯度
        d = dcost(X, y, W)
        # 计算黑塞矩阵
        H = ddcost(X, y, W)
        # 当梯度足够小时，结束迭代
        if np.linalg.norm(d) <= tol:
            break
        # 使用线搜索计算步长 
        step = lineSearch(X, y, W, step_init, step_max)
        # 更新权重系数 W
        W = W + step * direction(d, H)
    return W

拟合演示数据：

In [13]:
import numpy as np

y_classes = np.unique(y)
y[y == y_classes[0]] = -1
y[y == y_classes[1]] = 1
X_b = np.c_[np.ones((X.shape[0], 1)), X]
W = logisticRegressionNewton(X_b, y)
print(W)

[ 0.22766862 -0.30228905  2.17712275]


可视化：

In [14]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

%matplotlib notebook

plt.rcParams['font.sans-serif'] = ['PingFang HK']  # 选择一个本地的支持中文的字体
fig, ax = plt.subplots()
ax.set_facecolor('#f8f9fa')

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, .01), np.arange(y_min, y_max, .01))
Z = hypothesis(np.c_[np.ones((xx.shape[0] * xx.shape[1], 1)), xx.ravel(), yy.ravel()], W)
Z = Z.reshape(xx.shape)
clist=['#8ecae6', '#ffadad']
newcmp = LinearSegmentedColormap.from_list('point_color', clist)
plt.pcolormesh(xx, yy, Z, cmap = newcmp)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())

x1 = X[y==1][:, 0]
y1 = X[y==1][:, 1]
x2 = X[y==-1][:, 0]
y2 = X[y==-1][:, 1]
p1 = plt.scatter(x1, y1, c='#e63946', marker='o', s=20)
p2 = plt.scatter(x2, y2, c='#457b9d', marker='x', s=20)

ax.set_title('对数几率回归-牛顿法', color='#264653')
ax.set_xlabel('X1', color='#264653')
ax.set_ylabel('X2', color='#264653')
ax.tick_params(labelcolor='#264653')
plt.legend([p1, p2], ["1", "-1"], loc="upper left")
plt.show()

<IPython.core.display.Javascript object>

