In [3]:
# 感知机的数学公式
# 给定输出x, 权重w, 和偏移b, sign是符号函数, 用于映射+1/-1, 也就是 sign(x) = +1/-1
# f(x) = sign(<w,x> + b); 
# 二分类：-1 或 +1
#   vs. 回归输出实数
#   vs. Softmax输出概率

# 类别的意义
# 在感知机模型中, 输出通常被标记为-1/+1, 使得数学处理变得简单，因为(*-1)可以表示方向调转
#   +1 通常表示为一个正类
#   -1 通常表示为一个负类

In [4]:
# 训练感知机
# initialize w = 0 and b = 0
# repeat
#   if y_i * [<w, x_i> + b] <= 0 then
#      w = w + (y_i)(x_i) and b = b + y_i
#   endif
# until all classified correctly

# 这里的 [<w, x_i> + b] 中表示是'决策分数', 这个分数用于决策判断, 可以是任意实数, 不局限于[0, 1]区间
# y_i表示样本i的真实标签, 通常为+1/-1
# 所以整个表达式 y_i * [<w, x_i> + b] 的值反应了当前模型对第i个样本分类的正确与否
# 如果 y_i 和 [<w, x_i> + b] 的符号相同 (两者都是正数和负数), 则 y_i * [<w, x_i> + b] 会是正数, 意味着'分类正确'
# 如果 y_i 和 [<w, x_i> + b] 的符号不同 (一个为正数, 一个为负数), 则 y_i * [<w, x_i> + b] 会是负数, 意味着'分类错误'

# 这里的if条件表示分类不正确, 则执行更新
# 更新权重w: w + (y_i)(x_i), 表示根据样本的实际类别y_i和它的特征向量x_i, 调整w
# 因为这里已知'分类错误' 
# 如果y_i = +1 但是样本被预测为 -1, 意味着<w, x_i>+b 为负数, 小; 
# 增加w通过(y_i)(x_i)可以使得<w, x_i>增大, 则<w, x_i>+b变大; 同样b+y_i可以加速<w, x_i>增大的过程

# 如果y_i = -1 但是样本被预测为 +1, 意味着<w, x_i>+b 为正数, 大; 
# 减小w通过(y_i_(x_i)可以使得<w, x_i>减小, 则<w, x_i>+b变小; 同样b-y_i可以加速<w, x_i>减少的过程

# 总结: 已知这里分类错误, 通过正确的标签可以得知<w, x_i>+b的值是+/-; 通过对w做反向的调整, 可以使得预测正确; 
# 同时可以通过将b的值调整向y_i, 也就是正确类, 来加速这个update过程

# 等价于使用批量大小为1的梯度下降, 并使用一下损失函数:
# loss(y, x, w) = max(0, -y<w,x>)
# 当 y*<w,x>分类正确时, 意味着y*<w,x>为+, 等同-y*<w,x>为-; 所以max() = 0无需更新
# 当 y*<w,x>分类错误时, 意味着y*<w,x>为-, 等同-y*<w,x>为+; 所以max = -y*<w,x>, 需要更新

In [5]:
# 收敛定理
# 数据在半径r内, 这里的r是数据集中的所有点到到原点的最大欧氏距离, 简单来说r描述了数据集的大小
# 余量p分为两类, y(x^Tw +b) >= p 对于 ||w||^2 + b^2 <= 1
# 这里余量p是数据点到决策边界的最小距离, 也是分类余量. 这里y(x^Tw +b) >= p就表示所有的数据点都距离分类余量>=p的距离
# ||w||^2 + b^2 <= 1是对模型参数的范数进行了约束

# 感知机保证在 (r^2+1) / p^2 步之后收敛
# 说明了感知机在 (r^2+1) / p^2 步之后一定收敛
# 这里r表示数据点到原点的最远距离的square, r^2就表示数据的扩散情况
# 这里p表示分类余量，当余量square p^2越大, 通常就表示数据点相对于决策边界更加分明, 感知机更容易学习
# 感知机在(r^2+1) / p^2步后收敛

# 但是感知机不能拟合XOR函数

# 总结：感知机是一个二分类问题

In [6]:
# 多重感知机
# 解决XOR问题(如下)              1  2  3  4 
#  gr1  |  rd2      y-axis     +  -  +  -
#  ---  |  ---      x-axis     +  +  -  -
#  rd3  |  gr4      product    +  -  -  +
# 通过(AND)来得到product
# 简单来讲就是一个单隐藏层(隐藏层大小是超参数) 因为输入/输出的维度不能改, 但是可以设置隐藏层大小
# 输入 x in R^n
# 隐藏层 W_1 in R^(mxn), b1 in R^m
# 输出层 w_2 in R^(m)m b2 in R
# h = sign(W_1x + b1)
# o = (w_2)^T h + b2
# sign是按元素的激活函数

# 为什么需要一个非线性的激活函数 不能是sign(x) = x
# 那么 o = (w_2)^T h + b2 = (w_2)^T (W_1x + b1) + b2 = ((w_2)^T W_1x)+b1 = (w'^T)x + b'; 也就是说仍然是线性

In [7]:
# 激活函数有 sigmoid函数 tanh函数 ReLu函数
# sigmoid 将输入投影到(0,1) sigmoid(x) = 1/(1 + exp(-x))
# tanh 将输入投影到(-1,1),  tanh(x) = 1-exp(-2x) / 1+exp(-2x)
# ReLu是rectified linear unit, ReLu(x) = max(x, 0), 在 x<0时, gradient为0; 在x>0时, gradient为1
# 其中ReLu算起来很容易

# 多层分类
# y1, y2,..., yl = softmax(o1, o2, ... , o_k)

# 多层分类定义
# 输入 x in R^n
# 隐藏层 W_1 in R^(mxn), b_1 in R^m
# 输出层 w_2 in R^(mxk), b_2 in R^k
# h = sign(W_1 x + b1)
# o = (W_2)^T h + b2
# y = softmax(o)
# 和之前没什么区别, 除了k, 因为输出有k个单元
# 这就是做多类分类的

# 多隐藏层
# h1 = sign(W_1x + b1)
# h2 = sign(W_2x + b2)
# h3 = sign(W_3x + b3)
# o = (W_4)(h_3) + b4
# 超参数有: 隐藏层数, 每个隐藏层大小
# 一般来说: 多隐藏层中每一个隐藏层都比上面小一点; 或者第一层先大一点
# 注意: 需要有激活函数每层, 不然会有层数塌陷


In [8]:
# 总结: 多层感知机使用隐藏层和激活函数来得到非线性模型
# 使用softmax来处理多分类
# 超参数为层数和每个层数的大小

In [9]:
import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

ModuleNotFoundError: No module named 'torchvision'

In [11]:
# 实现一个具有单隐藏层的多重感知机, 它包含256个隐藏单元
num_inputs, num_outputs, num_hiddens = 784, 10, 256 #输入是28*28的图片, 输出是10个种类
W1 = nn.Parameter(torch.randn(num_inputs, num_hiddens, requires_grad=True)) #输入是28*28的展平后的数据, 输出256个隐藏单元
b1 = nn.Parameter(torch.zeros(num_hiddens), requires_grad=True) #bias为一个256的偏置
W2 = nn.Parameter(torch.randn(num_hiddens, num_outputs, requires_grad=True)) #输入是256个隐藏单元, 输出是10个种类
b2 = nn.Parameter(torch.zeros(num_outputs), requires_grad=True) #bias为一个10的偏置

params = [W1, b1, W2, b2] #这里是所有的参数

In [13]:
# 实现ReLu函数的激活
def relu(X):
    a = torch.zeros_like(X)
    return torch.max(X, a)

# 实现我的模型
def net(X):
    X = X.reshape((-1, num_inputs)) # X进来先把它拉成一个二维的矩阵, 然后num_inputs就是一行为一个数据
    H = relu(X @ W1 + b1) # 这里的@符号是乘法, X是一个 batch_size * 784, W1是一个784 * 256, 得到 H是一个batch_size * 256
    return (H @ W2 + b2) # 最后 H是一个 batch_size * 10, W2是一个256 * 10, 得到最后的是 batch_size * 10

loss = nn.CrossEntropyLoss()

In [14]:
# 多层感知机的训练过程与Softmax回归的训练完全相同
num_epochs, lr = 10, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

NameError: name 'd2l' is not defined

In [16]:
# 简洁实现
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 256), nn.ReLU(), nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std = 0.1)

net.apply(init_weights);

batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss()
trainer = torch.optim.SGD(net.parameters(), lr=lr)

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

NameError: name 'd2l' is not defined