In [1]:
%config InlineBackend.figure_formats = ['svg']
%matplotlib inline
import matplotlib.pyplot as plt
from torch import tensor, nn
import numpy as np
import torch

In [2]:
torch.__version__

'2.2.1+cu121'

## 0. 数据结构: 张量`Tensor`

`torch.Tensor`是一种包含单一数据类型元素的多维矩阵。`pytorch`包含七种`CPU tensor`类型和八种`GPU tensor`类型：

|Data type|	 CPU tensor | GPU tensor|
|:---|:---|:---|
|32-bit floating point|	torch.FloatTensor|	torch.cuda.FloatTensor|
|64-bit floating point|	torch.DoubleTensor|	torch.cuda.DoubleTensor|
|16-bit floating point|	N/A|	torch.cuda.HalfTensor|
|8-bit integer (unsigned)|	torch.ByteTensor|	torch.cuda.ByteTensor|
|8-bit integer (signed)|	torch.CharTensor|	torch.cuda.CharTensor|
|16-bit integer (signed)|	torch.ShortTensor|	torch.cuda.ShortTensor|
|32-bit integer (signed)|	torch.IntTensor|	torch.cuda.IntTensor|
|64-bit integer (signed)|	torch.LongTensor|	torch.cuda.LongTensor|

In [None]:
torch.ones_like(torch.arange(10))

In [None]:
torch.arange(10) @ torch.arange(10)  # 内积

In [None]:
torch.arange(10)

In [None]:
np.ones_like(np.arange(10))

- `torch.tensor`和`torch.Tensor`的区别

在概念上，**torch.tensor** 和 **torch.Tensor** 函数之间有以下区别：


编号 | 概念区别 | torch.tensor | torch.Tensor
---|---:|---:|---:
1 | 抽象与具体 | 具体函数 | 抽象张量类型
2 | 构造与转换 | 构造新张量 | 转换现有数据
3 | 通用与特定 | 通用函数 | 特定张量类型
4 | 创建与引用 | 总是创建新张量 | 创建新张量或引用现有张量
5 | 灵活与控制 | 简单方法 | 细粒度控制

**总结**

* **torch.tensor** 函数是创建张量的更简单方法。
* **torch.Tensor** 提供了更细粒度的控制，可以用于创建具有特定属性和方法的张量。

选择使用哪个函数取决于具体需求，以下是一些具体的例子：

* 如果您需要创建一个具有特定数据类型的简单张量，请使用 **torch.tensor** 函数。
* 如果您需要创建一个具有特定属性和方法的复杂张量，请使用 **torch.Tensor** 类。
* 如果您需要将现有数据转换为张量，请使用 **torch.Tensor** 类。

In [None]:
torch.Tensor([5, 4])

In [None]:
torch.Tensor([5, 4]).type()  # 转换为默认的FLoatTensor类型

In [None]:
torch.tensor([5, 4])  # tensor接受已经存在的数据

In [None]:
torch.tensor([5, 4]).type()  # tensor接受已经存在的数据

In [None]:
torch.Tensor(5, 4)  #  Tensor创建一个多维矩阵，注意和torch.Tensor([5, 4])之间的区别

In [None]:
print(torch.Tensor(5), torch.Tensor([5]), torch.tensor(5), sep='\n')  # 三者之间的区别

- 不同类别的`torch.Tensor`

In [None]:
torch.IntTensor(2, 4), torch.IntTensor([2, 4])

In [None]:
torch.IntTensor([[1, 2, 3], [4, 5, 6]])  # 一个张量tensor可以从Python的list或序列构建：

In [None]:
torch.ShortTensor(2, 4).zero_()  # 一个空张量tensor可以通过规定其大小来构建：

In [None]:
torch.ByteTensor(range(10))

In [None]:
torch.ShortTensor(np.arange(10))

- `torch.from_numpy()`有numpy.ndarray对象创建Tensor

In [None]:
u = np.random.randint(10, size=(2, 10))
u = torch.from_numpy(u)  # 默认转为LongTensor
u.type()

In [None]:
u

In [None]:
u.requires_grad  # 是否计算梯度

In [None]:
u.type()  # tensor的类型

In [None]:
u = u.type(torch.FloatTensor)

In [None]:
u.requires_grad = True  # 附加梯度，反向传播时计算

In [None]:
u

## 1. `PyTorch`常用函数

PyTorch 提供了丰富的函数来创建、操作和管理张量。以下是一些常用的函数，按类别分类：

**1.1. 创建张量**

* `torch.tensor(data, dtype=None, device=None)`：根据输入数据创建张量。
* `torch.zeros(shape, dtype=None, device=None)`：创建指定形状和数据类型的零张量。
* `torch.ones(shape, dtype=None, device=None)`：创建指定形状和数据类型的全一(one)张量。
* `torch.eye(n, m=None, dtype=None, device=None)`：创建单位矩阵。
* `torch.arange(start, end, step=1, dtype=None, device=None)`：创建等差数列张量。
* `torch.linspace(start, end, steps=100, dtype=None, device=None)`：创建线性空间张量。

In [None]:
# 创建一个包含三个元素的张量
x = torch.tensor([1, 2, 3])
print(x)

# 创建一个形状为 (2, 3) 的零张量
x = torch.zeros((2, 3))
print(x)

# 创建一个形状为 (2, 3) 的全一(one)张量
x = torch.ones((2, 3))
print(x)

# 创建一个单位矩阵
x = torch.eye(3)
print(x)

# 创建一个等差数列张量
x = torch.arange(1, 6)
print(x)

# 创建一个线性空间张量
x = torch.linspace(1, 5, steps=10)
print(x)

**1.2. 张量操作**

* `x.view(shape)`：改变张量的形状。
* `x.reshape(shape)`：改变张量的形状。
* `x.t()`：转置张量。
* `x.transpose(dim0, dim1)`：交换张量的两个维度。
* `x.unsqueeze(dim)`：增加张量的一个维度。
* `x.squeeze(dim)`：删除张量的一个维度。
* `x.repeat(n)`：重复张量 n 次。

In [None]:
# 创建一个张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 改变张量形状
y = x.view(3, 2)
print(y)

# 转置张量
y = x.t()
print(y)

# 交换张量两个维度
y = x.transpose(0, 1)
print(y)

# 增加张量的一个维度
y = x.unsqueeze(0)
print(y)

# 删除张量的一个维度
y = x.squeeze(0)
print(y)

# 重复张量 n 次
y = x.repeat(2, 1)
print(y)

**1.3. 数学运算**

* `x + y`：张量加法。
* `x - y`：张量减法。
* `x * y`：张量乘法。
* `x / y`：张量除法。
* `x.dot(y)`：张量点积。
* `x.mm(y)`：张量矩阵乘法。
* `x.pow(n)`：张量幂运算。
* `x.exp()`：张量指数运算。
* `x.log()`：张量对数运算。

In [None]:
# 创建两个张量
x = torch.tensor([1, 2, 3])
y = torch.tensor([4, 5, 6])

# 加法
z = x + y
print(z)

# 减法
z = x - y
print(z)

# 乘法
z = x * y
print(z)

# 除法
z = x / y
print(z)

# 点积
z = torch.dot(x, y)
print(z)

# 矩阵乘法
x = torch.tensor([[1, 2], [3, 4]])
y = torch.tensor([[0, 1], [1, 0]])

z = torch.mm(x, y)
print(z)

# 矩阵乘法，x 矩阵乘 y的转置
torch.matmul(x, y)  
print(z)

# 幂运算
z = x.pow(2)
print(z)

# 指数运算
z = x.exp()
print(z)

# 对数运算
z = x.log()
print(z)

**1.4. 统计运算**

* `torch.sum(x)`：计算张量元素的总和。
* `torch.mean(x)`：计算张量元素的平均值。
* `torch.max(x)`：计算张量元素的最大值。
* `torch.min(x)`：计算张量元素的最小值。
* `torch.var(x)`：计算张量元素的方差。
* `torch.std(x)`：计算张量元素的标准差。

In [None]:
# 创建一个张量
x = torch.FloatTensor([1, 2, 3, 4, 5])

# 求和
print("求和:", torch.sum(x))

# 求平均值
print("求平均值:", torch.mean(x))

# 求方差
print("求方差:", torch.var(x))

# 求标准差
print("求标准差:", torch.std(x))

# 求最大值
print("求最大值:", torch.max(x))

# 求最小值
print("求最小值:", torch.min(x))

# 统计元素个数
print("统计元素个数:", torch.numel(x))

# 统计非零元素个数
print("统计非零元素个数:", torch.count_nonzero(x))

# 求中位数
print("求中位数:", torch.median(x))

# 求众数
print("求众数:", torch.mode(x))

# 按指定维度求和
x = torch.arange(20).reshape(2, 10)
print("按指定维度求和:", torch.sum(x, dim=0))

# 按指定维度求平均值
x = torch.arange(20).reshape(2, 10).float()  # 注意类型转换
print("按指定维度求平均值:", torch.mean(x, dim=0))

**1.5. 比较运算**

* `x == y`：张量元素相等比较。
* `x != y`：张量元素不等比较。
* `x > y`：张量元素大于比较。
* `x < y`：张量元素小于比较。
* `x >= y`：张量元素大于等于比较。
* `x <= y`：张量元素小于等于比较。

In [None]:
x = torch.arange(1, 5)
y = torch.arange(3, 7)

x == y
x != y
x > y
x < y
x >= y
x <= y

**1.6. 逻辑运算**

* `torch.logical_and(x, y)`：张量逻辑与运算。
* `torch.logical_or(x, y)`：张量逻辑或运算。
* `torch.logical_not(x)`：张量逻辑非运算。

In [None]:
# 创建两个张量
x = torch.tensor([True, False, True])
y = torch.tensor([False, True, False])

# 逻辑与运算
z = x & y
print("逻辑与运算:", z)

# 逻辑或运算
z = x | y
print("逻辑或运算:", z)

# 逻辑非运算
z = ~x
print("逻辑非运算:", z)

# 逻辑异或运算
z = x ^ y
print("逻辑异或运算:", z)


In [None]:
# 逻辑与运算
z = torch.logical_and(x, y)
print("逻辑与运算:", z)

# 逻辑或运算
z = torch.logical_or(x, y)
print("逻辑或运算:", z)

# 逻辑非运算
z = torch.logical_not(x)
print("逻辑非运算:", z)

# 逻辑异或运算
z = torch.logical_xor(x, y)
print("逻辑异或运算:", z)

**1.7. 随机数生成**

* `torch.rand(shape, dtype=None, device=None)`：生成随机均匀分布的张量。
* `torch.randn(shape, dtype=None, device=None)`：生成随机正态分布的张量。
* `torch.randint(shape, dtype=None, device=None)`：生成指定范围内的随机整数。

In [None]:
# 生成随机均匀分布的张量
x = torch.rand(3, 2)
print("随机均匀分布:", x)

# 生成随机正态分布的张量
y = torch.randn(3, 2)
print("随机正态分布:", y)

# 生成指定范围内的随机整数
z = torch.randint(0, 10, (3, 2))
print("指定范围内的随机整数:", z)

# 生成随机排列
w = torch.randperm(5)
print("随机排列:", w)

# 生成随机采样
v = torch.multinomial(torch.ones(5), 3, replacement=True)
print("随机采样:", v)

# 生成伯努利分布的随机数
u = torch.bernoulli(torch.rand(3, 2))
print("伯努利分布的随机数:", u)

# 生成泊松分布的随机数
p = torch.poisson(torch.rand(3, 2))
print("泊松分布的随机数:", p)

**1.8. 其他常用函数**

* `torch.argmax(x)`：返回张量中最大元素的索引。
* `torch.argmin(x)`：返回张量中最小元素的索引。
* `torch.sort(x, dim=0, descending=False)`：对张量进行排序。
* `torch.clamp(x, min, max)`：将张量元素限制在指定范围内。可以用于防止梯度爆炸、归一化数据、防止溢出和动态调整数据范围。
* `torch.round(x)`：对张量元素进行四舍五入。
* `torch.ceil(x)`：对张量元素向上取整。
* `torch.floor(x)`：对张量元素向下取整。

In [None]:
# 创建一个张量
x = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 求最大元素的索引
max_index = torch.argmax(x)
print("最大元素的索引:", max_index)

# 求最小元素的索引
min_index = torch.argmin(x)
print("最小元素的索引:", min_index)

# 对张量进行排序
sorted_x, indices = torch.sort(x, dim=0, descending=False)
print("排序后的张量:", sorted_x)
print("排序索引:", indices)

# 将张量元素限制在指定范围内
clamped_x = torch.clamp(x, min=2, max=8)
print("限制范围后的张量:", clamped_x)

# 对张量元素进行四舍五入
rounded_x = torch.round(x)
print("四舍五入后的张量:", rounded_x)

# 对张量元素向上取整
ceiled_x = torch.ceil(x)
print("向上取整后的张量:", ceiled_x)

# 对张量元素向下取整
floored_x = torch.floor(x)
print("向下取整后的张量:", floored_x)


**1.9. 形状**

In [None]:
x = torch.randint(1, 50, size=(10, 5))  # 1~50之间的随机整数10行5列
x

In [None]:
x.size()  # 形状

In [None]:
x.shape  # 各维度上的数量

In [None]:
x.reshape(5, 10)  # 重塑形状

In [None]:
x.reshape(-1, 10)  # 如果某一维度为-1，则根据总元素个数自动计算该轴长度

In [None]:
x.reshape(10, -1)  # 如果某一维度为-1，则根据总元素个数自动计算该轴长度

In [None]:
x.numel()  # 元素个数

In [None]:
x.reshape(50)  # 变为1维

In [None]:
x.reshape(-1)

In [None]:
x.reshape(2, 5, 5)  # 变为3维

In [None]:
torch.arange(1, 10, 2)  # torch.range()也可用，建议用前者

In [None]:
torch.linspace(1, 10, 20)

In [None]:
x.shape

In [None]:
torch.ones_like(x)  #  注意类型

In [None]:
torch.ones_like(x).type(), x.type()  #  注意类型

In [None]:
torch.ones(size=x.shape)

In [None]:
torch.zeros(10)

In [None]:
torch.zeros_like(x)  # 注意类型

In [None]:
torch.randn(10, 2) * 0.5 + 2

In [None]:
y = torch.randn(10, 2, 2)  # 10*2*2
y

In [None]:
y = torch.squeeze(y, dim=1)  # 10
y

In [None]:
a = torch.randn(1, 1, 5)
a

In [None]:
a.squeeze()

In [None]:
y.reshape(-1)

In [None]:
z = torch.arange(10).reshape(2, 5)
z

- 转置和变换形状

In [None]:
z.t()  # 输入一个矩阵（2维张量），并转置0, 1维。 可以被视为函数transpose(input, 0, 1)的简写函数。

In [None]:
z.reshape(z.shape[1], -1)  # 注意和转置之间的区别

> 转置: 行变为列, 变换形状: 先转变为1纬，然后再重新塑形

- torch.sign() 得到变量的符号

In [None]:
y.squeeze_().shape

In [None]:
torch.sign(y)

In [None]:
torch.sigmoid(y)  # 返回一个新张量，包含输入input张量每个元素的sigmoid值。

In [None]:
torch.norm(y, p=2)  # 返回输入张量input 的p 范数

In [None]:
torch.median(y)  # 返回输入张量给定维度每行的中位数，同时返回一个包含中位数的索引的LongTensor。

In [None]:
torch.prod(y)  # 返回输入张量input 所有元素的积。

In [None]:
y

In [None]:
torch.relu(torch.randn(10))

**1.10. 乘法**

- 向量乘法

In [None]:
a = torch.arange(10)
b = torch.arange(10, 20)

In [None]:
a * b  # 按元素乘

In [None]:
torch.mul(a, b)  # 按元素乘

In [None]:
torch.matmul(a, b)  # 矩阵乘法，前者 矩阵乘 后者的转置

In [None]:
a.reshape(1,-1)

In [None]:
b.reshape(-1,1)

In [None]:
a.reshape(-1, 1) @ b.reshape(1, -1)  # 10*1 @ 1*10

In [None]:
torch.trace(a.reshape(-1, 1) @ b.reshape(1, -1))  # 迹运算

In [None]:
torch.mm(a.reshape(1, -1), b.reshape(-1, 1))

In [None]:
torch.dot(a, b)  # 內积

In [None]:
a @ b  # 矩阵乘， 前者 矩阵乘 后者的转置

- 矩阵乘

In [None]:
x = torch.rand(4, 3)
y = torch.rand(3, 4)

In [None]:
torch.mm(x, y)  # 矩阵乘法: 对矩阵mat1和mat2进行相乘。 如果mat1 是一个n×m张量，mat2 是一个 m×p张量，将会输出一个 n×p张量out。

In [None]:
torch.matmul(x, y)

In [None]:
x @ y  # 矩阵乘法运算符

In [None]:
z = torch.rand(3)

In [None]:
torch.mv(x, z)  # 矩阵向量乘： 对矩阵mat和向量vec进行相乘。 如果mat 是一个n×m张量，vec 是一个m元 1维张量，将会输出一个n元 1维张量。

In [None]:
x @ z

- 迹运算

In [None]:
A = torch.arange(25).reshape(5, 5)
B = torch.arange(25, 50).reshape(5, 5)

In [None]:
A, B

$tr(A)=tr(A^T)$

In [None]:
torch.trace(A), torch.trace(A.t())

In [None]:
torch.trace(B), torch.trace(B.t())

$tr(AB)=tr(BA)$

In [None]:
torch.mm(A, B), torch.mm(B, A)

In [None]:
torch.trace(torch.mm(A, B)), torch.trace(torch.mm(B, A))

$tr(A^TB)=\sum_i\sum_jA_{i,j}B_{i,j}$

In [None]:
A_t_B = torch.mm(A.t(), B)
A_t_B

In [None]:
torch.trace(A_t_B)

In [None]:
torch.sum(torch.IntTensor([A_t_B[i, i] for i in range(5)]))

**1.11. 张量拼接**

In [None]:
a = tensor(range(10), dtype=torch.float32).reshape(2, 5)
b = tensor(range(10, 20), dtype=torch.float32).reshape(2, 5)
c = tensor(range(20, 30), dtype=torch.float32).reshape(2, 5)

In [None]:
a, b, c

In [None]:
cat_ = torch.cat([a, b, c], 0)  # 在给定维度上对输入的张量序列进行连接操作，和extend类似
cat_

In [None]:
torch.cat([a, b, c], dim=1)

In [None]:
stack_ = torch.stack([a, b, c], 0)  # 沿着一个新维度对输入张量序列进行连接。 序列中所有的张量都应该为相同形状。

In [None]:
stack_

In [None]:
stack_.split([2, 3], -1)

In [None]:
stack_.chunk(2, 1)

## 2. 自动求导`autograd`

torch.autograd提供了类和函数用来对任意标量函数进行求导。

实例:
$$
f(\mathbf{x})=2\mathbf{x}+1, g(y)=\mathbf{y^2}+5, z=mean(\mathbf{g(y)})
$$
求$\frac{dz}{dx}$

In [None]:
def f(x:tensor):
    return 2*x + 1

def g(x:tensor):
    return x**2 + 5

def mean(x:tensor):
    return torch.mean(x)

In [None]:
def dz_dx(x:tensor):  # 实际上的导数
    return (8*x + 4) / x.numel()

In [None]:
x = torch.randint(1, 10, size=(2, 5), dtype=torch.float32, requires_grad=True)

In [None]:
x

In [None]:
x.requires_grad
# x.requires_grad_(True)  # 如果为False, 可以追加

In [None]:
x.requires_grad_(True)

- torch自动求导结果

In [None]:
z = mean(g(f(x)))
z.backward()  # 反向传播，自动求微分
x.grad  # dz/dx

- 解析求导结果

In [None]:
dz_dx(x)  # dz/dx

In [None]:
z.grad_fn

In [None]:
a

In [None]:
torch.cat([a, a[:5]])

In [None]:
a

## 3. 案例: Bass模型拟合

Bass扩散模型针对创新产品、服务和扩散进行建模，常被用作市场分析工具，对新产品、新技术需求进行预测。

新产品创新扩散是指新产品从创造研制到进入市场推广、最终使用的过程，表现为广大消费者从知晓、兴趣、评估、试用到最终采用新产品的行为。

Bass扩散模型的许多变形也已被开发出来，用以满足某些特殊情形的精确需求。

$$
N(t)=m\frac{1-e^{-(p+1)t}}{1+\frac{q}{p}e^{-(p+q)t}}
$$

In [None]:
def adaptive_momentum(lossfunc, w, x_dict, beta1=0.5, beta2=0.9, learn_rate=0.999, max_iter=1000, epsilon=1e-8):
    trace_w = w.clone().data.reshape(1, -1)
    v_0, s_0 = 0, 0
    i = 1
    while i <= max_iter:
        l = lossfunc(w, **x_dict)
        l.backward()
        v_1 = (beta1 * v_0 + (1 - beta1) * w.grad.data) / (1 - beta1 ** i)
        s_1 = (beta2 * s_0 + (1 - beta2) * w.grad.data ** 2) / (1 - beta2 ** i)
        w.data.sub_(learn_rate * v_1 / (torch.sqrt(s_1) + epsilon))
        with torch.no_grad():
            trace_w = torch.cat([trace_w, w.detach().data.reshape(1, -1)], 0)
            if i % 50 == 0:
                loss = lossfunc(w, **x_dict).data.numpy()
                print(f"迭代次数: {i}, 损失函数值: {loss:.4f}")

            if torch.sum(torch.abs(trace_w[-1] - trace_w[-2])) < 1e-3:  # 停止条件
                break

        w.grad.zero_()
        v_0, s_0 = v_1, s_1
        i += 1

    print(f"共迭代{i - 1}次, 损失函数值: {lossfunc(w, **x_dict).data.numpy():.4f}, 最优参数值: {w.tolist()}")
    return trace_w

In [None]:
def bass(params, T:int): # 如果要使用其它模型，可以重新定义
    p, q, m = params
    t_tensor = torch.arange(1, T + 1, dtype=torch.float32)
    a = 1 - torch.exp(- (p + q) * t_tensor)
    b = 1 + q / p * torch.exp(- (p + q) * t_tensor)
    diffu_cont = m * a / b

    adopt_cont = torch.zeros_like(diffu_cont)
    adopt_cont[0] = diffu_cont[0]
    for t in range(1, T):
        adopt_cont[t] = diffu_cont[t] - diffu_cont[t - 1]
        
    return adopt_cont

In [None]:
def meanSquaredLoss(params, y):  # 平均平方误差
    T = y.numel()
    hat_y = bass(params, T)
    return torch.mean((hat_y - y)**2)

In [None]:
def r_2(params, y):  # R2
    T = y.numel()
    hat_y = bass(params, T)
    tse = torch.sum((y - hat_y)**2)
    ssl = torch.sum((y - torch.mean(y))**2)
    R_2 = (ssl - tse)/ssl
    return R_2

In [None]:
y = tensor([96, 195, 238, 380, 1045, 1230, 1267, 1828, 1586, 1673, 1800, 1580, 1500], dtype=torch.float32) / 1000

In [None]:
params = torch.FloatTensor([0.001, 0.3, 20])
params.requires_grad_(True)
# res = grad_desc(meanSquaredLoss, params, y, learn_rate=1e-9)
res = adaptive_momentum(meanSquaredLoss, params, x_dict={"y": y}, beta1=0.6, beta2=0.5, learn_rate=0.003, max_iter=1000)
r2 = r_2(res[-1], y).numpy()
print("r2:", r2)

In [None]:
T = y.numel()
plt.xlabel("Time")
plt.ylabel("Sales volumn")
plt.plot(np.arange(T), bass(res[-1], T).numpy() * 1000)
plt.scatter(np.arange(T), y.numpy() * 1000, marker='o', color='red')

## 4. 构建神经网络的流程

### 4.1. 定义计算架构

In [None]:
class Net(nn.Module):
    def __init__(self, dim_feature, dim_hidden, dim_output):
        super(Net, self).__init__()
        self.hidden = nn.Linear(dim_feature, dim_hidden)
        self.output = nn.Linear(dim_hidden, dim_output)
    
    def forward(self, X):  # 层之间的计算次序
        f1 = torch.relu(self.hidden(X))  # 0-1
        f2 = self.output(f1)  # 1->2
        f3 = nn.functional.softmax(f2, dim=1)  # 2->3
        return f3

In [None]:
net = Net(dim_feature=2, dim_hidden=10, dim_output=2)

In [None]:
optimizer = torch.optim.SGD(net.parameters(), lr=0.05)  # 指定需优化的参数
loss_func = nn.CrossEntropyLoss()  # 确定训练准则

### 4.2. 生成测试数据

In [None]:
x0 = torch.randn(100, 2) + 2  # 均值为 2
y0 = torch.zeros(100)
x1 = torch.randn(100, 2) - 2  # 均值为 -2
y1 = torch.ones(100)

x = torch.cat((x0, x1)).type(torch.FloatTensor)
y = torch.cat((y0, y1)).type(torch.LongTensor)

In [None]:
idx = np.arange(len(x))
np.random.shuffle(idx)
train_x, train_y = x[idx[:50]], y[idx[:50]]  # 随机选取50个
test_x, test_y = x[idx[50:]], y[idx[50:]]

In [None]:
train_y

### 4.3. 训练

In [None]:
for i in range(400):
    out = net(train_x)
    loss = loss_func(out, train_y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    if i % 40 == 0:
        with torch.no_grad():
            loss_train = loss_func(out, train_y)
            out_test = net.forward(test_x)
            loss_test = loss_func(out_test, test_y)
            print(f"loss_train: {loss_train}, loss_test: {loss_test}")

In [None]:
train_result = net(train_x)
predict_train_y = torch.max(train_result, 1)[1]

test_result = net(test_x)
predict_test_y = torch.max(test_result, 1)[1]

x_list = [train_x, test_x]
y_list = [predict_train_y, predict_test_y]

In [None]:
fig = plt.figure(figsize=(12, 5))
for i in range(2):
    px = x_list[i]
    py = y_list[i]
    ax = fig.add_subplot(1, 2, i+1)
    ax.set_xlabel('$x_0$')
    ax.set_ylabel('$x_1$')
    ax.scatter(px.data.numpy()[:,0], px.data.numpy()[:,1], c=py.data.numpy(), s=60, lw=0, cmap='RdYlGn')

## 5. 案例： 垃圾邮件分类

In [None]:
from torch.utils.data import TensorDataset, DataLoader
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import os

利用`nn.Module`实现`Logit`回归

In [None]:
class LogitNet(nn.Module):
    def __init__(self, dim_feature, dim_output):
        super(LogitNet, self).__init__()
        self.output = nn.Linear(dim_feature, dim_output)
    
    def forward(self, X):  # 层之间的计算次序
        h = self.output(X)  # 1 -> 2
        o = nn.functional.softmax(h, dim=1)  # 2 -> 3
        return o

In [None]:
df = pd.read_csv('../dataset/smsspamcollection/SMSSpamCollection', delimiter='\t', header=None, names=['category', 'message'])
df['label'] = (df.category == 'ham').astype('int')
print('垃圾邮件数量: %d ' % np.sum(df.label == 0))
print('正常邮件数量: %d ' % np.sum(df.label == 0))

In [None]:
X = df.message.values
y = df.label.values
X_train_raw, X_test_raw, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=200)
# y转换为tensor
y_train = torch.tensor(y_train).type(torch.LongTensor)  # 注意label的形式为1维，即类别的标签，无需reshape(-1, 1)
y_test = torch.tensor(y_test).type(torch.LongTensor)
# 获取词的tf-idf
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train_raw)
X_test = vectorizer.transform(X_test_raw)
# X转换为tensor
X_train = torch.tensor(X_train.toarray(), dtype=torch.float)
X_test = torch.tensor(X_test.toarray(), dtype=torch.float)

In [None]:
batch_size = 300  # 构建每批次100个样本的训练集
dataset = TensorDataset(X_train, y_train)
data_iter = DataLoader(dataset=dataset, batch_size=batch_size, shuffle=True)

In [None]:
snet = LogitNet(dim_feature=X_train.shape[1], dim_output=2)
optimizer = torch.optim.SGD(snet.parameters(), lr=0.03)  # 指定需优化的参数
# loss_func = nn.CrossEntropyLoss()  # 确定训练准则
loss_func = nn.NLLLoss()

In [None]:
for i in range(100):
    for X, y in data_iter:        
        loss = loss_func(snet.forward(X), y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
    if i % 20 == 0:
        with torch.no_grad():
            loss_train = loss_func(snet.forward(X_train), y_train)
            out_test = snet.forward(X_test)
            loss_test = loss_func(out_test, y_test)
            print(f"loss_train: {loss_train:.5f}, loss_test: {loss_test:.5f}")

In [None]:
train_result = snet(X_train)
predict_y_train = torch.max(train_result, 1)[1]
print(torch.sum(predict_y_train != y_train), torch.sum(predict_y_train == y_train))

In [None]:
a = torch.randn(4, 8)

In [None]:
torch.std(a, 1)

## 参考资料

* PyTorch 官方文档: [https://pytorch.org/docs/](https://pytorch.org/docs/)