# PyTorch基础+线性模型

## 1. PyTorch 基础

如遇到不清楚的函数或主题，可以查阅[官方文档](https://pytorch.org/docs/stable/index.html)或利用搜索引擎寻求帮助。

### 1.1 必备代码

PyTorch 通常会与 Numpy 包共同使用，因此导入 PyTorch 的时候按惯例也把 Numpy 加载进来。更重要的是，在**每个** PyTorch 程序的最开头都应设置好随机数种子，从而让结果可重复。**作业中也应在每题的代码开头设置随机数种子**。由于 PyTorch 和 Numpy 使用了两套随机数生成机制，因此还需分别设置。

In [1]:
import numpy as np
import torch

np.random.seed(123456)
torch.manual_seed(123456)

<torch._C.Generator at 0x1dcb933dbf0>

### 1.2 Tensor

PyTorch 中最为重要的数据结构是张量（Tensor），可以简单理解为多维数组，我们一般使用的向量和矩阵都是张量的特例。本次作业中我们只用到一维和二维 Tensor，分别对应向量和矩阵。

Tensor 可以通过 `torch.tensor()` 加上给定的数据创建，注意矩阵是按行创建的。

In [2]:
vec = torch.tensor([1.0, 2.0, 5.0])
print(vec)

tensor([1., 2., 5.])


In [3]:
mat = torch.tensor([[1.0, 2.0, 2.0], [3.0, 5.0, 4.5]])
print(mat)

tensor([[1.0000, 2.0000, 2.0000],
        [3.0000, 5.0000, 4.5000]])


一些常用的 Tensor 有专用的创建方法：

In [4]:
torch.ones(3, 2)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [5]:
torch.zeros(5)

tensor([0., 0., 0., 0., 0.])

In [6]:
torch.linspace(3, 10, steps=5)

tensor([ 3.0000,  4.7500,  6.5000,  8.2500, 10.0000])

也可以给定形状生成随机数：

In [7]:
torch.randn(2, 3)

tensor([[ 1.8645,  0.4071, -1.1971],
        [ 0.3489, -1.1437, -0.6611]])

Tensor 的形状可以通过 `shape` 属性来获取：

In [8]:
print(vec.shape)
print(mat.shape)
n = mat.shape[0]
p = mat.shape[1]
print(n)
print(p)

torch.Size([3])
torch.Size([2, 3])
2
3


将 Tensor 变形：

In [9]:
print(vec.view(3, 1))
print(mat.view(3, 2))

tensor([[1.],
        [2.],
        [5.]])
tensor([[1.0000, 2.0000],
        [2.0000, 3.0000],
        [5.0000, 4.5000]])


### 1.3 矩阵向量运算

Tensor 可以很直观地与标量进行运算：

In [10]:
print(vec + 2.0)
print(mat * 1.2)

tensor([3., 4., 7.])
tensor([[1.2000, 2.4000, 2.4000],
        [3.6000, 6.0000, 5.4000]])


逐元素运算的数学函数：

In [11]:
torch.exp(vec)

tensor([  2.7183,   7.3891, 148.4132])

In [12]:
torch.sin(mat)

tensor([[ 0.8415,  0.9093,  0.9093],
        [ 0.1411, -0.9589, -0.9775]])

汇总运算：

In [13]:
torch.mean(vec)

tensor(2.6667)

In [14]:
torch.sum(mat)

tensor(17.5000)

按坐标轴汇总：

In [15]:
print(torch.sum(mat, dim=0))
print(torch.sum(mat, dim=1))

tensor([4.0000, 7.0000, 6.5000])
tensor([ 5.0000, 12.5000])


矩阵乘法：

In [16]:
torch.matmul(mat, vec)

tensor([15.0000, 35.5000])

搭配转置：

In [17]:
torch.matmul(torch.t(mat), mat)

tensor([[10.0000, 17.0000, 15.5000],
        [17.0000, 29.0000, 26.5000],
        [15.5000, 26.5000, 24.2500]])

### 1.4 统计分布

PyTorch 包含了许多常见的统计分布，参见[说明文档](https://pytorch.org/docs/stable/distributions.html)。大部分分布都可以计算 p.d.f. 和 c.d.f. 等函数，以及进行随机模拟抽样。

建立一个正态分布 $N(1, 3)$ 对象：

In [18]:
import torch.distributions as D
import math

norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(3.0)]))

计算 $x = 1,2,3$ 处的对数密度函数值：

In [19]:
norm.log_prob(torch.tensor([1.0, 2.0, 3.0]))

tensor([-1.4682, -1.6349, -2.1349])

生成5个随机数（注意这里形状的写法）：

In [20]:
norm.sample(sample_shape=(5,))

tensor([[-1.9078],
        [ 2.6222],
        [ 1.6566],
        [ 1.5657],
        [ 2.8333]])

分布的参数可以是一个向量，例如三个分别以0.1, 0.5和0.9为参数的 Bernoulli 分布：

In [21]:
bern = D.Bernoulli(probs=torch.tensor([0.1, 0.5, 0.9]))

各自生成一个随机数：

In [22]:
bern.sample()

tensor([0., 1., 1.])

其他常见的操作可以参考[官方教程](https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html)，完整的函数列表可以查看[官方 API 文档](https://pytorch.org/docs/stable/torch.html)。

## 2. 练习题

### 第1题

(a) 生成一个大小为 $[n \times p] = [200 \times 10]$ 的数据矩阵 `x`，用正态分布 N(0, 2) 填充。随机数种子设为123456。

In [24]:
n = 200
p = 10

# 完成后续的代码
x = torch.randn(n, p) * 2 # 替换这里的代码

# 检查 x 的大小，方便 debug
assert x.shape == (n, p), "x 形状有误"

(b) 生成一个长度为 $p$ 的向量 `beta`，每个元素服从均匀分布 Uniform(-1, 1)。

In [25]:
beta = torch.rand(p) * 2 - 1  # 替换这里的代码

# 检查 beta 的长度，方便 debug
assert beta.shape == (p,), "beta 长度有误"

(c) 生成一个长度为 $n$ 的向量 `eps`，每个元素服从独立正态 $N(0, 0.1)$。

In [26]:
eps = torch.randn(n) * 0.1  # 替换这里的代码

# 检查 eps 的长度，方便 debug
assert eps.shape == (n,), "eps 长度有误"

(d) 创建向量 `y`，令其在数学上等于 $y=X\beta+\epsilon$。

In [27]:
y = torch.matmul(x, beta) + eps  # 替换这里的代码

# 检查 y 的长度，方便 debug
assert y.shape == (n,), "y 长度有误"

(e) 回归问题：给定数据 `x` 和 `y`，估计 `beta` 的取值。以 MSE 为损失函数，编写 Python 函数 `loss_fn_reg(bhat, x, y)`，用来返回任意 $\hat{\beta}$ 下的目标函数值。请用基础的矩阵和向量运算实现。

In [28]:
def loss_fn_reg(bhat, x, y):
    # 编写函数主体，替换这里的代码
    y_pred = torch.matmul(x, bhat)
    residuals = y - y_pred
    mse = torch.mean(residuals**2)
    return mse

(f) Pytorch 中也提供了 MSE 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html)。其用法是先建立一个损失函数对象，然后将 $\hat{y}$ 和 $y$ 作为参数传入。请利用这种方法计算如下给定 $\hat{\beta}$ 后的损失函数值，并与你自己的函数结果进行对比。

In [29]:
import torch.nn as nn

bhat = torch.ones(p)
yhat = torch.matmul(x, bhat)  # 替换这里的代码计算 yhat

mse_reg = nn.MSELoss()
loss1 = mse_reg(yhat, y)

loss2 = loss_fn_reg(bhat, x, y)

print(loss1)
print(loss2)

tensor(46.3286)
tensor(46.3286)


获得了一致的计算结果

### 第2题

(a) 与第1题类似创建变量 `x` 和 `beta`，但使用不同的 `n` 和 `p`。

In [43]:
np.random.seed(123456)
torch.manual_seed(123456)
n = 150
p = 6
x = torch.randn(n, p) * 2  # 替换这里的代码
beta = torch.rand(p) * 2 - 1  # 替换这里的代码

(b) 定义函数 `sigmoid(x)`，其中 `x` 是一个 Tensor，$\mathrm{sigmoid}(x)=e^x/(1+e^x)$。

In [37]:
def sigmoid(x):
    # 编写函数主体，替换这里的代码
    e = torch.exp(-torch.abs(x))
    numer = torch.where(x>=0, 1.0, e)
    denom = 1.0 + e
    return numer / denom

(c) 根据分布 $Y|X\sim Bernoulli(\mathrm{sigmoid}(X\beta))$，生成 $Y$ 的随机数。提示：参照1.4节的方法，先计算 Bernoulli 分布的参数**向量**，然后生成随机数。

In [39]:
rho = sigmoid(torch.matmul(x, beta))
bern = D.Bernoulli(probs=torch.tensor(rho))  
y = bern.sample() # 替换这里的代码

  bern = D.Bernoulli(probs=torch.tensor(rho))


(d) 已知 $Bernoulli(\rho)$ 分布的对数密度函数为 $\log p(y;\rho)=y\log \rho + (1-y) \cdot \log(1-\rho)$。根据此信息，推导出给定 $\hat{\beta}$ 时的对数似然函数，并编写损失函数 `loss_fn_logistic(bhat, x, y)`，返回**负**对数似然值。

$Y|x,\hat{\beta } ~\sim Bernoulli(\rho (\hat{\beta }'x))$

$\rho(\hat{\beta }'x)=1/(1+e^{-\hat{\beta }'x})$

$\log p(y;x,\hat{\beta })=y\log \rho(\hat{\beta }'x) + (1-y) \cdot \log(1-\rho(\hat{\beta }'x))$

In [77]:
def loss_fn_logistic(bhat, x, y):
    # 编写函数主体，替换这里的代码
    rho_x = torch.matmul(x, bhat) # rho(x) = XB
    e = torch.exp(-torch.abs(rho_x)) # e^(-x)
    log1e = torch.log(1 + e) # log(1+e)
    s_x = torch.where(rho_x >= 0, rho_x + log1e, log1e) # s(x) = log(1+e^x)
    loss = -torch.mean(y * (rho_x - s_x) + (1 - y) * (-s_x))
    return loss

(e) Pytorch 中也提供了 BCELoss 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html)。其用法是先建立一个损失函数对象，然后将 $\hat{\rho}$ 和 $y$ 作为参数传入。请利用这种方法计算如下给定 $\hat{\beta}$ 后的损失函数值，并与你自己的函数结果进行对比。

In [78]:
bhat = torch.ones(p)
rhohat = sigmoid(torch.matmul(x, bhat))  # 替换这里的代码计算 rhohat = sigmoid(x * betahat)

bce_logistic = nn.BCELoss()
loss1 = bce_logistic(rhohat, y)

loss2 = loss_fn_logistic(bhat, x, y)

print(loss1)
print(loss2)

tensor(1.7017)
tensor(1.7017)


获得了一致的计算结果

### 第3题

(a) 多分类问题的数据通常包括数据阵 $X$ 和标签向量 $l$，其中标签为整数。在计算损失函数时，我们需要先将 $l$ 转换成多项分布的0-1数据，即所谓 One-hot 编码。运行并观察下面的代码。

In [79]:
np.random.seed(123456)
torch.manual_seed(123456)
n = 200  # 样本量
p = 10   # 变量数
k = 4    # 类别数
x = torch.randn(n, p)
l = torch.tensor(np.random.choice(range(4), size=n, replace=True), dtype=int)
print(l[:20])

y = torch.nn.functional.one_hot(l)
print(y.shape)
print(y[:10])

tensor([1, 2, 2, 1, 0, 3, 3, 3, 3, 0, 3, 0, 0, 2, 2, 0, 3, 0, 3, 3])
torch.Size([200, 4])
tensor([[0, 1, 0, 0],
        [0, 0, 1, 0],
        [0, 0, 1, 0],
        [0, 1, 0, 0],
        [1, 0, 0, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [1, 0, 0, 0]])


(b) 创建矩阵 `W`，大小为 $k \times p$，用 N(0, 1) 填充其取值。

In [80]:
w = torch.randn(k, p)  # 替换这里的代码

# 检查 w 的形状，方便 debug
assert w.shape == (k, p), "w 形状有误"

(c) 接下来计算对 $Y$ 的概率预测值，其中每个 $Y_i$ 观测对应一个等长的概率向量 $p_i$，而 $p_i=\mathrm{Softmax}(Wx_i)$。首先计算 $Wx_i$，其中 $x_i$ 是第 $i$ 个观测。由于 $X$ 是把 $x_i$ 按行组合，因此矩阵形式表达为 $U=XW'$，其中 $U$ 的第 $i$ 行即为 $Wx_i$。

In [81]:
u = torch.matmul(x, torch.t(w))  # 替换这里的代码

# 检查 u 的形状，方便 debug
assert u.shape == (n, k), "u 形状有误"

我们先测试一下 $\mathrm{Softmax}(Wx_{100})$ 的结果，观察其元素和是否为1。代码中的 `dim=0` 意思是对第一个下标方向计算 Softmax，由于 `u[99]` 是一个向量，因此第一个下标方向就是该向量本身。

In [84]:
torch.softmax(u[99], dim=0)

tensor([0.1958, 0.0477, 0.6024, 0.1541])

而为了对 $U$ 的每一行都计算 Softmax，我们可以直接对整个 `u` 矩阵用 `torch.softmax`，其中 `dim` 需指定为1，意思是对第二个下标方向求 Softmax，即对 $U$ 的每一行。原理类似于1.3节的按坐标轴汇总。请完成该计算，得到矩阵 $P$，其中 $P$ 的第 $i$ 行即为 $p_i$。

In [85]:
p = torch.softmax(u, dim=1)  # 替换这里的代码

# 检查 p 的形状，方便 debug
assert p.shape == (n, k), "p 形状有误"

(d) 根据 `y` 和 `p` 两个矩阵，即可根据公式得到对数似然函数值。总结上述步骤，编写损失函数 `loss_fn_softmax(w, x, y)`，返回**负**对数似然值。

In [131]:
def loss_fn_softmax(w, x, y):
    # 编写函数主体，替换这里的代码
    u = torch.matmul(x, torch.t(w))
    p = torch.softmax(u, dim=1)
    loss = -torch.mean(torch.sum(y * torch.log(p), dim=1))
    return loss

(e) Pytorch 中也提供了 CrossEntropyLoss 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html)。其用法是先建立一个损失函数对象，然后将 $U$ 和 $l$ 作为参数传入（注意 $U$ 是经过 Softmax **之前**的矩阵，$l$ 是**原始**的标签）。请利用这种方法计算损失函数值，并与你自己的函数结果进行对比。

In [132]:
ce_softmax = nn.CrossEntropyLoss()
loss1 = ce_softmax(u, l)

loss2 = loss_fn_softmax(w, x, y)

print(loss1)
print(loss2)

tensor(3.3032)
tensor(3.3032)


获得了一致的计算结果