# PyTorch基础+线性模型

## 1. PyTorch 基础

如遇到不清楚的函数或主题，可以查阅[官方文档](https://pytorch.org/docs/stable/index.html)或利用搜索引擎寻求帮助。

### 1.1 必备代码

PyTorch 通常会与 Numpy 包共同使用，因此导入 PyTorch 的时候按惯例也把 Numpy 加载进来。更重要的是，在**每个** PyTorch 程序的最开头都应设置好随机数种子，从而让结果可重复。**作业中也应在每题的代码开头设置随机数种子**。由于 PyTorch 和 Numpy 使用了两套随机数生成机制，因此还需分别设置。

In [2]:
import numpy as np
import torch

np.random.seed(123456)
torch.manual_seed(123456)



<torch._C.Generator at 0x1165d2410>

### 1.2 Tensor

PyTorch 中最为重要的数据结构是张量（Tensor），可以简单理解为多维数组，我们一般使用的向量和矩阵都是张量的特例。本次作业中我们只用到一维和二维 Tensor，分别对应向量和矩阵。

Tensor 可以通过 `torch.tensor()` 加上给定的数据创建，注意矩阵是按行创建的。

In [3]:
vec = torch.tensor([1.0, 2.0, 5.0])
print(vec)

tensor([1., 2., 5.])


In [4]:
mat = torch.tensor([[1.0, 2.0, 2.0], [3.0, 5.0, 4.5]])
print(mat)

tensor([[1.0000, 2.0000, 2.0000],
        [3.0000, 5.0000, 4.5000]])


一些常用的 Tensor 有专用的创建方法：

In [5]:
torch.ones(3, 2)

tensor([[1., 1.],
        [1., 1.],
        [1., 1.]])

In [6]:
torch.zeros(5)

tensor([0., 0., 0., 0., 0.])

In [7]:
torch.linspace(3, 10, steps=5)

tensor([ 3.0000,  4.7500,  6.5000,  8.2500, 10.0000])

也可以给定形状生成随机数：

In [8]:
torch.randn(2, 3)

tensor([[ 1.8645,  0.4071, -1.1971],
        [ 0.3489, -1.1437, -0.6611]])

Tensor 的形状可以通过 `shape` 属性来获取：

In [9]:
print(vec.shape)
print(mat.shape)
n = mat.shape[0]
p = mat.shape[1]
print(n)
print(p)

torch.Size([3])
torch.Size([2, 3])
2
3


将 Tensor 变形：

In [10]:
print(vec.view(3, 1))
print(mat.view(3, 2))

newvec = vec.view(3,1)
print(newvec,'\n',vec)

tensor([[1.],
        [2.],
        [5.]])
tensor([[1.0000, 2.0000],
        [2.0000, 3.0000],
        [5.0000, 4.5000]])
tensor([[1.],
        [2.],
        [5.]]) 
 tensor([1., 2., 5.])


### 1.3 矩阵向量运算

在Pytorch中，当一个torch方法的函数是含有下划线的，如`torch.exp_(vec)`，则会对这个对象进行修改；而一般不加下划线的则是返回一个新的对象，对原对象不作处理

Tensor 可以很直观地与标量进行运算：

In [11]:
print(vec + 2.0)
print(mat * 1.2)

tensor([3., 4., 7.])
tensor([[1.2000, 2.4000, 2.4000],
        [3.6000, 6.0000, 5.4000]])


逐元素运算的数学函数：

In [12]:
torch.exp(vec)

tensor([  2.7183,   7.3891, 148.4132])

In [13]:
torch.sin(mat)

tensor([[ 0.8415,  0.9093,  0.9093],
        [ 0.1411, -0.9589, -0.9775]])

汇总运算：

In [14]:
torch.mean(vec)

tensor(2.6667)

In [15]:
torch.sum(mat)

tensor(17.5000)

按坐标轴汇总：

In [16]:
print(mat)
print(torch.sum(mat, dim=0))
print(torch.sum(mat, dim=1))

tensor([[1.0000, 2.0000, 2.0000],
        [3.0000, 5.0000, 4.5000]])
tensor([4.0000, 7.0000, 6.5000])
tensor([ 5.0000, 12.5000])


矩阵乘法：

In [17]:
torch.matmul(mat, vec)

tensor([15.0000, 35.5000])

搭配转置：

In [18]:
torch.matmul(torch.t(mat), mat)

tensor([[10.0000, 17.0000, 15.5000],
        [17.0000, 29.0000, 26.5000],
        [15.5000, 26.5000, 24.2500]])

In [19]:
mat.t()

tensor([[1.0000, 3.0000],
        [2.0000, 5.0000],
        [2.0000, 4.5000]])

### 1.4 统计分布

PyTorch 包含了许多常见的统计分布，参见[说明文档](https://pytorch.org/docs/stable/distributions.html)。大部分分布都可以计算 p.d.f. 和 c.d.f. 等函数，以及进行随机模拟抽样。

建立一个正态分布 $N(1, 3)$ 对象：

**注意这里的`scale`是标准差**

In [20]:
import torch.distributions as D
import math

norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(3.0)]))

计算 $x = 1,2,3$ 处的对数密度函数值：

In [21]:
norm.log_prob(torch.tensor([1.0, 2.0, 3.0]))

tensor([-1.4682, -1.6349, -2.1349])

生成5个随机数（注意这里形状的写法）：

In [22]:
norm.sample(sample_shape=(5,))

tensor([[-1.9078],
        [ 2.6222],
        [ 1.6566],
        [ 1.5657],
        [ 2.8333]])

分布的参数可以是一个向量，例如三个分别以0.1, 0.5和0.9为参数的 Bernoulli 分布：

In [23]:
bern = D.Bernoulli(probs=torch.tensor([0.1, 0.5, 0.9]))

各自生成一个随机数：

In [24]:
bern.sample()

tensor([0., 1., 1.])

其他常见的操作可以参考[官方教程](https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html)，完整的函数列表可以查看[官方 API 文档](https://pytorch.org/docs/stable/torch.html)。

## 2. 练习题

### 第1题

(a) 生成一个大小为 $[n \times p] = [200 \times 10]$ 的数据矩阵 `x`，用正态分布 N(0, 2) 填充。随机数种子设为123456。

In [25]:
torch.manual_seed(123456)

n = 200
p = 10

norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(2.0)]))

x = norm.sample(sample_shape=(n,p)).view(n,p) #?
#x = norm.sample(sample_shape=(n,p))
print(x)

# 检查 x 的大小，方便 debug
assert x.shape == (n, p), "x 形状有误"

tensor([[-0.5865, -1.6086,  2.4507,  ...,  1.0598,  1.5384,  1.0760],
        [ 1.7137,  0.2947,  0.3083,  ...,  0.8538,  1.1678,  0.6129],
        [ 2.6316,  2.9672,  2.5178,  ...,  2.1425,  1.2001,  0.2178],
        ...,
        [ 1.2433, -1.6048,  2.6921,  ...,  1.2950, -0.0972,  2.4354],
        [-0.6391,  0.8272,  0.6263,  ..., -2.5582,  2.0212,  0.2053],
        [ 1.9554,  0.0333, -0.3287,  ...,  2.3684,  0.2466, -0.2890]])


(b) 生成一个长度为 $p$ 的向量 `beta`，每个元素服从均匀分布 Uniform(-1, 1)。

In [26]:
uni = D.Uniform(low = torch.tensor([-1.0]), high=torch.tensor([1.0]))


In [27]:

beta = uni.sample(sample_shape=(p,)).view(p,)
print(beta.shape)
print(p)
# 检查 beta 的长度，方便 debug
assert beta.shape == (p,), "beta 长度有误"

torch.Size([10])
10


(c) 生成一个长度为 $n$ 的向量 `eps`，每个元素服从独立正态 $N(0, 0.1)$。

In [28]:
norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(.1)]))
eps = norm.sample(sample_shape=(n,)).view(n,)


# 检查 eps 的长度，方便 debug
assert eps.shape == (n,), "eps 长度有误"

(d) 创建向量 `y`，令其在数学上等于 $y=X\beta+\epsilon$。

In [29]:
y = torch.matmul(x, beta) + eps

# 检查 y 的长度，方便 debug
assert y.shape == (n,), "y 长度有误"

(e) 回归问题：给定数据 `x` 和 `y`，估计 `beta` 的取值。以 MSE 为损失函数，编写 Python 函数 `loss_fn_reg(bhat, x, y)`，用来返回任意 $\hat{\beta}$ 下的目标函数值。请用基础的矩阵和向量运算实现。

In [30]:
def loss_fn_reg(bhat, x, y):
    yhat = torch.matmul(x,bhat)
    err = yhat - y
    n = y.shape[0]
    # print(err)
    mse = torch.sum(err**2) / n
    return mse

(f) Pytorch 中也提供了 MSE 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html)。其用法是先建立一个损失函数对象，然后将 $\hat{y}$ 和 $y$ 作为参数传入。请利用这种方法计算如下给定 $\hat{\beta}$ 后的损失函数值，并与你自己的函数结果进行对比。

In [31]:
import torch.nn as nn

bhat = torch.ones(p)
yhat = torch.matmul(x,bhat)

mse_reg = nn.MSELoss()
loss1 = mse_reg(yhat, y)

loss2 = loss_fn_reg(bhat, x, y)

print(loss1)
print(loss2)

tensor(77.3495)
tensor(77.3495)


【说明文字】

### 第2题

(a) 与第1题类似创建变量 `x` 和 `beta`，但使用不同的 `n` 和 `p`。

In [32]:
np.random.seed(123456)
torch.manual_seed(123456)
import torch.distributions as D
import math


n = 150
p = 6
norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(2.0)]))
uni = D.Uniform(low = torch.tensor([-1.0]), high=torch.tensor([1.0]))
x = norm.sample(sample_shape=(n,p)).view(n,p) #?
beta = uni.sample(sample_shape=(p,)).view(p,)

(b) 定义函数 `sigmoid(x)`，其中 `x` 是一个 Tensor，$\mathrm{sigmoid}(x)=e^x/(1+e^x)$。

In [33]:
def sigmoid(x):
    sig = torch.exp(x) / (1 + torch.exp(x))
    return sig

(c) 根据分布 $Y|X\sim Bernoulli(\mathrm{sigmoid}(X\beta))$，生成 $Y$ 的随机数。提示：参照1.4节的方法，先计算 Bernoulli 分布的参数**向量**，然后生成随机数。

In [34]:
param = sigmoid (torch.matmul(x,beta))
print(param)
y = D.Bernoulli(probs = param).sample()


tensor([0.9170, 0.3364, 0.8977, 0.5980, 0.4221, 0.6253, 0.9170, 0.2109, 0.3360,
        0.9648, 0.7328, 0.0751, 0.9946, 0.0556, 0.1271, 0.2755, 0.7304, 0.8941,
        0.5023, 0.4810, 0.1459, 0.5332, 0.3893, 0.6638, 0.9223, 0.7655, 0.9368,
        0.9572, 0.5875, 0.7579, 0.0816, 0.2996, 0.7004, 0.9692, 0.4495, 0.2173,
        0.4645, 0.7816, 0.6017, 0.9717, 0.2330, 0.7996, 0.5977, 0.7063, 0.7713,
        0.0598, 0.9857, 0.6477, 0.8376, 0.3697, 0.9493, 0.1482, 0.8821, 0.4167,
        0.5975, 0.2716, 0.9308, 0.3505, 0.1371, 0.7432, 0.8271, 0.3834, 0.3581,
        0.2745, 0.7022, 0.9428, 0.7693, 0.4178, 0.3509, 0.6029, 0.9774, 0.8961,
        0.4705, 0.9801, 0.4752, 0.0135, 0.7070, 0.7323, 0.9354, 0.9310, 0.8790,
        0.4550, 0.1359, 0.5483, 0.8925, 0.9669, 0.6468, 0.8284, 0.8154, 0.3084,
        0.6380, 0.9928, 0.9899, 0.8051, 0.9232, 0.5038, 0.3173, 0.3921, 0.5216,
        0.8531, 0.1394, 0.9823, 0.1469, 0.9830, 0.6762, 0.6870, 0.2843, 0.9497,
        0.7572, 0.4652, 0.9581, 0.2799, 

(d) 已知 $Bernoulli(\rho)$ 分布的对数密度函数为 $\log p(y;\rho)=y\log \rho + (1-y) \cdot \log(1-\rho)$。根据此信息，推导出给定 $\hat{\beta}$ 时的对数似然函数，并编写损失函数 `loss_fn_logistic(bhat, x, y)`，返回**负**对数似然值。

【说明文字】

In [35]:
def loss_fn_logistic(bhat, x, y):
    rhohat = sigmoid(torch.matmul(x,bhat))
    loss = -torch.sum(y*torch.log(rhohat) + (1-y) * torch.log(1-rhohat))/y.shape[0]
    return loss

(e) Pytorch 中也提供了 BCELoss 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html)。其用法是先建立一个损失函数对象，然后将 $\hat{\rho}$ 和 $y$ 作为参数传入。请利用这种方法计算如下给定 $\hat{\beta}$ 后的损失函数值，并与你自己的函数结果进行对比。

In [36]:
bhat = torch.ones(p)
rhohat = sigmoid(torch.matmul(x,bhat))

bce_logistic = nn.BCELoss()
loss1 = bce_logistic(rhohat, y)

loss2 = loss_fn_logistic(bhat, x, y)

print(loss1)
print(loss2)

tensor(2.2795)
tensor(2.2795)


【说明文字】

### 第3题

(a) 多分类问题的数据通常包括数据阵 $X$ 和标签向量 $l$，其中标签为整数。在计算损失函数时，我们需要先将 $l$ 转换成多项分布的0-1数据，即所谓 One-hot 编码。运行并观察下面的代码。

In [37]:
np.random.seed(123456)
torch.manual_seed(123456)
n = 200  # 样本量
p = 10   # 变量数
k = 4    # 类别数
x = torch.randn(n, p)
l = torch.tensor(np.random.choice(range(4), size=n, replace=True), dtype=int)
print(l[:20])

y = torch.nn.functional.one_hot(l)
print(y.shape)
print(y[:10])

tensor([1, 2, 2, 1, 0, 3, 3, 3, 3, 0, 3, 0, 0, 2, 2, 0, 3, 0, 3, 3])
torch.Size([200, 4])
tensor([[0, 1, 0, 0],
        [0, 0, 1, 0],
        [0, 0, 1, 0],
        [0, 1, 0, 0],
        [1, 0, 0, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [1, 0, 0, 0]])


(b) 创建矩阵 `W`，大小为 $k \times p$，用 N(0, 1) 填充其取值。

In [39]:

norm = D.Normal(loc=torch.tensor([1.0]), scale=torch.tensor([math.sqrt(1.0)]))
w = norm.sample(sample_shape=(k,p)).view(k,p) #?
# 检查 w 的形状，方便 debug
assert w.shape == (k, p), "w 形状有误"

(c) 接下来计算对 $Y$ 的概率预测值，其中每个 $Y_i$ 观测对应一个等长的概率向量 $p_i$，而 $p_i=\mathrm{Softmax}(Wx_i)$。首先计算 $Wx_i$，其中 $x_i$ 是第 $i$ 个观测。由于 $X$ 是把 $x_i$ 按行组合，因此矩阵形式表达为 $U=XW'$，其中 $U$ 的第 $i$ 行即为 $Wx_i$。

In [40]:
u = torch.matmul(x, w.t())

# 检查 u 的形状，方便 debug
assert u.shape == (n, k), "u 形状有误"

我们先测试一下 $\mathrm{Softmax}(Wx_{100})$ 的结果，观察其元素和是否为1。代码中的 `dim=0` 意思是对第一个下标方向计算 Softmax，由于 `u[99]` 是一个向量，因此第一个下标方向就是该向量本身。

In [43]:
print(torch.softmax(u[99], dim=0))
print(sum(torch.softmax(u[99], dim=0)))

tensor([0.7236, 0.1425, 0.1051, 0.0287])
tensor(1.0000)


而为了对 $U$ 的每一行都计算 Softmax，我们可以直接对整个 `u` 矩阵用 `torch.softmax`，其中 `dim` 需指定为1，意思是对第二个下标方向求 Softmax，即对 $U$ 的每一行。原理类似于1.3节的按坐标轴汇总。请完成该计算，得到矩阵 $P$，其中 $P$ 的第 $i$ 行即为 $p_i$。

In [45]:
p  = torch.softmax( u, dim = 1 )
assert p.shape == (n, k), "p 形状有误"
print(p)

tensor([[7.6269e-05, 2.8724e-03, 9.9677e-01, 2.8114e-04],
        [5.9896e-01, 3.0678e-01, 7.4194e-02, 2.0060e-02],
        [5.7304e-01, 8.0425e-02, 6.5251e-04, 3.4588e-01],
        [9.1996e-01, 7.2885e-02, 7.1390e-03, 1.7064e-05],
        [1.3924e-01, 1.9466e-01, 1.9528e-02, 6.4658e-01],
        [9.1579e-01, 1.2557e-03, 8.2951e-02, 2.6220e-06],
        [9.8585e-01, 7.7156e-04, 1.3343e-02, 3.5518e-05],
        [9.8902e-01, 7.1037e-03, 3.1069e-03, 7.7161e-04],
        [1.8780e-01, 7.6740e-01, 2.5136e-04, 4.4552e-02],
        [5.3485e-01, 7.2683e-02, 7.2678e-02, 3.1979e-01],
        [2.9731e-02, 7.2813e-01, 1.5023e-02, 2.2711e-01],
        [9.9897e-01, 7.5668e-04, 2.3033e-04, 4.6076e-05],
        [2.9977e-04, 3.9224e-05, 9.9929e-01, 3.7325e-04],
        [4.2689e-02, 4.8078e-01, 1.8308e-02, 4.5822e-01],
        [2.8122e-01, 3.5670e-03, 7.1329e-01, 1.9160e-03],
        [3.3673e-04, 2.4343e-03, 9.7221e-01, 2.5021e-02],
        [9.9047e-01, 1.8729e-04, 1.1907e-03, 8.1471e-03],
        [8.138

(d) 根据 `y` 和 `p` 两个矩阵，即可根据公式得到对数似然函数值。总结上述步骤，编写损失函数 `loss_fn_softmax(w, x, y)`，返回**负**对数似然值。

In [64]:
def loss_fn_softmax(w, x, y):

    rho = torch.softmax(torch.matmul(x,w.t()),dim=1)
    l = torch.sum(torch.log(rho)*y)/y.shape[0]
    return - l

(e) Pytorch 中也提供了 CrossEntropyLoss 损失函数，参见[其文档](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html)。其用法是先建立一个损失函数对象，然后将 $U$ 和 $l$ 作为参数传入（注意 $U$ 是经过 Softmax **之前**的矩阵，$l$ 是**原始**的标签）。请利用这种方法计算损失函数值，并与你自己的函数结果进行对比。

In [65]:
ce_softmax = nn.CrossEntropyLoss()
loss1 = ce_softmax(u, l)

loss2 = loss_fn_softmax(w, x, y)

print(loss1)
print(loss2)

tensor(3.6297)
tensor(3.6297)


【说明文字】