# 线性回归

## 线性回归的基本元素

理论内容见参考内容[1][2], 此略

## 矢量化加速

训练模型时一般同时处理一个批次 (Batch) 的样本, 使用矢量化来加速计算. 

例如, 样本数为 $n$, 特征数为 $d$, 则训练数据的矩阵为 $X \in \mathbb{R}^{n \times d}$, 标签的向量 $y \in \mathbb{R}^{n \times 1}$, 参数的向量 $w \in \mathbb{R}^{d \times 1}$

In [11]:
import time
import torch

n = 1000
a = torch.ones(n)
b = torch.ones(n)

# for循环 for loop
c = torch.zeros(n)
start = time.time()
for i in range(n):
    c[i] = a[i] + b[i]
print("Time of <for> loop to add two vectors: {:.5f} s".format(time.time()-start))

# 矢量化 vectorization
start = time.time()
d = a + b
print("Time of vectorization to add two vectors: {:.5f} s".format(time.time()-start))

Time of <for> loop to add two vectors: 0.01205 s
Time of vectorization to add two vectors: 0.00029 s


## 正态分布与平方损失

以下解释`噪声`与`平方损失目标函数`的关系

正态分布概率密度函数: $p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x-\mu)^2)$

均方损失可以用于线性回归, 因为假设噪声服从正态分布, 即: $y = w^Tx + b+\epsilon$, 其中$\epsilon \sim \mathcal{N}(0, \sigma^2)$

那么给定$x$观测到特定的$y$的似然就是: $P(y|x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(y-w^Tx-b)^2)$

优化过程:

找到最优的$w$和$b$来最大化似然函数, 也就是最小化负对数似然函数: $-\log P(y|x) = \frac{1}{2\sigma^2}(y-w^Tx-b)^2 + \log\sqrt{2\pi\sigma^2}$

## 线性回归与深度网络

线性回归可以看作一个单层神经网络

这种每个输入与每个输出相连的网络叫全连接层