# 线性代数

标量由只有一个元素的张量表示

In [1]:
import torch

In [4]:
x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y,  x / y, x ** y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

向量可以视为标量组成的列表

In [6]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [7]:
# 张量的长度
len(x)

4

In [8]:
x.numel()

4

矩阵

In [9]:
A = torch.tensor([[1, 2, 3], [3, 4, 5], [2, 3, 4]])
B = torch.tensor([0, 1, 2])

相乘

In [9]:
A * B

tensor([[ 0,  2,  6],
        [ 0,  4, 10],
        [ 0,  3,  8]])

In [10]:
A@(B.T)

tensor([ 8, 14, 11])

In [11]:
A@B

tensor([ 8, 14, 11])

In [17]:
A.sum(axis=0)

tensor([ 6,  9, 12])

### 对称矩阵

In [28]:
A = (torch.rand((3,3)) * 100).type(torch.int16)
A = A + A.T
A

tensor([[138, 137, 135],
        [137, 142, 138],
        [135, 138,  14]], dtype=torch.int16)

In [30]:
torch.all(A == A.T)

tensor(True)

向量是标量的推广， 矩阵是向量的推广， 我们可以构建具有更多轴的数据结构

In [33]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A * 2   # clone
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  3.,  6.,  9.],
         [12., 15., 18., 21.],
         [24., 27., 30., 33.],
         [36., 39., 42., 45.],
         [48., 51., 54., 57.]]))

In [34]:
A * B

tensor([[  0.,   2.,   8.,  18.],
        [ 32.,  50.,  72.,  98.],
        [128., 162., 200., 242.],
        [288., 338., 392., 450.],
        [512., 578., 648., 722.]])

In [37]:
# 矩阵乘法
x = torch.Tensor([1, 2, 3])
y = torch.Tensor([0, 2, 4])
x@y.T, torch.dot(x, y.T)

(tensor(16.), tensor(16.))

## L2 范数

In [38]:
u = torch.tensor([3.0, -4.0])
u.norm()

tensor(5.)

# 几何与线性代数运算

## 1.1 矢量的几何

> 首先讨论向量的两种常见几何解释, 即空间中的点或方向。根本上, 向量是一个数字列表, 例如下面的Python列表:

In [2]:
v = [1, 7, 0, 1]

> 数学家通常将其写成列或者行向量, 也就是说:

&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;$x^T = [ 1, 7, 0, 1]$

> 给定一个向量, 我们应该给它的第一个解释是作为空间中的一个点。<br>
> 这种几何观点允许我们在更抽象的层面上考虑这个问题。不再面临一些看似无法克服的问题, 如将图片归类为猫或者狗, 我们可以开始抽象地将任务视为空间中点的集合, 并将任务描绘成如何分离两个不同的点集群。

> 与此同时, 还有人们经常看待矢量的第二个观点: 作为空间的方向。<br>
> 这种转变的好处之一是, 我们可以直观地理解向量的加法行为。 特别是:我们遵循一个向量给出的方向, 然后最寻另一个向量给出的方向。矢量的减法也有类似的解释。

## 1.2 点积和角度

> 如果我们取两个列向量u和v, 可以通过计算形成他们的点积:

&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;$\vec{u}^T\vec{v} = \sum_iu_iv_i$

> 点积也允许几何解释: 他们与两个向量之间的角度密切相关

> 举个简单的例子, 来看如何计算一对向量之间的角度:

In [26]:
import torch
import torchvision
from IPython import display
from torchvision import transforms
from d2l import torch as d2l

def angle(v: torch.Tensor, w: torch.Tensor):
    return torch.acos(v@w / (v.norm() * w.norm())) * 180 / torch.pi

v = torch.tensor([0.0, 0, 2, 1])
w = torch.tensor([2.0, 3, -1, 2])

v.norm(), w.norm()
angle(v, w)

tensor(90.)

### 1.2.1 COS 相似性

> 在使用角度来测量两个向量接近度的ML上下文中, 从业者采用 cos相似度来指部分。请注意: 如果高维矢量的成分以均值随机采样0, 他们的余弦几乎总是接近0

## 1.3 超平面

> 除了使用向量外， 在线性代数中, 还必须了解另一个关键对象是超平面， 他是对直线和平面的更高维度推广

## 1.4 线性变换的几何

> 完全内化矩阵可以在两个潜在不同的高维空间之间转换数据, 需要大量的实践。 然而, 我们可以开始在两个维度上建立直觉

## 1.5 线性依赖性