In [1]:
import math

# 4. 线性代数
线性代数是数学的一个分支，研究`向量空间`。

## 4.1 向量
抽象地说，`向量`是指可以加总（以生成新的向量），可以乘以标量（即数字），也可以生成新的向量的对象。

具体来说，向量是有限维空间的点。即使你本无意视你的数据为向量，将数值数据表示为向量也是非常好的处理方式。

比如，如果你有很多人的身高、体重、年龄数据，就可以把数据记为`三维向量`(height,weight,age)。如果你教的一个班有四门考试，就可以把学生成绩记为`四维向量`(exam1,exam2,exam3,exam4)。

最简单的入门方法是将向量表示为数字的列表。一个包含三个数字的列表对应一个三维空间的向量，反之亦然：

In [2]:
height_weight_age = [70, # inches, 
                               170, # pounds, 
                               40 ] # years

grades = [95, # exam1
              80, # exam2
              75, # exam3
              62 ] # exam4

这种方式的一个问题在于向量算法的应用。由于Python中的列表不同于向量（因此无法直接对向量运算），我们需要构建相应算法工具。

首先，我们常常需要对两个向量做加法。向量以`分量方式`做运算。这意味着，如果两个向量`v`和`w`长度相同，那它们的和就是一个新的向量，其中向量的第一个元素等于`v[0]+w[0]`，第二个元素等于`v[1]+w[1]`，以此类推。如果两个向量长度不同，则不能相加。

例如，向量[1,2]加上向量[2,1]等于[1+2,2+1]或[3,3]，如`图4-1`所示。

<img src="images/04_01.png" style="width:400px;"/>

##### 向量加法

In [3]:
def vector_add(v, w):
    """adds corresponding elements""" 
    return [v_i + w_i for v_i, w_i in zip(v, w)]

a = [1, 2, 3]
b = [3, 2, 1]
vector_add(a,b)

[4, 4, 4]

##### 向量减法

In [4]:
def vector_subtract(v, w):
    """subtracts corresponding elements""" 
    return [v_i - w_i for v_i, w_i in zip(v, w)]

a = [1, 2, 3]
b = [3, 2, 1]
vector_subtract(a,b)

[-2, 0, 2]

##### 向量加和
对一系列向量做加法。即生成一个新向量，其第一个元素是这一系列向量第一个元素的和，第二个元素是这一系列向量第二个元素的和，以此类推。最简单的方法是每次递加一个向量：

In [5]:
def vector_sum(vectors):
    """sums all corresponding elements""" 
    result = vectors[0] 
    for vector in vectors[1:]:
        result = vector_add(result, vector)
    return result

a = [1, 2, 3]
b = [3, 2, 1]
all = [a, b]
vector_sum(all)

[4, 4, 4]

##### 向量乘以标量

In [6]:
def scalar_multiply(c, v):
    """c is a number, v is a vector""" 
    return [c * v_i for v_i in v]

a = [1, 2, 3]
scalar_multiply(10, a)

[10, 20, 30]

##### 向量均值
计算一系列向量（长度相同）的均值：

In [7]:
def vector_mean(vectors):
    """compute the vector whose ith element is the mean of the ith elements of the input vectors""" 
    n = len(vectors) 
    return scalar_multiply(1/n, vector_sum(vectors))

a = [1, 2, 3]
b = [3, 2, 1]
all = [a, b]
vector_mean(all)

[2.0, 2.0, 2.0]

##### 点积
两个向量的点积表示对应元素的分量乘积之和：

In [8]:
def dot(v, w):
    """v_1 * w_1 + ... + v_n * w_n""" 
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

a = [1, 2, 3]
b = [3, 2, 1]
dot(a, b)

10

点积衡量了向量`v`在向量`w`方向延伸的程度。例如，如果`w=[1,0]`，则`dot(v,w)`就是`v`的第一个元素。点积的另一个解释是将`v`在`w`上投影所得到的向量的长度(如`图4-2`)：

<img src="images/04_02.png" style="width:400px;"/>

##### 向量的平方和

In [9]:
def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n""" 
    return dot(v, v)

a = [1,2,3]
sum_of_squares(a)

14

##### 向量的大小
即向量的长度：

In [10]:
def magnitude(v):
    return math.sqrt(sum_of_squares(v))

a = [1,2,3]
magnitude(a)

3.7416573867739413

##### 两个向量的距离
现在，我们得到了为计算两个向量的距离所需要的所有部分，定义如下：
+ $\sqrt{(v_1-w_1)^2 + (v_1-w_1)^2 + \cdot + (v_n-w_n)^2}$

In [11]:
def squared_distance(v, w):
    return sum_of_squares(vector_subtract(v, w))

def distance(v, w):
    return math.sqrt(squared_distance(v, w))

## 另外一种形式
def distance2(v, w):
    return magnitude(vector_subtract(v, w))

a = [1,2]
b = [3,4]
distance(a,b)

2.8284271247461903

## 4.2 矩阵
矩阵是一个二维的数据集合。我们将矩阵表示为列表的列表，每个内部列表的大小都一样，表示矩阵的一行。如果`A`是一个矩阵，那么`A[i][j]`就表示第`i`行第`j`列的元素。按照数学表达的惯例，我们通常用大写字母表示矩阵。例如：

In [12]:
# A has 2 rows and 3 columns
A = [[1, 2, 3], 
       [4, 5, 6]]

# B has 3 rows and 2 columns
B = [[1, 2], 
       [3, 4], 
       [5, 6]]

基于列表的列表这种表达形式，矩阵`A`具有`len(A)`行和`len(A[0])`列，我们把这称作它的`形状`（ shape ）：

In [13]:
def shape(A):
    num_rows = len(A) 
    num_cols = len(A[0]) if A else 0 
    return num_rows, num_cols

shape(A)

(2, 3)

如果一个矩阵有$n$行$k$列，则可以记为$n×k$矩阵。我们可以把这个$n×k$矩阵的每一行都当作一个长度为$k$的向量，把每一列都当作一个长度为$n$的向量：

In [14]:
def get_row(A, i):
    return A[i]

def get_column(A, j):
    return [A_i[j] for A_i in A]

get_row(A, 0), get_column(A, 1)

([1, 2, 3], [2, 5])

我们可以根据形状和用来生成元素的函数来创建矩阵。可以通过一个嵌套的列表解析来实现：

In [15]:
def make_matrix(num_rows, num_cols, entry_fn):
    """returns a num_rows x num_cols matrix whose (i,j)th entry is entry_fn(i, j)""" 
    return [[entry_fn(i, j) # given i, create a list
                for j in range(num_cols)] # [entry_fn(i, 0), ... ]
                for i in range(num_rows)] # create one list for each i

def is_diagonal(i, j):
    """1's on the 'diagonal', 0's everywhere else""" 
    return 1 if i == j else 0

# 创建一个5x5的单位矩阵
identity_matrix = make_matrix(5, 5, is_diagonal)
identity_matrix

[[1, 0, 0, 0, 0],
 [0, 1, 0, 0, 0],
 [0, 0, 1, 0, 0],
 [0, 0, 0, 1, 0],
 [0, 0, 0, 0, 1]]

矩阵的重要性不言而喻，原因有以下几个。

首先，可以通过将每个向量看成是矩阵的一行，来用矩阵表示一个包含多维向量的数据集。例如，如果有1000个人的身高、体重和年龄，就可以创建一个1000×3的矩阵：

```python
data = [
    [70, 170, 40], 
    [65, 120, 26], 
    [77, 250, 19], 
    # ...
]
```

第二，随后我们会看到，可以用一个$n×k$矩阵表示一个线性函数，这个函数将一个$k$维的向量映射到一个$n$维的向量上。我们使用的很多技术与概念都隐含着这样的函数。

第三，可以用矩阵表示二维关系。在第1章中，我们曾经将网络边际表示为数据对$(i,j)$的集合。我们还可以通过建立矩阵A来实现这个描述：如果节点$i$和节点$j$有关系，则用矩阵的元素$A[i][j]$为1来表示；若节点i和节点j没有关系，则用$A[i][j]$为0来表示。

回想前面讲过的关系：

In [16]:
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

# 用户 0 1 2 3 4 5 6 7 8 9
friendships = [
    [0, 1, 1, 0, 0, 0, 0, 0, 0, 0], # user 0 
    [1, 0, 1, 1, 0, 0, 0, 0, 0, 0], # user 1 
    [1, 1, 0, 1, 0, 0, 0, 0, 0, 0], # user 2 
    [0, 1, 1, 0, 1, 0, 0, 0, 0, 0], # user 3 
    [0, 0, 0, 1, 0, 1, 0, 0, 0, 0], # user 4 
    [0, 0, 0, 0, 1, 0, 1, 1, 0, 0], # user 5 
    [0, 0, 0, 0, 0, 1, 0, 0, 1, 0], # user 6 
    [0, 0, 0, 0, 0, 1, 0, 0, 1, 0], # user 7 
    [0, 0, 0, 0, 0, 0, 1, 1, 0, 1], # user 8 
    [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]] # user 9

如果关系很少，这种表示形式的效率就会很低，因为必须存储很多零。但是，通过矩阵表示可以快速地查找确认某两个节点是否是连接的——通过一个矩阵查找函数即可， 不必搜索每条边：
```python
friendships[0][2] == 1  # true，0和2是朋友 
friendships[0][8] == 1  # false，0和8不是朋友
```

若想找到一个节点的所有连接，只需检查这个节点所在的列（或行）：
```python
friends_of_five = [i for i, is_friend in enumerate(friendships[5]) if is_friend]
```
