## 矩阵乘法
使用`Numpy`函数执行矩阵乘法，并了解如何在机器学习中应用。

## 包

In [2]:
import numpy as np

## 矩阵乘法的定义
如果A是一个m * n 矩阵，而B是一个n * p 矩阵，矩阵乘积C = AB(不使用乘号或点表示)定义为满足m * p的$c_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}+\ldots+a_{in}b_{nj}=\sum_{k=1}^{n} a_{ik}b_{kj}, \tag{4}$
其中相加的每一项中的因数分别来自矩阵A和矩阵B，以及i=1,……,m\k=1,……,n、j=1,……,p
换句话说，矩阵C中的每一个元素是矩阵A某一行与矩阵B某一列的点积构成的。

## 使用Python进行矩阵乘法
与点积类似，在Python中执行乘法有多种方法。向量化的计算更高效。让我们讨论最常用的向量化形式（就是把数存进数组）
二维数组中每小组的个数为行数，小组里的元素数是列数

In [3]:
A = np.array([[4,9,9],[9,1,6],[9,2,3]])
print("3*3的矩阵A：",A)

B = np.array([[2,2],[5,7],[4,4]])
print("3*2的矩阵B：",B)

3*3的矩阵A： [[4 9 9]
 [9 1 6]
 [9 2 3]]
3*2的矩阵B： [[2 2]
 [5 7]
 [4 4]]


可以是使用numpy中的函数`np.matmul()`来乘以矩阵A和B

In [4]:
np.matmul(A,B)

array([[ 89, 107],
       [ 47,  49],
       [ 40,  44]])

Python运算符`@`也可以产生相同的效果,当然相乘双方必须为np数组

In [5]:
A@B

array([[ 89, 107],
       [ 47,  49],
       [ 40,  44]])

## 矩阵约定和广播
数学上，矩阵乘法的条件是矩阵A(前面)的列数等于矩阵B(后面)的行数,所以矩阵乘法的顺序不能随便改变。

In [6]:
try:
    np.matmul(B,A)
except ValueError as err:
    print(err)

matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 2)


In [7]:
try:
    B @ A
except ValueError as err:
    print(err)

matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 2)


然而，对于向量的乘法,`Numpy`有一个快捷方式。可以定义两个相同形状的向量X和Y。如果检查向量X的形状：

In [8]:
x = np.array([1,-2,-5])
y = np.array([4,3,-1])
print("x的形状：",x.shape)
print("x的秩：",x.ndim)
print("x变形后的形状:",x.reshape((3,1)).shape)
print("x变形后的秩:",x.reshape((3,1)).ndim)

x的形状： (3,)
x的秩： 1
x变形后的形状: (3, 1)
x变形后的秩: 2


In [9]:
np.matmul(x,y)

np.int64(3)

实际上，np.matmul()会让两个长度相同的一维数组进行点积运算。下面的单元格中，x和y都转换成了二维数组，且列和行不匹配，返回错误。

In [10]:
try:
    np.matmul(x.reshape((3, 1)), y.reshape((3, 1)))
except ValueError as err:
    print(err)

matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 1)


`np.dot()`也适合矩阵乘法

In [11]:
np.dot(A,B)

array([[ 89, 107],
       [ 47,  49],
       [ 40,  44]])

`numpy`将这个点积操作广播到所有的行和所有的列，得到结果乘积矩阵。在其他情况的广播，例如：


In [12]:
A - 2

array([[ 2,  7,  7],
       [ 7, -1,  4],
       [ 7,  0,  1]])

数学上，3 * 3 的矩阵减去一个标量没有定义，但Python会广播标量，创建一个 3 * 3 np.array，然后逐个元素相减。

## 具体的广播逻辑
从右往左比较，维度必须相等或其中一个为1

假设两个数组的形状分别为 (A, B, 1) 和 (C, 1, D)：
从右到左比较维度：
第 3 维度：1 和 D → 不匹配，但 1 可以扩展为 D。

第 2 维度：B 和 1 → 不匹配，但 1 可以扩展为 B。

第 1 维度：A 和 C → 必须相等或其中一个为 1。

扩展后的形状：
最终形状为 (max(A,C), B, D)。