# <font face='微软雅黑'>简介</font><a name='1'></a>

**NumPy** 是 **Num**erical **Py**thon 的缩写，顾名思义它是 Python 专门处理数组 (array) 的计算的工具包。其官网为 www.numpy.org

在使用 numpy 之前，需要引进它，语法如下：

In [1]:
import numpy
numpy.__version__

'1.20.3'

这样就可以用 numpy 里面所有的内置方法 (build-in methods) 了，比如求和 `numpy.sum()` 与均值 `numpy.mean()`。

但这样每次写 numpy 字数有点多，通常给 numpy 起个别名 np，语法如下：

In [2]:
import numpy as np

这样所有出现 numpy 的地方都可以用 np 替代，上面的求和、均值可写成 `np.sum()` 和 `np.mean()`。

数组是相同类型的元素的集合所组成数据结构。numpy 数组中的元素用的最多是**数值型**元素，平时我们说的一维、二维、三维数组长对应着线、面、体。提到数组，大家能想象它们的样子如下：

## 数组想象中的样子


<img src="array.png" style="width:600px height:300px;">

但是数组只可能以**平面形式**打印出来，比如在这个 Notebook 肯定是以二维平面的形式展示出来，那么高于二维的数组的表现形式有些不同。

##  数组打印出的样子

<img src="numpy array printed.png" style="width:600px height:300px;">

分析上图各个数组的在不同维度上的元素：

- 一维数组：
    - 轴 0 有 3 个元素
    
    
- 二维数组
    - 轴 0 有 2 个元素
    - 轴 1 有 3 个元素
    
    
- 三维数组：
    - 轴 0 有 2 个元素 (2 块)
    - 轴 1 有 2 个元素
    - 轴 2 有 3 个元素

## 数组内存里的样子

但是数组的真面目不是你们想象的样子，也不是打印出来的样子。数组本质上是**计算机里一个连续的一维内存块 (1D memory)，由一套索引方案 (indexing scheme) 和数据类型 (data type) 来定义**。因此

    数组 = 内存块 + 索引方案 + 数据类型

其中

- **内存块**是**原始**数组数据
- **索引方案**用来**定位**数组中的元素
- **数据类型**用来**描述**数组中的元素

<img src="pyarrayobject.png" style="width:800px; height:350px;">

***
下面三图总结一、二、三维数组想像中的样子、打印出的样子和内存里的样子。

<img src="1d ndarray.PNG" style="width:720px; height:360px;">

***
<img src="2d ndarray.PNG" style="width:800px; height:400px;">

***
<img src="3d ndarray.PNG" style="width:800px; height:400px;">

## 对比 numpy 数组和列表

为什么要专门学习数组呢？看下面 **numpy 数组**和**列表**之间的计算效率对比：两个大小都是 1000000，把每个元素翻倍，运行 10 次用 `%time` 记时。

In [3]:
%%time
lst = list(range(1000000))
for _ in range(10): 
    my_list = [x * 2 for x in lst]

Wall time: 874 ms


In [4]:
%%time
arr = numpy.arange(1000000)
for _ in range(10): 
    my_arr = arr * 2

Wall time: 29 ms


我们发现 **numpy 数组** 效率是**列表**效率的 20-30 倍左右。如果元素全是数值型变量 (numerical variable)，那么 numpy 数组是个很好的数据结构。

# <font  face='微软雅黑'>数组的创建</font><a name='2'></a>

带着上面这个对轴的认识，接下来创建 numpy 数组，有三种方式：

- 按步就班的 `np.array()` 用在列表和元组上 
- 定隔定点的 `np.arange()` 和 `np.linspace()`
- 一步登天的 `np.ones()`, `np.zeros()`, `np.eye()` 和 `np.random.random()`

## <font color='#2b4750' face='微软雅黑'>一维数组</font><a name='2.1'></a>

用「列表」和「元组」当“原材料”，用**按步就班**的 `np.array()` 将它们转换成 numpy 数组。

In [5]:
l = [3, 5, 2, 8, 4]
t = (4, 8, 2, 5, 3)

arrL = np.array(l)
arrT = np.array(t)

print( "arrL =", arrL )
print( "arrT =", arrT )

arrL = [3 5 2 8 4]
arrT = [4 8 2 5 3]


Python 里万物皆对象 (everything is object)，只要是对象都会有字段 (fields) 和方法 (methods)，Numpy 数组也不例外。

In [6]:
L = [3.5, 5, 2, 8, 4.2]
arr = np.array(L)

print( 'The type is', type(arr) )                #数组类型，当然是 numpy.ndarray
print( 'The dimension is', arr.ndim )            #维度个数是 1
print( 'The length of array is', len(arr) )      #数组长度为 5 (这个说法只对一维数组有意义)
print( 'The number of elements is', arr.size )   #数组元素个数为 5
print( 'The shape of array is', arr.shape )      #数组形状，即每个维度的元素个数，只有一维，元素个数为 5，用元组来表示 (5,)
print( 'The type of elements is', arr.dtype )    #数组元素类型，是双精度浮点 (注意和 type 区分)
print( 'The item size of', arr.dtype, 'is', arr.itemsize ) # 每项占用的字节数，float64有64 位(bits)，占内存8个字节(byte)
print( 'The stride of array is', arr.strides )   #跨度，即在某一维度下为了获取到下一个元素需要「跨过」的字节数，8个字节数

The type is <class 'numpy.ndarray'>
The dimension is 1
The length of array is 5
The number of elements is 5
The shape of array is (5,)
The type of elements is float64
The item size of float64 is 8
The stride of array is (8,)


更常见的两种创建 numpy 数组方法：

1.	定隔用 `arange()` 函数：即固定数组中元素之间的**间隔**
2.	定点用 `linspace()` 函数：即固定数组中元素**个数**

先看用 `arange()` 函数生成 numpy 数组的例子：

In [7]:
print( np.arange(8) )
print( np.arange(2,8) )
print( np.arange(2,8,2))

[0 1 2 3 4 5 6 7]
[2 3 4 5 6 7]
[2 4 6]


`arange()` 函数有三个参数，分别为起点、终点,、步长

	arange(start, stop, step)

其中
- 参数 `stop` 必须要设置。
- 参数 `start` 在没设置时默认为 0。
- 参数 `step` 在没设置时默认为 1。

**注：用 `print()` 函数打印 numpy 数组就没有 `array()` 的字样了，只显示内容，而且元素之间的逗号也没有了。**

In [8]:
print( np.arange(2,8,2) )
np.arange(2,8,2)

[2 4 6]


array([2, 4, 6])

再看用 `linspace()` 函数生成 numpy 数组的例子：

In [9]:
print( np.linspace(2,6,3) )
print( np.linspace(3,8,11) )

[2. 4. 6.]
[3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8. ]


`linspace()` 函数有三个参数，分别为起点、终点、点数

	linspace(start, stop, num)

其中

- 参数 `start`和 `stop` 必须要设置。
- 参数 `num` 没有设置就默认为 50。

## 二维数组

用按步就班法的 `np.array()` 加上二维列表生成二维数组 `arr2d`

In [10]:
L2 = [[1, 2, 3], [4, 5, 6]]
arr2d = np.array(L2)
print(arr2d)

[[1 2 3]
 [4 5 6]]


NumPy 还提供一次性的创建数组的函数，如

- 用 `zeros()` 创建元素全是 0 的数组
- 用 `ones()` 创建元素全是 1 的数组
- 用 `random()` 创建随机元素的数组
- 用 `eye()` 创建对角线都是 1 其他元素都是 0 的二维数组
 
对于前三个函数，它们的参数是一个**标量**或**元组**，对于函数 `eye()`，它的参数就是一个标量 (同时代表行列数) 或两个标量 (分别代表行列数)。

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [12]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [13]:
np.random.random((2,2))

array([[0.29720281, 0.84485041],
       [0.90712453, 0.53081609]])

In [14]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [15]:
np.eye(3, 4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

## 多维数组

In [16]:
arr4d = np.random.random( (2,2,2,3) )
arr4d

array([[[[0.0673088 , 0.82107297, 0.33581019],
         [0.66249686, 0.75981474, 0.6731257 ]],

        [[0.71662313, 0.9495652 , 0.54358518],
         [0.37513104, 0.86276272, 0.6358024 ]]],


       [[[0.49942195, 0.1661961 , 0.21927883],
         [0.62353985, 0.35996365, 0.76278327]],

        [[0.17945747, 0.84373601, 0.48273859],
         [0.45664334, 0.97140571, 0.35172057]]]])

四维数组“**看上去的样子**”如下图所示，由于有 24 个元素，它“**内存中的样子**”很难呈现在一页纸上，但是可以想成是 24 个元素横着排列，然后有四个代表轴的指针，指向的点包含的元素乘以 8 字节 (因为是 float64)，就等于每个轴的跨度值。

<img src="4d array.png" style="width:600px height:300px;">

回顾跨度定义，即在某一维度下获取到下一个元素需要「跨过」的字节数。


- 第一维度：沿着**轴 0** 获取下一个元素需要跨过 12 个元素，即 96 (12×8) 个字节
- 第二维度：沿着**轴 1** 获取下一个元素需要跨过 6 个元素，即 48 (6×8) 个字节
- 第三维度：沿着**轴 2** 获取下一个元素需要跨过 3 个元素，即 24 (3×8) 个字节
- 第四维度：沿着**轴 3** 获取下一个元素需要跨过 1 个元素，即 8 (1×8) 个字节

因此该四维数组的跨度为 (96, 48, 24, 8)。

# 数组的存载

存载包括**保存** (save) 和**加载** (load) numpy 数组：

- 为下一次加载而储存
- 从上一次存储来加载

下面只用 csv 格式举例。 

假设已经在 csv 文件里写进去了 [[1,2,3], [4,5,6]]，每行的元素是由「分号 ;」来分隔的。用 

    np.genfromtxt( csv_file ) 

即可加载该文件。加载流程总结在下图。

<img src="csv save and load.png" style="width:600px; height:330px;">

In [19]:
arr_ = np.genfromtxt('arr_csv.csv')
print( arr_ )

[nan nan]


如果没有设置分隔符 `delimiter=';'`，那么 `genfromtxt()` 函数读取的两个元素是「1;2;3」和「4;5;6」。它们不是数字，因此只能用 `nan` (Not a Number) 来表示。带上分隔符 `delimiter=';'`，再用 

    np.genfromtxt( csv_file，delimiter ) 

即可正确加载该文件。

In [20]:
arr_ = np.genfromtxt('arr_csv.csv', delimiter=';')
print( arr_ )

[[1. 2. 3.]
 [4. 5. 6.]]


# 数组的获取

## 普通获取

从数组中获取元素是通过**索引** (indexing) 和**切片** (slicing) 来完成的，

- 切片是按一片的方式获取子数组
- 索引是按一个的方式获取元素

### 一维数组
创建一个数组 `arr = [0,1,2,3,4]`。 

In [21]:
arr = np.arange(5)
print( arr )

[0 1 2 3 4]


#### 索引
用 `arr[3]` 索引第 4 个元素 (Python 是从 0 开始记录位置的，因此索引 3 指的是第 4 位置的元素)。

In [22]:
arr[3]

3

除了索引单个元素，我们也可以一次性索引多个元素。

In [23]:
arr[[1,2,3]]

array([1, 2, 3])

#### 切片
用 `arr[1:4]` 切片第 2 到 4 元素 (Python 切片含头不含尾，因此 1:4 包含第 2 个元素，但是不包含第 5 个元素)。

In [24]:
arr[1:4]

array([1, 2, 3])

类比数组切片和列表切片，虽然语法一样，但是有个核心区别：

- 数组切片得到的是原数组的一个**视图** (view)，修改切片中的内容**会改变**原数组
- 列表切片得到的是原列表的一个**复制** (copy)，修改列表中的内容**不改变**原列表

视图和复制的示意图如下。

<img src="list and numpy slicing.png" style="width:500px; height:280px;">

用下面一维数组的例子来说明数组切片和列表切片的不同。

In [25]:
l = [0,1,2,3,4]
l_slice = l[:3]

In [26]:
l_slice[0] = 100
print(l_slice)
print(l)

[100, 1, 2]
[0, 1, 2, 3, 4]


In [27]:
arr_slice = arr[:3]
arr_slice[0] = 100
print(arr_slice)
print(arr)

[100   1   2]
[100   1   2   3   4]


更改列表切片 `l_slice` 中的第一个元素并没有该更改原列表 `l` 的值，但是更改数组切片 `arr_slice` 中的第一个元素更改了原数组 `arr` 的值。NumPy 这样设计是为了能处理大型数组，试想每次切片大量数据都要复制会很没有效率。

但如果有复制数组的需求，可以使用 `copy()` 函数再将其赋值给一个新数组。

In [28]:
arr_copy = arr[1:4].copy()
arr_copy

array([1, 2, 3])

In [29]:
arr_copy[1] = 9999

print(arr)
print(arr_copy)

[100   1   2   3   4]
[   1 9999    3]


### 二维数组
二维数组可看成每个元素都是一个数组的一维数组。

In [30]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### 索引

索引有两种情况：

1. **行状获取**：用 `arr2d[2]` 来索引第三行。
2. **元素获取**
    - 用 `arr2d[0][2]` 来索引第一行第三列。
    - 用 `arr2d[0, 2]` 也可以索引第一行第三列。

In [31]:
arr2d[2]

array([7, 8, 9])

In [32]:
arr2d[0][2]

3

In [33]:
arr2d[0,2]

3

从上面结果可知，`arr2d[0][2]` 和 `arr2d[0, 2]` 是等价的，但是

- 前者要用多个中括号，每个括号里放入相应维度的索引值。
- 后者只用一个中括号，放入把所有维度的索引值

试想索引一个五维数组，后者的代码就少很多了。

#### 切片

切片有三种情况

1. **行状获取**：用 `arr2d[:2]` 切片前两行。
2. **列状获取**：用 `arr2d[:, [0,2]]` 切片第一列和第三列。
3. **块状获取**：
    - 用 `arr2d[1, :2]` 切片第二行的前两个元素。
    - 用 `arr2d[:2, 2]` 切片第二和三列的后两个元素。

这里冒号 `:` 的用法和列表中的用法一致。

In [34]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

切片 `arr2d` 第两行，有三种写法，分别是：

    arr2d[1] 对行做索引，压缩原二维数组的维度降到一维。
    arr2d[1,:] 对行做索引，用 : 切片所有列，压缩原二维数组的维度降到一维。
    arr2d[1:2,:] 对行做切片，保持原二维数组的维度不变。

In [35]:
print( arr2d[1], arr2d[1].shape )
print( arr2d[1,:], arr2d[1,:].shape )
print( arr2d[1:2,:], arr2d[1:2,:].shape )

[4 5 6] (3,)
[4 5 6] (3,)
[[4 5 6]] (1, 3)


切片 `arr2d` 第一列和第三列

In [36]:
arr2d[:,[0,2]] 

array([[1, 3],
       [4, 6],
       [7, 9]])

切片 `arr2d` 第二和三列的后两个元素

In [37]:
arr2d[-2:, 1:]

array([[5, 6],
       [8, 9]])

切片 `arr2d` 第二行前两列的元素

    arr2d[1,:2] 对行做索引，压缩原二维数组的维度降到一维。
    arr2d[1:2,:2] 对行做切片，保持原二维数组的维度不变。

In [38]:
print( arr2d[1, :2], arr2d[1, :2].shape )
print( arr2d[1:2, :2], arr2d[1:2, :2].shape )

[4 5] (2,)
[[4 5]] (1, 2)


二维数组不同的获取情况和写法总结在下图：

<img src="2d array extraction.png" style="width:800px; height:300px;">

## 布尔获取

布尔获取 (boolean indexing)，就是用一个由布尔类型值组成的数组来获取元素的方法。

假设有阿里巴巴，脸书和京东的

- 股票代号数组：阿里巴巴是 BABA，脸书是 FB 和京东是 JD
- 股票价格数组：每行记录一天开盘，最高和收盘价格

首先生成股票代号数组 code 和股票价格数组 price

In [39]:
code = np.array(['BABA', 'FB', 'JD', 'BABA', 'JD', 'FB'])
price = np.array([[170,171,169],[150,152,153],[24,25,26],[165,166,167],[22,21,20],[155,156,157]])
print(price)

[[170 171 169]
 [150 152 153]
 [ 24  25  26]
 [165 166 167]
 [ 22  21  20]
 [155 156 157]]


要找出 BABA 对应的股价，首先找到 `code` 数组里元素是 'BABA' 对应的布尔索引。下式的等号 `==` 是检查 `code` 里每一个元素，如果是 `BABA` 返回 **`True`**，反之返回 **`False`**。

In [40]:
code == 'BABA'

array([ True, False, False,  True, False, False])

该布尔数组可以看成是一种索引用来获取 BABA 的股价。

In [41]:
price[ code == 'BABA' ]

array([[170, 171, 169],
       [165, 166, 167]])

用该索引还可以获取 BABA 的最高和收盘价格 (对应第 2 和 3 列)

In [42]:
price[ code == 'BABA', 1: ]

array([[171, 169],
       [166, 167]])

再试试获取 JD 和 FB 的股价，这次先把布尔数组赋值给 `condition`，再用它在 `price` 数组中做索引。

In [43]:
condition = ((code == 'FB')|(code == 'JD'))
price[ condition ]

array([[150, 152, 153],
       [ 24,  25,  26],
       [ 22,  21,  20],
       [155, 156, 157]])

布尔索引可以用来赋值，比如把股价小于 25 的清零。

In [44]:
price[ price < 25 ] = 0
price

array([[170, 171, 169],
       [150, 152, 153],
       [  0,  25,  26],
       [165, 166, 167],
       [  0,   0,   0],
       [155, 156, 157]])

## 花式获取

花式索引 (fancy indexing) 是用获取数组中**特定**元素的有效方法。考虑下面这个 8 × 4 数组：

In [45]:
arr = np.arange(32).reshape(8,4)
print( arr )

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


如果想按特定顺序来获取第 5, 4 和 7 行时，用 `arr[[4,3,6]]` 或者 `arr[[4,3,6],:]`  

In [46]:
arr[ [4,3,6] ]

array([[16, 17, 18, 19],
       [12, 13, 14, 15],
       [24, 25, 26, 27]])

In [47]:
arr[ [4,3,6], : ] 

array([[16, 17, 18, 19],
       [12, 13, 14, 15],
       [24, 25, 26, 27]])

此外还能更灵活的设定「行」和「列」中不同的索引，如下

In [48]:
arr[ [1,5,7,2], [0,3,1,2] ]

array([ 4, 23, 29, 10])

上行获取的分别是第二行第一列 [1,0]、第六行第四列 [5,3]、第八行第二列 [7,1]、第三行第三列 [2,2] 的元素，它们确实是 4, 23, 29 和 10。如果不用花式索引，只能用下面繁琐的代码来实现。

In [49]:
np.array( [ arr[1,0], arr[5,3], arr[7,1], arr[2,2] ] )

array([ 4, 23, 29, 10])

用花式索引还可以交换 `arr` 的列，下列把第二、六、八和三行的把列索引 `[0,1,2,3]` 换成 `[0,3,1,2]`。

In [50]:
arr[ [1,5,7,2] ][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

此外用 `take()` 和 `put()` 函数可以做花式索引。

    np.take(arr,ind) 近似等价于 arr[ind]
    np.take(arr,ind,axis=1) 近似等价于 arr[:,ind,...]
    np.put(arr,ind,v) 近似等价于 arr[ind] = v

In [51]:
np.take( arr, [1,5,7,2] )

array([1, 5, 7, 2])

In [52]:
np.take( arr, [2,4], axis=0 )

array([[ 8,  9, 10, 11],
       [16, 17, 18, 19]])

In [53]:
np.take( arr, [1,3], axis=1 )

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15],
       [17, 19],
       [21, 23],
       [25, 27],
       [29, 31]])

In [54]:
np.put( arr, [1,5,7,2], [11,55,77,22] )
arr

array([[ 0, 11, 22,  3],
       [ 4, 55,  6, 77],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [55]:
np.put( arr, [0,40], -1, mode='clip')
arr

array([[-1, 11, 22,  3],
       [ 4, 55,  6, 77],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, -1]])

#  数组的变形

本节介绍四类数组变形，分别是

1. **重塑** (reshape) 和**打平** (flatten)
2. **合并** (stack) 和**分裂** (split)
3. **重复** (repeat) 和**拼接** (tile)
4. **排序** (sort)、**增减** (insert, delete)、**视图** (view) 和 **复制** (copy)

## 重塑和打平

重塑 (reshape) 和打平 (flatten) 这两个操作仅仅只改变数组的视图形式，

- 重塑是**从低维到高维**，用 `reshape()` 函数。
- 打平是**从高维到低维**，用 `flatten()` 或 `ravel()` 函数。

### 重塑 - 从低维到高维

用 `reshape()` 函数将一维数组 `arr` 重塑成二维数组 `arr2d` (4 行 3 列)，传入元组参数 (4,3)。

In [56]:
arr = np.arange(1,13)
print( arr )
print( arr.reshape((4,3)) )

[ 1  2  3  4  5  6  7  8  9 10 11 12]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


当你重塑高维矩阵时，不想花时间算某一维度的元素个数时，可以用「-1」取代，程序会自动计算出来。比如把 12 个元素重塑成 (2, 6)，你可以写成 (2,-1) 或者 (-1, 6)。

In [57]:
print( arr.reshape((2,-1)) )
print( arr.reshape((-1,6)) )

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]


### 打平 - 从高维到低维

用 `flatten()` 函数将二维数组 `arr2d` 打平成一维数组 `arr`。

In [58]:
arr = np.arange(1,13).reshape((4,3))
print( arr )

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [59]:
ravel_arr = arr.ravel()
print( ravel_arr )

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [60]:
flatten_arr = arr.flatten()
print( flatten_arr )

[ 1  2  3  4  5  6  7  8  9 10 11 12]


***
**问题：为什么打平后的数组不是**

    [ 1  4  7 10  2  5  8 11  3  6  9 12]
***
要回答上面两个问题，需要了解 numpy 数组在内存块的存储方式。

### 行主序和列主序

在二维数组中，行主序 (row-major order) 指每行的元素在内存块中彼此相邻，而列主序 (column-major order) 指每列的元素在内存块中彼此相邻。在众多计算机语言中，

- 默认行主序的有 C 语言 (下图 `order='C'` 等价于行主序)
- 默认列主序的有 Fortran 语言 (下图 `order='F'` 等价于列主序)

<img src="row column major order.png" style="width:450px; height:270px;">

在高维数组中，严谨来说

- **行主序**: 先遍历维度**高**的元素，比如先遍历轴 1 (按行遍历) 上的元素
- **列主序**: 先遍历维度**低**的元素，比如先遍历轴 0 (按列遍历) 上的元素

在 numpy 数组中，默认的是行主序，即 `order ='C'`。根据上图可以回答上面那两个问题了。

此外，如果想在「重塑」和「打平」时用列主序，只用把 `order` 设为 `'F'`。以重塑举例：

In [61]:
arr = np.arange(1,13)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [62]:
print( arr.reshape((4,3), order='F') )

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


In [63]:
arr = np.arange(1,13).reshape((4,3))
arr

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [64]:
print( arr.ravel(order='F') )
print( arr.flatten(order='F') )

[ 1  4  7 10  2  5  8 11  3  6  9 12]
[ 1  4  7 10  2  5  8 11  3  6  9 12]


为什么「打平」需要两个函数 `ravel()` 或 `flatten()`？它们的不同点在哪里？

- `ravel()` 在「行主序」打平时没有复制原数组，只在「列主序」打平时复制了原数组
- `flatten()` 在所有情况下打平时都复制了原数组

下面来验证。首先看 `flatten()` 函数，将打平后的数组 `flatten` 第一个元素更新为 10000，并没有对原数组 `arr` 产生任何影响 (证明 `flatten()` 函数的确是复制了原数组)

In [65]:
arr = np.arange(6).reshape(2,3)
print( arr )

[[0 1 2]
 [3 4 5]]


In [66]:
flatten = arr.flatten()
flatten[0] = 10000
print( flatten )
print( arr )

[10000     1     2     3     4     5]
[[0 1 2]
 [3 4 5]]


再看 `ravel()` 函数在「列主序」打平，将打平后的数组 `ravel_F` 第一个元素更新为 10000，并没有对原数组 `arr` 产生任何影响 (证明 `ravel(order='F')` 的确是复制了原数组)

In [67]:
ravel_F = arr.ravel( order='F' )
ravel_F[0] = 10000
print( ravel_F )
print( arr )

[10000     3     1     4     2     5]
[[0 1 2]
 [3 4 5]]


最后看 `ravel()` 函数在「行主序」打平，将打平后的数组 `ravel_C` 第一个元素更新为 10000，原数组 `arr[0][0]` 也变成了 10000 (证明 `ravel()` 函数没有复制原数组，而是它的视图)

**注意：`ravel()` 函数的 `order` 参数默认设置是行主序，因此打平后的数组是原数组的视图，两者指向的是一个对象。**

In [68]:
ravel_C = arr.ravel()
ravel_C[0] = 10000
print( ravel_C )
print( arr )

[10000     1     2     3     4     5]
[[10000     1     2]
 [    3     4     5]]


## 合并和分裂

合并和分裂这两个操作仅仅只改变数组的分合，

- 合并是多合一
- 分裂是一分多

### 合并

用于合并的方式有三种：

1. 有通用的 `concatenate()` 函数
2. 有专用的 `vstack()`, `hstack()`, `dstack()` 函数
3. 有极简的 `r_[]`, `c_[]` 方法（略） 

用下面两个数组来举例：

In [69]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])

#### `concatenate`

在 `concatenate()` 函数里通过设定轴，来对若干个数组按轴来合并。对二维数组，

- `axis = 0`：按行合并，或沿竖直方向合并
- `axis = 1`：按列合并，或沿水平方向合并

In [70]:
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [71]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

#### `vstack, hstack, dstack`

通用的 `concatenate()` 是好，但是效率不高，NumPy 里还有专门合并的函数 `stack()`，细分有三种，

- `vstack()`：v 代表 vertical，沿着竖直方向合并，即沿着「轴 0」合并，和 `concatenate(axis=0)` 等价。
- `hstack()`：h 代表 horizontal，沿着水平方向合并，即沿着「轴 1」合并，和 `concatenate(axis=1)` 等价。
- `dstack()`：d 代表 depth-wise，沿着深度方向合并，即沿着「轴 2」合并，和 `concatenate(axis=2)` 等价。 

In [72]:
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [73]:
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [74]:
np.dstack((arr1, arr2))

array([[[ 1,  7],
        [ 2,  8],
        [ 3,  9]],

       [[ 4, 10],
        [ 5, 11],
        [ 6, 12]]])

和 `vstack()`, `hstack()` 不同，`dstack()` 在原数组的维度上又增加了一维。

比较上面用 `dstack()` 合并后的数组打印结果和下图我们习惯理解的在深度上合并的结果，发现两者不一致。

In [75]:
np.dstack((arr1, arr2)).shape

(2, 3, 2)

In [76]:
arr_d = np.dstack((arr1, arr2))
arr_d.transpose(2,0,1)      #后续transpose还有详解

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

一图胜千言来总结三种类型 `stack()` 函数。

<img src="stack.png" style="width:650px; height:350px;">

### 分裂

用于分裂的方式有两种：

1. 有通用的 `split()`
2. 有专用的 `hsplit()`, `vsplit()`

用下面数组来举例：

In [77]:
arr = np.arange(1,26).reshape((5,5))
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

#### `split`
和 `concatenate()` 函数一样，我们可以在 `split()` 函数里通过设定轴，来对数组按轴来分裂。对二维数组，

- `axis = 0`：按行分裂，或沿竖直方向分裂
- `axis = 1`：按列分裂，或沿水平方向分裂

In [78]:
first, second, third = np.split(arr,[1,3])
print( '第一部分为', first )
print( '第二部分为', second )
print( '第三部分为', third )

第一部分为 [[1 2 3 4 5]]
第二部分为 [[ 6  7  8  9 10]
 [11 12 13 14 15]]
第三部分为 [[16 17 18 19 20]
 [21 22 23 24 25]]


`split()` 函数默认沿着轴 0 分裂，其第二个参数 [1, 3] 相当于是个切片操作，将数组分成三部分：

- 第一部分 - `:1`   (第 1 行)
- 第二部分 - `1: 3` (第 2 到 3 行)
- 第二部分 - `3:`   (第 4 到 5 行)

#### `vsplit, hsplit`
通用的 `split()` 是好，但是效率不高，NumPy 里还有专门分裂的函数细分有两种，

- `vsplit()`：v 代表 vertical，沿着竖直方向分裂，即沿着「轴 0」分裂，和 `split(axis=0)` 等价。
- `hsplit()`：h 代表 horizontal，沿着水平方向分裂，即沿着「轴 1」分裂，和 `split(axis=1)` 等价。

用下面数组 `arr` 来举例：

In [79]:
first, second = np.vsplit(arr,[2])
print( '第一部分为：','\n', first )
print( '第二部分为：','\n', second )

第一部分为： 
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
第二部分为： 
 [[11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]


In [80]:
first, second, third = np.hsplit(arr,[1,3])
print( '第一部分为：','\n', first )
print( '第二部分为：','\n', second )
print( '第三部分为：','\n', third )

第一部分为： 
 [[ 1]
 [ 6]
 [11]
 [16]
 [21]]
第二部分为： 
 [[ 2  3]
 [ 7  8]
 [12 13]
 [17 18]
 [22 23]]
第三部分为： 
 [[ 4  5]
 [ 9 10]
 [14 15]
 [19 20]
 [24 25]]


一图胜千言来总结两种类型 `split()` 函数。

<img src="split.png" style="width:500px; height:250px;">

## 重复和拼接

重复和拼接这两个操作本质都是复制，

- 重复是在**元素层面**复制，用 `repeat()` 函数。
- 拼接是在**数组层面**复制，用 `tile()` 函数。

### `Repeat`
`repeat()` 函数复制的是数组的每一个元素，参数有几种设定方法：

- 一维数组：用**整数型**和**列表型**参数来控制元素被复制的个数。
- 多维数组：用**整数型**和**列表型**参数来控制元素被复制的个数，用轴来控制复制的方向。

先拿一维数组 `arr` 举例：

In [81]:
arr = np.arange(3)
print( arr )

[0 1 2]


**标量参数** - 将数组 `arr` 里每个元素复制 3 遍。

In [82]:
print( arr.repeat(3) )

[0 0 0 1 1 1 2 2 2]


**列表参数** - 将数组 `arr` 里第一个元素复制 2 遍，第二个元素复制 3 遍，第三个元素复制 4 遍。

In [83]:
print( arr.repeat([2,3,4]) )

[0 0 1 1 1 2 2 2 2]


先拿二维数组 `arr2d` 举例，这时需要额外参数在指定轴上做重复。

In [84]:
arr2d = np.arange(6).reshape((2,3))
print( arr2d )

[[0 1 2]
 [3 4 5]]


**标量参数和轴参数** - 将数组 `arr2d` 中每个元素沿着轴 0 复制 2 遍。

In [85]:
print( arr2d.repeat(2, axis=0) )

[[0 1 2]
 [0 1 2]
 [3 4 5]
 [3 4 5]]


**列表参数和轴参数** - 将数组 `arr2d` 中每个元素沿着轴 1 分别复制 2, 3, 4 遍。

In [86]:
print( arr2d.repeat([2,3,4], axis=1) )

[[0 0 1 1 1 2 2 2 2]
 [3 3 4 4 4 5 5 5 5]]


### `Tile`
`tile()` 函数复制的是数组本身，参数有几种设定方法：

- 整数型：把数组当成一个元素，按列复制
- 元组型：把数组当成一个元素，按形状复制

用下面数组 `arr2d` 来举例：

In [87]:
arr2d = np.arange(6).reshape((2,3))
print( arr2d )

[[0 1 2]
 [3 4 5]]


**标量参数** - 数组 `arr2d` 按列复制 2 遍。

In [88]:
print( np.tile(arr2d,2) )

[[0 1 2 0 1 2]
 [3 4 5 3 4 5]]


**元组参数** - 数组 `arr2d` 按形状复制 6 (2×3) 遍，并以 (2,3) “矩阵”的形式展现。可以想象成是矩阵中有矩阵。

In [89]:
print( np.tile(arr2d, (2,3)) )

[[0 1 2 0 1 2 0 1 2]
 [3 4 5 3 4 5 3 4 5]
 [0 1 2 0 1 2 0 1 2]
 [3 4 5 3 4 5 3 4 5]]


## 排序

排序包括**直接排序** (direct sort) 和**间接排序** (indirect sort)。

### 直接排序

和列表的 `sort()` 函数一样，数组的 `sort()` 函数也是原地 (in-place) 排序，即在原数组操作而不需要新创建一个数组。

In [90]:
arr = np.array([5,3,2,6,1,4])
print( '排序前 arr =', arr )
arr.sort()
print( '排序后 arr =', arr )

排序前 arr = [5 3 2 6 1 4]
排序后 arr = [1 2 3 4 5 6]


`sort()` 函数是按升序 (ascending order) 排列的，该函数里没有参数可以控制**顺序**，如果想要降序排列数组，只需在升序排序后

In [91]:
print( arr[::-1] )

[6 5 4 3 2 1]


用来排序数组用两种方式：

1. `arr.sort()`
2. `np.sort( arr )`

第一种方式是原地排序，因此会改变 `arr`；第二种方式在排序时复制了 `arr` 再排序，因此不会改变 `arr`。

看下面代码，用一个形状是 (3, 4) 的「二维随机整数」数组来举例，用整数是为了便于读者好观察排序前后的变化。为了能重现之前的结果，我们设定随机种子为 1031 (可以设为任何整数)。

In [92]:
np.random.seed(1031)

In [93]:
arr = np.random.randint( 40, size=(3,4) )
print( arr )

[[24 32 23 30]
 [26 27 28  0]
 [ 9 14 24 13]]


用 `arr.sort()` 对第一列排序，操作完后发现 `arr` 的元素已经改变。

In [94]:
arr[:, 0].sort()
print( arr )

[[ 9 32 23 30]
 [24 27 28  0]
 [26 14 24 13]]


用 `np.sort(arr)` 对第二列排序，操作完后发现 `arr` 的元素不变。

In [95]:
np.sort(arr[:,1])

array([14, 27, 32])

In [96]:
print( arr )

[[ 9 32 23 30]
 [24 27 28  0]
 [26 14 24 13]]


此外 `sort()` 函数也可以在不同的轴上排序。对于二维数组，在「轴 0」上排序是「跨行」排序，在「轴 1」上排序是「跨列」排序。

In [97]:
arr.sort(axis=1)
print( arr )

[[ 9 23 30 32]
 [ 0 24 27 28]
 [13 14 24 26]]


In [98]:
arr.sort(axis=0)
print( arr )

[[ 0 14 24 26]
 [ 9 23 27 28]
 [13 24 30 32]]


### 间接排序（ `argsort`）

有时候不仅仅只想排序数组，还想在排序过程中**提取排好的新数组中每个元素在原数组对应的索引** (index)，这时 `argsort()` 函数就派上用场了。

In [99]:
score = np.array([100, 60, 99, 80, 91])
idx = score.argsort()
print( idx )

[1 3 4 2 0]


这个 `idx = [1 3 4 2 0]` 存储着排序之后元素在原数组中的位置索引。

按升序排完之后分数应该是 `result` [<font color='blue'>60 80 91 99 100</font>]，下面来分析和 `idx` 中 [<font color='red'>1 3 4 2 0</font>] 之间的关系。

- 60，即 `score`[<font color='red'>1</font>] 的元素排完后在 `result` 的第<font color='blue'> 0 </font>位， 因此 `idx`[<font color='blue'>0</font>] = <font color='red'>1</font>

- 80，即 `score`[<font color='red'>3</font>] 的元素排完后在 `result` 的第<font color='blue'> 1 </font>位， 因此 `idx`[<font color='blue'>1</font>] =<font color='red'>3</font>

- 91，即 `score`[<font color='red'>4</font>] 的元素排完后在 `result` 的第<font color='blue'> 2 </font>位， 因此 `idx`[<font color='blue'>2</font>] =<font color='red'>4</font>

- 99，即 `score`[<font color='red'>2</font>] 的元素排完后在 `result` 的第<font color='blue'> 3 </font>位， 因此 `idx`[<font color='blue'>3</font>] =<font color='red'>2</font>

- 100，即 `score`[<font color='red'>0</font>] 的元素排完后在 `result` 的第<font color='blue'> 4 </font>位， 因此 `idx`[<font color='blue'>4</font>] =<font color='red'>0</font>

用这个 `idx` 对 `score` 做一个「花式索引」得到

In [100]:
print( score[idx] )

[ 60  80  91  99 100]


再看一个稍微复杂一点的例子，根据第一行排序的结果调整其他行的顺序。

In [101]:
arr = np.random.randint( 100, size=(3,4) )
arr

array([[33, 76, 22, 63],
       [53, 88, 22, 86],
       [62, 52, 31, 49]])

In [102]:
arr[:, arr[0].argsort()]

array([[22, 33, 63, 76],
       [22, 53, 86, 88],
       [31, 62, 49, 52]])

解决该问题分两步：

1. 用 `argsort()` 函数得到位置索引 `idx`。
2. 将 `idx` 用到所有行上。

In [103]:
idx = arr[0].argsort()
idx

array([2, 0, 3, 1], dtype=int64)

In [104]:
arr[:, idx]

array([[22, 33, 63, 76],
       [22, 53, 86, 88],
       [31, 62, 49, 52]])

## 添加（`insert`）和删除（`delete`）

在数组中添加和删除操作和列表一样

- 用 `insert()` 函数在某个特定位置**之前**插入元素
- 用 `delete()` 函数删除某些特定元素

In [105]:
arr = np.arange(6)
print( arr )
print( np.insert(arr, 1, 100) )
print( np.delete(arr, [1,3]) )

[0 1 2 3 4 5]
[  0 100   1   2   3   4   5]
[0 2 4 5]


## 视图（`view`）和复制（`copy`）

对于数组 `arr`

- 用 `view()` 函数来对 `arr` 做视图，`arr_view` 指向 `arr` 但没有复制它，改变 `arr_view` 里面的元素**会改变** `arr`，类似于指针。
- 用 `copy()` 函数来对 `arr` 做复制，改变 `arr_copy` 里面的元素**不改变** `arr`。

In [106]:
arr = np.arange(4)
arr_view = arr.view()
print( '更改 arr_view 之前, arr = ', arr )
arr_view[-1] = 9
print( '更改 arr_view 之后, arr = ', arr )

更改 arr_view 之前, arr =  [0 1 2 3]
更改 arr_view 之后, arr =  [0 1 2 9]


In [107]:
arr = np.arange(4)
arr_copy = arr.copy()
print( '更改 arr_copy 之前, arr = ', arr )
arr_copy[-1] = 9
print( '更改 arr_copy 之后, arr = ', arr )

更改 arr_copy 之前, arr =  [0 1 2 3]
更改 arr_copy 之后, arr =  [0 1 2 3]


# 数组的计算

本节介绍四大类的数组计算，它们分别是

1.	元素层面 (element-wise) 计算
2.	线性代数 (linear algebra) 计算
3.	元素整合 (element aggregation) 计算
4.	广播机制 (broadcasting) 计算

## 元素层面

在元素层面计算就是在数组上执行一个操作，这个操作并行应用到数组的每一个元素上。这种不需要写 `for` 循环的操作称为**向量化** (vectorization)。

Numpy 数组元素层面计算的操作包括：

1. 二元运算 (binary operation)：加、减、乘、除
2. 函数运算 (math function)：倒数、平方、开方、指数、对数
3. 比较运算 (comparison)

先定义两个数组 `arr1` 和 `arr2`。

In [108]:
arr1 = np.array([[1., 2., 3.], [4., 5., 6.]])
arr2 = np.ones((2,3)) * 2
print( arr1 )
print( arr2 )

[[1. 2. 3.]
 [4. 5. 6.]]
[[2. 2. 2.]
 [2. 2. 2.]]


###  二元运算

In [109]:
# addition
arr1 + arr2 + 1

array([[4., 5., 6.],
       [7., 8., 9.]])

In [110]:
# substraction
arr1 - arr2

array([[-1.,  0.,  1.],
       [ 2.,  3.,  4.]])

In [111]:
# multiplication
arr1 * arr2

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [112]:
# division
arr1 / arr2

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ]])

在加法运算中，注意在 `arr1 + arr2` 后又加上一个标量 1。标量是如何加在数组上的呢？ NumPy 会将「标量 1」转换成和「`arr1` 一样大小的数组而里面的元素都是 1」，再在元素层面上做加法。上述这个复制标量的操作叫做「广播机制」，是 NumPy 里最重要的一个特点，在本节后面会详细讲到。

### 函数运算

In [113]:
# reciprocal
1 / arr1

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [114]:
# square
arr1 ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [115]:
# square root
np.sqrt( arr1 )

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [116]:
# sin
np.sin( arr1*np.pi )

array([[ 1.22464680e-16, -2.44929360e-16,  3.67394040e-16],
       [-4.89858720e-16,  6.12323400e-16, -7.34788079e-16]])

In [117]:
# exponential
np.exp( arr1 )

array([[  2.71828183,   7.3890561 ,  20.08553692],
       [ 54.59815003, 148.4131591 , 403.42879349]])

In [118]:
# logarithm
np.log( arr1 )

array([[0.        , 0.69314718, 1.09861229],
       [1.38629436, 1.60943791, 1.79175947]])

### 比较运算

In [119]:
# element-wise comparison
arr1 > arr2

array([[False, False,  True],
       [ True,  True,  True]])

In [120]:
np.greater(arr1, arr2)

array([[False, False,  True],
       [ True,  True,  True]])

In [121]:
# element-wise comparison + broadcasting
arr1 < 3

array([[ True,  True, False],
       [False, False, False]])

In [122]:
np.less(arr1, 3)

array([[ True,  True, False],
       [False, False, False]])

In [123]:
# array-wise comparison
np.array_equal( arr1, arr2 )

False

In [124]:
#Returns True if two arrays are element-wise equal within a tolerance.
np.allclose( arr1, arr2 )

False

从上面结果总结，

- 「数组和数组间的二元运算」都是在元素层面上进行的
- 「作用在数组上的函数运算」都是作用在数组的元素层面上的
- 「数组和数组间的比较运算」都是在元素层面上进行的

## 线性代数

线性代数中有大量的矩阵或向量之间的运算。

但在 NumPy 中默认不采用矩阵运算，而是数组运算。矩阵只是二维，而数组可以是任何维度，因此数组运算比矩阵运算更加通用些。

如果非要用二维数组 `arr2d` 进项矩阵运算，可以通过调用以下函数来实现：

    A = np.mat(arr2d)
    A = np.asmatrix(arr2d)

下面分别对「数组」和「矩阵」从**创建**、**转置**、**求逆**和**相乘**四个方面看看它们的同异。

###  创建
用 `np.array()` 和 `np.asmatrix()` 来创建数组 `arr2d` 和矩阵 `A`，注意它们的输出有 array 和 matrix 关键词。

In [125]:
arr2d = np.array([[1,2],[3,4]])
arr2d, type(arr2d)

(array([[1, 2],
        [3, 4]]),
 numpy.ndarray)

In [126]:
A = np.asmatrix(arr2d)
A, type(A)

(matrix([[1, 2],
         [3, 4]]),
 numpy.matrix)

### 转置

数组用 `arr2d.T` 操作或 `arr.tranpose()` 函数，而矩阵用 `A.T` 操作。

In [127]:
arr2d.T

array([[1, 3],
       [2, 4]])

In [128]:
arr2d.transpose()

array([[1, 3],
       [2, 4]])

In [129]:
 A.T

matrix([[1, 3],
        [2, 4]])

主要原因就是 .T 只适合二维数据，如果是三维数组呢？

In [130]:
arr3d = np.arange(24).reshape((3,2,4))
print(arr3d)
print(arr3d.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]
(3, 2, 4)


将第 1, 2, 3 维度转置到第 3, 1, 2 维度，即将 **`(轴 0, 轴 1, 轴 2)`** 转置到 **`(轴 2, 轴 0, 轴 1)`**。

In [131]:
arr3dT = arr3d.transpose(2,0,1)
print(arr3dT)
print(arr3dT.shape)

[[[ 0  4]
  [ 8 12]
  [16 20]]

 [[ 1  5]
  [ 9 13]
  [17 21]]

 [[ 2  6]
  [10 14]
  [18 22]]

 [[ 3  7]
  [11 15]
  [19 23]]]
(4, 3, 2)


**数组转置的本质：交换每个轴 (axis) 的形状 (shape) 和跨度 (stride)。**

<img src="transpose 2 0 1.PNG" style="width:800px; height:450px;">

上图可分解成四个小图来解释转置过程：

1. 原数组 `arr3d` 的形状是 `(3,2,4)`，对应着 **`(轴 0, 轴 1, 轴 2)`**。
2. 数组 `arr3d` 在内存里的样子，注意每个轴指向的位置。
3. 从 **`(轴 0, 轴 1, 轴 2)`** 转置到 **`(轴 2, 轴 0, 轴 1)`**，转置后的数组 `arr3dT` 的形状变成 `(4,3,2)`。
4. 将数组 `arr3dT` 在内存里的样子视图成打印出的样子。 

按照上面的方法，练习一下将第 1, 2, 3 维度转置到第 2, 3, 1 维度，即将 **`(轴 0, 轴 1, 轴 2)`** 转置到 **`(轴 1, 轴 2, 轴 0)`**。

In [132]:
arr3d = np.arange(24).reshape((3,2,4))
print(arr3d)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]


In [133]:
arr3dT = arr3d.transpose(1,2,0)
print(arr3dT)
print(arr3dT.shape)

[[[ 0  8 16]
  [ 1  9 17]
  [ 2 10 18]
  [ 3 11 19]]

 [[ 4 12 20]
  [ 5 13 21]
  [ 6 14 22]
  [ 7 15 23]]]
(2, 4, 3)


###  求逆

数组用 `np.linalg.inv()` 函数，而矩阵用 `A.I` 和 `A**-1` 操作。

In [134]:
np.linalg.inv(arr2d)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [135]:
 A.I

matrix([[-2. ,  1. ],
        [ 1.5, -0.5]])

In [136]:
A**-1

matrix([[-2. ,  1. ],
        [ 1.5, -0.5]])

### 相乘

相乘在数学上是个严谨的概念，但是在数组和矩阵中是个模棱两可的概念，比如

- 数组相乘是按照**元素层面**进行
- 矩阵相乘是按照**数学定义**进行 

看个例子，二维数组相乘一维数组，矩阵相乘向量，看看有什么有趣的结果。

首先定义一维数组 `arr` 和列向量 `b`，分别用于和二维数组 `arr2d` 和矩阵 `A` 相乘。

In [137]:
arr = np.array([1,2])
b = np.asmatrix(arr).T
print( arr.shape, b.shape )

(2,) (2, 1)


由上面结果看出， `arr` 的形状是 (2,)，只含一个元素的元组只说明 `arr` 是一维，数组是不分**行数组**或**列数组**的。而 `b` 的形状是 (2,1)，显然是列向量。

**数组之间相乘**和**矩阵之间相乘**都是用 * 符号，但如上所述，相乘的含义不同。

In [138]:
arr2d = np.array([[1,2],[3,4]])
arr2d

array([[1, 2],
       [3, 4]])

In [139]:
A = np.asmatrix(arr2d)
A

matrix([[1, 2],
        [3, 4]])

In [140]:
arr2d*arr

array([[1, 4],
       [3, 8]])

In [141]:
 A*b

matrix([[ 5],
        [11]])

由上面结果可知，

- 二维数组相乘一维数组得到的还是个二维数组，解释它需要用到「广播机制」，大致上将一维数组 `[1, 2]` “广播” 成 `[[1, 2], [1, 2]]`，然后在元素层面上和 `arr2d` 相乘。
- 矩阵乘以向量的结果和线代代数中学到的结果吻合。

再看一个例子，**二维数组**乘以**二维数组**，**矩阵**乘以**矩阵**

In [142]:
arr2d*arr2d

array([[ 1,  4],
       [ 9, 16]])

In [143]:
A*A

matrix([[ 7, 10],
        [15, 22]])

由上面结果可知，

- 两个二维数组相乘虽得到二维数组，但不是根据数学矩阵相乘的规则得来的，而由元素层面相乘得到的。
- 矩阵乘以矩阵的结果和线代代数中学到的结果吻合。

如要使数组上相乘符合数学上的定义，用三种写法：

1. 用 `@` 算术运算符
2. 用 `matmul()` 函数
3. 用 `dot()` 函数

In [144]:
arr2d @ arr

array([ 5, 11])

In [145]:
arr2d @ arr2d

array([[ 7, 10],
       [15, 22]])

In [146]:
np.matmul(arr2d, arr)

array([ 5, 11])

In [147]:
np.matmul(arr2d, arr2d)

array([[ 7, 10],
       [15, 22]])

In [148]:
np.dot(arr2d, arr)

array([ 5, 11])

In [149]:
 np.dot(arr2d, arr2d)

array([[ 7, 10],
       [15, 22]])

三种方法 `@` 算术运算符、 `matmul()` 函数和 `dot()` 函数在矩阵上也适用。

In [150]:
A

matrix([[1, 2],
        [3, 4]])

In [151]:
b

matrix([[1],
        [2]])

In [152]:
A @ b

matrix([[ 5],
        [11]])

In [153]:
A @ A

matrix([[ 7, 10],
        [15, 22]])

In [154]:
np.matmul(A, b)

matrix([[ 5],
        [11]])

In [155]:
np.matmul(A, A)

matrix([[ 7, 10],
        [15, 22]])

In [156]:
np.dot(A, b)

matrix([[ 5],
        [11]])

In [157]:
np.dot(A, A)

matrix([[ 7, 10],
        [15, 22]])

但对于高维数组“相乘”，`@` 算术运算符和 `matmul()` 函数就失效了，只能用 `dot()` 函数了。

### 点乘

通常高维数组也称为张量，点乘左右两边最常见的数组维度就是

- 向量 (1D 数组) 和向量 (1D 数组)
- 矩阵 (2D 数组) 和向量 (1D 数组)
- 矩阵 (2D 数组) 和矩阵 (2D 数组)

分别看看三个简单例子。

**例一**：`np.dot(向量, 向量)` 

In [158]:
x = np.array( [1, 2, 3] )
y = np.array( [3, 2, 1] )
z = np.dot(x, y)
print( x.shape, y.shape, z.shape )
print( z )

(3,) (3,) ()
10


点乘两个向量实际上就是求它们的内积，即把两个向量每个元素相乘，最后再加总。点乘结果 10 是个标量 (0D 数组)，形状 = ()。

**例二**：`np.dot(矩阵, 向量)` 

In [159]:
x = np.array( [[3, 2, 1], [1, 1, 1]] )
y = np.array( [1, 2, 3] )
z = np.dot(x, y)
print(x)
print(y)
print( x.shape, y.shape, z.shape )
print( z )

[[3 2 1]
 [1 1 1]]
[1 2 3]
(2, 3) (3,) (2,)
[10  6]


点乘矩阵和向量实际上做的就是普通矩阵乘以向量。点乘结果是个向量 (1D 数组)，形状 = (2, )。

**例三**：`np.dot(矩阵, 矩阵)` 

In [160]:
x = np.array( [[3, 2, 1], [1, 1, 1]] )
y = np.array( [[1, 2, 3], [1, 2, 3], [1, 2, 3]] )
z = np.dot(x, y)
print( x.shape, y.shape, z.shape )
print( z )

(2, 3) (3, 3) (2, 3)
[[ 6 12 18]
 [ 3  6  9]]


点乘两个矩阵实际上做的就是普通矩阵乘以矩阵。点乘结果是个矩阵 (2D 数组)，形状 = (2, 3)。

从上面三例可看出，为使 `np.dot(x, y)` 有意义，那么 `x` 的最后一维的元素个数要和 `y` 第一个维的元素个数要相等，即 `x.shape[-1] = y.shape[0]`。

## 整合操作

在数组中，元素可按不同方式整合 (aggregation)。拿求和 `sum()` 函数来说，我们可对数组

- 所有的元素求和
- 在某个轴 (axis) 上的元素求和

行和列这些概念对矩阵 (二维矩阵) 才适用，高维矩阵还是要用轴 (axis) 来区分每个维度。让我们抛弃「行列」这些特殊概念，拥抱「轴」这个通用概念来重看数组 (一到四维) 把。

n 维数组就有 n 层方括号。最外层方括号代表「轴 0」即 axis=0，依次往里方括号对应的 axis 的计数加 1。

<img src="1d2d3d4D.png" style="width:600px; height:420px;">

***
严格来说，Python 打印出来的数组可以想象带有**多层**方括号的**一行**数字。比如二维数组可想象成 (<font color='red'>红括号</font>代表<font color='red'>轴 0</font>，里面有 2 组<font color='blue'>蓝括号</font>，因此<font color='red'>轴 0</font> 含有 2 个元素；<font color='blue'>蓝括号</font>代表<font color='blue'>轴 1</font>，里面有 3 个元素，因此<font color='blue'>轴 1</font> 含有 3 个元素)

- <font color='red'>[</font><font color='blue'>[</font>1, 2, 3<font color='blue'>]</font>, <font color='blue'>[</font>4, 5, 6<font color='blue'>]</font><font color='red'>]</font>


以此类推，三维数组可想象成 (<font color='red'>红括号</font>代表<font color='red'>轴 0</font>，里面有 2 组<font color='blue'>蓝括号</font>，因此<font color='red'>轴 0</font> 含有 2 个元素；<font color='blue'>蓝括号</font>代表<font color='blue'>轴 1</font>，里面有 2 个<font color='green'>绿括号</font>，因此<font color='blue'>轴 1</font> 含有 2 个元素；<font color='green'>绿括号</font>代表<font color='green'>轴 2</font>，里面有 3 个元素，因此<font color='green'>轴 2</font> 含有 3 个元素)

- <font color='red'>[</font><font color='blue'>[</font><font color='green'>[</font>1, 2, 3<font color='green'>]</font>, <font color='green'>[</font>4, 5, 6<font color='green'>]</font><font color='blue'>]</font>, <font color='blue'>[</font><font color='green'>[</font>7, 8, 9<font color='green'>]</font>, <font color='green'>[</font>10, 11, 12<font color='green'>]</font><font color='blue'>]</font><font color='red'>]</font>

但我们才更习惯看如下三维数组的形式

    [ [ [1, 2, 3]
        [4, 5, 6] ] 
      [ [7, 8, 9] 
        [10, 11, 12] ] ]

但在你脑海里，应该把它想成一整行。这样会便于理解如何来按不同轴做整合运算。

### 一维数组

- **`sum`**

先看看一维数组的求和。
<img src="sum1d.png" style="width:400px; height:120px;">

分析结果：

- 1, 2, 3 的总和是 6
- 在轴 0 (只有一个轴) 上的元素求和是 6

用代码验证一下：

In [161]:
arr1d = np.array([1,2,3])
print( '所有元素总和为', arr1d.sum() )
print( '在轴 0 上求和为', arr1d.sum(axis=0) )

所有元素总和为 6
在轴 0 上求和为 6


求和一维数组看不出「按轴求和」的规律，下面看看二维数组。

### 二维数组
<img src="sum2d.png" style="width:600px; height:200px;">

分析结果：

- 1 到 6 的总和是 6
- 轴 0 上的元素 (被一个红方括号 [] 包住的) 是 [1, 2, 3] 和 [4, 5, 6]，求和得到 [[5, 7, 9]]
- 轴 1 上的元素 (被两个蓝方括号 [] 包住的) 分别是 1, 2, 3 和 4, 5, 6，求和得到 [[1+2+3, 4+5+6]] = [[6, 15]]

In [162]:
arr2d = np.arange(1,7).reshape((2,3))
print( arr2d )

[[1 2 3]
 [4 5 6]]


In [163]:
print( '所有元素总和为', arr2d.sum() )
print( '在轴 0 上求和为', arr2d.sum(axis=0) )
print( '在轴 1 上求和为', arr2d.sum(axis=1) )

所有元素总和为 21
在轴 0 上求和为 [5 7 9]
在轴 1 上求和为 [ 6 15]


结果是对的，但是好像括号比上图推导出来的少一个。原因 `np.sum()` 里面有个参数是 `keepdims`，意思是「保留维度」，默认值时 **`False`**，因此会去除多余的括号，比如 [[5, 7, 9]] 会变成 [5, 7, 9]。

如果把 `keepdims` 设置为 **`True`**，那么打印出来的结果和上图推导的一模一样。

In [164]:
print( '所有元素总和为', arr2d.sum() )
print( '在轴 0 上求和为', arr2d.sum(axis=0, keepdims=True) )
print( '在轴 1 上求和为', arr2d.sum(axis=1, keepdims=True) )

所有元素总和为 21
在轴 0 上求和为 [[5 7 9]]
在轴 1 上求和为 [[ 6]
 [15]]


### 三维数组

<img src="sum3d.png" style="width:700px; height:300px;">

分析结果：

- 1 到 12 的总和是 78
- 轴 0 上的元素是一个红方括号 [] 包住的两个 [[ ]]，对其求和得到一个 [ [[ ]] ]
- 轴 1 上的元素是两个蓝方括号 [] 包住的两个 [ ]，对其求和得到两个 [[ ]]，即 [ [[ ]], [[ ]] ]
- 轴 2 上的元素是四个绿方括号 [] 包住的三个标量，对其求和得到四个[]，即 [ [[ ], [ ]], [[ ], [ ]] ]

In [165]:
arr3d = np.arange(1,13).reshape((2,2,3))
print( arr3d )

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [166]:
print( '所有元素总和为', arr3d.sum() )
print( '在轴 0 上求和为', arr3d.sum(axis=0) )
print( '在轴 1 上求和为', arr3d.sum(axis=1) )
print( '在轴 2 上求和为', arr3d.sum(axis=2) )

所有元素总和为 78
在轴 0 上求和为 [[ 8 10 12]
 [14 16 18]]
在轴 1 上求和为 [[ 5  7  9]
 [17 19 21]]
在轴 2 上求和为 [[ 6 15]
 [24 33]]


打印出来的结果比上图推导结果少一个括号，也是因为 `keepdims` 默认为 **`False`**。

### 四维数组
<img src="sum4d.png" style="width:600px; height:400px;">

通用规律：当在某根轴上求和，明晰该轴的元素，再求和。具体说来：

- 在轴 0 上求和，它包含是两个蓝括号 []，对其求和
- 在轴 1 上求和，它包含是两个绿括号 []，对其求和
- 在轴 2 上求和，它包含是两个紫括号 []，对其求和
- 在轴 3 上求和，它包含是三个标量，对其求和

In [167]:
arr4d = np.arange(1,25).reshape((2,2,2,3))
print( arr4d )

[[[[ 1  2  3]
   [ 4  5  6]]

  [[ 7  8  9]
   [10 11 12]]]


 [[[13 14 15]
   [16 17 18]]

  [[19 20 21]
   [22 23 24]]]]


In [168]:
print( '所有元素总和为', arr4d.sum() )
print( '在轴 0 上求和为', arr4d.sum(axis=0) )
print( '在轴 1 上求和为', arr4d.sum(axis=1) )
print( '在轴 2 上求和为', arr4d.sum(axis=2) )
print( '在轴 3 上求和为', arr4d.sum(axis=3) )

所有元素总和为 300
在轴 0 上求和为 [[[14 16 18]
  [20 22 24]]

 [[26 28 30]
  [32 34 36]]]
在轴 1 上求和为 [[[ 8 10 12]
  [14 16 18]]

 [[32 34 36]
  [38 40 42]]]
在轴 2 上求和为 [[[ 5  7  9]
  [17 19 21]]

 [[29 31 33]
  [41 43 45]]]
在轴 3 上求和为 [[[ 6 15]
  [24 33]]

 [[42 51]
  [60 69]]]


### 其它整合函数
除了 `sum()` 函数，整合函数还包括 `min(), max(), argmin(), argmax(), mean(), std(), var(), cumsum()` 和 `cumprod()`，分别是求最小值、最大值、最小值对应索引、最大值对应索引、均值、标准差、方差、累加和累乘，这些函数对数组里的元素整合方式和 `sum()` 函数相同，也可以对数组

- 所有的元素整合
- 在某个轴 (axis) 上的元素整合

拿二维数组 `arr2d` 举例。

In [169]:
arr2d = np.array([[5,1,3],[4,6,2]])
arr2d

array([[5, 1, 3],
       [4, 6, 2]])

In [170]:
print( '所有元素最小值为', arr2d.min() )
print( '沿轴 0 看 (每列上) 最小值为', arr2d.min(axis=0) )
print( '沿轴 1 看 (每行上) 最小值为', arr2d.min(axis=1) )

所有元素最小值为 1
沿轴 0 看 (每列上) 最小值为 [4 1 2]
沿轴 1 看 (每行上) 最小值为 [1 2]


In [171]:
print( '所有元素最小值对应的索引为', arr2d.argmin() )
print( '沿轴 0 看 (每列上) 最小值对应的索引为', arr2d.argmin(axis=0) )
print( '沿轴 1 看 (每行上) 最小值对应的索引为', arr2d.argmin(axis=1) )

所有元素最小值对应的索引为 1
沿轴 0 看 (每列上) 最小值对应的索引为 [1 0 1]
沿轴 1 看 (每行上) 最小值对应的索引为 [1 2]


In [172]:
print( '所有元素最大值为', arr2d.max() )
print( '沿轴 0 看 (每列上) 最大值为', arr2d.max(axis=0) )
print( '沿轴 1 看 (每行上) 最大值为', arr2d.max(axis=1) )

所有元素最大值为 6
沿轴 0 看 (每列上) 最大值为 [5 6 3]
沿轴 1 看 (每行上) 最大值为 [5 6]


In [173]:
print( '所有元素最大值对应的索引为', arr2d.argmax() )
print( '沿轴 0 看 (每列上) 最大值对应的索引为', arr2d.argmax(axis=0) )
print( '沿轴 1 看 (每行上) 最大值对应的索引为', arr2d.argmax(axis=1) )

所有元素最大值对应的索引为 4
沿轴 0 看 (每列上) 最大值对应的索引为 [0 1 0]
沿轴 1 看 (每行上) 最大值对应的索引为 [0 1]


In [174]:
print( '所有元素均值为', arr2d.mean() )
print( '沿轴 0 看 (每列上) 均值为', arr2d.mean(axis=0) )
print( '沿轴 1 看 (每行上) 均值为', arr2d.mean(axis=1) )

所有元素均值为 3.5
沿轴 0 看 (每列上) 均值为 [4.5 3.5 2.5]
沿轴 1 看 (每行上) 均值为 [3. 4.]


In [175]:
print( '所有元素标准差为', arr2d.std() )
print( '沿轴 0 看 (每列上) 标准差为', arr2d.std(axis=0) )
print( '沿轴 1 看 (每行上) 标准差为', arr2d.std(axis=1) )

所有元素标准差为 1.707825127659933
沿轴 0 看 (每列上) 标准差为 [0.5 2.5 0.5]
沿轴 1 看 (每行上) 标准差为 [1.63299316 1.63299316]


In [176]:
print( '所有元素方差为', arr2d.var() )
print( '沿轴 0 看 (每列上) 方差为', arr2d.var(axis=0) )
print( '沿轴 1 看 (每行上) 方差为', arr2d.var(axis=1) )

所有元素方差为 2.9166666666666665
沿轴 0 看 (每列上) 方差为 [0.25 6.25 0.25]
沿轴 1 看 (每行上) 方差为 [2.66666667 2.66666667]


In [177]:
print( '所有元素累加的和为', arr2d.cumsum() )
print( '沿轴 0 看 (每列上) 累加的和为', arr2d.cumsum(axis=0) )
print( '沿轴 1 看 (每行上) 累加的和为', arr2d.cumsum(axis=1) )

所有元素累加的和为 [ 5  6  9 13 19 21]
沿轴 0 看 (每列上) 累加的和为 [[5 1 3]
 [9 7 5]]
沿轴 1 看 (每行上) 累加的和为 [[ 5  6  9]
 [ 4 10 12]]


In [178]:
print( '所有元素累乘的积为', arr2d.cumprod() )
print( '沿轴 0 看 (每列上) 累乘的积为', arr2d.cumprod(axis=0) )
print( '沿轴 1 看 (每行上) 累乘的积为', arr2d.cumprod(axis=1) )

所有元素累乘的积为 [  5   5  15  60 360 720]
沿轴 0 看 (每列上) 累乘的积为 [[ 5  1  3]
 [20  6  6]]
沿轴 1 看 (每行上) 累乘的积为 [[ 5  5 15]
 [ 4 24 48]]


此外，以上所有的整合函数都有一个可以处理 NaN 值的版本，函数名就在原来名称前加一个 `nan`，比如 `nansum, nanmin, nanmax, nanargmin, nanargmax, nanmean, nanstd, nanvar, nancumsum, nancumprod`。拿 `nansum()` 来举例，注意只能用 `np.nansum(arr)` 不能用 `arr.nansum()`。

In [179]:
arr2d = np.array([[5,np.NaN,3],[4,6,np.NaN]])
arr2d

array([[ 5., nan,  3.],
       [ 4.,  6., nan]])

In [180]:
print( arr2d.sum() )
print( np.nansum(arr2d) )

nan
18.0


### `any, all`

- 在 `any()` 函数中，如果给定的参数有一个为 **`True`**，则返回 **`True`**，否则返回 **`False`**
- 在 `all()` 函数中，如果给定的参数全部为 **`True`**，则返回 **`True`**，否则返回 **`False`**

注意只有 0, 0.0, 空集才是 **`False`**，其它都是 **`True`**，即便是 `np.nan`。

In [181]:
print( np.any([0,0,0,0]) )
print( np.any([0,-1,0,0]) )
print( np.all([1,np.nan,2,3]) )
print( np.all([1,0,2,3]) )

False
True
True
False


## 广播机制

当对两个形状不同的数组按元素操作时，可能会触发**广播机制** (broadcast)。具体做法，先适当复制元素使得这两个数组形状相同后再按元素操作，两个步骤：

- **确定广播轴**：比对两个数组的维度，将形状小的数组的维度 (轴) 补齐
- **复制元素**：顺着补齐的轴，将形状小的数组里的元素复制，最终和形状大的数组的形状一致

在给出**广播机制**下面的严谨规则之前，先来看看几个简单例子。

### 标量和一维数组

In [182]:
arr = np.arange(5)
print( arr )
print( arr + 2 )

[0 1 2 3 4]
[2 3 4 5 6]


单个元素的标量 2 被广播到数组 `arr` 的所有元素上。

###  一维数组和二维数组

In [183]:
arr = np.arange(12).reshape(4,3)
print(arr)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [184]:
mean_across_row = arr.mean(axis=0)
print( arr.shape, mean_across_row.shape )
print( mean_across_row )
print( arr - mean_across_row )

(4, 3) (3,)
[4.5 5.5 6.5]
[[-4.5 -4.5 -4.5]
 [-1.5 -1.5 -1.5]
 [ 1.5  1.5  1.5]
 [ 4.5  4.5  4.5]]


数组 `arr` 的形状是 (4, 3)，而沿着行求均值的数组 `mean_across_row` 形状是 (3, )，沿着轴 0，一维数组 `mean_across_row` 被广播到数组 `arr` 的所有的行上。

<img src="boardcast 1.png" style="width:600px; height:250px;">

In [185]:
mean_across_col = arr.mean(axis=1)
print( arr.shape, mean_across_col.shape )
print( mean_across_col )
print( arr - mean_across_col )

(4, 3) (4,)
[ 1.  4.  7. 10.]


ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

数组 `arr` 的形状是 (4, 3)，而沿着列求均值的数组 `mean_across_col` 形状是 (4, )，沿着轴 1，一维数组 `mean_across_col` 却不能广播到数组 `arr` 的所有的列上。

In [186]:
print( arr.shape, mean_across_col[:,np.newaxis].shape )
print( mean_across_col[:,np.newaxis] )
print( arr - mean_across_col[:,np.newaxis] )

(4, 3) (4, 1)
[[ 1.]
 [ 4.]
 [ 7.]
 [10.]]
[[-1.  0.  1.]
 [-1.  0.  1.]
 [-1.  0.  1.]
 [-1.  0.  1.]]


<img src="boardcast 2.png" style="width:600px; height:280px;">

### 广播机制规则

对两个数组操作时，如果它们的形状

- 不相容 (incompatible)，则不能进行广播机制
- 相容 (compatible)，则可以进行广播机制

进行广播机制分两步：

1. 检查两个数组形状兼容性。即从数组的形状的**最后一个元素**开始检查 (如果数组在某个维度上缺失，用 1 补齐)

    - 它们是否相等 (**相等条件**)
    - 是否有一个等于 1 (**有一条件**)


2. 一旦它们形状兼容，确定两个数组的最终一致的形状，其形状在每个维度上的值等于“两个数组的形状在每个维度上的值的最大值”。
***

<img src="boardcast 3.png" style="width:600px; height:300px;">

#### 形状相同

In [187]:
a = np.array([1,2,3])
b = np.array([4,5,6])

print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b.ndim}，形状是 {b.shape}' )

a 的维度是 1，形状是 (3,)
b 的维度是 1，形状是 (3,)


它们形状一样 (维度肯定一样)，因此基于两者的所有操作都可以在元素层面上进行，不需要任何广播机制。

In [188]:
c = a + b
print( f'c 的维度是 {c.ndim}，形状是 {c.shape}\n' )
print( f'a = {a}' )
print( f'b = {b}' )
print( f'c = a + b = {c}' )

c 的维度是 1，形状是 (3,)

a = [1 2 3]
b = [4 5 6]
c = a + b = [5 7 9]


#### 维度相同，形状不同

In [189]:
a = np.array([[1,2,3]])
b = np.array([[4],[5],[6]])

print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b.ndim}，形状是 {b.shape}' )

a 的维度是 2，形状是 (1, 3)
b 的维度是 2，形状是 (3, 1)


回顾进行广播机制的步骤，首先检查两个数组形状是否兼容，从两个形状元组 (1, 3) 和 (3, 1) 的最后一个元素开始检查，

- `a` 的第二维的元素是 3，`b` 的第二维的元素是 1，满足“**有一个等于 1**”的条件。
- `a` 的第一维的元素是 1，`b` 的第一维的元素是 3，满足“**有一个等于 1**”的条件。

因此它们形状兼容。

它们的最终形状为 (max(1,3), max(3,1)) = (3, 3)，即 a 和 b 被扩展成 (3, 3) 的数组。

In [190]:
c = a + b
print( f'c 的维度是 {c.ndim}，形状是 {c.shape}\n' )
print( f'a = {a}' )
print( f'b = {b}' )
print( f'c = a + b = {c}' )

c 的维度是 2，形状是 (3, 3)

a = [[1 2 3]]
b = [[4]
 [5]
 [6]]
c = a + b = [[5 6 7]
 [6 7 8]
 [7 8 9]]


#### 维度不同

- **例 1**

In [191]:
a = np.arange(5)
b = np.array(2)

print(a)
print(b)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b.ndim}，形状是 {b.shape}' )

[0 1 2 3 4]
2
a 的维度是 1，形状是 (5,)
b 的维度是 0，形状是 ()


从两个形状元组 (5,) 和 () 的最后一个元素开始检查，

- `b` 的维度缺失，用 1 补齐得到 (1,)
- `a` 的第一维的元素是 5，`b` 的第一维的元素是 1，满足“**有一个等于 1**”的条件。

因此它们形状兼容。

它们的最终形状为 (max(5,1),) = (5,)，即 a 和 b 被扩展成 (5,) 的数组。

In [192]:
c = a + b

print( f'c 的维度是 {c.ndim}，形状是 {c.shape}\n' )
print( f'a = {a}' )
print( f'b = {b}' )
print( f'c = a + b = {c}' )

c 的维度是 1，形状是 (5,)

a = [0 1 2 3 4]
b = 2
c = a + b = [2 3 4 5 6]


- **例 2**

In [193]:
a = np.array( [[[1,2,3], [4,5,6]]] )
b1 = np.array( [[1,1,1], [2,2,2], [3,3,3]] )

print(a)
print(b1)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b1.ndim}，形状是 {b1.shape}' )

[[[1 2 3]
  [4 5 6]]]
[[1 1 1]
 [2 2 2]
 [3 3 3]]
a 的维度是 3，形状是 (1, 2, 3)
b 的维度是 2，形状是 (3, 3)


对于数组 `a` 和 `b1`，它们形状是 (1, 2, 3) 和 (3, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容
- 倒数第二个是 2 和 3，即不相等，也没有一个是 1，不兼容

因此 `a` 和 `b1` 不能进行广播机制。

In [194]:
c1 = a + b1
print( f'c1 的维度是 {c1.ndim}，形状是 {c1.shape}\n' )
print(c1)

ValueError: operands could not be broadcast together with shapes (1,2,3) (3,3) 

- **例 3**

In [195]:
a = np.array( [[[1,2,3], [4,5,6]]] )
b2 = np.arange(3).reshape((1,3))

print(a)
print(b2)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b2.ndim}，形状是 {b2.shape}' )

[[[1 2 3]
  [4 5 6]]]
[[0 1 2]]
a 的维度是 3，形状是 (1, 2, 3)
b 的维度是 2，形状是 (1, 3)


对于数组 `a` 和 `b2`，它们形状是 (1, 2, 3) 和 (1, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容
- 倒数第二个是 2 和 1，有一个是 1，兼容

因此 `a` 和 `b2` 可以进行广播机制。

In [196]:
c2 = a + b2
print( f'c2 的维度是 {c2.ndim}，形状是 {c2.shape}\n' )
print(c2)

c2 的维度是 3，形状是 (1, 2, 3)

[[[1 3 5]
  [4 6 8]]]


- **例 4**

In [197]:
a = np.array( [[[1,2,3], [4,5,6]]] )
b3 = np.arange(6).reshape((2,3))

print(a)
print(b3)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b3.ndim}，形状是 {b3.shape}' )

[[[1 2 3]
  [4 5 6]]]
[[0 1 2]
 [3 4 5]]
a 的维度是 3，形状是 (1, 2, 3)
b 的维度是 2，形状是 (2, 3)


对于数组 `a` 和 `b3`，它们形状是 (1, 2, 3) 和 (2, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容
- 倒数第二个都是 2，兼容

因此 `a` 和 `b3` 可以进行广播机制。

In [198]:
c3 = a + b3
print( f'c3 的维度是 {c3.ndim}，形状是 {c3.shape}\n' )
print(c3)

c3 的维度是 3，形状是 (1, 2, 3)

[[[ 1  3  5]
  [ 7  9 11]]]


- **例 5**

In [199]:
a = np.array( [[[1,2,3], [4,5,6]]] )
b4 = np.arange(12).reshape((2,2,3))

print(a)
print(b4)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b4.ndim}，形状是 {b4.shape}' )

[[[1 2 3]
  [4 5 6]]]
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
a 的维度是 3，形状是 (1, 2, 3)
b 的维度是 3，形状是 (2, 2, 3)


对于数组 `a` 和 `b4`，它们形状是 (1, 2, 3) 和 (2, 2, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容
- 倒数第二个都是 2，兼容
- 倒数第三个有一个是 1，兼容

因此 `a` 和 `b4` 可以进行广播机制。

In [200]:
c4 = a + b4
print( f'c4 的维度是 {c4.ndim}，形状是 {c4.shape}\n' )
print(c4)

c4 的维度是 3，形状是 (2, 2, 3)

[[[ 1  3  5]
  [ 7  9 11]]

 [[ 7  9 11]
  [13 15 17]]]


- **例 6**

In [201]:
a = np.array( [[[1,2,3], [4,5,6]]] )
b5 = np.arange(6).reshape((2,1,3))

print(a)
print(b5)
print( f'a 的维度是 {a.ndim}，形状是 {a.shape}' )
print( f'b 的维度是 {b5.ndim}，形状是 {b5.shape}' )

[[[1 2 3]
  [4 5 6]]]
[[[0 1 2]]

 [[3 4 5]]]
a 的维度是 3，形状是 (1, 2, 3)
b 的维度是 3，形状是 (2, 1, 3)


对于数组 `a` 和 `b5`，它们形状是 (1, 2, 3) 和 (2, 1, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容
- 倒数第二个有一个是 1，兼容
- 倒数第三个有一个是 1，兼容

因此 `a` 和 `b5` 可以进行广播机制。

In [202]:
c5 = a + b5
print(c5 ,'\n')
print(c5.shape)

[[[ 1  3  5]
  [ 4  6  8]]

 [[ 4  6  8]
  [ 7  9 11]]] 

(2, 2, 3)


- **例 7**

In [203]:
arr3d = np.arange(24).reshape(2,3,4)
print(arr3d)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


<img src="broadcast.PNG" style="width:400px; height:450px;">

对形状为 `(2,3,4)` 的三维数组, 能够沿着**轴 0** 传播的数组形状是 `(3,4)` 或者 `(1,3,4)`。

In [204]:
arr_on_axis0 = 100*np.ones((3,4),dtype=np.int32)
print(arr_on_axis0)

[[100 100 100 100]
 [100 100 100 100]
 [100 100 100 100]]


In [205]:
print(arr3d + arr_on_axis0)

[[[100 101 102 103]
  [104 105 106 107]
  [108 109 110 111]]

 [[112 113 114 115]
  [116 117 118 119]
  [120 121 122 123]]]


In [206]:
print(arr3d + arr_on_axis0[np.newaxis,:,:])

[[[100 101 102 103]
  [104 105 106 107]
  [108 109 110 111]]

 [[112 113 114 115]
  [116 117 118 119]
  [120 121 122 123]]]


对形状为 `(2,3,4)` 的三维数组, 能够沿着**轴 1** 传播的数组形状是 `(2,1,4)`，不能是 `(2,4)`。

In [207]:
arr_on_axis1 = 100*np.ones((2,4),dtype=np.int32)
print(arr_on_axis1)

[[100 100 100 100]
 [100 100 100 100]]


In [208]:
print(arr3d + arr_on_axis1)

ValueError: operands could not be broadcast together with shapes (2,3,4) (2,4) 

In [209]:
print(arr3d + arr_on_axis1[:,np.newaxis,:])

[[[100 101 102 103]
  [104 105 106 107]
  [108 109 110 111]]

 [[112 113 114 115]
  [116 117 118 119]
  [120 121 122 123]]]


对形状为 `(2,3,4)` 的三维数组, 能够沿着**轴 2** 传播的数组形状是 `(2,3,1)`，不能是 `(2,3)`。

In [210]:
arr_on_axis2 = 100*np.ones((2,3),dtype=np.int32)
print(arr_on_axis2)

[[100 100 100]
 [100 100 100]]


In [211]:
print(arr3d + arr_on_axis2)

ValueError: operands could not be broadcast together with shapes (2,3,4) (2,3) 

In [212]:
print(arr3d + arr_on_axis2[:,:,np.newaxis])

[[[100 101 102 103]
  [104 105 106 107]
  [108 109 110 111]]

 [[112 113 114 115]
  [116 117 118 119]
  [120 121 122 123]]]


### 用广播机制赋值

赋值操作时用到的广播机制规则和算术运算时用到的一样。如下例将标量 5 赋值给形状为 (4,3) 的二维数组。

In [213]:
arr = np.zeros((4, 3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

对于标量 `5` 和数组 `arr`，它们形状是 () 和 (4, 3)。因为标量的维度缺失，需要补齐得到 (1, 1)。从最后一个元素开始检查

- 最后一个有一个是 1，兼容
- 倒数第二个有一个是 1，兼容

因此 `5` 和 `arr` 可以进行广播机制。

此外，还可以用一维数组来给二维数组 `arr` 的行或列赋值，只要符合广播机制规则。 

首先来看**沿着行**做广播机制。

In [214]:
row = np.array([1, 2, 3])
print(row.shape)
arr[:] = row
arr

(3,)


array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

对于 `row` 和 `arr`，它们形状是 (3,) 和 (4, 3)，从最后一个元素开始检查

- 最后一个都是 3，兼容

因此 `row` 和 `arr` 可以进行广播机制。

再来看**沿着列**做广播机制。

In [215]:
col = np.array([1, 2, 3, 4])
arr[:] = col
arr

ValueError: could not broadcast input array from shape (4,) into shape (4,3)

对于 `col` 和 `arr`，它们形状是 (4,) 和 (4,3)，从最后一个元素开始检查

- 最后一个是 3 和 4，不兼容

因此 `col` 和 `arr` 不能进行广播机制。

若要**沿着列**做广播机制，可以将 `col` 升维到 (4,1)，用 `np.newaxis` 再轴 1 上扩展一维。

In [216]:
col = np.array([1, 2, 3, 4])
arr[:] = col[:, np.newaxis]
arr

array([[1., 1., 1.],
       [2., 2., 2.],
       [3., 3., 3.],
       [4., 4., 4.]])

只要等号两边的数组形状符合广播机制规则，赋值都是没问题的。

In [217]:
arr[1:3] = np.array([[-100], [100]])
arr

array([[   1.,    1.,    1.],
       [-100., -100., -100.],
       [ 100.,  100.,  100.],
       [   4.,    4.,    4.]])

打印出两个数组的形状为 (2, 3) 和 (2, 1)，很显然符合广播机制规则。

In [218]:
arr[1:3].shape, np.array([[-100], [100]]).shape

((2, 3), (2, 1))

# Cheatsheet 

<img src="NumPy.png" style="width:1000;height:1000;">