# numpy数组的构建

本文主要介绍了常见的numpy数组构建方式

In [1]:
import numpy as np

## 手动构建numpy数组

构建`numpy`数据最简单的方式就是传入一个`list`

In [2]:
a = np.array([1, 3, 5, 7, 9])
a

array([1, 3, 5, 7, 9])

传入一个嵌套的`list`构建多维数组

In [3]:
# 构造一个2*3的矩阵
a2 = np.array([[1, 2, 3], 
               [4, 5, 6]])
# 数组的"形状"
print(a2.shape)
a2

(2, 3)


array([[1, 2, 3],
       [4, 5, 6]])

嵌套的`list`必须是长度相等的，否则`numpy`会构建一个`object`类型的数组

In [4]:
np.array([[1, 2], [1, 2, 3]])

array([list([1, 2]), list([1, 2, 3])], dtype=object)

## 使用numpy提供的方法

`numpy`提供了一些方法来帮助我们构建一些常用的数组

### 构建序列

- 在指定范围中，按照一定间隔构建数组

使用`arange`可以在一定范围中，按照一定间隔构建一个数组

In [5]:
# 默认起始为0，间隔为1
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

指定起止范围和间隔

In [6]:
np.arange(10, 20, 2)

array([10, 12, 14, 16, 18])

- 在指定范围中，按照一定元素个数构建一个数组

In [7]:
# 在0和1之间构建有5个元素的数组
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

### 构造常用数组

- 值全部为0的数组

In [8]:
# 构建一个3*3，值都为0的数组
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

`numpy`在这些常用数组构建中，还有一个`*_like`的方法，可以按照输入数组的shape来构造

In [9]:
# 构建一个和数组a2一样shape，值都为0的数组
np.zeros_like(a2)

array([[0, 0, 0],
       [0, 0, 0]])

- 值都为1的数组

In [10]:
# 构建一个3*3，值都为1的数组
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [11]:
# 构建一个和数组a2一样shape，值都为1的数组
np.ones_like(a2)

array([[1, 1, 1],
       [1, 1, 1]])

- 构建一个没有初始化的数组

使用`empty`构建数组时，数组不会初始化每个元素，因此每个元素将会是一个随机的数字

In [12]:
np.empty((5, 5))

array([[ 0.00000000e+000, -1.72723381e-077,  7.41098469e-323,
         0.00000000e+000,  0.00000000e+000],
       [ 2.14027814e+161,  4.50602192e-144,  7.79952704e-143,
         4.50606090e-144,  7.79952704e-143],
       [ 3.15461659e-033,  1.52150245e-051,  6.23034437e-038,
         6.53176629e-042,  2.16385138e+190],
       [ 1.73878023e-076,  2.19218622e-056,  2.56995254e+184,
         3.89277359e-033,  4.26399801e-096],
       [ 6.32299154e+233,  6.48224638e+170,  5.22411352e+257,
         1.41529403e+161,  9.16651763e-072]])

- 构建单位矩阵

In [13]:
# 构建一个3*3的单位矩阵
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

- 构建一个斜角矩阵

In [14]:
# 构建一个对角线上为1，2，3的矩阵
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

## 使用random来构建随机的numpy数组

使用`numpy.random`可以构建一个随机的numpy数组，具体查看[numpy随机抽样](https://github.com/snowhyzhang/yukino/blob/master/xiao_note/numpy_random.ipynb)

In [15]:
# 构建一个2*3，值为在[0, 1]中随机数的数组
np.random.rand(2, 3)

array([[0.20696975, 0.37874087, 0.15271838],
       [0.15548225, 0.94648064, 0.73571818]])

## C order和F order

`numpy`数组在构建时，提供`C order`和`F order`两种数组元素在存储区域排列的方式，即C语言格式和Fortran语言格式，默认是`C order`  
构建一个3\*3的数组加以说明两者区别  
a = np.array(\[[1, 2, 3], [4, 5, 6], [7, 8, 9]\])  

- `C order`  
`C order`在存储区域中存储的格式为  
|1|2|3|4|5|6|7|8|9|  
`C order`以行元素的顺序进行存储  
- `F order`  
`F order`在存储区域中存储的格式为  
|1|4|7|2|5|8|3|6|9|  
`F order`以列元素的顺序进行存储  

由于`numpy`内部机制的原因，不同存储方式，特别是在数据量比较大的情况下，会有所影响，例如，我们构造一个10000\*10000的矩阵，对行和列进行求和，查看运算时间

In [16]:
arr_C = np.random.rand(10000, 10000)
arr_F = arr_C.copy(order='F')

- 对行求和

In [17]:
%timeit arr_C.sum(axis=1)

61.9 ms ± 681 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [18]:
%timeit arr_F.sum(axis=1)

70.3 ms ± 532 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


- 对列求和

In [19]:
%timeit arr_C.sum(axis=0)

70.7 ms ± 600 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [20]:
%timeit arr_F.sum(axis=0)

62 ms ± 557 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


可以看到，对行求和时，`C order`更快，而对列求和时`F order`更快