NumPy在处理数据时，使用的时间更少。

In [1]:
import numpy as np
np.random.seed(42)

In [2]:
my_arr = np.arange(1000000)     # numpy ndarry
my_list = list(range(1000000))  # list

In [3]:
# 序列中每个元素乘2
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 25.9 ms


In [4]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 838 ms


**NumPy-based算法通常比对应的pure Python快10-100倍，而且使用的内存更少。**

# 1 NumPy ndarray——一个多维数组对象

NumPy最重要的一个特性是N维数组对象（ndarray）——是Python快速，灵活的大数据集container。

可以对整个数组中的元素进行数学操作，语法类似于标量元素。

In [5]:
data = np.random.randn(2, 3)
data

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [6]:
data * 10

array([[ 4.96714153, -1.38264301,  6.47688538],
       [15.23029856, -2.34153375, -2.34136957]])

In [7]:
data + data

array([[ 0.99342831, -0.2765286 ,  1.29537708],
       [ 3.04605971, -0.46830675, -0.46827391]])

ndarray是一个多维container，内部元素是同质的，即元素类型均相同。

In [8]:
data.shape  # 元组，表示ndarray每一维的size

(2, 3)

In [9]:
data.dtype  # ndarray内元素类型

dtype('float64')

**精通面向数组的编程和思考方式是成为Python数分大师的关键。**

## 1.1 创建ndarray

![创建ndarry的方式](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/ndarray-creation%20funcs.png)

|函数|描述|
| :-- | :-- |
|`np.array`|将输入数据（列表，元组，数组或其他序列类型）转换成一个ndarray，指定数据类型或自己推断；默认复制输入数据|
|`np.asarray`|转换输入数据，若输入数据是ndarray则不复制|
|`np.arange`|类似于Python内建`range`，返回ndarray而不是list|
|`np.ones`|根据给定的dtype和shape生成一个元素全为1的ndarray|
|`np.ones_like`|根据其他ndarray的dtype和shape生成一个元素全为1的ndarray|
|`np.zeros`|根据给定的dtype和shape生成一个元素全为0的ndarray|
|`np.zeros_like`|根据其他ndarray的dtype和shape生成一个元素全为0的ndarray|
|`np.empty`|通过分配新内存生成一个新ndarray，但不会有任何值|
|`np.empty_like`|根据其他ndarray的dtype和shape，通过分配新内存生成一个新ndarray，但不会有任何值|
|`np.full`|根据给定的dtype和shape生成一个元素值（通过参数指定）相同的ndarray|
|`np.full_like`|根据其他ndarray的dtype和shape生成一个元素值（通过参数指定）相同的ndarray|
|`np.eye`, `np.identity`|创建一个NxN的单位矩阵（ndarray）|

> 因为NumPy是用来做数值计算的，因此，数据类型若未指定，都是`float64`类型。

**最简单创建ndarray的方式是使用`np.array`函数**，这个函数接收任何sequence-like对象（也可以是其他数组）。

In [10]:
data1 = [6, 7.5, 8, 0, 1]

In [11]:
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

嵌套序列将会被转换成一个多维数组：

In [12]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [13]:
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为`arr2`是list of list，因此`arr2`有两个维度（从数据推断）。可以使用**自省属性**`ndarray.ndim`和`ndarray.shape`来验证。

In [14]:
arr2.ndim

2

In [15]:
arr2.shape

(2, 4)

除非具体指定，`np.array`自动推断出一个合适的数据类型。ndarray数据类型存在`ndarray.dtype`对象中。

In [16]:
arr1.dtype

dtype('float64')

In [17]:
arr2.dtype

dtype('int32')

**其他创建ndarray的方法。**

+ 创建全是0的ndarray

In [18]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [19]:
np.zeros(3, dtype='int32')

array([0, 0, 0])

In [20]:
np.zeros_like(arr2)

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [21]:
np.zeros_like(arr1)

array([0., 0., 0., 0., 0.])

> 继承了数据类型。

+ 创建全是1的ndarray

与上面类似。

+ 创建空的ndarray

In [22]:
np.empty(10)

array([            nan, 0.00000000e+000, 1.01572069e-311, 2.02369289e-320,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000])

> 认为`np.empty`返回全0ndarray的想法是不安全的。在某些情况下，它返回的都是尚未初始化的辣鸡值。

`np.arange`类似于Python的`range`函数

In [23]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

+ 创建元素值相同的ndarray

In [24]:
np.full((2, 3,), 100)

array([[100, 100, 100],
       [100, 100, 100]])

+ 创建一个单位矩阵（ndarray）

In [25]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 1.2 ndarray的数据类型

`dtype`/数据类型是一个特殊对象，含有ndarray将一块内存解释为特定数据类型所需的信息：

In [26]:
arr1 = np.array([1, 2, 3,], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.float32)

In [27]:
arr1.dtype

dtype('float64')

In [28]:
arr2.dtype

dtype('float32')

`dtype`是NumPy强大和灵活的原因之一。多数情况下，他们将直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言(如，C、Fortran)”等工作变得简单。
**`dtype`由一个类型名+表各元素位长的数字组成。**标准的双精度浮点型（Python float）需要占用8字节或64位。

|类型|类型代码（Type code）|说明|
| :---| :--: | :--: |
|int8, uint8|i1, u1|有符号和无符号的8位（1字节）整型
|int16, uint16|i2, u2|有符号和无符号的16位（2字节）整型
|int32, uint32|i4, u4|有符号和无符号的32位（4字节）整型
|float16|f2|半精度（half-precision）浮点数|
|float32|f4 or f|标准的单精度浮点数；与C的float兼容|
|float64|f8 or d|标准的双精度浮点数；与C的double和Python的float兼容|
|float128|f16 or g|扩展的精度浮点数|
|complex64|c8|两个32位表示的浮点数|
|complex128|c16|两个64位表示的浮点数|
|complex264|c32|两个128位表示的浮点数|
|bool|?|Bolearn型，`True` or `Fasle`|
|object|O|Python object类型；可以是任何Python对象的值|
|string_|S|固定长度的ASCII字符串类型（每个字符character1字节），如创建一个长度为10的字符串，使用'S10'|
|unicode_|U|固定长度的Unicode类型（字节数由平台决定），如`U10'|

> 记不住没关系，记住大概就行了。当需要控制数据在内存和磁盘中的存储方式时（尤其是对大数据集），就得了解如何控制存储类型。

**可以通过`ndarray.astype`显示地转换ndarray.dtype。**

+ 第一种，指定数据类型：

In [29]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [30]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

将浮点型转成整型，小数部分被丢弃，没有四舍五入。

In [31]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [32]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

将字符串型转成浮点型。

In [33]:
numeric_strings = np.array(['1.25', '-9.7', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.7', b'42'], dtype='|S4')

In [34]:
numeric_strings.astype(float)

array([ 1.25, -9.7 , 42.  ])

> 当使用`np.string_`时要小心，因为在NumPy中字符串数据大小被固定，而且可能会在没有警告的情况下截断数据。pandas对non-numeric数据有更直观的开箱即用行为。

+ 第二种：根据其他ndarray的数据类型来转换：

In [38]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [39]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

可以用简单的代码类型来表示数据类型。

In [40]:
empty_unit32 = np.empty(8, dtype='u4')
empty_unit32

array([2835280424,        478, 1661424176, 1988385690, 1324770695,
            12290,          0,    7929968], dtype=uint32)

**使用`np.astype`总会创建一个新的ndarray（复制数据），即使数据类型相同。**

## 1.3 ndarray算术运算

不用循环就可以对数据进行批运算，这叫**矢量化（vectorization）**。**大小相同的ndarray之间的任何算术运算都会将运算应用到元素级。**

In [43]:
arr = np.array([[1., 2., 3.], [4., 5, 6]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [44]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [45]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

数组和标量值之间的运算也会将标量值传播到各个元素：

In [46]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [47]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

比较两个数组将会产生一个同大小的布尔型数组：

In [48]:
arr2 = np.array([[0., 4., 1.], [7, 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [49]:
arr2 > arr1

array([[False,  True, False],
       [ True, False,  True]])

shape不同数组之间的操作叫做**广播（broadcasting）**。详细见高阶部分。

## 1.4 基本的索引(indexing)和切片(slicing)
### 1.4.1 索引（indexing）

这块内容丰富，选择数组子集和单个元素的方法有很多。

+ 一维数组（和list类似）

In [50]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:
arr[5]  # 获取单个元素

5

In [53]:
arr[5:8]   # 切片

array([5, 6, 7])

In [56]:
arr[5:8] = 12

arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

> 将单个值赋给一个切片，值会被传播到整个被选择的部分。

**数组切片和list切片最重要的区别是，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。**因为NumPy是用来处理非常大的数组的，因此每次复制数据将会出现性能和内存问题。

In [57]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [58]:
arr_slice[1] = 10000

In [59]:
arr

array([    0,     1,     2,     3,     4,    12, 10000,    12,     8,
           9])

> 对切片的操作将会反映到源数组中。

In [60]:
list1 = list(range(10))
list1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [61]:
list_slice = list1[3:5]
list_slice[1] = 100000

In [63]:
list_slice

[3, 100000]

In [64]:
list1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

要想数组切片达到同样的效果，可以使用明显地复制数据，如，`arr[5:8].copy()`。

+ 二维数组

多维数组有更多的选择。

In [65]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]   # 二维数组的单个索引

array([7, 8, 9])

In [66]:
arr2d[0][2]   # 获取二维数组的单个值

3

In [68]:
arr2d[0, 2]  # 获取二维数组的单个值

3

二维数组的索引如图所示。

![ndarray的索引](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/indexing-elements-in-a-numpy-array.png)

> `axis=0`表示行，`axis=1`表示列。

+ 多维数组

如果省略后面的索引，则会产生一个低维的数组。

In [70]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [71]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

单个值和数组都可以被赋给`arr3d[0]`:

In [72]:
old_values = arr3d[0].copy()
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [74]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [75]:
arr3d[0] = np.zeros((2, 3))

In [76]:
arr3d

array([[[ 0,  0,  0],
        [ 0,  0,  0]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [77]:
arr3d[1, 0]

array([7, 8, 9])

> **注意：**上面所有这些选取数组子集的例子中，返回的都是视图。

### 1.4.2 切片索引（Indexing with slices）

In [78]:
arr

array([    0,     1,     2,     3,     4,    12, 10000,    12,     8,
           9])

In [79]:
arr[1:5]

array([1, 2, 3, 4])

In [80]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [81]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

> 沿轴0（第一个轴）切片。

In [82]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

整数索引和切片混合：

In [83]:
arr2d[1, :2]

array([4, 5])

In [84]:
arr2d[1:, 2]

array([6, 9])

仅仅`:`表示该轴全选。

In [85]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

对切片赋值，将会反映到源数组中：

In [87]:
arr2d[:2, 1:] = 0

In [88]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

**二维数组的切片：**
![二维数组的切片](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/two-dimensional-array-slicing.png)

## 1.5 布尔型索引（Boolean Indexing）

In [1]:
import numpy as np
np.random.seed(42)

In [2]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [3]:
data = np.random.randn(7, 4)
data

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
       [ 0.24196227, -1.91328024, -1.72491783, -0.56228753],
       [-1.01283112,  0.31424733, -0.90802408, -1.4123037 ],
       [ 1.46564877, -0.2257763 ,  0.0675282 , -1.42474819],
       [-0.54438272,  0.11092259, -1.15099358,  0.37569802]])

假设每个名字对应一行数据。现选择Bob对应的数据，**和算术运算一样，数组之间的比较运算（如`==`）同样可以向量化**。

In [4]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

数组索引时可以传入布尔型数组：

In [5]:
data[names == 'Bob']

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [ 0.24196227, -1.91328024, -1.72491783, -0.56228753]])

布尔型数组的长度必须和被索引的轴的长度一致。此外还可以将布尔型数组和切片或者和整数（整数序列等）混合使用。

In [6]:
data[names == 'Bob', 2:]

array([[ 0.64768854,  1.52302986],
       [-1.72491783, -0.56228753]])

In [7]:
data[names == 'Bob', 3]

array([ 1.52302986, -0.56228753])

选择不等于Bob的数据：
1. 使用`!=`
2. 使用`~`

In [8]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [9]:
data[~(names == 'Bob')]

array([[-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
       [-1.01283112,  0.31424733, -0.90802408, -1.4123037 ],
       [ 1.46564877, -0.2257763 ,  0.0675282 , -1.42474819],
       [-0.54438272,  0.11092259, -1.15099358,  0.37569802]])

In [10]:
data[names != 'Bob']

array([[-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
       [-1.01283112,  0.31424733, -0.90802408, -1.4123037 ],
       [ 1.46564877, -0.2257763 ,  0.0675282 , -1.42474819],
       [-0.54438272,  0.11092259, -1.15099358,  0.37569802]])

使用布尔型运算符：`&`(对应`and`)和`|`(对应`or`)

In [11]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [12]:
data[mask]

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
       [ 0.24196227, -1.91328024, -1.72491783, -0.56228753],
       [-1.01283112,  0.31424733, -0.90802408, -1.4123037 ]])

> Python关键词`and`和`or`在布尔型数组中无效。

通过布尔型数组设定值是一种通用的手段。

In [13]:
# 将小于0的值设为0
data[data < 0] = 0

In [14]:
data

array([[0.49671415, 0.        , 0.64768854, 1.52302986],
       [0.        , 0.        , 1.57921282, 0.76743473],
       [0.        , 0.54256004, 0.        , 0.        ],
       [0.24196227, 0.        , 0.        , 0.        ],
       [0.        , 0.31424733, 0.        , 0.        ],
       [1.46564877, 0.        , 0.0675282 , 0.        ],
       [0.        , 0.11092259, 0.        , 0.37569802]])

通过一维布尔型数组给整行/列设定值：

In [15]:
data[names != 'Bob'] = 10

In [16]:
data

array([[ 0.49671415,  0.        ,  0.64768854,  1.52302986],
       [10.        , 10.        , 10.        , 10.        ],
       [10.        , 10.        , 10.        , 10.        ],
       [ 0.24196227,  0.        ,  0.        ,  0.        ],
       [10.        , 10.        , 10.        , 10.        ],
       [10.        , 10.        , 10.        , 10.        ],
       [10.        , 10.        , 10.        , 10.        ]])

## 1.6 花式索引（Fancy indexing）
花式索引是指利用整数来进行索引。

In [17]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

以特定顺序选择行子集，只需传入一个list或整数ndarray来指定顺序：

In [18]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

使用负号索引将从末尾开始选取行子集：

In [19]:
arr[[-3, -4, -2]]

array([[5., 5., 5., 5.],
       [4., 4., 4., 4.],
       [6., 6., 6., 6.]])

一次传入多个索引数组会有一点特别。它返回的是一个一维数组，其中的元素对应各个索引元组：

In [20]:
arr = np.arange(32).reshape(8, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [21]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

> 选择的元素是(1, 0)，(5, 3)，(7, 1)，(2, 2)。

**无论传入的索引数组多少维，花式索引结果总是一维的。**

In [22]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

**和切片不一样，花式索引总是将数据复制到新数组中。**

## 1.6 数组转置和轴兑换

+ **转置**

转置（Transpose）是重塑（reshape）的一种特殊形式，转置返回的是数据的视图（没有复制数据）。数组不仅有`transpose`方法还有特殊的`T`属性。

In [24]:
arr = np.arange(15).reshape(3, 5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [25]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [26]:
arr.transpose()

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

在进行矩阵运算时，会经常用到该操作，如矩阵内积（`np.dot`）：

In [27]:
arr = np.random.randn(6, 3)
arr

array([[-0.60063869, -0.29169375, -0.60170661],
       [ 1.85227818, -0.01349722, -1.05771093],
       [ 0.82254491, -1.22084365,  0.2088636 ],
       [-1.95967012, -1.32818605,  0.19686124],
       [ 0.73846658,  0.17136828, -0.11564828],
       [-0.3011037 , -1.47852199, -0.71984421]])

In [28]:
np.dot(arr.T, arr)

array([[ 8.94458476,  2.32054791, -1.68040464],
       [ 2.32054791,  5.55519918,  0.71781912],
       [-1.68040464,  0.71781912,  2.09473181]])

对于高维数组，`transpose`将会接收轴号组成的元组才能对这些轴进行转置：

In [29]:
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [30]:
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

> 转置将原来的shape从(2, 2, 4)（对应的是(0, 1, 2)）变成了(2, 2, 4)（对应于(1, 0, 2)），其实是将第一个轴和第二个轴元素对换，最后一个轴保持不变。如元素8的位置是(0, 1, 0)，转置后的位置(1, 0, 0)。

+ **轴对换（swap axes）**

`ndarray.T`是轴对换的一种特殊例子。`ndarray.swapaxes`接收一对轴编号（a pair of axis number），然后转换来重塑数据：

In [32]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [33]:
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

> 将第2个轴和第三个轴对换。

# 2 通用函数——快速的元素级数组函数

**通用函数（universal function, or ufunc）**是一个对ndarray中数据执行元素级操作的函数。可以将它们看做是对简单函数（输入是一个或多个标量值，输出是一个或多个标量值）的快速矢量化包装。

许多ufuncs都是简单对元素进行转换，如：

In [34]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [35]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [37]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

这些都是一元的ufuncs（unary ufuncs）。其他，如`add`，`maximum`等接收两个数组（称为二元ufuncs，binary ufuncs），返回单个数组作为结果。

In [38]:
x = np.arange(5)
y = np.arange(6, 11)

In [39]:
np.maximum(x, y)

array([ 6,  7,  8,  9, 10])

尽管不常见，ufunc可以返回多个数组。`np.modf`是Python内建`divmod`的矢量化版本——它返回整数部分和小数部分的浮点数数组：

In [40]:
arr = np.random.randn(7) * 5
arr

array([-2.30319385,  5.28561113,  1.71809145, -8.81520078,  1.62041985,
       -1.9254114 , -3.38461   ])

In [42]:
remainder, whole_part = np.modf(arr)

In [43]:
remainder

array([-0.30319385,  0.28561113,  0.71809145, -0.81520078,  0.62041985,
       -0.9254114 , -0.38461   ])

In [44]:
whole_part

array([-2.,  5.,  1., -8.,  1., -1., -3.])

ufunc有一个`out`可选参数，可以对数据进行原地操作：

In [45]:
arr

array([-2.30319385,  5.28561113,  1.71809145, -8.81520078,  1.62041985,
       -1.9254114 , -3.38461   ])

In [46]:
np.sqrt(arr)

  """Entry point for launching an IPython kernel.


array([       nan, 2.2990457 , 1.31075987,        nan, 1.27295713,
              nan,        nan])

In [47]:
np.sqrt(arr, arr)

  """Entry point for launching an IPython kernel.


array([       nan, 2.2990457 , 1.31075987,        nan, 1.27295713,
              nan,        nan])

In [48]:
arr

array([       nan, 2.2990457 , 1.31075987,        nan, 1.27295713,
              nan,        nan])

**一元ufuncs**

|函数|描述|
| :-- | :--: |
|`np.abs`, `np.fabs`|计算整数、浮点数、复数的绝对值（逐元素）。对于非复数值，可以用更快的`np.fabs`|
|`np.sqrt`|计算每个元素的平方根（等价于`arr ** 0.5`）|
|`np.square`|计算每个元素的平方（等价于`arr ** 2`）|
|`np.exp`|逐元素$e^x$|
|`np.log`, `np.log10`|逐元素取对数，以e、10为底|
|`np.log2`, `np.log1p`|逐元素取以2为底的对数，$log(1+x)$|
|`np.sign`|符号函数：1（正数）、0（0），-1（负数）|
|`np.ceil`|逐元素的ceiling值，即大于等于该值的最小整数|
|`np.floor`|计算逐元素的floor值，即小于等于该值的最大整数|
|`np.rint`|四舍五入取整，保留dtype|
|`np.modf`|将数组元素的小数和整数部分分开成两个数组|
|`np.isnan`|返回一个表示哪些元素是NaN（不是一个数）的布尔型数组|
|`np.isfinite`, `np.isinf`|分别返回一个表示哪些元素是又穷的（非inf、非NaN）、哪些元素是无穷的布尔型数组|
|`np.cos`, `np.cosh`, `np.sin`|普通型和双曲线三角函数|
|`np.sinh`, `np.tan`, `np.tanh`||
|`np.arccos`, `np.arccosh`||
|`np.acrsin`, `np.arcsinh`||
|`np.arctan`, `np.arctanh`||
|`np.logical_not`|计算各元素的not x真值（`~arr`）|



**二元ufuncs**

|函数|描述|
| :-- | :--: |
|`np.add`|两个数组中对应元素相加|
|`np.subtract`|第一个数组中的元素减去第二个数组中的元素|
|`np.multiply`|两个数组中元素对应相乘|
|`np.divide`, `np.floor_divide`|除法，去除小数|
|`np.power(A, B)`|幂运算$A^B$|
|`np.maximum`, `np.fmax`|对应元素最大值；`np.fmax`忽略`NaN`|
|`np.minimum`, `np.fmin`|对应元素最小值；`np.fmim`忽略`NaN`|
|`np.mod`|元素值取模操作|
|`np.copysign`|将第二个数组中值的符号复制给第一数组中的元素|
|`np.greater`, `np.greater_equal`|元素级比较`>`, `>=`, `<`, `<=`, `==`, `!=`|
|`np.less`, `np.less_equal`||
|`np.equal`, `np.equal_equal`||
|`np.logical_and`, `np.logical_or`, `np.logical_xor`|元素级真值操作（`&`, `|`, `^`）|

# 3 利用数据进行面向数组的编程
NumPy数组允许将许多数据处理任务表述为简单的数组表达式（否则需要写循环），用数组表达式代替循环的操作称为**矢量化vectorization**。**通常矢量化数组操作比等价的纯Python方式快上一到两个（或更多）数量级，尤其是各种数值计算。**在高阶部分，广播（broadcasting）是一种针对矢量化的强大手段。

现在要在网格中计算$\sqrt{x^2+y^2}$。

In [2]:
points = np.arange(-5, 5, 0.01)   # 1000个等间距点

In [3]:
xs, ys = np.meshgrid(points, points)

![`np.meshgrid`](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/meshgrid.jpg)

In [4]:
np.sqrt(xs ** 2 + ys ** 2)

array([[7.07106781, 7.06400028, 7.05693985, ..., 7.04988652, 7.05693985,
        7.06400028],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       ...,
       [7.04988652, 7.04279774, 7.03571603, ..., 7.0286414 , 7.03571603,
        7.04279774],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568]])

## 3.1 将条件逻辑表述为数组运算

`np.where`是三元表达式`x if condition else y`的矢量化版本。

In [5]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

当条件为真，选`xarr`中的元素，否则选择`yarr`中的元素。

In [7]:
# 列表推导式
result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

> 1. 对大数组来说，不够快，因为是用纯Python完成的；
> 2. 对多维数组无效。

In [8]:
np.where(cond, xarr, yarr)

array([1.1, 2.2, 1.3, 1.4, 2.5])

在`np.where`中，第二个和第三个参数可以不是数组，而是标量值。在数据分析中，通常用于根据一个数组产生一个新的数组。

现：将数组中大于0的元素替换为2，其他值替换为0。

In [9]:
arr = np.random.randn(4, 4)
arr

array([[ 1.24186815, -0.21812796,  2.00830792,  1.59748927],
       [-1.14259079, -1.7585347 , -0.62974076, -0.50431256],
       [ 0.8341356 , -0.7187342 ,  1.30031649,  0.32001963],
       [-0.33770858,  0.03946813, -0.25501239,  2.01117153]])

In [11]:
np.where(arr > 0, 2, -2)

array([[ 2, -2,  2,  2],
       [-2, -2, -2, -2],
       [ 2, -2,  2,  2],
       [-2,  2, -2,  2]])

可以把标量值和数组结合起来：

In [12]:
np.where(arr > 0, 2, arr)

array([[ 2.        , -0.21812796,  2.        ,  2.        ],
       [-1.14259079, -1.7585347 , -0.62974076, -0.50431256],
       [ 2.        , -0.7187342 ,  2.        ,  2.        ],
       [-0.33770858,  2.        , -0.25501239,  2.        ]])

传给`np.where`的数组大小可以不相等，甚至是标量值。

## 3.2 数学和统计方法

可以对整个数组数据/沿某轴的数据进行统计计算。聚合aggregations（也叫reductions），如`sum`，`mean`和`std`既可以调用实例方法（`ndarray.sum()`），也可以使用顶级的NumPy函数（`np.sum(ndarray)`）。

In [13]:
arr = np.random.randn(5, 4)
arr

array([[ 2.08811298, -0.70366286,  0.1262446 ,  1.65554186],
       [-0.50680114,  0.16848553, -1.02280482,  0.32719329],
       [-1.27775237, -2.56735703,  0.75198671, -1.70663612],
       [-0.93328796, -0.862742  , -0.34062411,  0.95033707],
       [ 0.35258184, -0.56465253, -0.42867029,  0.69724462]])

+ 对整个数据进行取平均

In [14]:
arr.mean()

-0.18986313567246021

In [16]:
np.mean(arr)

-0.18986313567246021

+ 沿轴0方向（第一个轴），对每个列统计

In [17]:
arr.mean(axis=0)

array([-0.05542933, -0.90598578, -0.18277358,  0.38473614])

In [18]:
np.mean(arr, axis=0)

array([-0.05542933, -0.90598578, -0.18277358,  0.38473614])

+ 沿轴1方向（第二个轴），对每一行做统计

In [19]:
arr.mean(axis=1)

array([ 0.79155915, -0.25848178, -1.1999397 , -0.29657925,  0.01412591])

In [20]:
np.mean(arr, axis=1)

array([ 0.79155915, -0.25848178, -1.1999397 , -0.29657925,  0.01412591])

其他方法，如`cumsum`和`cumprod`不产生聚合，而是产生一个中间结果的数组：

In [21]:
arr = np.arange(7)
arr

array([0, 1, 2, 3, 4, 5, 6])

+ 累加和

In [22]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21], dtype=int32)

In [24]:
np.cumsum(arr)

array([ 0,  1,  3,  6, 10, 15, 21], dtype=int32)

+ 累计积

In [25]:
arr = np.arange(1, 7)
arr

array([1, 2, 3, 4, 5, 6])

In [26]:
arr.cumprod()

array([  1,   2,   6,  24, 120, 720], dtype=int32)

在多维数组中，累加函数（如`cumsum`）返回大小相同的数组：

In [28]:
arr = np.arange(9).reshape(3, 3)
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [29]:
arr.sum()

36

In [30]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36], dtype=int32)

In [31]:
arr.cumsum(axis=0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [32]:
arr.cumsum(axis=1)

array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]], dtype=int32)

In [33]:
arr.cumprod()

array([0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)

In [34]:
arr.cumprod(axis=0)

array([[ 0,  1,  2],
       [ 0,  4, 10],
       [ 0, 28, 80]], dtype=int32)

In [35]:
arr.cumprod(axis=1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

**基本的数组统计方法**

|方法|描述|
| :-- | :--: |
|`sum`|求和（整个数组或沿某个轴），长度为0的数组和为0|
|`mean`|算术平均数（整个数组或沿某个轴），长度为0的数组平均值为NaN|
|`std`, `var`|标准差，方差，自由度可调（默认为0）|
|`min`, `max`|最小值，最大值|
|`argmin`, `argmax`|最小值，最大值的位置|
|`cumsum`, `cumprod`|累计和，累计积|

## 3.3 布尔型数组的方法

在上面这些方法中，布尔值会被强制转换为1(`True`)和0(`False`)。因此，`sum`经常用来统计布尔型数组中`True`的个数。

In [36]:
arr = np.random.randn(100)
arr > 0

array([ True,  True, False, False, False,  True, False, False, False,
        True, False,  True,  True,  True, False,  True,  True,  True,
       False,  True, False, False,  True,  True, False, False,  True,
       False, False,  True,  True,  True, False, False,  True, False,
       False,  True, False,  True,  True,  True,  True,  True,  True,
       False, False, False,  True, False,  True, False,  True, False,
       False,  True, False, False, False, False,  True, False,  True,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False, False, False,  True,
        True,  True, False,  True,  True, False, False, False, False,
        True, False, False, False,  True,  True,  True, False,  True,
        True])

In [37]:
(arr > 0).sum()

55

`any`用来表示数组中是否有`True`值，`all`数组中值是否都为`True`。

In [40]:
arr = np.random.randn(2, 3)
arr

array([[ 0.21379718, -0.44916554, -2.37941605],
       [ 0.03691912,  1.51462168, -0.17930039]])

In [42]:
boolean_arr = arr > 0
boolean_arr

array([[ True, False, False],
       [ True,  True, False]])

In [43]:
np.all(boolean_arr)

False

In [44]:
np.all(boolean_arr, axis=0)

array([ True, False, False])

In [45]:
boolean_arr.all()

False

In [46]:
np.any(boolean_arr)

True

In [47]:
np.any(boolean_arr, axis=1)

array([ True,  True])

## 3.4 排序

NumPy数组可以使用`sort`方法来原地排序。

In [48]:
arr = np.random.randn(5)
arr

array([-1.40055998, -0.57787126,  0.74588762,  0.38398781,  0.21964548])

In [49]:
arr.sort()

In [50]:
arr

array([-1.40055998, -0.57787126,  0.21964548,  0.38398781,  0.74588762])

可以对多维数组中某一维进行排序：

In [51]:
arr = np.random.randn(5, 3)
arr

array([[-1.51437499, -0.19220216,  1.330906  ],
       [-1.82771669,  2.2285614 , -1.11942366],
       [-1.42214619,  0.48270104,  0.06781517],
       [-1.59884795, -0.47596887, -1.56312386],
       [-0.65859644,  0.28090675,  0.92604116]])

In [52]:
arr.sort(1)

In [53]:
arr

array([[-1.51437499, -0.19220216,  1.330906  ],
       [-1.82771669, -1.11942366,  2.2285614 ],
       [-1.42214619,  0.06781517,  0.48270104],
       [-1.59884795, -1.56312386, -0.47596887],
       [-0.65859644,  0.28090675,  0.92604116]])

顶级方法`np.sort()`返回的是一个排好序的新数组，而不是原地修改。

In [54]:
arr = np.random.randn(5, 3)
arr

array([[-0.62645687, -1.01440095, -0.96691589],
       [-1.43834736,  1.58451784,  0.51665313],
       [ 0.9018824 , -0.87470314,  1.29539305],
       [ 0.10782105, -0.21258461,  0.01153506],
       [ 0.96665491, -0.14106333, -0.0278047 ]])

In [55]:
np.sort(arr, axis=1)

array([[-1.01440095, -0.96691589, -0.62645687],
       [-1.43834736,  0.51665313,  1.58451784],
       [-0.87470314,  0.9018824 ,  1.29539305],
       [-0.21258461,  0.01153506,  0.10782105],
       [-0.14106333, -0.0278047 ,  0.96665491]])

**可以快速地进行分位数计算：**

1. 先排序
2. 再选择

In [56]:
large_arr = np.random.randn(100)
large_arr.sort()

In [57]:
large_arr[int(0.05 * len(large_arr))]  # 5% quantile

-1.7390595970605125

更多排序方法见高阶部分。

## 3.5 唯一值和集合逻辑

针对一维数组，NumPy提供了一些基本的集合操作。最常用的是**`np.unique`**，返回一个**排好序**的**唯一值**组成的数组。

In [1]:
import numpy as np
np.random.seed(42)

In [2]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [3]:
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [4]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [5]:
np.unique(ints)

array([1, 2, 3, 4])

可以使用纯Python达到这种效果：

In [6]:
sorted(set(ints))

[1, 2, 3, 4]

**`np.in1d`**测试一个数组中的元素是否再另一个数组里，结果是一个布尔数组：

In [7]:
values = np.array([6, 0, 0, 3, 2, 5, 6])

In [8]:
np.in1d(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True])

**数组集合函数**

|函数|描述|
| :-- | :---: |
|`np.unique(x)`|返回x中的唯一值，结果排好序|
|`np.intersect(x, y)`|返回x和y交集，结果排好序|
|`np.union(x, y)`|返回x和y并集，结果排好序|
|`np.in1d(x, y)`|返回一个布尔型数组，表示x中的每一个元素是否在y中|
|`np.setdiff1d(x, y)`|x和y的差集，元素在x中，但不在y中|
|`np.setxor1d(x, y)`|x和y的对称差，在某个数组，但不同时存在两个数组中|

# 4 用于数组的文件输入和输出

NumPy is able to save and load data to and from disk either in text or binary format.（我举得这局英文不错）

这里仅仅套路NumPy内建的二进制格式，因为对于文本和表格型数据，似乎更喜欢用pandas和其他工具。

**`np.save`和`np.load`**是读写磁盘磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为`.npy`的文件中。

In [9]:
arrr = np.arange(10)
arrr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.save('examples_for_np_save', arrr)

如果文件末尾没有扩展名`.npy`，则该扩展名会被自动加上。然后可以通过`np.load`读取磁盘上的数组：

In [11]:
np.load('examples_for_np_save.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

通过**`np.savez`**可以将多个数组保存到一个压缩文件中，将数组以关键字形式传入即可：

In [13]:
np.savez('example_for_np_savez.npz', a=arrr, b=arrr)

加载`.npz`时，会得到一个类似字典的对象，该对象会对各个数组进行延迟加载：

In [14]:
arch = np.load('example_for_np_savez.npz')

In [15]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

加载文本主要使用`pd.read_csv`和`pd.read_table`函数。有时，需要用`np.loadtext`或更加专门化的`np.genfromtext`将数据加载到普通的NumPy数组中。

# 5 线性代数（Linear Algebra）

矩阵乘法：

In [17]:
x = np.array([[1., 2., 3.], [4, 5., 6.]])
x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [18]:
y = np.array([[6, 23.], [-1, 7], [8, 9]])
y

array([[ 6., 23.],
       [-1.,  7.],
       [ 8.,  9.]])

In [19]:
x.dot(y)   # method

array([[ 28.,  64.],
       [ 67., 181.]])

In [20]:
np.dot(x, y)  # method

array([[ 28.,  64.],
       [ 67., 181.]])

In [23]:
np.dot(x, np.ones(3))

array([ 6., 15.])

`@`符号——Python中缀运算，也可以进行矩阵运算：

In [24]:
x @ np.ones(3)

array([ 6., 15.])

`np.linalg`有一套标准的矩阵分解和诸如求逆、行列式之类的东西。它们跟MATLAB和R等语言所使用的是相同的行业标准线性代数库，如BLAS、LAPACK、Intel MKL（Math Kernel Library，可能有，取决于你的NumPy版本）等：

In [26]:
from numpy.linalg import inv, qr

In [27]:
X = np.random.randn(5, 5)

In [28]:
mat = X.T.dot(X)

In [29]:
mat

array([[ 2.9805946 ,  0.01599104, -0.04782309,  0.17546989,  0.55226368],
       [ 0.01599104,  3.80673615,  0.67617578,  1.18044033,  3.24587224],
       [-0.04782309,  0.67617578,  1.17031369, -0.21833843, -0.63321793],
       [ 0.17546989,  1.18044033, -0.21833843,  9.05508255,  4.74692465],
       [ 0.55226368,  3.24587224, -0.63321793,  4.74692465,  5.61549503]])

In [30]:
inv(mat)

array([[ 0.46603249,  0.83005941, -0.8914962 ,  0.34032244, -0.91383502],
       [ 0.83005941,  5.63797815, -5.98435482,  2.17215259, -5.85149016],
       [-0.8914962 , -5.98435482,  7.27912183, -2.36447819,  6.3663243 ],
       [ 0.34032244,  2.17215259, -2.36447819,  1.04007417, -2.43484522],
       [-0.91383502, -5.85149016,  6.3663243 , -2.43484522,  6.42635506]])

In [31]:
mat.dot(inv(mat))

array([[ 1.00000000e+00,  2.03918127e-16, -5.27578570e-17,
        -6.16352044e-17,  9.30937217e-17],
       [ 6.73757918e-16,  1.00000000e+00, -6.49198505e-15,
         7.17732226e-16, -1.25404966e-15],
       [ 3.68740164e-16, -1.71363662e-15,  1.00000000e+00,
         2.47020547e-16, -4.16039523e-17],
       [ 2.06048699e-16, -1.57629676e-15, -5.82631999e-15,
         1.00000000e+00, -1.26496239e-15],
       [-6.07879270e-16, -3.23140123e-15, -3.00744422e-15,
         1.02763069e-15,  1.00000000e+00]])

In [33]:
q, r = qr(mat)   # QR分解
r

array([[-3.03681936, -0.68357993,  0.18957716, -1.56834194, -1.86459486],
       [ 0.        , -5.13911996, -0.2298267 , -5.71568758, -6.71182716],
       [ 0.        ,  0.        , -1.4795309 ,  3.69369571,  2.94284836],
       [ 0.        ,  0.        ,  0.        , -7.56488899, -2.84866447],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.09022874]])

**通用的`np.linalg`函数：**

|函数|描述|
| :-- | :---: |
|diag|以一维数组的形式返回方阵的对角线元素（或非对角线元素），或将一维数组转换为方阵（非对角线元素为0）|
|dot|矩阵乘法|
|trace|对角线元素和|
|det|计算行列式|
|eig|计算仿真的本征值和本征向量|
|inv|方阵的逆|
|pinv|计算矩阵的Moore-Penrose伪逆|
|qr|QR分解|
|svd|奇异值分解（SVD）|
|solve|解线性方程组$Ax=b$，其中A为一个方阵|
|lstsq|计算$Ax=b$的最小二乘解|

# 6 伪随机数生成

`np.random`模块对Python内置的`random`进行了补充，可以更加有效地从多个分布中产生数组值。

产生一个值服从标准正态分布的(4x4)数组：

In [1]:
import numpy as np
np.random.seed(42)

In [2]:
samples = np.random.normal(size=(4, 4))
samples

array([[ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986],
       [-0.23415337, -0.23413696,  1.57921282,  0.76743473],
       [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
       [ 0.24196227, -1.91328024, -1.72491783, -0.56228753]])

相反地，Python内置`random`模块一次只能生成一个值。如果要生成大规模的值，`np.random`快了不止一个数量级。

In [4]:
from random import normalvariate

In [5]:
N = 1000000

In [6]:
%timeit samples = [normalvariate(0, 1) for _ in range(N)]

637 ms ± 6.07 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [7]:
%timeit np.random.normal(size=N)

26.1 ms ± 169 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


都是**伪随机数**，是因为它们都是通过算法基于随机数生成器种子，在确定性的条件下生成的。可以用NumPy的`np.random.seed(N)`更改随机数生成种子。

`np.random`生成数函数使用全局的随机种子。如果要避免全局状态，可以使用`np.random.RandomState`来创造一个与其他隔离的随机数生成器。

In [8]:
rng = np.random.RandomState(1234)

In [9]:
rng.randn(10)

array([ 0.47143516, -1.19097569,  1.43270697, -0.3126519 , -0.72058873,
        0.88716294,  0.85958841, -0.6365235 ,  0.01569637, -2.24268495])

In [12]:
np.random.randn(10)  # 全局随机数生成器

array([-0.781669  ,  0.35956456,  0.44807407,  0.98373785,  1.5621861 ,
        1.00609641,  0.79752244,  0.81511666, -0.4031253 ,  0.99753251])

**`np.random`部分函数**

|函数|描述|
| :--- | :---: |
|`seed`|确定随机数生成器的种子|
|`permutation`|返回一个序列的随机排列，或者返回一个随机排列的范围|
|`shuflle`|对一个序列原地随机排列|
|`rand`|从均匀分布中产生样本值|
|`randint`|从一个给定范围内生成随机整数|
|`randn`|从0-1正态分布中抽样|
|`binomial`|从二项分布中抽样|
|`normal`|从高斯（正态）分布中抽样|
|`beta`|从beta分布中抽样|
|`chisquare`|从卡方（chi-square）分布中抽样|
|`gamma`|从gamma分布中抽样|
|`uniform`|从均匀分布中[0, 1)抽样|