# Numpy基础：数组和矢量计算
Numpy是高性能科学计算和数学分析的基础包，是大多数高级工具的构建基础。提出以下功能：

- ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组
- 对数组数据进行快速运算的标准数学函数（无需编写循环）
- 读写磁盘数据的工具
- 线性代数、随机数生成以及傅里叶变换
- 集成由C、C++、Fortran等语言编写代码的工具
标准的NumPy约定导入方法：

In [1]:
import numpy as np

## 1. NumPy的ndarray：一种多维数组对象
NumPy最重要的特点是其**N维数组对象（即ndarray）**，能够对整块数据执行一些数学运算，其语法与基本数据类型之间的运算一样。

In [3]:
import numpy as np
data = np.random.random((2,3))
data

array([[0.90892332, 0.09566098, 0.58718358],
       [0.34904468, 0.04295783, 0.29375294]])

In [24]:
data * 10

array([[ 5.03581838,  9.16267202,  9.64100751],
       [ 1.90985163,  1.51697847,  3.63042676]])

In [25]:
data + data

array([[ 1.00716368,  1.8325344 ,  1.9282015 ],
       [ 0.38197033,  0.30339569,  0.72608535]])

1. ndarray是一个通用的**同构数据容器**，即其中的元素必须是相同类型的。
2. 每个数组都有一个shape（一个表示各维度大小的元组)和一个dtype（说明数组数据类型的对象）

In [26]:
data.shape

(2, 3)

In [4]:
data.dtype

dtype('float64')

### 1.1 创建ndarray对象
+ 最简单的办法是使用**array**函数，它接受一切序列型对象（包括其他数组）

In [28]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [29]:
data1

[6, 7.5, 8, 0, 1]

嵌套序列（比如等长的列表）将会被转化为一个多维数组

In [30]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [31]:
arr2.ndim

2

In [32]:
arr2.shape

(2, 4)

除非显示说明，np.array会尝试为新建的数组推断出一个较为合适的数据类型，保存在dtype对象中。

In [33]:
arr1.dtype

dtype('float64')

In [34]:
arr2.dtype

dtype('int32')

+ zeros和ones分别可以创建指定长度或形状的全部为0或1的数组。empty可以创建一个没有任何具体数值的数组。创建多为数组只需传入一个表示形状的元组即刻。

In [35]:
np.zeros((10,))

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [36]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [37]:
np.zeros((3,2))

array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])

In [38]:
np.zeros((3,6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [39]:
np.ones((3,2))

array([[ 1.,  1.],
       [ 1.,  1.],
       [ 1.,  1.]])

In [40]:
np.empty((2, 3, 2))

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

*np.empty并不会总是返回全0数组，多数情况下，他返回的都是一些未初始化的垃圾值。*

+ arrange函数（Python内置函数range的NumPy版）

In [41]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [42]:
np.arange(0,15,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14])

### 1.2 ndarray的数据类型

In [43]:
arr3 = np.array([1, 2, 3], dtype = np.float64)
arr4 = np.array([1, 2, 3], dtype = np.int32)

In [44]:
arr3.dtype

dtype('float64')

In [45]:
arr4.dtype

dtype('int32')

+ 可以通过ndarray的**astype**方法显式转换其dtype：

In [5]:
arr5 = np.array([1, 2, 3, 4, 5])
arr5.dtype

dtype('int32')

In [6]:
float_arr = arr5.astype(np.float64)
float_arr.dtype

dtype('float64')

如果浮点数转换为整数，则小数部分会被截断。

In [7]:
arr6 = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr6

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [8]:
arr6.dtype

dtype('float64')

In [9]:
arr6.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

如果某字符串全是数字，也可以用astype将其转换为数值形式：

In [11]:
numeric_strings= np.array(['1.25', '-9.6', '42'], dtype=np.string_)

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [12]:
newarr = numeric_strings.astype(np.float)
newarr

array([ 1.25, -9.6 , 42.  ])

In [13]:
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [14]:
newarr.dtype

dtype('float64')

+ **数组类型转化时，会返回新建数组，即原数组的一个copy，原数组并未发生改变。**
+ 如果转化过程失败，会引发TypeError
+ 转换过程中可以不具体指定位数，譬如`np.int`，`np.float`等，NumPy会自动完成映射

In [15]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array = np.arange(10)

+ dtype可以用于指定新数组与已有数组同数据类型

In [56]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

### 1.3 数组和标量之间的运算
+ NumPy数组可以不用写循环对数据执行批量计算，这通常叫作**矢量化**。
+ **大小相等的数组之间的任何算术运算都会应用到元素级**。

In [16]:
arr7 = np.array([[1., 2., 3.], [4., 5., 6.]])

In [17]:
arr7

array([[1., 2., 3.],
       [4., 5., 6.]])

In [18]:
arr7 * arr7

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [19]:
arr7 - arr7

array([[0., 0., 0.],
       [0., 0., 0.]])

+ 数组与标量的的算术运算也会将标量值传播到各个元素

In [20]:
1 / arr7

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

+ 不同大小的数组之间的运算叫作广播（broadcasting）

### 1.4 基本的索引和切片
一维数组很简单，从表面上看，跟Python列表差不多。

In [62]:
arr8 = np.arange(10)
arr8

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
arr8[5]

5

In [64]:
arr8[5:8]

array([5, 6, 7])

+ 将一个标量值赋值给一个片段时，该值会自动传播（广播）到整个选区。

In [65]:
arr8[5:8] = 12
arr8

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

+ 跟列表的重要区别在于，**数组切片是原始数组的视图，即数据不会被复制，视图上的任何修改都会直接反映到源数据上**

In [66]:
arr8_slcie = arr8[5:8]
arr8_slcie[1] = 12345
arr8

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [67]:
arr8_slcie[:] = 64
arr8

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [68]:
ls = list(range(10))
ls_slice = ls[5:8]
ls_slice[1] = 12
ls

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [69]:
ls_slice

[5, 12, 7]

In [70]:
ls

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

+ 如果需要得到ndarray切片的一份副本而非视图，则需进行显式地复制操作，例如`arr8[5:8].copy()`
+ 在二维数组中,各索引位置上地元素不是标量，而是一维数组

In [71]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[2]

array([7, 8, 9])

In [72]:
arr2d[0][2]

3

In [73]:
arr2d[0,2]

3

+ 多维数组中，如果省略后面地索引，则返回对象是一个维度低一级地ndarray

In [21]:
arr3d = np.array([[[1,2, 3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [22]:
arr3d.shape

(2, 2, 3)

In [23]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

+ 标量值和数组都可以赋值给`arr3d[0]`

In [24]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [25]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [26]:
arr3d[1, 0]

array([7, 8, 9])

### 1.5 切片索引
+ ndarray地切片语法跟Python列表这样的一维对象差不多
+ 高维度对象花样更多，可以在一个或多个轴上进行切片，也可以跟整数索引混合使用。

In [80]:
arr8 = np.arange(10)
arr8[1:6]

array([1, 2, 3, 4, 5])

In [81]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [82]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

可以看出，上述例子是沿着第0轴（即第一个轴）进行切片地。也就是说，切片是沿着一个轴向选取元素，因此可以一次传入多个切片，就像传入多个索引那样。

In [83]:
arr2d[1,2]

6

In [84]:
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

切片操作时，只能得到相同维数的数组视图。通过将整数索引和切片索引混合，可以得到低维度的切片。

In [85]:
arr2d[1,:2]

array([4, 5])

In [86]:
arr2d[2,:1]

array([7])

+ 只有冒号表示选取整个轴
+ 对切片进行赋值也会被扩散到整个选区

In [87]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

In [88]:
arr2d[:2,1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

<span class="mark"><div class="mark"></span>
### 1.6 布尔型索引</div><i class="fa fa-lightbulb-o "></i>

In [27]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [28]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [29]:
data

array([[-1.97776682, -0.08188507, -1.73727144,  0.17082208],
       [-0.9309923 ,  1.4769017 , -0.95024408, -0.58293836],
       [-1.41624741,  0.41955402,  0.41407874,  0.65354089],
       [-1.03818657, -0.35234573, -0.47315287,  2.64631589],
       [ 0.15026296, -0.49687597, -0.30088431,  0.86078019],
       [-1.00308482, -0.4609666 , -0.57320331,  0.46742224],
       [-1.27491572,  0.68381613, -0.18580211,  0.8433874 ]])

假设每个名字对应data数组总的一行，如何选出对应"Bob"的所有行？**跟算术运算一样，数组的比较运算（如==）也是矢量化的。**

In [92]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

+ 布尔型数组可以用于索引, 但布尔型数组的长度必须与被索引的轴长度一致。
+ 此外，还可以将布尔型数组跟切片、整数（或整数序列）混合使用

In [93]:
data[names=='Bob']

array([[ 0.83549036,  0.627258  , -0.43489541, -1.80174134],
       [ 1.19204681, -0.43725214, -0.21429612, -0.07431903]])

In [94]:
data[names=='Joe', 2:]

array([[ 0.16230705,  0.17194286],
       [ 0.21603883, -2.24219404],
       [-0.72858945,  0.79906827]])

In [95]:
data[names=='Will', 3]

array([ 0.29110402,  3.15530999])

要选取除Bob以外的其他值，**既可以使用不等于符号（!=），也可以通过波浪号（~）(以前版本是减号（-））对条件进行否定。**

In [96]:
data[names != 'Bob']

array([[ 1.0207211 ,  0.46657651,  0.16230705,  0.17194286],
       [-2.1825506 , -1.12389206, -1.20202577,  0.29110402],
       [ 1.69258923, -0.761686  ,  0.20913118,  3.15530999],
       [-0.65584303,  0.54639108,  0.21603883, -2.24219404],
       [-1.67158242,  0.31087883, -0.72858945,  0.79906827]])

In [97]:
data[~(names == 'Bob')]

array([[ 1.0207211 ,  0.46657651,  0.16230705,  0.17194286],
       [-2.1825506 , -1.12389206, -1.20202577,  0.29110402],
       [ 1.69258923, -0.761686  ,  0.20913118,  3.15530999],
       [-0.65584303,  0.54639108,  0.21603883, -2.24219404],
       [-1.67158242,  0.31087883, -0.72858945,  0.79906827]])

选取三个名字中的两个则需要组合应用多个布尔条件，使用 **&（和）、|（或）之类的布尔算术运算符**。Python关键词and 和 or 在布尔型数组中无效。

In [98]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [99]:
data[mask]

array([[ 0.83549036,  0.627258  , -0.43489541, -1.80174134],
       [-2.1825506 , -1.12389206, -1.20202577,  0.29110402],
       [ 1.19204681, -0.43725214, -0.21429612, -0.07431903],
       [ 1.69258923, -0.761686  ,  0.20913118,  3.15530999]])

+ 布尔型索引选取数组中的数据，总是创建数据的副本，即使返回一摸一样的数组。
+ 可以通过布尔型数组设置值。譬如，将data中所有的负值设置为0：

In [100]:
data[data < 0] = 0
data

array([[ 0.83549036,  0.627258  ,  0.        ,  0.        ],
       [ 1.0207211 ,  0.46657651,  0.16230705,  0.17194286],
       [ 0.        ,  0.        ,  0.        ,  0.29110402],
       [ 1.19204681,  0.        ,  0.        ,  0.        ],
       [ 1.69258923,  0.        ,  0.20913118,  3.15530999],
       [ 0.        ,  0.54639108,  0.21603883,  0.        ],
       [ 0.        ,  0.31087883,  0.        ,  0.79906827]])

In [101]:
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 1.0207211 ,  0.46657651,  0.16230705,  0.17194286],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.54639108,  0.21603883,  0.        ],
       [ 0.        ,  0.31087883,  0.        ,  0.79906827]])

### 1.7 花式索引（Fancy indexing）
NumPy术语，指利用整数数组进行索引。

In [2]:
arr9 = np.empty((8, 4))
for i in range(8):
    arr9[i] = i

In [3]:
arr9

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

+ 为了以特定顺序选取子集，只需传入一个用于指定顺序的整数列或ndarray即可
+ 使用负数将会从末尾开始选取行

In [104]:
arr9[[4, 3, 0, 6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [105]:
arr9[[-3, -5, -7]]

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

+ 一次传入多个索引数组，将会返回一个一维数组，其中的元素对应各个索引元组

In [4]:
arr10 = np.arange(32).reshape((8, 4))
arr10

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [107]:
arr10[[1,5,7,2],[0, 3,1,2]]

array([ 4, 23, 29, 10])

<span class="mark">1,0表示第二行第一列</span>

In [108]:
arr10[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

<span class="girk">加：表示索引的行元素全选</span>

In [6]:
arr10[:,[2,1,3,0]]

array([[ 2,  1,  3,  0],
       [ 6,  5,  7,  4],
       [10,  9, 11,  8],
       [14, 13, 15, 12],
       [18, 17, 19, 16],
       [22, 21, 23, 20],
       [26, 25, 27, 24],
       [30, 29, 31, 28]])

In [109]:
arr10[np.ix_([1,5,7,2],[0,3,1,2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

+ ** 花式索引与切片不一样，总是将数据复制到新的数组中。**

### 1.8 数组转置和轴对换
+ 转置(transpose)，是重塑的一种特殊形式，返回的是源数据的视图（不会进行任何复制操作）。
+ 此外，还有T属性,在进行矩阵计算时经常用到，譬如利用`np.dot`计算矩阵内积$X^TX$。

In [110]:
arr14 = np.arange(12).reshape((3,4))
arr14

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [111]:
arr14.transpose()

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [8]:
arr13 = np.arange(16).reshape((2, 2, 4))  # 三维数组，2x2x4，轴索引编号分别为：0，1，2
arr13

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [113]:
arr13[0,1,2]

6

In [9]:
arr13.transpose((1, 0 ,2))  # 此处的（1, 0, 2)为维度的索引

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

<span class="mark">上面的变化中，实际上是把0轴和1轴对换了。譬如，元素6的索引位置为(0,1,2)，把0轴和1轴对换后，将位于(1,0,2)位置，虽然辩护后数组依然为2x2x4。再例如：</span>

In [11]:
arr15 = np.arange(24).reshape((2,3,4))    # 2x3x4的三位数组
arr15

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [12]:
arr15.transpose((1,2,0))   #变为3X4x2的三维数组

array([[[ 0, 12],
        [ 1, 13],
        [ 2, 14],
        [ 3, 15]],

       [[ 4, 16],
        [ 5, 17],
        [ 6, 18],
        [ 7, 19]],

       [[ 8, 20],
        [ 9, 21],
        [10, 22],
        [11, 23]]])

In [13]:
arr11 = np.arange(15).reshape((3, 5))
arr11

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [14]:
arr11.T#仅对两维数组

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [15]:
arr12 = np.random.randn(6, 3)#6*3维的标准正态分布
np.dot(arr12.T, arr12)#计算两个数组的点积

array([[4.39044493, 1.71134758, 6.08682777],
       [1.71134758, 2.76433879, 2.6964439 ],
       [6.08682777, 2.6964439 , 9.44303671]])

+ 简单的转置可以使用T，其实质就是进行轴对换。此外，ndarray还有一个swapaxes方法，需接受一对轴变好。

In [16]:
arr13

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [17]:
arr13.swapaxes(1,2)     # 交换1轴和2轴，即由原来的(2,2,4)三维数组变换为(2,4,2)三维数组

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

## 2. 通用函数：快速的元素级数组函数
通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。许多ufunc函数都是简单的元素级变体，譬如`np.sqrt`和`np.exp`。

In [25]:
arr16 = np.arange(10)
np.sqrt(arr16)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [26]:
np.exp(arr16)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

+ `np.exp`和`np.sqrt`都是一元ufunc。另外一些，譬如`np.add`，`np.maximum`接受两个数组，因此也叫二元ufunc，其返回一个结果数组。

In [27]:
x = np.random.randn(8)
x

array([-1.29252776, -0.56808711,  0.4956579 , -1.48977071, -0.37715822,
        0.79163068, -0.25093856, -0.44913711])

In [28]:
y = np.random.randn(8)
y

array([-1.55649624, -1.27909524, -0.1434527 , -0.09230364, -1.19748705,
       -0.01580008, -1.32558151,  0.66174896])

In [29]:
np.maximum(x, y)

array([-1.29252776, -0.56808711,  0.4956579 , -0.09230364, -0.37715822,
        0.79163068, -0.25093856,  0.66174896])

+ 虽然不常见，但有些ufunc可以返回多个数组。譬如，`np.modf`，它是Python内置函数`divmod`的矢量化版本，用于计算浮点数数组的小数和整数部分。

In [30]:
arr17 = np.random.randn(7) * 5
np.modf(arr17)

(array([-0.8653945 ,  0.93511557,  0.85261909, -0.18436395,  0.95851386,
        -0.65229435, -0.56295142]), array([-1.,  5.,  4., -3.,  1., -5., -3.]))

In [31]:
arr17

array([-1.8653945 ,  5.93511557,  4.85261909, -3.18436395,  1.95851386,
       -5.65229435, -3.56295142])

1. 一元ufunc

|函数 | 说明 |
|:-------|:-------------------------------:|
|abs,fabs|计算整数、浮点数或复数的绝对值|
|sqrt|计算个元素的平方根|
|square|计算各元素的平方|
|exp|指数|
|log, log10, log2, log1p|对数|
|sign|计算各元素的正负号|
|ceil|ceiling 值|
|floor|floor值|
|rint|四舍五入|
|modf|返回小数部分和整数部分两个数组|
|isnan|哪些元素不是数字的布尔型数组|
|isfinite,isinf|有穷，无穷的布尔型数组|
|cos,cosh, sin, sinh, tan, tanh|普通型和双曲型三角函数|

2. 二元ufunc

| 函数   | 说明    |
|:---------:|:----------:|
|add      | 数组中对应元素相加|
|subtract  |从第一个数组中减去第二个数组中的元素|
|multiply  |对应元素相称|
|divide, floor_divide|除法或向下圆整除法|
|power   |第一个数组元素的第二个数组元素次幂$A^B$|
|maximum,fmax|元素级最大值，fmax将忽略NaN|

## 3. 利用数组进行数据处理
NumPy可以将许多数据处理任务表述为简介的数组表达式，从而避免写循环，通常称之为(**矢量化**）。矢量化数组运算要比等价的纯Python方式快一两个数量级，甚至更多，尤其是各种数值计算。

In [32]:
points = np.arange(-5, 5, 0.01)    # 1000个间隔相等的点

In [33]:
xs, ys = np.meshgrid(points, points)    # 接受两个一维数组，产生两个二维数组

In [34]:
ys

array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ...,
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

In [35]:
xs

array([[-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       ...,
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99],
       [-5.  , -4.99, -4.98, ...,  4.97,  4.98,  4.99]])

In [36]:
z = np.sqrt((xs**2 + ys**2))
z

array([[7.07106781, 7.06400028, 7.05693985, ..., 7.04988652, 7.05693985,
        7.06400028],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       ...,
       [7.04988652, 7.04279774, 7.03571603, ..., 7.0286414 , 7.03571603,
        7.04279774],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568]])

In [56]:
import matplotlib.pyplot as plt
%matplotlib#inline
plt.imshow(z, cmap=plt.cm.gray)
plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")
plt.show()

Using matplotlib backend: Qt5Agg


### 3.1 将条件逻辑表述为数组运算
`numpy.where`函数是三元表达式`x if condition els y`的矢量化版本。

In [43]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

假设根据cond的值选取xarr或yarr的值：当cond中的值为True时，选取xarr，否则从yarr选取。列表生成式写法如下：

In [44]:
result = [(x if c else y) for x,y,c in zip(xarr,yarr,cond)]

In [45]:
result

[1.1, 2.2, 1.3, 1.4, 2.5]

上述写法存在几个问题：
1. 对大数组的处理速度不是很快，因为都是由纯Python完成
2. 无法用于多维数组。

若使用`np.where`则更简洁：

In [46]:
result = np.where(cond, xarr, 0)
result

array([1.1, 0. , 1.3, 1.4, 0. ])

+ `np.where`的第二个和第三个参数不必是数组，都可以是标量。
+ `np.where`通常用于根据一个数组而产生一个新的数组。

假设有一个随机数组成的矩阵，将所有的正值替换为2，所有的负值替换为-2。则

In [47]:
arr18 = np.random.randn(4,4)
arr18

array([[-1.37844181, -0.98501641, -0.11127629, -0.65609163],
       [ 0.79734585, -0.65142169, -0.01045893,  0.10219497],
       [ 1.91769513, -0.53491889,  0.05390929, -0.51607642],
       [-1.16037789, -1.67134049,  0.10348399, -0.48332041]])

In [48]:
np.where(arr18 > 0, 2, -2)

array([[-2, -2, -2, -2],
       [ 2, -2, -2,  2],
       [ 2, -2,  2, -2],
       [-2, -2,  2, -2]])

In [49]:
np.where(arr18 > 0, 2, arr18)

array([[-1.37844181, -0.98501641, -0.11127629, -0.65609163],
       [ 2.        , -0.65142169, -0.01045893,  2.        ],
       [ 2.        , -0.53491889,  2.        , -0.51607642],
       [-1.16037789, -1.67134049,  2.        , -0.48332041]])

+ <span class="girk">传递给`np.where`的数组大小可以不相等，甚至是标量。</span>
+ `np.where`可以嵌套,例如：`np.where(cond1 & cond2, 0, (np.where(cond1, 1, np.where(cond2, 2, 3)))`

### 3.2 数学和统计方法
+ 可以通过数组上的一组函数对整个数组或某个轴向的数据进行统计计算。
+ `sum`,`mean`以及标准差`std`等聚合计算既可以当作数组的实例方法调用，也可以当作顶级NumPy函数使用。

In [51]:
arr19 = np.random.randn(5, 4)
arr19

array([[-0.86677047,  0.59253314, -0.53663886, -0.16491753],
       [ 1.15312143, -0.11633802, -0.43477178,  2.23195257],
       [ 0.34690415,  1.12031544,  1.61043648,  0.894664  ],
       [-1.66792187, -0.81339513,  0.3609651 ,  1.16925085],
       [-1.52836162, -1.61283996,  0.62438931,  0.87464145]])

In [52]:
arr19.mean()

0.16186093327762938

In [53]:
np.mean(arr19)

0.16186093327762938

In [54]:
arr19.sum()

3.2372186655525876

+ `mean`和`sum`这类函数可以接受一个axis参数，用于计算该轴上的统计值。最终结果是一个少一维的数组。

In [55]:
arr19.mean(axis = 1)#按水平方向计算均值

array([-0.24394843,  0.70849105,  0.99308001, -0.23777526, -0.4105427 ])

In [57]:
arr19.mean(axis=0)#按垂直方向计算均值

array([-0.51260568, -0.16594491,  0.32487605,  1.00111827])

In [58]:
arr19.sum(0)

array([-2.56302838, -0.82972453,  1.62438024,  5.00559133])

+ 其它如`cumsum`和`cumprod`之类的方法则不聚合，而是产生一个由中间结果组成的数组。

In [61]:
arr20 = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr20.cumsum(0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [60]:
arr20.cumprod(axis = 1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

基本数组统计方法，表。

### 3.3 用于布尔型数组的方法
在前述方法中，布尔值会被强制转换为1(`True`)和0(`False`)。因此`sum`经常被用于对布尔型数组中的True值计数。

In [62]:
arr21 = np.random.randn(100)
(arr21 > 0).sum()     # 正值的个数

49

In [63]:
(arr21> 0).sum()

49

+ 方法`any`和`all`对布尔型数组也非常有用：`any`用于测试数组中是否存在一个或多个`True`， 而`all`则检查数组中所有值是否都是`True`。
+ 这两个方法也可以用于非布尔型数组，<span class="mark">所有非零元素都会被当作</span>`True`。

In [65]:
bools = np.array([False, False, True, False])
bools.any()

True

In [66]:
bools.all()

False

In [67]:
data3 = np.array([1.1, 1.2, 0, 2, 3])
data3.any()

True

In [68]:
data3.all()

False

### 3.4 排序
跟Python内置的列表类型一样，NumPy数组也可以通过sort方法就地进行排序。

In [69]:
arr22 = np.random.randn(8)
arr22

array([ 1.09862518,  0.47403422, -2.7436396 , -1.16061426,  0.80472361,
       -0.71825208, -0.87094065, -0.3492217 ])

In [70]:
arr22.sort()

In [71]:
arr22

array([-2.7436396 , -1.16061426, -0.87094065, -0.71825208, -0.3492217 ,
        0.47403422,  0.80472361,  1.09862518])

+ 多维数组可以在任何一个轴上进行排序，只需将轴编号作为参数传入`sort`即可：

In [72]:
arr23 = np.random.randn(5,3)
arr23

array([[-1.24224882, -0.56713183,  1.20565033],
       [ 1.23255264, -0.11770557, -1.16221632],
       [ 0.68662892, -1.24725251,  1.36722165],
       [-0.69005286,  1.65341461,  2.52127185],
       [ 0.82538645, -1.45316981, -0.69988151]])

In [73]:
arr23.sort(axis=0)

In [74]:
arr23

array([[-1.24224882, -1.45316981, -1.16221632],
       [-0.69005286, -1.24725251, -0.69988151],
       [ 0.68662892, -0.56713183,  1.20565033],
       [ 0.82538645, -0.11770557,  1.36722165],
       [ 1.23255264,  1.65341461,  2.52127185]])

+ 顶级方法sort返回的是数组的已排序副本，而就地排序则会修改数组本身。
+ 计算数组分位数最简单的办法就是对数组进行排序，然后选取特定位置的值。

In [75]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))]    # 5%分位数

-1.6384442278839189

### 3.5 唯一化以及其他的一些集合逻辑
NumPy提供一些针对一维ndarray的基本集合运算。譬如，`np.unique`,找出数组中的唯一值并返回已排序的结果。

In [76]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [77]:
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [78]:
ints = np.array([3,3,3,2,2,1,1,4,4])
np.unique(ints)

array([1, 2, 3, 4])

In [79]:
sorted(set(names))

['Bob', 'Joe', 'Will']

+ 函数np.in1d用于测试一个数组中的值在另一个数组中的成员资格，返回一个布尔型数组。

In [80]:
values = np.array([6, 0, 0, 3, 2, 5, 6])

In [81]:
np.in1d(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True])

数组的集合运算函数表：

## 4. 用于数组的文件输入输出
NumPy能够读写磁盘上的文本数据或二进制数据。后面讲到的pandas用于将表格型数据读取到内存中。

### 4.1 将数组以二进制格式保存到磁盘
`np.save` 和 `np.load`是读写磁盘数组的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为 *.npy* 的文件中。

In [None]:
arr24 = np.arange(10)
np.save('arr24', arr24)

In [None]:
ls

In [None]:
np.load('arr24.npy')

+ 通过`np.savez`可以将多个数组保存到一个压缩文件中，将数组以关键字参数的形式传入即可：
+ 加载 .npz 文件时，会得到一个类似字典的对象。

In [None]:
arr25 = np.random.randn(3, 4)

In [None]:
np.savez('arr_archived.npz', a = arr24, b = arr25)

In [None]:
arch = np.load('arr_archived.npz')
arch['b']

In [None]:
arch['a']

### 4.2 存取文本文件
Python也有文件的读写函数，但并不太易用。因此本课程主要介绍Pandas中的`read_csv`和`read_table`函数，有时也用NumPy的`np.loadtxt`将数据加载到NumPy的数组中。

In [None]:
arr = np.loadtxt('arr_csv.csv', delimiter=',')

In [None]:
arr

In [None]:
np.savetxt(delimiter='\t',fname='newsave.csv', X=arr)

**更多文件的读写，尤其是表格型数据，采用pandas方法。**

## 5. 线性代数
线性代数（矩阵乘法、矩阵分解、行列式等）。NumPy提供了一个用于矩阵乘法的 **dot** 函数，既是一个数组的方法，也是numpy命名空间的一个函数。

In [None]:
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[6, 23.], [-1, 7], [8, 9]])

In [None]:
x

In [None]:
y

In [None]:
x.dot(y)

In [None]:
np.dot(x, y)

In [None]:
np.dot(x, np.ones(3))

+ `numpy.linalg`中有一组标准的矩阵分解运算，譬如求逆、行列式等。

In [None]:
X = np.random.randn(5,5)

In [None]:
mat = X.T.dot(X)

In [None]:
mat

In [None]:
np.linalg.inv(mat)

In [None]:
mat.dot(np.linalg.inv(mat))

In [None]:
from numpy.linalg import inv, qr
inv(mat)

常用的`numpy.linalg`函数

## 6. 随机数生成
+ Python 的random 模块可以用于产生随机数

In [None]:
import random
random.random()

In [None]:
random.uniform(1, 5)

In [None]:
random.choice([1, 3, 5, 7, 9])

In [None]:
seq = [2, 4, 6, 8, 10]
random.shuffle(seq)
seq

In [None]:
samp = random.sample(seq, 3)
samp

+ `numpy.random`模块对Python内置的random进行了补充，增加了一些高效生产多种概率分布的样本值的函数。

In [None]:
samples = np.random.normal(size=(4, 4))
samples

In [83]:
N = 1000000

In [84]:
%time test = [i**2 for i in range(N)]

Wall time: 1.42 s


In [85]:
import random

In [86]:
%timeit sample1 = [random.random() for _ in range(N)]

384 ms ± 72.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [136]:
%timeit sample2 = np.random.random(N)

16 ms ± 281 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


部分`numpy.random`函数

## 7. 范例：随机漫步
从0开始，步长1和-1出现的概率相等，实现1000步的随机漫步。

In [95]:
import random
import numpy as np
position=0
walk=[position]
steps=1000
for i in range(steps):
    step=1 if random.randint(0,1) else -1
    position += step
    walk.append(position)

In [96]:
walk

[0,
 -1,
 0,
 1,
 2,
 3,
 2,
 1,
 2,
 3,
 4,
 3,
 2,
 1,
 0,
 -1,
 -2,
 -3,
 -4,
 -5,
 -4,
 -3,
 -4,
 -3,
 -4,
 -5,
 -4,
 -5,
 -6,
 -7,
 -6,
 -7,
 -8,
 -7,
 -6,
 -5,
 -4,
 -3,
 -2,
 -1,
 -2,
 -3,
 -2,
 -3,
 -2,
 -3,
 -2,
 -1,
 0,
 -1,
 -2,
 -1,
 -2,
 -3,
 -4,
 -3,
 -2,
 -1,
 0,
 1,
 0,
 -1,
 -2,
 -1,
 0,
 -1,
 0,
 1,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 10,
 11,
 10,
 11,
 12,
 13,
 14,
 13,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 17,
 16,
 17,
 18,
 17,
 16,
 15,
 16,
 15,
 14,
 15,
 16,
 17,
 16,
 17,
 16,
 17,
 16,
 15,
 14,
 15,
 14,
 13,
 12,
 11,
 10,
 11,
 10,
 11,
 12,
 11,
 12,
 13,
 14,
 15,
 14,
 15,
 14,
 13,
 14,
 13,
 12,
 11,
 12,
 13,
 14,
 13,
 12,
 11,
 10,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 14,
 13,
 14,
 13,
 12,
 11,
 12,
 11,
 12,
 13,
 14,
 15,
 16,
 15,
 16,
 15,
 14,
 15,
 16,
 15,
 14,
 13,
 14,
 15,
 16,
 17,
 18,
 17,
 16,
 17,
 16,
 15,
 16,
 15,
 16,
 17,
 18,
 19,
 18,
 17,
 16,
 17,
 16,
 17,
 18,
 17,
 16,
 17,
 18,
 19,
 20,
 21,
 20,
 19,
 1

## 8. 练习
给定数据文件，读取数据并截取。

In [88]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
data = np.loadtxt("data_file.txt", delimiter=',')

In [None]:
data

In [None]:
time = data[:,0]

In [None]:
time

In [None]:
sensors = data[:,1:5]

In [None]:
sensors

In [None]:
print(sensors[0:6])

In [None]:
time = time - time[0]

In [None]:
time

In [None]:
avg = sensors.mean(1)

In [None]:
avg

In [None]:
mydata = np.vstack((time, sensors.T, avg))

In [None]:
mydata

In [None]:
mydata = mydata.T
mydata

In [None]:
np.savetxt('newdata.txt', X=mydata, delimiter=',')

In [None]:
%matplotlib inline
plt.figure(figsize=(16,9))
plt.plot(time/60, sensors[:,1], 'ro')
plt.plot(time/60, avg, 'b.')
plt.legend(['Sensor 2', 'Avg Sensor 1-4'])
plt.xlabel('Time(min)')
plt.ylabel('Sensor Vaules')