# 第4章 NumPy基础：数组与向量化计算 

## 4.0 简介

NumPy之于数值计算特别重要的原因之一,是因为它可以高效处理大数组的数据，以下进行测试：

In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

分别进行测试：

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2 

CPU times: user 12.7 ms, sys: 3.08 ms, total: 15.8 ms
Wall time: 14.5 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 574 ms, sys: 158 ms, total: 731 ms
Wall time: 731 ms


基于NumPy的算法要比纯Python快10到100倍(甚至更快),并且使用的内存更少。

## 4.1 NumPy的ndarray:一种多维数组对象

引入NumPy，生成包含随机数据的小数组

In [7]:
import numpy as np

# generate some random data
data = np.random.randn(2, 3)
data

array([[ 0.64521091,  1.42895476, -0.82977019],
       [-0.24530499,  0.19811811, -1.03107371]])

进行数学运算

In [8]:
data * 10

array([[  6.45210907,  14.28954762,  -8.29770195],
       [ -2.45304993,   1.98118108, -10.31073708]])

In [9]:
data + data

array([[ 1.29042181,  2.85790952, -1.65954039],
       [-0.49060999,  0.39623622, -2.06214742]])

ndarray是一个通用的同构数据多维容器,也就是说,其中的所有元素必须是相同类型的

In [10]:
data.shape

(2, 3)

In [11]:
data.dtype

dtype('float64')

### 创建ndarray 

1、创建数组最简单的办法就是使用array函数。它接受一切序列型的对象(包括其他数组),然后产生一个新的含有传入数据的NumPy数组。以一个列表的转换为例:

In [13]:
data1 = [6, 7.5, 8]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. ])

In [15]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
arr2.ndim

2

In [18]:
arr2.shape

(2, 4)

2、zeros和ones分别可以创建指定长度或形状的全0或全1数组。empty可以创建一个没有任何具体值的数组。要用这些方法创建多维数组,只需传入一个表示形状的元组即可:

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [22]:
np.empty((2,3,2))  #垃圾值

array([[[-2.68156159e+154, -2.68156159e+154],
        [ 2.96439388e-323,  0.00000000e+000],
        [ 6.93447005e-310,  2.46567317e+179]],

       [[ 5.28229985e-091,  1.77529752e+160],
        [ 4.29228300e-038,  4.76442011e-038],
        [ 3.99910963e+252,  9.03747439e-309]]])

In [24]:
np.arange(15) # arange是Python内置函数range的数组版


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### ndarray的数据类型 

可以通过ndarray的astype方法明确地将一个数组从一个dtype转换成另一个dtype:

In [25]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [26]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

如果将浮点数转换成整数,则小数部分将会被截取删除

如果某字符串数组表示的全是数字,也可以用astype将其转换为数值形式:

In [28]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

注意:使用numpy.string_类型时,一定要小心,因为NumPy的字符串数据是大小固定的,发生截取时,不会发出警告。pandas提供了更多非数值数据的便利的处理方法。

### NumPy数组的运算 

In [29]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [31]:
arr ** 0.5 #几次方

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

大小相同的数组之间的比较会生成布尔值数组:

In [33]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 基本的索引和切片 

In [34]:
arr =  np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [35]:
arr[5:8]

array([5, 6, 7])

In [36]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

跟列表最重要的区别在于,数组切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上:

In [41]:
arr_slice = arr[5:8]
arr_slice[1] = 1
arr

array([ 0,  1,  2,  3,  4, 12,  1, 12,  8,  9])

注意:如果你想要得到的是ndarray切片的一份副本而非视图,就需要明确地进行复制操作, 例如  arr[5:8].copy()

对于高维度数组,能做的事情更多。在一个二维数组中,各索引位置上的元素不再是标量而是一维数组：

In [42]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

下面两种方式是等价的:

In [46]:
arr2d[0][2]

3

In [45]:
arr2d[0, 2]

3

在多维数组中,如果省略了后面的索引,则返回对象会是一个维度低一点的ndarray(它含有高一级维度上的所有数据)

In [48]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

arr3d[1,0]可以访问索引以(1,0)开头的那些值(以一维数组的形式返回):

In [49]:
arr3d[1, 0]

array([7, 8, 9])

### 切片索引

In [50]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [51]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

可以看出,它是沿着第0轴(即第一个轴)切片的。

In [52]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

### 布尔型索引

In [56]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [58]:
data

array([[ 0.97569813,  0.49230123, -1.26653305, -0.34893637],
       [-1.47499036,  1.21609474, -0.85095656, -0.45672675],
       [ 0.86488976,  0.52121801, -0.37253969,  0.14548117],
       [ 0.25364283, -0.49476772, -1.03780268,  0.30050518],
       [-0.51644994,  0.76417411,  0.42733806,  0.3700834 ],
       [-1.52283944,  0.54670028, -0.90946114,  1.851774  ],
       [ 0.63669925,  1.08252442,  0.4982973 ,  1.48870482]])

In [57]:
data[names=="Bob"]

array([[ 0.97569813,  0.49230123, -1.26653305, -0.34893637],
       [ 0.25364283, -0.49476772, -1.03780268,  0.30050518]])

In [59]:
data[data<0]

array([-1.26653305, -0.34893637, -1.47499036, -0.85095656, -0.45672675,
       -0.37253969, -0.49476772, -1.03780268, -0.51644994, -1.52283944,
       -0.90946114])

### 花式索引

In [61]:
arr = np.empty((8,4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [62]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [63]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

一次传入多个索引数组会有一点特别。它返回的是一个一维数组,其中的元素对应各个索引元组:

In [64]:
arr = np.arange(32).reshape((8, 4))
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

记住,花式索引跟切片不一样,它总是将数据复制到新数组中。

### 数组转置和轴对换

In [65]:
arr = np.arange(15).reshape((3, 5))
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

在进行矩阵计算时,经常需要用到该操作,比如利用np.dot计算矩阵内积:

In [66]:
arr = np.random.randn(6, 3)
np.dot(arr.T, arr)

array([[ 6.1001496 , -4.96667133,  0.06878041],
       [-4.96667133, 17.70997754,  1.84551735],
       [ 0.06878041,  1.84551735,  2.49273739]])

对于高维数组,transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置(比较费脑子):

In [67]:
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [68]:
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [69]:
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

swapaxes也是返回源数据的视图(不会进行任何复制操作)。