# NumPy 的 narray: 一种多维数组对象

In [48]:
import numpy as np

data = np.array([[0.9526, -0.246, -0.8856], [0.5639, 0.2379, 0.9104]])

data

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

你可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。

In [49]:
data * 10

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [50]:
data + data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

ndarray 是一种通用的同构数据多维容器，每个数组都有 shape (一个表示维度的元组)和一个 dtype (一个用于表示数组元素类型的对象)。

In [51]:
data.shape

(2, 3)

In [52]:
data.dtype

dtype('float64')

## 创建 ndarray

In [53]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)

arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [54]:
# 二维数组内的维度都必须一样，否则 np.array 将会报错
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)

arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [55]:
# 返回数组的维度
arr2.ndim

2

In [56]:
arr2.shape

(2, 4)

除非显式声明，否则 np.array 会尝试为给定的数组创建出一个合适的数据类型。

In [57]:
(arr1.dtype, arr2.dtype)

(dtype('float64'), dtype('int64'))

In [58]:
np.zeros(10), np.zeros((3, 6)), np.empty((2, 3, 2))

(array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
 array([[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.]]),
 array([[[0., 0.],
         [0., 0.],
         [0., 0.]],
 
        [[0., 0.],
         [0., 0.],
         [0., 0.]]]))

In [59]:
# arange 可以生成一个序列数组
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [60]:
# 创建一个正方形单位矩阵
np.eye(4), np.identity(4)

(array([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]),
 array([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]))

## ndarray 的数据类型

In [61]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)

arr1.dtype, arr2.dtype

(dtype('float64'), dtype('int32'))

In [62]:
# 可以通过 ndarray 的 astype 方法显式地转换其 dtype
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
arr.dtype, float_arr.dtype

(dtype('int64'), dtype('float64'))

In [63]:
# 也可以将浮点转换为整形，但是小数点后数值将被截断
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [64]:
# 元素全是字符串，也可以通过 astype 转换
arr = np.array(['1.2', '2.2', '4.3'])

arr.astype(float)

array([1.2, 2.2, 4.3])

<span color='red'>astype 无论如何都会创建一个新的数组。</span>

## 数组和标量之间的运算

不像矩阵运算, 可以直接进行不同维度的计算，通过广播机制（后序会讲到）。

In [65]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
# 不像矩阵运算, 可以直接点对点乘
arr, arr * arr, arr - arr, 1 / arr, arr ** 0.5

(array([[1., 2., 3.],
        [4., 5., 6.]]),
 array([[ 1.,  4.,  9.],
        [16., 25., 36.]]),
 array([[0., 0., 0.],
        [0., 0., 0.]]),
 array([[1.        , 0.5       , 0.33333333],
        [0.25      , 0.2       , 0.16666667]]),
 array([[1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974]]))

## 基本的索引和切片

In [66]:
arr = np.arange(10)

arr[5]

5

In [67]:
arr[5:8]

array([5, 6, 7])

In [68]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

标量通过赋值给一个切片时，会通过广播机制自动传播到整个切片选区。
切片是原数组的一个视图，视图上的任何修改都会更新到原数组里。
可以通过调用 ndarray.copy() 进行复制操作。

In [70]:
arr_slice = arr[5:8]
arr_slice[1] = 55
arr

array([ 0,  1,  2,  3,  4,  5, 55,  7,  8,  9])

In [72]:
arr_slice[:] = 88
arr

array([ 0,  1,  2,  3,  4, 88, 88, 88,  8,  9])

## 切片索引
ndarray 可以在多个维度上进行切片。

In [73]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [74]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [None]:
## 布尔型索引

In [81]:
from numpy.random import randn

names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = randn(7, 4)

data

array([[ 0.79612082, -1.45967479,  1.79446467, -0.211509  ],
       [ 0.70100527,  0.12099579,  1.62739152, -0.56103719],
       [ 1.32880097,  0.80947384, -0.02675846,  1.43891175],
       [ 1.32505268,  1.84401239,  2.07517439, -0.15225194],
       [-1.35190603, -1.02991352, -0.40384958,  1.34947764],
       [-0.01249353,  0.13265569,  1.08906851, -3.43892292],
       [-0.76117489, -2.36463059,  0.33201853, -0.24660595]])

In [79]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

上述的布尔数组可以作为索引使用，布尔数组的维度必须和索引轴的长度一致。
即：获取上述布尔数组为 True 的轴，获取其内的数据切片。
该切片也是一个视图，可以通过广播对整个切片赋值，可以直接修改到原数组中。

In [83]:
data[names == 'Bob']

In [85]:
data[names == 'Bob'] = 20
data

array([[ 2.00000000e+01,  2.00000000e+01,  2.00000000e+01,
         2.00000000e+01],
       [ 7.01005272e-01,  1.20995794e-01,  1.62739152e+00,
        -5.61037188e-01],
       [ 1.32880097e+00,  8.09473836e-01, -2.67584589e-02,
         1.43891175e+00],
       [ 2.00000000e+01,  2.00000000e+01,  2.00000000e+01,
         2.00000000e+01],
       [-1.35190603e+00, -1.02991352e+00, -4.03849583e-01,
         1.34947764e+00],
       [-1.24935310e-02,  1.32655685e-01,  1.08906851e+00,
        -3.43892292e+00],
       [-7.61174892e-01, -2.36463059e+00,  3.32018534e-01,
        -2.46605946e-01]])

布尔数组可以作为多维切片的参数。

In [86]:
data[names == 'Bob', :3]

array([[20., 20., 20.],
       [20., 20., 20.]])

布尔索引可以通过布尔运算将多个索引结合起来，例如: 非! 与& 或| (⚠️: or 和 and 关键字是无效的)。

In [87]:
data[names != 'Bob']

array([[ 0.70100527,  0.12099579,  1.62739152, -0.56103719],
       [ 1.32880097,  0.80947384, -0.02675846,  1.43891175],
       [-1.35190603, -1.02991352, -0.40384958,  1.34947764],
       [-0.01249353,  0.13265569,  1.08906851, -3.43892292],
       [-0.76117489, -2.36463059,  0.33201853, -0.24660595]])

In [88]:
data[(names == 'Bob') | (names == 'Joe')]

array([[ 2.00000000e+01,  2.00000000e+01,  2.00000000e+01,
         2.00000000e+01],
       [ 7.01005272e-01,  1.20995794e-01,  1.62739152e+00,
        -5.61037188e-01],
       [ 2.00000000e+01,  2.00000000e+01,  2.00000000e+01,
         2.00000000e+01],
       [-1.24935310e-02,  1.32655685e-01,  1.08906851e+00,
        -3.43892292e+00],
       [-7.61174892e-01, -2.36463059e+00,  3.32018534e-01,
        -2.46605946e-01]])

## 花式索引 (Fancy indexing)
花式索引可以通过整形数组进行索引，⚠️：花式索引总是会拷贝到新的数组中。

In [91]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [93]:
# 给定的数组索引，将会按顺序被取出作为视图
arr[[4, 3, 0, -1]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [7., 7., 7., 7.]])

花式索引同样可以使用到多维切片中，但是选择的数据可能不一定符合你的预期。
如下：选取的是 （1，2), (3, 0), (5, 3), (7, 1) 这几个元素。

In [100]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [99]:
arr[[1, 3, 5, 7], [2, 0, 3, 1]]

array([ 6, 12, 23, 29])

下面的方法可能符合你最初的预期。

In [106]:
# 二维度索引的 : 是必须的, 否则第一个索引取到的顺序数据将会丢失顺序。
ret1 = arr[[1, 5, 7, 2]][[0, 3, 1, 2]]
ret2 = arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

ret1, ret2

(array([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [20, 21, 22, 23],
        [28, 29, 30, 31]]),
 array([[ 4,  7,  5,  6],
        [20, 23, 21, 22],
        [28, 31, 29, 30],
        [ 8, 11,  9, 10]]))

另一个方法是使用 np.ix_ 函数，他可以将两个整形数组转换为一个可以选区句型区域的索引器。

In [107]:
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

## 数组的转置和轴对换
转置也是源数据的一个视图，不会进行任何数据的复制。

In [108]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [109]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

.T 属性在矩阵运算时会经常用到, 例如使用 np.dot 计算矩阵的内积。

In [110]:
arr = np.random.randn(6, 3)

np.dot(arr.T, arr)

array([[ 6.15122875, -0.22398537, -2.43406178],
       [-0.22398537,  2.08849942,  0.68083564],
       [-2.43406178,  0.68083564,  3.31354358]])

In [112]:
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [113]:
# 正常三维轴的顺序是 0、1、2 下面是将第 0、1 轴对调, 轴从最外层 [ 作为 0 轴开始。
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

简单的转置可以使用 .T, 他其实就是进行轴对换而已。ndarray 还有一个 swapaxes 方法，他需要接收一对轴编号。

In [116]:
arr.swapaxes(0, 1), arr.swapaxes(1, 2)

(array([[[ 0,  1,  2,  3],
         [ 8,  9, 10, 11]],
 
        [[ 4,  5,  6,  7],
         [12, 13, 14, 15]]]),
 array([[[ 0,  4],
         [ 1,  5],
         [ 2,  6],
         [ 3,  7]],
 
        [[ 8, 12],
         [ 9, 13],
         [10, 14],
         [11, 15]]]))

# 通用函数：快速的元素级数组函数