## **1.2 NumPy数组基础**

本节我们将介绍几类基本的数组操作：

- 数组的属性：获取数组的大小、形状、内存占用以及数据类型
- 数组的索引：获取和设置数组各个元素的值
- 数组的切分：获取和设置数组中的子数组
- 数组的变形：改变给定数组的形状
- 数组的拼接和切分：将多个数组合并为一个，以及将一个数组切分成多个

### **1.2.1 NumPy数组的属性**

我们首先定义三个随机数组：一个一维数组、一个二维数组和一个三维数组。然后用Numpy的随机数生成器设置种子值，以确保每次程序执行时都可以生成同样的随机数组。

In [1]:
import numpy as np
# 设置随机数种子，保证实现的可重复性
np.random.seed(0)

# 一维数组
arr1 = np.random.randint(10, size=6)
# 二维数组
arr2 = np.random.randint(10, size=(3, 4))
# 三维数组
arr3 = np.random.randint(10, size=(3, 4, 5))

每个数组都有`ndim`（数组的维度）、`shape`（数组每个维度的大小）和`size`（数组的元素个数）这三个属性：

In [2]:
# 输出三维数组的维度、形状和总长度
print('arr3 ndim: ', arr3.ndim)
print('arr3 shape: ', arr3.shape)
print('arr3 size: ', arr3.size)

arr3 ndim:  3
arr3 shape:  (3, 4, 5)
arr3 size:  60


另一个有用的属性是`dtype`（数组的数据类型，我们在[上一节](./1.1%20创建NumPy数组.ipynb)中见过）：

In [3]:
print('dtype: ', arr3.dtype)

dtype:  int32


其他属性包括`itemsize`（每个数组元素的字节大小）和`nbytes`（数组总字节大小）：

In [4]:
print('itemsize: ', arr3.itemsize, 'bytes')
print('nbytes: ', arr3.nbytes, 'bytes')

itemsize:  4 bytes
nbytes:  240 bytes


一般而言，可以认为 $nbytes = itemsize×size$ 。

### **1.2.2 数组索引：获取单个元素**

和Python列表一样，在一维数组中，我们可以通过中括号指定索引获取第`i`个元素值（从0开始计数）：

In [5]:
arr1

array([5, 0, 3, 3, 7, 9])

In [6]:
arr1[0]

5

In [7]:
arr1[4]

7

如果需要从末尾进行索引取值，我们可以用负值索引：

In [8]:
arr1[-1]

9

In [9]:
arr1[-2]

7

在多维数组中，可以在中括号中使用一个索引值的元组（用逗号分隔）来获取元素：

注：NumPy多维数组的索引方式与Python列表的列表索引方式是不同的。列表的列表在Python中需要使用多个中括号进行索引，例如：`arr[i][j]`。

In [10]:
arr2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [11]:
arr2[0, 0]

3

In [12]:
arr2[2, 0]

1

In [13]:
arr2[2, -1]

7

也可以用上述索引方式修改元素的值：

In [14]:
arr2[0, 0] = 12
arr2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

请注意，和Python列表不同，NumPy数组是固定类型的。这意味着，如果我们试图将一个浮点值插入到一个整型数组中，浮点值会被截短成整型。这种截短是自动完成的，不会给我们任何提示或警告，所以需要特别注意这一点。

In [15]:
# 会被截成整数
arr1[0] = 12.3456
arr1

array([12,  0,  3,  3,  7,  9])

### **1.2.3 数组切片：获取子数组**

刚刚我们用中括号获取单个数组元素，现在我们可以用切片（slice）符号获取子数组，切片符号用冒号（`:`）表示。NumPy切片语法和Python列表的切片语法相同。为了获取数组`arr`的一个切片，可以使用以下方式：

```python
arr[start:stop:step]
```

如果以上3个参数都未指定，则会被设置为默认值：`start=0`、`stop=维度的大小`、`step=1`。

#### **一维子数组**

In [16]:
np.random.seed(0)
arr1 = np.random.randint(10, size=10)
arr1

array([5, 0, 3, 3, 7, 9, 3, 5, 2, 4])

In [17]:
# 前五个元素
arr1[:5]

array([5, 0, 3, 3, 7])

In [18]:
# 索引arr1[2]之后的所有元素（包括arr1[2]）
arr1[2:]

array([3, 3, 7, 9, 3, 5, 2, 4])

In [19]:
# 索引arr1[3]到arr1[7]之间的所有元素（左闭右开）
arr1[3:7]

array([3, 7, 9, 3])

In [20]:
# 每隔一个取元素，从索引0开始
arr1[::2]

array([5, 3, 7, 3, 2])

In [21]:
# 每隔一个取元素，从索引1开始
arr1[1::2]

array([0, 3, 9, 5, 4])

当`step`为负时，`start`参数和`stop`参数默认进行交换。这是将数组逆序最简单的方式。

In [22]:
# 步长step为-1、start和stop参数为默认值，表示让数组逆序排列
arr1[::-1]

array([4, 2, 5, 3, 9, 7, 3, 3, 0, 5])

In [23]:
# 从索引5开始，每隔一个元素逆序
arr1[5::-2]

array([9, 3, 0])

#### **多维子数组**

In [24]:
np.random.seed(1)
arr2 = np.random.randint(50, size=(4, 5))
arr2

array([[37, 43, 12,  8,  9],
       [11,  5, 15,  0, 16],
       [ 1, 12,  7, 45,  6],
       [25, 20, 37, 18, 20]])

多维数组的切片也是一样的，只是在中括号中要使用逗号分隔多个切片声明。例如：

In [25]:
# 取前两行，前三列
arr2[:2, :3]

array([[37, 43, 12],
       [11,  5, 15]])

In [26]:
# 取所有行，列则每隔一个取一列
arr2[:, ::2]

array([[37, 12,  9],
       [11, 15, 16],
       [ 1,  7,  6],
       [25, 37, 20]])

最后，子数组的各个维度也可以同时被逆序。

In [27]:
# 行和列都逆序，形状保持(3, 4)
arr2[::-1, ::-1]

array([[20, 18, 37, 20, 25],
       [ 6, 45,  7, 12,  1],
       [16,  0, 15,  5, 11],
       [ 9,  8, 12, 43, 37]])

#### **获取数组的行和列**

一种常见的需求是获取数组的单行和单列。我们可以将索引与切片组合起来实现这个功能，用一个不带参数的冒号（`:`）表示取改维度的所有元素：

In [28]:
arr2

array([[37, 43, 12,  8,  9],
       [11,  5, 15,  0, 16],
       [ 1, 12,  7, 45,  6],
       [25, 20, 37, 18, 20]])

In [29]:
# 获取第一列
arr2[:, 0]

array([37, 11,  1, 25])

In [30]:
# 获取第一行
arr2[0, :]

array([37, 43, 12,  8,  9])

在获取行时，可以省略后面的切片，写成更加简洁的方式：

In [31]:
# 等效于arr2[0, :]
arr2[0]

array([37, 43, 12,  8,  9])

#### **非副本视图的子数组**

关于NumPy数组切片有一点很重要：数组切片返回的是子数组的视图，而不是它们的副本。而在Python列表中，切片是值的副本。以之前的那个二维数组为例：

In [32]:
arr2

array([[37, 43, 12,  8,  9],
       [11,  5, 15,  0, 16],
       [ 1, 12,  7, 45,  6],
       [25, 20, 37, 18, 20]])

从中抽取一个2×2的子数组：

In [33]:
arr2_sub = arr2[:2, :2]
arr2_sub

array([[37, 43],
       [11,  5]])

如果我们修改该子数组的值，则原始数组也会被修改。结果如下所示：

In [34]:
arr2_sub[0, 0] = -23
arr2

array([[-23,  43,  12,   8,   9],
       [ 11,   5,  15,   0,  16],
       [  1,  12,   7,  45,   6],
       [ 25,  20,  37,  18,  20]])

这种默认的处理方式实际上很有用：它意味着在处理非常大的数据集时，可以获取或处理这些数据集的子数据集，而不用在内存中复制一份数据的副本。

#### **创建数组的副本**

尽管数组视图有一些很好的特性，但有时候明确地复制数组里的数据或子数组也是很有用的。这可以通过`copy`方法实现：

In [35]:
arr2_sub_copy = arr2[:2, :3].copy()
arr2_sub_copy

array([[-23,  43,  12],
       [ 11,   5,  15]])

如果我们修改这个子数组，原始数组的值不会被改变

In [36]:
arr2_sub_copy[0, 0] = 37
arr2_sub_copy

array([[37, 43, 12],
       [11,  5, 15]])

In [37]:
arr2_sub

array([[-23,  43],
       [ 11,   5]])

In [38]:
arr2

array([[-23,  43,  12,   8,   9],
       [ 11,   5,  15,   0,  16],
       [  1,  12,   7,  45,   6],
       [ 25,  20,  37,  18,  20]])

### **1.2.4 数组的变形**

另一个常用操作是改变数组的形状，最灵活的实现方式是通过`reshape`函数实现。例如，如果要将数字1~9放入一个3×3的数组中，可采用如下方法：

In [39]:
grid = np.arange(1, 10).reshape((3, 3))
grid

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

请注意，如果希望该方法可行，那么原始数组的大小必须和变形后数组的大小一致。如果可能的话，`reshape`方法将会用到原始数组的一个非副本视图。但如果原始数组的数据存储在不连续的内存区，`reshape`方法会复制一个副本。

另外一种常见的改变形状的操作是将一维数组转变为二维数组的一行或一列。这也可以通过`reshape`方法来实现，或者更简单的方式是在一个切片操作中使用`newaxis`关键字：

In [40]:
arr = np.array([1, 2, 3, 4, 5])
arr

array([1, 2, 3, 4, 5])

In [41]:
# 使用reshape变为(1, 5)——二维数组，行数为1，列数为5
arr.reshape((1, 5))

array([[1, 2, 3, 4, 5]])

In [42]:
# 使用newaxis增加行的维度，形状也是(1, 5)
arr[np.newaxis, :]

array([[1, 2, 3, 4, 5]])

In [43]:
# 使用reshape变为(5, 1)——二维数组，行数为5，列数为1
arr.reshape((5, 1))

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [44]:
# 使用newaxis增加列维度，形状也是(5, 1)
arr[:, np.newaxis]

array([[1],
       [2],
       [3],
       [4],
       [5]])

我们之后将经常看到这样的变换。

### **1.2.5 数组的拼接和切分**

以上所有操作都是针对单一数组的，但有时我们需要将多个数组合并为一个，或者将一个数组切分成多个。下面将详细介绍这些操作。

#### **数组的拼接**

在NumPy中拼接或者连接多个数组，有三种不同的方法：`np.concatenate`、`np.vstack`和`np.hstack`。`np.concatenate`将数组元组或数组列表作为第一个参数，如下所示：

In [45]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([3, 2, 1])
np.concatenate([arr1, arr2])

array([1, 2, 3, 3, 2, 1])

我们也可以一次性拼接两个以上数组：

In [46]:
arr3 = np.array([4, 5, 6])
np.concatenate([arr1, arr2, arr3])

array([1, 2, 3, 3, 2, 1, 4, 5, 6])

`np.concatenate`也可以用于二维数组的拼接：

In [47]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

# 沿着第一个维度进行连接，即按照行连接，axis=0
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [48]:
# 沿着第二个维度进行连接，即按照列连接，axis=1
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

沿着固定维度处理数组时，使用`np.vstack`（垂直堆叠）和`np.hstack`（水平堆叠）函数会更简洁清晰：

In [49]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# 沿着垂直方向进行堆叠
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [50]:
# 沿着水平方向进行堆叠
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

与之类似，`np.dstack`将沿着第三个维度拼接数组。

#### **数组的切分**

切分可以通过`np.split`、`np.hsplit`和`np.vsplit`函数来实现。我们可以向这些函数传递一个索引列表作为参数，索引列表记录的是切分点位置：

In [51]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


值得注意的是，N个切分点会得到N+1个子数组。相应地，`np.hsplit`和`np.vsplit`的用法也类似：

In [52]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [53]:
# 沿垂直方向切分，切分点行序号为2
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [54]:
# 沿水平方向切分数组，切分点列序号为2
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


同样地，`np.dsplit`会沿着第三个维度切分数组。