<!--NAVIGATION-->
< [Understanding Data Types in Python](02.01-Understanding-Data-Types.ipynb) | [Contents](Index.ipynb) | [Computation on NumPy Arrays: Universal Functions](02.03-Computation-on-arrays-ufuncs.ipynb) >

# NumPy数组基础（NumPy Array）

本节将展示一些用NumPy数组操作**获取数据或子数组，对数组进行分裂、变形和连接**的例子。

## NumPy Array 属性（确定数组的大小、形状、存储大小、数据类型）

首先介绍一些有用的数组属性。

定义三个随机的数组：一个一维数组、一个二维数组和一个三维数组。我们将用NumPy的随机数生成器设置一组**种子值**，以确保每次程序执行时都可以生成同样的随机数组：

In [106]:
import numpy as np #导入numpy库，起个简单的别名为np
np.random.seed(0)  #  设置随机数种子 
#【惯用法：np.random.randint，表示numpy库下的random子库下的randint函数】
#(rand是random的缩写，int是integer的缩写——单词前3、4个字母用作缩写)
#【好习惯：请help(np.random.randint)搞清楚randint的用法】
x1 = np.random.randint(10, size=6)  # 一维数组
x2 = np.random.randint(10, size=(3, 4))  # 二维数组
x3 = np.random.randint(10, size=(3, 4, 5))  # 三维数组
#【请注意看几种数组的括号对】
print("x1=",x1)
print("x2=",x2)
print("x3=",x3)

x1= [5 0 3 3 7 9]
x2= [[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]
x3= [[[8 1 5 9 8]
  [9 4 3 0 3]
  [5 0 2 3 8]
  [1 3 3 3 7]]

 [[0 1 9 9 0]
  [4 7 3 2 7]
  [2 0 0 4 5]
  [5 6 8 4 1]]

 [[4 9 8 1 1]
  [7 9 9 3 6]
  [7 2 0 3 5]
  [9 4 4 6 4]]]


每个数组有``ndim``（数组的维度）、``shape``（数组每个维度的大小）和 ``size``（数组的总大小）属性：

In [107]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


另外一个有用的属性是``dtype``，指数组的数据类型：

In [108]:
print("dtype:", x3.dtype)

dtype: int32


其他的属性包括表示每个数组元素字节大小的``itemsize``，以及表示数组总字节大小的属性``nbytes``：

In [109]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


一般说``nbytes``跟``itemsize``和``size``的乘积大小相等。

## 数组索引（Array Indexing）:获取和设置数组各个元素的值

和Python列表一样，在一维数组中，你也可以通过中括号指定索引获取第$i$个值（从 0 开始计数）：

In [110]:
x1

array([5, 0, 3, 3, 7, 9])

In [111]:
x1[0]

5

In [112]:
x1[4]

7

为了获取数组的末尾索引，可以用**负值索引**：

In [113]:
x1[-1]

9

In [114]:
x1[-2]

7

在多维数组中，可以用**逗号**分隔索引元组获取元素：

In [115]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [116]:
x2[0, 0]

3

In [117]:
x2[2, 0]

1

In [118]:
x2[2, -1]

7

也可以用以上索引方式修改元素值：

In [119]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

**特别注意**：和 Python 列表不同，NumPy 数组是固定类型的。这意味着当你试图将一个浮点值插入一个整型数组时，浮点值会被截短成整型。并且这种截短是自动完成的，不会给你提示或警告!!!

In [120]:
x1[0] = 3.14159  #  这将被截短!!!
x1

array([3, 0, 3, 3, 7, 9])

**小练习**

In [121]:
#grid1是几维数组
grid1 = np.array([1, 2, 3])
print(grid1)

#grid2是几维数组?
grid2 = np.array([[1, 2, 3]])
print(grid2)

[1 2 3]
[[1 2 3]]


In [122]:
#如何访问grid1的第0个元素？
print(grid1[0])
#如何访问grid2的第0个元素？
print(grid1[0, 0])

1


IndexError: too many indices for array

## 数组切片（Array Slicing）：获取子数组

正如此前用中括号获取单个数组元素，我们也可以用**切片（slice）符号**获取子数组，切片符号用**冒号（``:``）**表示。

NumPy切片语法和Python列表的标准切片语法相同。

为了获取数组``x``的一个切片，可以用以下方式：
``` python
x[start:stop:step]
```
如果以上 3 个参数都未指定，那么它们会被分别设置默认值``start=0``, ``stop=``*``维度大小``*, ``step=1``。

### 1. 一维子数组

In [None]:
x = np.arange(10)
x

In [None]:
x[:5]  # 前五个元素 

In [None]:
x[5:]  #   从0开始计数，第5个索引之后的元素

In [None]:
x[4:7]  # 从0开始计数，第4个到第7个索引之间的元素，不包含第7个

In [None]:
x[::2]  #  每隔一个元素

In [None]:
x[1::2]  # 从0开始计数，第1个索引之后（包括第1个），每隔一个元素

当步长值为负时，``start``参数和``stop``参数默认是被交换的:

In [None]:
x[::-1]  # 所有元素，逆序的

In [None]:
x[5::-2]  #  从索引5开始,每隔一个元素,逆序

### 2. 多维子数组

多维切片也采用同样的方式处理，用冒号分隔。

例如：

In [None]:
x2

In [None]:
x2[:2, :3]  # 对于行，从索引0开始，到索引2结束，但不包括索引2，对于列，从索引0开始，到索引3，但不包括索引3

In [None]:
x2[:3,::2]  #  所有行，每隔一列 (::2是对列这一维数据操作的)

子数组维度也可以同时被逆序：

In [None]:
x2[::-1, ::-1]

### 3. 获取数组的行和列

一种常见的需求是获取数组的单行和单列。你可以将索引与切片组合起来实现这个功能，用一个冒号（``:`）表示空切片：

In [None]:
print(x2)
print(x2[:, 0])  # x2的第一列（注意：*输出为行向量*） 

In [None]:
print(x2[0, :])  # x2的第一行

在获取**行**时，出于语法的简介考虑，可以省略空的切片：

In [None]:
print(x2[0])  # 等同于 x2[0, :]

### 4. 非副本视图的子数组

数组切片返回的是数组数据的**视图**，而不是数值数据的**副本**。

这一点也是 NumPy 数组切片和 Python 列表切片的不同之处：在Python列表中，切片是值的副本。

例如此前示例中的那个二维数组：

In [None]:
print(x2)

从中抽取一个$2 \times 2$ 的子数组：

In [None]:
x2_sub = x2[:2, :2]
print(x2_sub) 

现在如果修改这个子数组，将会看到原始数组**也被修改了！**结果如下所示：

In [None]:
x2_sub[0, 0] = 99
print(x2_sub)

In [None]:
print(x2)

以上操作的意义在于：当处理大型数据集时，我们可以访问和处理这些数据集的切片，而不用复制底层的数据缓存。

### 5. 创建数组的副本

**复制**数组里的数据或子数组可以很简单地通过copy() 方法实现：

In [None]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

如果修改这个子数组，原始的数组不会被改变：

In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

In [None]:
print(x2)

## 数组的变形（Reshaping of Arrays）

数组变形最灵活的实现方式是通过``reshape()`` 函数来实现。

例如，如果你希望将数字1~9 放入一个 $3 \times 3$ 的矩阵中，可以采用如下方法：

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

另外一个常见的变形模式是将一个一维数组转变为二维的行或列的矩阵。你也可以通过``reshape``方法来实现，或者更简单地在一个切片操作中利用 ``newaxis``关键字：

In [None]:
x = np.array([1, 2, 3])
#  通过变形获得的行向量 
x.reshape((1, 3))

In [None]:
#  一个小技巧：通过newaxis获得的行向量
x[np.newaxis, :]

In [None]:
#  通过变形获得的列向量
x.reshape((3, 1))

In [None]:
# 一个小技巧：通过newaxis获得的列向量 
x[:, np.newaxis]

## 数组拼接和分裂(Array Concatenation and Splitting)

有时需要将多个数组合并为一个，或将一个数组分裂成多个。

### 1. 数组的拼接

拼接或连接 NumPy 中的两个数组主要由  ``np.concatenate``, ``np.vstack``, 和 ``np.hstack``实现。

``np.concatenate``的规则是：
1. 对一维数组只有一个方向
2. 对二维数组，有两个方向：**axis=0（默认）,按列的方向拼**（即行数不变，列数相加，两数组的行数要相同哦，不然会报错！），**axis=1,按行拼**。举例：

np.concatenate 用于一维数组的拼接：

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z])) #一次性拼接三个数组

np.concatenate 用于二维数组的拼接：

In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [None]:
# 默认（axis=0）按列拼
np.concatenate([grid, grid])

In [None]:
#  axis=1,按行拼
np.concatenate([grid, grid], axis=1)

沿着固定维度处理数组时，使用``np.vstack``（垂直栈）和``np.hstack``（水平栈）函数很简洁：

In [None]:
x = np.array([1, 2, 3])#  1行3列的一维数组
grid = np.array([[9, 8, 7], 
                 [6, 5, 4]])  #  2行3列的二维数组

#  垂直栈（vertical stack）数组：列不变，行相加
np.vstack([x, grid])

In [None]:
# 水平栈（horizontal stack）数组：行不变，列相加
y = np.array([[99],
              [99]])  #  2行1列
np.hstack([grid, y])

与之类似，``np.dstack``将沿着第三个维度（depth）拼接数组。

### 2. 数组的分裂

与拼接相反的过程是分裂。分裂可以通过``np.split``, ``np.hsplit``, 和 ``np.vsplit``函数来实现。

以上函数的参数是一个索引列表，索引列表记录的是分裂点位置：

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])#分裂：第3个元素之前、第5个元素之前
print(x1, x2, x3)

注意：*N*  分裂点会得到 *N + 1*个子数组。

相关的``np.hsplit`` and ``np.vsplit``的用法也类似：

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

In [None]:
upper, lower = np.vsplit(grid, [2]) #第2行之前
print(upper)
print(lower)

In [None]:
left, right = np.hsplit(grid, [2])#第2列之前
print(left)
print(right)

同样，``np.dsplit``将数组沿着第三个维度分裂。

<!--NAVIGATION-->
< [Understanding Data Types in Python](02.01-Understanding-Data-Types.ipynb) | [Contents](Index.ipynb) | [Computation on NumPy Arrays: Universal Functions](02.03-Computation-on-arrays-ufuncs.ipynb) >