# NumPy数组基础
Python 中的数据操作几乎等同于 NumPy 数组操作，甚至新出现的Pandas工具也是构建在 NumPy 数组的基础之上的。

我们将介绍以下几类基本的数组操作:
- 数组的属性：确定数组的大小、形状、存储大小、数据类型。
- 数组的索引：获取和设置数组各个元素的值。
- 数组的切分：在大的数组中获取或设置更小的子数组。
- 数组的变形：改变给定数组的形状。
- 数组的拼接和分裂：将多个数组合并为一个，以及将一个数组分裂成多个
## NumPy数组的属性
定义三个随机的数组：一个一维数组、一个二维数组和一个三维数组。我们将用 NumPy 的随机数生成器设置一组种子值，以确保每次程序执行时都可以生成同样的随机数组：

In [8]:
import numpy as np
np.random.seed(0)

x1=np.random.randint(10,size=6)
x2=np.random.randint(10,size=(3,4))
x3=np.random.randint(10,size=(3,4,5))

x1

array([5, 0, 3, 3, 7, 9])

In [9]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [10]:
x3

array([[[8, 1, 5, 9, 8],
        [9, 4, 3, 0, 3],
        [5, 0, 2, 3, 8],
        [1, 3, 3, 3, 7]],

       [[0, 1, 9, 9, 0],
        [4, 7, 3, 2, 7],
        [2, 0, 0, 4, 5],
        [5, 6, 8, 4, 1]],

       [[4, 9, 8, 1, 1],
        [7, 9, 9, 3, 6],
        [7, 2, 0, 3, 5],
        [9, 4, 4, 6, 4]]])

每个数组有 nidm（数组的维度）、 shape（数组每个维度的大小）和 size（数组的总大小）属性：

In [12]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


其他的属性包括表示每个数组元素字节大小的 itemsize，以及表示数组总字节大小的属性nbytes：

In [13]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


一般来说，可以认为 nbytes 跟 itemsize 和 size 的乘积大小相等。
## 数组索引： 获取单个元素
和 Python列表一样，在一维数组中，你也可以通过中括号指定索引获取第 i 个值（从 0 开始计数）：

In [14]:
x1

array([5, 0, 3, 3, 7, 9])

In [15]:
x1[0]

5

为了获取数组的末尾索引，可以用负值索引：

In [16]:
x1[-1]

9

在多维数组中，可以用逗号分隔的索引元组获取元素：

In [17]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [18]:
x2[0,0]

3

也可以用以上索引方式修改元素值：

In [19]:
x2[0,0]=12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

请注意，和 Python 列表不同， NumPy 数组是固定类型的。这意味着当你试图将一个浮点值插入一个整型数组时，浮点值会被截短成整型。并且这种截短是自动完成的，不会给你提示或警告，所以需要特别注意这一点！

In [20]:
x1[0]=3.14159 # 这将被截短
x1

array([3, 0, 3, 3, 7, 9])

## 数组切片： 获取子数组
### 一维子数组
正如此前用中括号获取单个数组元素，我们也可以用切片（slice）符号获取子数组，切片符号用冒号（:）表示。 NumPy 切片语法和 Python 列表的标准切片语法相同。为了获取数组 x 的一个切片，可以用以下方式：
`x[start:stop:step]`

In [21]:
x=np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
print(x[:5])
print(x[5:])
print(x[4:7])
print(x[::2])
print(x[1::2])

[0 1 2 3 4]
[5 6 7 8 9]
[4 5 6]
[0 2 4 6 8]
[1 3 5 7 9]


你可能会在步长值为负时感到困惑。在这个例子中， start 参数和 stop 参数默认是被交换的。

In [27]:
print(x[::-1])  # 所有元素，逆序的

[9 8 7 6 5 4 3 2 1 0]


In [28]:
x[5::-2] # 从索引5开始每隔一个元素逆序

array([5, 3, 1])

### 多维子数组
多维切片也采用同样的方式处理，用冒号分隔

In [37]:
x2

array([[99,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [38]:
x2[:2, :3]

array([[99,  5,  2],
       [ 7,  6,  8]])

In [39]:
x2[:3, ::2] # 所有行，每隔一列

array([[99,  2],
       [ 7,  8],
       [ 1,  7]])

子数组维度也可以同时被逆序：

In [40]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 99]])

### 获取数组的行和列

In [31]:
print(x2[:, 0]) # x2的第一列
print(x2[0, :]) # x2的第一行

[12  7  1]
[12  5  2  4]


在获取行时，出于语法的简介考虑，可以省略空的切片：

In [32]:
print(x2[0]) #等于x2[0, :]

[12  5  2  4]


### 非副本视图的子数组

关于数组切片有一点很重要也非常有用，**那就是数组切片返回的是数组数据的视图，而不是数值数据的副本**。这一点也是 NumPy 数组切片和 Python 列表切片的不同之处：在Python 列表中，切片是值的副本。例如此前示例中的那个二维数组：

In [33]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


从中抽取一个 2×2 的子数组：

In [34]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]


现在如果修改这个子数组，将会看到原始数组也被修改了！结果如下所示：

In [36]:
x2_sub[0, 0] = 99
print(x2_sub,'\n')
print(x2)

[[99  5]
 [ 7  6]] 

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


这种默认的处理方式实际上非常有用：它意味着在处理非常大的数据集时，可以获取或处理这些数据集的片段，而不用复制底层的数据缓存。

### 创建数组的副本

尽管数组视图有一些非常好的特性，但是在有些时候明确地复制数组里的数据或子数组也是非常有用的。可以很简单地通过 copy() 方法实现

In [43]:
x2_sub_copy=x2[:2,:2].copy()
x2_sub_copy

array([[99,  5],
       [ 7,  6]])

如果修改这个子数组，原始的数组不会被改变:

In [45]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy,'\n')
print(x2)

[[42  5]
 [ 7  6]] 

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## 数组的变形
另一个有用的操作类型是数组的变形。数组变形最灵活的实现方式是通过`reshape()`函数来实现

In [47]:
grid=np.arange(1,10).reshape((3,3))
grid

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

请注意，如果希望该方法可行，那么原始数组的大小必须和变形后数组的大小一致。如果满足这个条件，` reshape`方法将会用到**原始数组的一个非副本视图**。但实际情况是，在非连续的数据缓存的情况下，返回非副本视图往往不可能实现。

另外一个常见的变形模式是将一个一维数组转变为二维的行或列的矩阵。你也可以通过
reshape 方法来实现，或者更简单地在一个切片操作中利用 newaxis 关键字：

In [49]:
x = np.array([1, 2, 3])
x.reshape((1,3))

array([[1, 2, 3]])

In [51]:
x

array([1, 2, 3])

In [50]:
# 通过newaxis获得的行向量
x[np.newaxis, :]

array([[1, 2, 3]])

In [52]:
# 通过变形获得的列向量
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [53]:
# 通过newaxis获得的列向量
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

## 数组拼接和分裂
以上所有的操作都是针对单一数组的，但有时也需要将多个数组合并为一个，或将一个数组分裂成多个。接下来将详细介绍这些操作。
### 数组的拼接
拼接或连接 NumPy 中的两个数组主要由`np.concatenate`、`np.vstack`和`np.hstack` 例程实现。`np.concatenate`将数组元组或数组列表作为第一个参数，如下所示：

In [54]:
x=np.array([1,2,3])
y=np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

也可以一次性拼接两个以上数组：

In [55]:
 z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


np.concatenate 也可以用于二维数组的拼接：

In [56]:
grid = np.array([[1, 2, 3],[4, 5, 6]])

In [57]:
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [58]:
# 沿着第二个轴拼接（从0开始索引）
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

沿着固定维度处理数组时，使用`np.vstack`（垂直栈）和`np.hstack`（水平栈）函数会更简洁

In [59]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],[6, 5, 4]])
# 垂直栈数组
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [61]:
# 水平栈数组
y = np.array([[99],[99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

与之类似， np.dstack 将沿着第三个维度拼接数组。

### 数组的分裂
与拼接相反的过程是分裂。分裂可以通过`np.split`、`np.hsplit`和`np.vsplit`函数来实现。可以向以上函数传递一个索引列表作为参数，索引列表记录的是分裂点位置：

In [62]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


值得注意的是， N 分裂点会得到 N + 1 个子数组。相关的 np.hsplit 和 np.vsplit 的用法也类似：

In [63]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [64]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [65]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


同样，`np.dsplit`将数组沿着第三个维度分裂。