# NumPy数组基础

`Python` 中的数据操作几乎等同于 `NumPy` 数组操作，甚至新出现的 `Pandas` 工具也是构建在 NumPy 数组的基础之上的。  
本节将展示一些用 `NumPy` 数组操作获取数据或子数组，对数组进行分裂、变形和连接的例子。  

我们将介绍以下几类基本的数组操作。
- 数组的属性
    - 确定数组的大小、形状、存储大小、数据类型。
- 数组的索引
    - 获取和设置数组各个元素的值。
- 数组的切分
    - 在大的数组中获取或设置更小的子数组。
- 数组的变形
    - 改变给定数组的形状。
- 数组的拼接和分裂
    - 将多个数组合并为一个，以及将一个数组分裂成多个。

In [1]:
import numpy as np

np.random.seed(0)

## 1. NumPy数组的属性

In [2]:
x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3,4))
x3 = np.random.randint(10, size=(3,4,5))

In [3]:
print("x3 ndim: ", x3.ndim)
print("x3 shape: ", x3.shape)
print("x3 size: ", x3.size)
print("x3 dtype: ", x3.dtype)
print("x3 itemsize: ", x3.itemsize, "bytes")
print("x3 nbytes: ", x3.nbytes, "bytes")  # 通常情况下，nbytes = itemsize * size

x3 ndim:  3
x3 shape:  (3, 4, 5)
x3 size:  60
x3 dtype:  int64
x3 itemsize:  8 bytes
x3 nbytes:  480 bytes


## 2. 数组索引：获取单个元素

In [4]:
print(x1)
print(x1[0])
print(x1[4])
print(x1[-1])
print(x1[-2])

[5 0 3 3 7 9]
5
7
9
7


In [5]:
print(x2)
print(x2[0,0])
print(x2[2,0])
print(x2[2,-1])

x2[0,0] = 12
print(x2)

x1[0] = 3.14159  # 与Python列表不同，NumPy数组是固定类型的
print(x1)

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]
3
1
7
[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]
[3 0 3 3 7 9]


## 3. 数组切片：获取子数组

### 3.1 一维子数组

In [6]:
x = np.arange(10)
print(x)

print(x[:5])
print(x[5:])
print(x[4:7])
print(x[::2])
print(x[1::2])
print(x[::-1])  # start参数与stop参数默认是被交换的
print(x[5::-2])

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4]
[5 6 7 8 9]
[4 5 6]
[0 2 4 6 8]
[1 3 5 7 9]
[9 8 7 6 5 4 3 2 1 0]
[5 3 1]


### 3.2 多维子数组

In [7]:
print(x2)

print(x2[:2,:3])
print(x2[:3,::2])
print(x2[::-1,::-1])

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]
[[12  5  2]
 [ 7  6  8]]
[[12  2]
 [ 7  8]
 [ 1  7]]
[[ 7  7  6  1]
 [ 8  8  6  7]
 [ 4  2  5 12]]


### 3.3 获取数组的行和列

In [8]:
print(x2)

print(x2[:,0])  # 第一列
print(x2[0,:])  # 第一行
print(x2[0])    # 第一行

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]
[12  7  1]
[12  5  2  4]
[12  5  2  4]


### 3.4 非副本视图的子数组

关于数组切片有一点很重要也非常有用，那就是数组切片返回的是数组数据的**视图**，而不是数值数据的**副本**。  
这一点也是 `NumPy` 数组切片和 `Python` 列表切片的不同之处：在 `Python` 列表中，切片是值的副本。  
这种默认的处理方式实际上非常有用：它意味着在处理非常大的数据集时，可以获取或处理这些数据集的片段，而不用复制底层的数据缓存。

In [9]:
print(x2)

x2_sub = x2[:2,:2]
print(x2_sub)

x2_sub[0,0] = 99
print(x2_sub)
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]
[[12  5]
 [ 7  6]]
[[99  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### 3.5 创建数组的副本

In [10]:
x2_sub_copy = x2[:2,:2].copy()
print(x2_sub_copy)

x2_sub_copy[0,0] = 42
print(x2_sub_copy)
print(x2)

[[99  5]
 [ 7  6]]
[[42  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## 4. 数组的变形

- 数组变形最灵活的实现方式是通过 `reshape()` 函数来实现。
    - 请注意，如果希望该方法可行，那么原始数组的大小必须和变形后数组的大小一致。
    - 如果满足这个条件，`reshape` 方法将会用到原始数组的一个非副本视图。
    - 但实际情况是，在非连续的数据缓存的情况下，返回非副本视图往往不可能实现。

In [11]:
grid = np.arange(1, 10).reshape((3,3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


- 另外一个常见的变形模式是将一个一维数组转变为二维的行或列的矩阵。
    - 你也可以通过 `reshape` 方法来实现，或者更简单地在一个切片操作中利用 `newaxis` 关键字

In [12]:
x = np.array([1, 2, 3])
x

array([1, 2, 3])

In [13]:
x.reshape((1,3))  # 通过reshape()获得的行向量

array([[1, 2, 3]])

In [14]:
x[np.newaxis,:]  # 通过newaxis获得的行向量

array([[1, 2, 3]])

In [15]:
x.reshape((3,1))  # 通过reshape()获得的列向量

array([[1],
       [2],
       [3]])

In [16]:
x[:,np.newaxis]  # 通过newaxis获得的列向量

array([[1],
       [2],
       [3]])

## 5. 数组的拼接与分列

### 5.1 数组的拼接

拼接或连接 `NumPy` 中的两个数组主要由 `np.concatenate`、`np.vstack`、 `np.hstack` 和 `np.dstack` 例程实现。

In [17]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [18]:
z = [99, 99, 99]
np.concatenate([x, y, z])

array([ 1,  2,  3,  3,  2,  1, 99, 99, 99])

In [19]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
np.concatenate([grid, grid])  # 沿着第1个轴拼接二维数组

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [20]:
np.concatenate([grid, grid], axis=1)  # 沿着第2个轴拼接二维数组

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [21]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

np.vstack([x, grid])  # 垂直栈数组，沿着第一个维度拼接数组

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [22]:
y = np.array([[99],
              [99]])

np.hstack([grid, y])  # 水平栈数组，沿着第二个维度拼接数组

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

- `np.dstack()` 沿着第三个维度拼接数组。

### 5.2 数组的分裂

与拼接相反的过程是分裂。分裂可以通过 `np.split`、`np.hsplit`、`np.vsplit` 和 `np.dsplit` 函数来实现。  
可以向以上函数传递一个索引列表作为参数，索引列表记录的是分裂点位置。

In [23]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3,5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [24]:
grid = np.arange(16).reshape((4,4))
print(grid)

upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [25]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


- `np.dsplit()` 沿着第三个维度分裂数组。