# 3、NumPy 数组基础

### 3.1  本节要点 —— 用实例讨论 NumPy 数组处理

- 访问数据和子数组
- 分割、重构(reshape)、合成(join)


#### 涉及一些新型数组操作

- *数组属性*： 确定 size、shape、内存开销(memory consumption)及数据类型
- *数组索引*： 获得/设置 数组元素值
- *数组的切片*： 获得/设置 小数组
- *重构数组*： 改变已知数组的构型(shape)
- *合成与分割*： 多合一、一分多

### 3.2   NumPy 数组属性

####  示例 —— 生成随机数组

- 三个随机数组，分别是一、二、三维
- 使用随机数生成器，预置随机种子

In [None]:
import numpy as np

np.random.seed(1234567)  # 随机种子，便于重复生成

x1 = np.random.randint(10, size=6)  # 一维数组
x2 = np.random.randint(10, size=(3, 4))  # 二维数组
x1

#### 数组属性 —— ndim、shape、size

- ``ndim`` —— 维数
- ``shape`` —— 每一维的元素数
- ``size`` —— 数组元素总数

In [None]:
x3 = np.random.randint(10, size=(3, 4, 5))  # 三维数组
print("x3 =:", x3)
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
x3

#### 数组属性 —— dtype

- ``dtype`` —— 数据类型

In [None]:
print("dtype:", x3.dtype)

#### 数组属性 —— itemsize、nbytes

- ``itemsize`` —— 单个元素的字节数
- ``nbytes`` —— 总字节数

In [None]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

通常情况下
$$nbytes=itemsize \times size$$

### 3.4   数组索引：访问单个元素

与标准 Python 列表访问方式类似

- 使用方括号
- 首元素从0开始索引

In [None]:
x1

In [None]:
x1[0], x1[4]

- 使用负索引值，末元素索引 -1

In [None]:
x1[-1]

In [None]:
x1[-2]

访问多维数组元素
- 使用索引元组

In [None]:
x2

In [None]:
x2[0, 0]

In [None]:
x2[2, 0]

In [None]:
x2[2, -1]

修改元素值

In [None]:
x2[0][0] = 12
x2

#### 牢记

- <font color="red">不同于 Python 列表，NumPy 数组的类型固定</font>

注意下例，试图在整数数组中插入一浮点数元素，元素值中的小数部分被无声息的截去！不易发现！！！

In [None]:
x1[0] = 3.14159  # this will be truncated!
x1

### 3.5   数组切片 —— 访问子数组

- 切片，使用冒号标记
- 沿用标准 Python 列表的切片操作

``` python
x[start:stop:step]
```
如果有省略时，缺省值为：``start=0``, ``stop=``*``size of dimension``*, ``step=1``

#### 一维子数组切片

In [None]:
x = np.arange(10)
x

In [None]:
x[:5]  # 前五个元素

In [None]:
x[5:]  # 索引5之后的元素

In [None]:
x[4:7]  # 子数组

In [None]:
x[::2]  # 隔一个元素，从0索引开始

In [None]:
x[1::2]  # 隔一个元素，从1索引开始

####  困惑：``step``为负值

- ``start``和``stop``的缺省值交换
- 倒置数组的可靠方法

In [None]:
x[::-1]  # 逆序 all elements, reversed

In [None]:
x[5::-2]  # 从5开始，每隔一元素，逆序(reversed every other from index 5)

#### 多维子数组切片

- 多个切片用逗号分隔

In [None]:
x2

In [None]:
x2[:2, :3]  # 2行、3列

In [None]:
x2[:3, ::2]  # 所有行，隔列(all rows, every other column)

子数组可按所有维倒置

In [None]:
x2[::-1, ::-1]

#### 访问数组的行和列

- 结合索引和分片技巧
- 采用空分片（即单个冒号）

In [None]:
print(x2[:, 0])  # x2的首列（first column of x2）

In [None]:
print(x2[0, :])  # x2的首行

如果是访问行，空切片可以省略，得到更紧凑的形式

In [None]:
print(x2[0])  # 等价于 x2[0, :]

### 3.6  子数组 —— 非拷贝视

- <font color="red">数组切片返回数据的视(views)，而不是拷贝(copies)</font>
- 而对于 Python 列表，切片返回的是拷贝

In [None]:
print(x2)

提取一 $2\times 2$ 子数组

In [None]:
x2_sub = x2[:2, :2]
print(x2_sub)

现在，修改子数组，发现原数组也变化了。

In [None]:
x2_sub[0, 0] = 99
print(x2_sub)

In [None]:
print(x2)

#### <font color="red">值得关注的性质 —— 大型数组允许操作其局部子部分</font>

- 当操作大型数据集中的一部分时，可以访问或是处理其中的切片

### 3.7 创建数组的拷贝

- 数组视具有良好的特性
- 有时，也希望显式拷贝数组或子数组中的数据

可以利用``copy()``方法

####  浅拷贝 —— 调用拷贝方法

In [None]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

如果修改该子数组，对原数组没有影响

In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

In [None]:
print(x2)

#### 示例 —— 关于引用、浅拷贝和深拷贝的例子

In [None]:
import copy
a = [1, 2, 3, 4, ['a', 'b', 'c']]
b = a                  # 引用
c = copy.copy(a)       # 浅拷贝
d = copy.deepcopy(a)   # 深拷贝

a[3]=5
b[3]=6
c[3]=7
d[3]=8

a.append(5) 
b.append(6) 
c.append(7) 
d.append(8) 
a[4].append('a hello') 
b[4].append('b hello') 
c[4].append('c hello') 
d[4].append('d hello') 

#### 观察几个数组的变化

In [None]:
print ("a=",a)
print ("b=",b)
print ("c=",c)
print ("d=",d)

In [None]:
print ("id_a=",id(a))
print ("id_b=",id(b))
print ("id_c=",id(c))
print ("id_d=",id(d))

In [None]:
for i in range(5):print("id([",i,"])=", id(a[i]), id(b[i]), id(c[i]), id(d[i]))

In [None]:
print("id=", id(a), id(b), id(c), id(d))

### 3.8   数组维度重构

- 使用``reshape``方法

例如, 将1～9九个整数依次放入$3 \times 3$阵列

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

#### 注意

- 前后的数组size必须匹配
- 只要可能，``reshape``将采用非拷贝视，不过对于存放在非连续内存区的数组，就不再遵守这一规则

- 通常，重构模式是一维数组转换成二维矩阵
- 可以用``reshape``方法，或更容易地在切片操作中采用``newaxis``关键字

In [None]:
import numpy as np

In [None]:
x = np.array([1, 2, 3])
x

In [None]:
# 重构行向量(row vector via reshape)
x.reshape((1, 3))

In [None]:
# 通过 newaxis 化为行向量
x[np.newaxis, :]

In [None]:
# 通过 newaxis 化为死向量
x.reshape((3, 1))

In [None]:
x

In [None]:
# 通过 newaxis，化为列向量
x[:, np.newaxis]

### 3.9  数组连接和分割

前述操作是对单个数组，有时，可能要做

- 连接：多合一
- 分割：一分多

#### 函数 —— 用于数组的连接

连接操作要用到下列函数

- ``np.concatenate``
- ``np.vstack``
- ``np.hstack``

#### 函数 np.concatenate 及其调用参数

``np.concatenate``用一个数组元组或列表做为第一个调用参数

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

#### 连接多于2个数组

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

#### 二维数组的连接

In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
grid

In [None]:
# 沿第一个轴连接
np.concatenate([grid, grid])

In [None]:
# 沿第二个轴（索引值始于0）连接
np.concatenate([grid, grid], axis=1)

#### 堆集函数

对于固定维度的数组，使用堆集函数
- 竖向堆集``np.vstack`` (vertical stack)
- 横向堆集``np.hstack`` (horizontal stack)

可以表示得更清楚

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# 数组的竖向堆集
np.vstack([x, grid])

In [None]:
# 数组的横向堆集
y = np.array([[99],
              [99]])
np.hstack([grid, y])

类似地
- ``np.dstack``将沿第三轴进行堆集

#### 分割数组

连接的反向操作是分割，利用的函数有

- ``np.split``
- ``np.hsplit``
- ``np.vsplit``

每种方法，都要传递下标列表做为调用参数

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 7])
print(x1, x2, x3)

#### 分割数组的注意要点

- *N* 个分割点，生成 *N+1* 个子数组
- 函数``np.hsplit``和``np.vsplit``的操作方式类似，方向不同

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

类似地,``np.dsplit``将沿第三轴分割数组

### 结束