# 9 NumPy：以数组的形式思考

从本质上说，大部分计算物理方面的问题都是在处理数组。从物理学角度来看，数组能够自然地描述数值和离散问题。
对数组的操作可用来表示或模拟微积分操作。
从软件的角度来看，数组是一块连续的内存，其中的每个元素必须拥有相同的类型和内存布局。
从物理和计算这
两方面来看，数组紧凑、美观，且有用。

每个侧重科学计算的编程语言都含有数组数据语言的概念，要么是内置到语言和核心组件中，要么作为第三方库提供。
数组数据语言增加的相关语义，实际上处理的是一串连续的bit位。

NumPy合并自Python早期两个竞争的数组数据语言，分别是Numeric和Numarray。
NumPy既能处理C格式的数组，也能处理Fortran格式的数组，还为来自Python外部的数据提供了一种交换格式。

## 9.1 数组

**基本类型：N维数组类ndarray。**
通过NumPy提供的array()函数初始化。
arange() 函数:3个参数为起始值、终止值、步长，和range()函数完全相同，只是该函数返回的是一个ndarray。
zeros()：以一个整数或整数元组作为参数，参数作为shape生成并返
回一个ndarray，其中的元素全为0。
ones()：以一个整数或整数元组作为参数，该参数作为shape生成并返
回一个ndarray，其中的元素全为1。
empty()：只分配一段内存，但不对该内存赋值。适用于载入已有数据
linspace()：等比数列。
logspace()：等差数列。

迭代器、HDF5文件、CSV文件、特殊的NumPy二进制文件格式（*.npy）这些不同类型的数据中创建数组的方法参阅NumPy文档。
[NumPy官方文档](https://numpy.org.cn/)

In [4]:
# 包引用
import numpy as np

In [None]:
arr1 = np.array([6, 28, 496, 8128])
print(arr1)

arr2 = np.arange(6)
print(arr2)

arr3 = np.zeros(4)
print(arr3)

arr4 = np.ones((2, 3))
print(arr4)

arr5 = np.empty(4)
print(arr5)

arr6 = np.linspace(1, 2, 5)
print(arr6)

arr7 = np.logspace(1, -1, 3)
print(arr7)

ndarray类能够非常高效地表示一个固定大小的内存块，以及与表示数组属性的元数据。

**重要的ndarray属性**

| 属性       | 描述                                |
|----------|-----------------------------------|
| data     | 原始数组数据的内存缓冲区                      |
| dtype    | 数据的类型信息                           |
| base     | 存储数据的数组指针，如果没有存储数据则为None          |
| ndim     | 维数（类型为int）                        |
| shape    | 整数元组，表示每个维数的长度，元组长度为ndim          |
| size     | 元素的个数（类型为int），等于shape中元素的乘积       |
| itemsize | 每个元素占用的字节数（类型为int）                |
| nbytes   | 字节的个数（类型为int），等于size乘以itemsize    |
| strides  | 同一个轴上相邻元素之间的字节数（类型是int元组，长度为ndim） |
| flags    | 一些底层的内存信息                         |



In [None]:
# 改变数组形状
arr = np.arange(0, 12, 1)
print("shape前：\n", arr)
arr.shape = (3, 4) # 通过修改shape参数改变形状
print("shape后：\n", arr)
arr.reshape(2, 6) # 通过reshape()直接改变形状
print("reshape后：\n", arr)

## 9.2 dtype属性

dtype（data type）是最重要的ndarray属性。
专注于数字类型，具有基于抽象类型（如整数和浮点数据）的层次结构。
每个抽象类型含有以bit为单位表示的默认大小。

所有dtype在内存中的大小必须是常量。包括字符串。
**目的**：让数组作为一个整体时可以计算其中的不同属性。

dtype都有字符串字符代码，用来方便地指明类型。
有些dtype是可变的（flexible），这意味着虽然任何给定的数组必须具有固定的大小，但不同数组的dtype长度可能有所区别。

创建数组时，自动选择的dtype始终是精度最大的那个元素的dtype。
数据类型精度从小到大：布尔值、无符号整数、整数、浮点数、复数、字符串、对象。

将dtype = <type>作为关键字参数传递给数组创建函数，可以强制数组使用给定的数据类型。此时数组的所有元素都会转换为指定的dtype，不再根据元素的精度来确定类型。
可能会丢失信息（如浮点转换到整数）。
大多数情况下最好提供显式的指定dtype，这样能够使代码更加可读。
长度可变的数据类型，当使用字符代码时，字符代码之后会显示类型的长度

In [None]:
# 指定数组类型
a = np.array([6, 28.0, 496, 8128], dtype=np.int16)
b = np.array([6, 28.0, 496, 8128], dtype='f')
# 输出数组和dtype
print(a, a.dtype)
print(b, b.dtype)

## 9.3 切片和视图

访问元素或子数组时，NumPy数组具有与Python列表相同的切片语义。

**与Python切片的区别：**
NumPy数组是N维的，可以沿任意的轴进行切片。
在Python中，如果希望沿多个轴切片，必须为外部列表的切片中的每个元素创建内部列表然后再切片
多维切片缺少某个切片，则会将该维的所有元素都包括在内。
**注意：NumPy中行在列之前。**

In [None]:
# 一维数组
a = np.arange(8)
print(a[::-1])
print(a[2:6])
print(a[1::3])
# 多维数组对比
outer1 = [[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]]
sele1 = [inner[1:4] for inner in outer1[1:3]]  # 嵌套提取
print(sele1)
outer2 = np.array([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]])
sele2 = outer2[1:3, 1:4]  # 先外后内
print(sele2)

**数组切片最重要的一个特性：切片是原始数组中的视图。**
切片在内存中乐死指针的表现。
切片总是用原始数组的元数据（shape、strides等）表示出来。
切片不包含任何数组本身的数据，所以切片数组的base属性是原数组中数据的引用。
**对切片的切片只想原数组。**

对切片的操作会影响原数组。
想获得一个数组的切片的副本，可以从切片创建一个新的数组：


In [None]:
a = np.arange(6)
print("原数据a：", a)
# 仅引用原数组的切片
b = a[1::2]
b[1] = 42
print("修改b后的a：", a)
print(b.base is a)

# 从切片创建新的数组
c = np.array(a[1::2])
c[1] = 4
print("修改c后的a：", a)
print(c.base is a)

view()方法可用于获取整个数组的视图。
**view()需要两个关键字参数：**
dtype关键字参数用于在不复制数据的情况下将内存数据重新解释为另一种类型；
type 参数表示返回数组的类型。


In [None]:
a = np.arange(6, dtype=np.int64)
print(a, a.dtype)
b = a.view('i4') # 将int64数组视为int32数组，其元素数量会变成原来的两倍
print(b, b.dtype)

## 9.4　算术和广播

### 算术

数组数据语言都有逐元素执行算术运算的能力，这样就能用简明的数学表达式来计算大量的数据。

这种方式表达能力很强，但开销有点昂贵：
其中的每个操作都要创建一个新数组，并且要遍历当中的所有元素。

对于处理复杂表达式来说，NumPy并不是最有效的。因为NumPy不存储所执行操作的相关信息。

可用numexpr包解决

In [None]:
a = np.arange(6)
print(a - 1)
print(a + a)
print(2*a**2 + 3*a + 1) # 对a**2创建了临时数组，但一次性使用

### 广播

如导数：
```python
(y[1:] - y[:-1]) / (x[1:] - x[:-1])
```
将x和y中的点视为bin的边界，并返回中心点((x[1:] + x[: -1])/ 2)的导数。但这样有副作用，结果的长度会比原始数组的长度短1。
使用NumPy的gradient()函数：
```python
np.gradient(y) / np.gradient(x)
```

对数组执行逐元素操作而不限于形状相同的标量和数组。NumPy能够将不同形状的数组一起广播（broadcast），只要它们的形状遵循一些简单的兼容性规则即可。

**兼容规则：**
·对于每个轴，维数相等（a.shape [i] == b.shape [i]），或者其中一个维数为1（a.shape [i] == 1或b.shape [i] == 1）。
·一个数组的秩（维数）小于另一个（a.ndim <i或b.ndim <i）。

两个数组中的两个轴的秩相等时，那么这两个数组之间的操作是逐元素计算的。
类似之前看到的a + a。当数组a上的轴的长度为1且数组b上的相同轴的长度大于1时，a的值在该维度上沿着b虚拟地拉伸。此时b的每个元素都会看到a中用于处理的值。
术语广播的来源：a中的一个元素接触到b中的所有元素。

数组上的普通Python乘法（*）用广播规则实现。广播规则将较低维数据拉伸到刚好够执行操作的长度。
当添加length-1的维度时，数组中的元素总数不会改变。这是广播的一个特别有用的功能。

newaxis变量：用来在索引中添加长度为1的维度。这样无需显式地修改形状，降低了工作量。
注意为增加维度而不是增加一列数据。
NumPy数组有32个维度的限制。

In [None]:
# 2×2的矩阵用广播乘法乘以2×1的向量
a = np.arange(4)
print(a)
a.shape = (2, 2)
print(a)
b = np.array([[42], [43]])
print(a * b)  # a的每一列都会逐元素乘以b中的值
print(np.dot(a, b))  # 这个是点积

In [None]:
# 广播不能超维度
a = np.arange(12)
a.shape = (4, 3)
b = np.array([16, 17, 18])
print(a + b)  # 正常广播，可行
a.shape = (3, 4)
# print(a + b)  # 广播超限，报错
# 报错：ValueError: operands could not be broadcast together with shapes (3,4) (3,)

b.shape = (3, 1)
print(a + b)  # 可运行，因为有维度为1

print(b[:, np.newaxis])  # 添加新轴

In [None]:
# 添加轴的应用
b = np.arange(10, 14)
print("添加之前：", b)
print("添加之后：", b[:, np.newaxis])  # 添加新轴

# 32个轴的限制
print("维度超限：", b[(slice(None),) + 32 * (np.newaxis,)])
# 报错：IndexError: number of dimensions must be within [0, 32], indexing result would have 33

## 9.5 花式索引

**使用条件：获取任意索引的数据，或获取符合某种模式但不够规则的索引（如斐波那契数列）。**
花式索引是通过整数数组或整数列表进行索引，而不是通过切片或newaxis索引。

**特性：**
可以提供任意索引。
可以有重复的索引。
索引可以无序。
索引的形状不需要与数组的形状相匹配。
索引的形状可能比数组的维数多或少。
索引可以与切片无缝使用。

缺点：需要将数据复制到一个新的内存块。
花式索引与切片不同，一般不是原数组的视图。这是因为索引是任意值，所以没办法推断索引是否存在。

不能在一个维度中混合使用切片和花式索引，因为用单个花式索引就能完全描述操作信息。
即使其他维度使用的是切片，只要有一个值使用花式索引，那么整个结果都会成为副本。
在条件允许的情况下最好总是使用切片，因为混合切片和花式索引会创建一个新的多维数组。

还可以在多个维度中的每个维度上单独使用一维花式索引，然后将每个索引解释为该维度的坐标。

In [None]:
# 花式索引的基本应用
a = 2*np.arange(8)**2 + 1
# pull out the fourth, last, and
# second indices
print(a[[3, -1, 1]])  # 花式索引的应用
# pull out the Fibonacci sequence
fib = np.array([0, 1, 1, 2, 3, 5])
print(a[fib])
# pull out a 2x2 array
print(a[[[[2, 7], [4, 2]]]])

In [None]:
# 花式索引和切片在不同维度的混用
a = np.arange(16) - 8
a.shape = (4, 4)

# pull out the third, last, and
# first columns
print(a[:, [2, -1, 0]])

# pull out a Fibonacci sequence of
# rows for every other column, starting
# from the back
fib = np.array([0, 1, 1, 2, 3])
print(a[fib, ::-2])

In [None]:
# 将i或i的各个切片应用于a的每个轴
print("数组a为：\n", a)
i =  np.arange(4)
print(a[i, i])
# lower diagonal by subtracting one to
# part of the range
print(a[i[1:], i[1:] - 1])
# upper diagonal by adding one to part
# of the range
print(a[i[:3], i[:3] + 1])
# anti-diagonal by reversal
print(a[i, i[::-1]])

## 9.6 掩模

掩模许多方面都与花式索引相似，只是掩模必须是一个布尔数组。支持多维掩模。
用于对其他形状相同或轴长度相同的数组进行索引。
对数组使用掩模将复制数据，而不会生成一个视图。

掩模中指定位置的值为True，那么结果就会显示出原数组中对应位置的值。
如果值为False，就不会显示数据。

在计算物理学中，用于选取问题中的一个区域，然后专门处理或是忽略掉这个区域

In [None]:
# 掩模演示
# create an array
a = np.arange(9)
a.shape = (3,3)
print("原a：\n", a)
# create an all True mask
m = np.ones(3, dtype=bool)  # 使用dtype=bool来区分
# take the diagonal
print("a的掩模：\n", a[m, m])

掩模也可以是多维的。这种情况下，掩模逐元素来索引数组。
掩模的结果通常是平坦的数组。
可用于隐藏不好、不能接受、兴趣范围之外的数据。
可通过条件实现掩模。
掩模可以使用逻辑运算的按位运算。

**NumPy按位运算符**

|运算符 | 函数 | 描述|
|---|---|---|
| ~ | bitwise_not(x) | 非运算 |
| \| | bitwise_or(x, y) | 或运算 |
| ^ | bitwise_xor(x, y) | 异或运算 |
| & | bitwise_and(x, y) | 与运算 |

可与NumPy的where()函数一起使用：接收一个布尔数组，返回一个花式索引组成的元组，用来表示掩模中为True的坐标。
where()函数总是返回一个元组，所以可以在索引操作中使用。
但并不推荐将where()的花式索引结果传递到索引操作中，否则速度慢且占用更多的内存。
建议使用并以某种方式修改where()的结果。

In [None]:
print(a < 5)  # 得到一个掩模
m = (a >= 7)  # 创建并保存掩模
print(a[m])
print(a[a < 5])  # 从索引操作本身中生成掩模

In [None]:
# where函数的使用
print(np.where(a < 5))
print(a[np.where(a >= 7)])

# 修改where()的结果
print(a[:, np.where(a < 2)[1]])

## 9.7 结构数组

大多数现实世界的数据分析场景中，需要用到每一列都有名称的表，其中每列可以有自己的类型，在NumPy中称之为结构化数组或记录数组。
NumPy与C或C ++中一样，将其视为由结构体组成的一维数组。

可以用dtype()构造函数将dtypes组合在一起，以此来构造结构化数组。
需要用2元组或3元组的列表作为参数，来描述表中的每一列。

参数元组的形式：<code>(" &lt; col name &gt; ", &lt; col dtype &gt;)</code>或<code>(" &lt; col name &gt; ",  &lt; col dtype &gt; , &lt; num &gt; )</code>
第一个元素是用字符串表示的列名。第二个元素是列的dtype，这个dtype也可以是另一个复合类型，因此子表也可以作为表的一部分。元组的第三个元素是可选的，是一个整数，用来表示列中应该含有的元素的数量。
复合类型在本质上与SQL模式或CSV文件的标题行类似。



In [6]:
fluid = np.dtype([
    ('x', int),
    ('y', np.int64),
    ('rho', 'f8'),
    ('vel', 'f8'),
    ])
print("fluid为：", fluid)
# a dtype with a nested dtype 
# and a subarray 
particles = np.dtype([
    ('pos', [('x', int),
    ('y', int),
    ('z', int)]),
    ('mass', float),
    ('vel', 'f4', 3)
    ])
print("particles为：", particles)

fluid为： [('x', '<i4'), ('y', '<i8'), ('rho', '<f8'), ('vel', '<f8')]
particles为： [('pos', [('x', '<i4'), ('y', '<i4'), ('z', '<i4')]), ('mass', '<f8'), ('vel', '<f4', (3,))]


所有复合类型在底层都是实现为无类型的dtype，还有两个仅在复合类型中使用的dtype属性。
**两个属性：**
1.names：字符串元组，用于给出列名称及其顺序。重命名列名就能重置该属性。
2.fields：这是一个类似dict的对象，用来将列名映射到dtype。fields中的值是只读的，确保了这种dtype是不可变的。

### 修改
注意：
在某些情况下，例如arange()，传入dtype可能没有意义，这种情况下操作会失败。
诸如zeros()、ones()、empty()的函数就可以获取所有数据类型。

### 索引
用结构化数组进行索引操作将获取其中某一行的数据，而用切片进行索引操作将返回这一行的切片。
用字符串进行索引将返回名称与该字符串匹配的列。
字符串列表作为索引将按指定的顺序获取多个列。要求是列表而不是元组以与普通的区分开。




In [None]:
# names和fields的操作

print(particles.names)
print(fluid.fields)
a1 = np.zeros(4, dtype=particles)  # 添加数据
print(a1)

In [None]:
# 添加数据
f = np.array([(42, 43, 6.0, 2.1),
              (65, 66, 128.0, 3.7),
              (127, 128, 3.0, 1.5)],
             dtype=fluid)

# 索引示例
print(f[1])
print(f[::2])
print(f['rho'])
print(f[['vel', 'x', 'rho']])

## 9.8 通用函数

通用函数（universal functions，ufuncs）：转换数组的接口。
ufunc是一个特殊的可调用对象，实现了reduce()、reduceat()、outer()、accumulate()、at()方法，以及其他一些属性。
NumPy中自带了ufuncs套件。

并不是所有的ufuncs都能处理所有数组，有些ufuncs可能会改变所处理数组的形状或大小。ufuncs背后的思想是尽可能用通用的方法转换数据。
ufunc只有在所尝试的操作是不合逻辑或不一致时才会失败。

**重要的ufunc函数**

|函数 | 描述|
|---|---|
|add(a, b) | 加法（+）|
|subtract(a, b) | 减法（-）|
|multiply(a, b) | 乘法（*）|
|divide(a, b) | 除法（/）|
|power(a, b) | 乘方（**）|
|mod(a, b) | 取模（%）|
|abs(a) | 绝对值|
|sqrt(a) | 正数平方根|
|conj(a) | 复数共轭|
|exp(a) | 指数运算（ea）|
|exp2(a) | 以2为底的指数运算（2a）|
|log(a) | 自然对数|
|log2(a) | 以2为底的对数|
|log10(a) | 以10为底的对数|
|sin(a) | 正弦|
|cos(a) | 余弦|
|tan(a) | 正切|
|bitwise_or(a, b) | 按位或运算|
|bitwise_xor(a, b) | 按位异或运算|
|bitwise_and(a, b) | 按位与运算|
|invert(a) | 按位取反（即~运算符）|
|left_shift(a, b) | 向左按位移动（<<）|
|right_shift(a, b) | 向右按位移动（>>）|
|minimum(a, b) | 取最小（注意与np.min()不同）|
|maximum(a, b) | 取最大（注意与np.max()不同）|
|isreal(a) | 测试是否只有实数部分|
|iscomplex(a) | 测试是否只有虚数部分|
|isfinite(a) | 测试是否为有限值|
|isinf(a) | 测试是否为无限值|
|isnan(a) | 测试是否为数字|
|floor(a) | 刚好小于当前数字的整数|
|ceil(a) | 刚好大于当前数字的整数|
|trunc(a) | 取整

## 9.9 其它有用的函数

在大多数情况下，看着这些函数名就能知道其用途。

**一些重要的NumPy全局函数**

| 函数 | 描述|
|---|---|
|sum(a) | 累加数组中的所有元素|
|prod(a) | 累乘数组中的所有元素|
|min(a) | 返回数组中最小的元素|
|max(a) | 返回数组中最大的元素|
|argmin(a) | 返回数组中最小元素的位置（即索引）|
|argmax(a) | 返回数组中最大元素的位置（即索引）|
|dot(a, b) | 计算两个数组的点积|
|cross(a, b) | 计算两个数组的叉积|
|einsum(subs, arrs) | 根据爱因斯坦求和约定按照上下标（subs）和数组列表进行计算|
|mean(a) | 计算数组元素的中值|
|median(a) | 计算数组元素的中位数|
|average(a, weights=None) | 返回数组的加权平均数|
|std(a) | 返回数组的标准差|
|var(a) | 计算数组的方差|
|unique(a) | 返回数组中只含有一个的元素|
|asarray(a, dtype) | 将数组类型转为指定的dtype。如果已经是dtype了，那么就不会复制出新的数组|
|atleast_1d(a) | 检查数组至少是一维的|
|atleast_2d(a) | 检查数组至少是二维的|
|atleast_3d(a) | 检查数组至少是三维的|
|append(a, b) | 将两个数组连成一个新数组|
|save(file, a) | 将数组保存到硬盘上|
|load(file) | 从硬盘中载入数组|
|memmap(file) | 从硬盘上延迟载入数组
