# 数组迭代

可通过 Numpy 对数组元素进行迭代遍历

In [1]:
import numpy as np

from display import aprint
from array_ import arange_by_shape

## 1. 基本迭代

Numpy 数组支持 Python 本身的 `for` 语法迭代方式

对于一维数组, 则按照元素的排列顺序进行迭代

In [2]:
a = np.arange(1, 10, dtype=np.int32)
print(f"原数组:\n{a}")

print("\n迭代结果:")
# 对一维数组进行迭代
for i, n in enumerate(a):
    print(f"[{i}: {n}]", end=", ")

原数组:
[1 2 3 4 5 6 7 8 9]

迭代结果:
[0: 1], [1: 2], [2: 3], [3: 4], [4: 5], [5: 6], [6: 7], [7: 8], [8: 9], 

对于多维数组, 则沿着第一个轴进行迭代, 在第一个轴迭代的每一项基础上, 可以进一步对其进行迭代, 使其继续沿着第二个轴迭代, 以此类推, 直到迭代完成

In [3]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print("\n迭代结果:")
# 对一维数组进行迭代
for i, row in enumerate(a):
    for j, col in enumerate(row):
        for k, n in enumerate(col):
            print(f"[{(i, j, k)}: {n:>2}]", end=", ")
        print()
    print()

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
[(0, 0, 0):  1], [(0, 0, 1):  2], [(0, 0, 2):  3], [(0, 0, 3):  4], 
[(0, 1, 0):  5], [(0, 1, 1):  6], [(0, 1, 2):  7], [(0, 1, 3):  8], 
[(0, 2, 0):  9], [(0, 2, 1): 10], [(0, 2, 2): 11], [(0, 2, 3): 12], 

[(1, 0, 0): 13], [(1, 0, 1): 14], [(1, 0, 2): 15], [(1, 0, 3): 16], 
[(1, 1, 0): 17], [(1, 1, 1): 18], [(1, 1, 2): 19], [(1, 1, 3): 20], 
[(1, 2, 0): 21], [(1, 2, 1): 22], [(1, 2, 2): 23], [(1, 2, 3): 24], 



也可以按数组的 shape 进行迭代

In [4]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print("迭代结果:")
# 对一维数组进行迭代
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        for k in range(a.shape[2]):
            print(f"[{(i, j, k)}: {a[i, j, k]:>2}]", end=", ")
        print()
    print()

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]
迭代结果:
[(0, 0, 0):  1], [(0, 0, 1):  2], [(0, 0, 2):  3], [(0, 0, 3):  4], 
[(0, 1, 0):  5], [(0, 1, 1):  6], [(0, 1, 2):  7], [(0, 1, 3):  8], 
[(0, 2, 0):  9], [(0, 2, 1): 10], [(0, 2, 2): 11], [(0, 2, 3): 12], 

[(1, 0, 0): 13], [(1, 0, 1): 14], [(1, 0, 2): 15], [(1, 0, 3): 16], 
[(1, 1, 0): 17], [(1, 1, 1): 18], [(1, 1, 2): 19], [(1, 1, 3): 20], 
[(1, 2, 0): 21], [(1, 2, 1): 22], [(1, 2, 2): 23], [(1, 2, 3): 24], 



上述方式会通过 Python 的嵌套循环迭代遍历元素, 但 Python 的嵌套循环执行效率较低, 一般情况下不推荐这样迭代

## 2. 迭代函数

### 2.1. 降维迭代

Numpy 数组可以通过 `.flatten()` 函数将多维数组降维为 `1` 维数组 (相当于 `reshape(-1)`)

In [5]:
a = arange_by_shape((2, 3, 4), 1)
aprint(
    "数组将为 1 维度:",
    {
        "a": a,
        "a.flatten()": a.flatten(),
        "a.reshape(-1)": a.reshape(-1),
    },
)

数组将为 1 维度:
● a:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], shape=(2, 3, 4)
● a.flatten():
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24], shape=(24,)
● a.reshape(-1):
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24], shape=(24,)


也可以通过 Numpy 数组的 `.flat` 属性, 获取一个迭代器对象, 可以忽略维度, 遍历数组的所有元素

In [6]:
a = arange_by_shape((2, 3, 4), 1)

aprint(
    "数组将为 1 维度:",
    {
        "a": a,
        "[a.flat]": [int(n) for n in a.flat],
    },
)

数组将为 1 维度:
● a:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], shape=(2, 3, 4)
● [a.flat]:
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24]


### 2.2. `np.nditer` 遍历

通过 `np.nditer` 函数可以对数组进行多种形式的遍历

通过 `np.nditer` 函数, 最基本的遍历方式为按照数组在内存中的顺序进行遍历

数组的迭代顺序是根据数组的内存布局选择的, 而不是使用标准的 C 顺序或 Fortran 顺序. 这样做是为了提高访问效率, 并假设默认情况下只是希望访问每个元素而不关心特定顺序

```python
a = np.arange(6).reshape(2, 3)

for x in np.nditer(a):
    print(x, end=" ")

for x in np.nditer(a.T):
    print(x, end=" ")
```

上述代码, 两次迭代的结果一致, 即数组及其转置在内存中的布局一致

#### 2.2.1. 数组迭代

默认情况下, `np.nditer` 函数会通过 `order="K"` 的默认参数来确定迭代顺序, 即按数组在内存中存储的顺序迭代

In [7]:
a = arange_by_shape((2, 3, 4), 1)

for e in np.nditer(a):
    print(e, end=", ")

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 

可以通过 `order="C"` 参数将迭代顺序强行改为 C 语言顺序

In [8]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print(f"\n迭代结果:")
for e in np.nditer(a, order="C"):
    print(e, end=", ")

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 

还可以通过 `order="F"` 参数将迭代顺序强行改为 Fortran 语言顺序

In [9]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print(f"\n迭代结果:")
for e in np.nditer(a, order="F"):
    print(e, end=", ")

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
1, 13, 5, 17, 9, 21, 2, 14, 6, 18, 10, 22, 3, 15, 7, 19, 11, 23, 4, 16, 8, 20, 12, 24, 

#### 2.2.2. 修改数组元素

可以通过 `np.nditer` 函数返回的迭代器, 在迭代过程中对数组元素进行修改, 需要如需步骤:

1. 创建一个 `np.nditer` 迭代器对象, 并设置参数 `op_flags=['readwrite']` 表示迭代过程中对数组元素进行修改
2. 在迭代过程中, 可通过迭代器获取元素值, 可通过数组的 `[...]` 语法记录当前迭代位置修改后的元素值
3. 通过 `close()` 方法关闭迭代器, 使修改生效

`np.nditer` 函数返回的迭代器支持 Python 的上下文管理器语法, 可通过 `with` 语句自动关闭迭代器

In [10]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

with np.nditer(a, op_flags=[["readwrite"]]) as it:
    for x in it:
        x[...] = x * 10  # type: ignore

print(f"\n通过迭代器修改后:\n{a}")

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

通过迭代器修改后:
[[[ 10  20  30  40]
  [ 50  60  70  80]
  [ 90 100 110 120]]

 [[130 140 150 160]
  [170 180 190 200]
  [210 220 230 240]]]


#### 2.2.3. 索引追踪及多维索引

可以只追踪数组元素的单索引 (即忽略数组维度的索引), 需要根据所需迭代的顺序定义索引追踪的顺序, 即设置 `np.nditer` 函数的 `flag` 参数为 `"c_index"` 或者 `"f_index"`, 即可通过迭代器对象的 `index` 属性获取元素的索引, 其中:

- `c_index`: 表示索引按照 C 语言顺序编排 (行主序)
- `f_index`: 表示索引按照 Fortran 语言元素顺序编排 (列主序)

In [11]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print(f"\n迭代结果:")
with np.nditer(a, flags=["c_index"]) as it:
    for e in it:
        print(f"({e:>2}, {it.index:>2})", end=", ")

        if (it.index + 1) % 12 == 0:
            print()

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
( 1,  0), ( 2,  1), ( 3,  2), ( 4,  3), ( 5,  4), ( 6,  5), ( 7,  6), ( 8,  7), ( 9,  8), (10,  9), (11, 10), (12, 11), 
(13, 12), (14, 13), (15, 14), (16, 15), (17, 16), (18, 17), (19, 18), (20, 19), (21, 20), (22, 21), (23, 22), (24, 23), 


也可以追踪数组元素的各维度索引, 通过设置 `np.nditer` 函数的 `flag` 参数为 `"multi_index"`, 即可通过迭代器对象的 `multi_index` 属性获取元素在每个维度的索引

In [12]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print(f"\n迭代结果:")
last_index = (0, 0, 0)
with np.nditer(a, flags=["multi_index"]) as it:
    for e in it:
        mi = it.multi_index
        if last_index[0] != mi[0]:
            print()

        if last_index[1] != mi[1]:
            print()

        print(f"({e:>2}, {it.multi_index})", end=", ")
        last_index = mi

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
( 1, (0, 0, 0)), ( 2, (0, 0, 1)), ( 3, (0, 0, 2)), ( 4, (0, 0, 3)), 
( 5, (0, 1, 0)), ( 6, (0, 1, 1)), ( 7, (0, 1, 2)), ( 8, (0, 1, 3)), 
( 9, (0, 2, 0)), (10, (0, 2, 1)), (11, (0, 2, 2)), (12, (0, 2, 3)), 

(13, (1, 0, 0)), (14, (1, 0, 1)), (15, (1, 0, 2)), (16, (1, 0, 3)), 
(17, (1, 1, 0)), (18, (1, 1, 1)), (19, (1, 1, 2)), (20, (1, 1, 3)), 
(21, (1, 2, 0)), (22, (1, 2, 1)), (23, (1, 2, 2)), (24, (1, 2, 3)), 

#### 2.2.4. 迭代器对象

数组的迭代可以不通过 `for` 循环, 而是用 `np.nditer` 函数返回的迭代器对象进行

In [13]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

print(f"\n迭代结果:")
last_index = (0, 0, 0)
with np.nditer(a, flags=["multi_index"]) as it:
    while not it.finished:
        mi = it.multi_index
        if last_index[0] != mi[0]:
            print()

        if last_index[1] != mi[1]:
            print()

        print(f"({it[0]:>2}, {it.multi_index})", end=", ")

        it.iternext()
        last_index = mi

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

迭代结果:
( 1, (0, 0, 0)), ( 2, (0, 0, 1)), ( 3, (0, 0, 2)), ( 4, (0, 0, 3)), 
( 5, (0, 1, 0)), ( 6, (0, 1, 1)), ( 7, (0, 1, 2)), ( 8, (0, 1, 3)), 
( 9, (0, 2, 0)), (10, (0, 2, 1)), (11, (0, 2, 2)), (12, (0, 2, 3)), 

(13, (1, 0, 0)), (14, (1, 0, 1)), (15, (1, 0, 2)), (16, (1, 0, 3)), 
(17, (1, 1, 0)), (18, (1, 1, 1)), (19, (1, 1, 2)), (20, (1, 1, 3)), 
(21, (1, 2, 0)), (22, (1, 2, 1)), (23, (1, 2, 2)), (24, (1, 2, 3)), 

也可以通过迭代器对象修改数组元素值

In [14]:
a = arange_by_shape((2, 3, 4), 1)
print(f"原数组:\n{a}")

with np.nditer(a, op_flags=[["readwrite"]]) as it:
    while not it.finished:
        it[0] = it[0] * 10
        it.iternext()

print(f"\n通过迭代器修改后:\n{a}")

原数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

通过迭代器修改后:
[[[ 10  20  30  40]
  [ 50  60  70  80]
  [ 90 100 110 120]]

 [[130 140 150 160]
  [170 180 190 200]
  [210 220 230 240]]]


#### 2.2.5. 外部循环

一般情况下, `np.nditer` 函数返回的迭代器会迭代数组中的每个元素, 但这样会导致迭代次数过多, 导致效率较低

通过传递 `flags` 参数为 `external_loop` 可以启用迭代器的外部循环, 将尝试以更大的数据块进行迭代, 每次迭代会得到多个数组元素, 迭代次数会大大减少, 从而提升代码执行效率

下面的例子中, 建立了一个包含大量元素的二维数组 (`100 x 100`), 并通过不同的遍历模式来对比其执行效率

In [15]:
large_array = arange_by_shape((100, 100, 100), 1)
print(f"数组 shape={large_array.shape}, nbytes={large_array.nbytes / 1024}KB")

数组 shape=(100, 100, 100), nbytes=7812.5KB


默认情况下, `np.nditer` 函数返回的迭代器会逐个迭代数组中的每个元素, 此时循环次数最多, 执行效率最低

In [16]:
%%time

total, count = 0, 0

# 逐元素迭代
for e in np.nditer(large_array):
    total += e
    count += 1

print(f"\n数组元素求和结果: {total}, 迭代次数: {count}")


数组元素求和结果: 500000500000, 迭代次数: 1000000
CPU times: user 652 ms, sys: 196 μs, total: 652 ms
Wall time: 651 ms


可以通过设置 `flags` 参数为 `”external_loop"` 来设置循环要进行外部迭代, 默认情况下, 外部循环使用 C 语言元素顺序 (即行主序)， 将所有元素放在一个数组中一次性迭代

故下例中, 迭代次数为 `1`, 也就是一次迭代返回了数组中的所有元素, 元素顺序以 C 顺序排列

这种方式相当于没有为数组进行实际的迭代, 这也就是 "外部循环" 的含义

In [17]:
%%time

# 按块迭代
total, count = 0, 0
for e in np.nditer(large_array, flags=["external_loop"], order="C"):
    total += e.sum()
    count += 1

print(f"\n数组元素求和结果: {total}, 迭代次数: {count}")


数组元素求和结果: 500000500000, 迭代次数: 1
CPU times: user 1.15 ms, sys: 39 μs, total: 1.18 ms
Wall time: 761 μs


如果外部循环设置为 Fortran 语言顺序 (即列主序), 则会按数组的列进行迭代 (即按倒数第二维作为轴), 每次迭代获取一列, 故共迭代 `10000` 次 (即数组最后两维的乘积)

In [18]:
%%time

# 按块迭代
total, count = 0, 0
for e in np.nditer(large_array, flags=["external_loop"], order="F"):
    total += e.sum()
    count += 1

print(f"\n数组元素求和结果: {total}, 迭代次数: {count}")


数组元素求和结果: 500000500000, 迭代次数: 10000
CPU times: user 11.1 ms, sys: 0 ns, total: 11.1 ms
Wall time: 11 ms


注意: 外部循环无法迭代索引一起使用, 即一旦启用了外部循环, 则迭代过程中无法获取到数组元素的索引, 包括 `c_index`, `f_index` 以及 `multi_index`

In [19]:
import colorama as co

try:
    np.nditer(large_array, flags=["external_loop", "multi_index"])
except Exception as err:
    print(f"{co.Fore.RED}无法迭代数组: {err}{co.Fore.RESET}")

[31m无法迭代数组: Iterator flag EXTERNAL_LOOP cannot be used if an index or multi-index is being tracked[39m


In [20]:
def add_(data, vals: np.ndarray) -> None:
    return np.sum(data * vals)


a = arange_by_shape((2, 3, 4), 1)

r1 = np.apply_along_axis(add_, 0, a, np.array(10))
r2 = np.apply_along_axis(add_, 1, a, np.array(10))
r3 = np.apply_along_axis(add_, 2, a, np.array(10))

aprint(
    "",
    {
        "a": a,
        "r1": r1,
        "r2": r2,
        "r3": r3,
    },
)



● a:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], shape=(2, 3, 4)
● r1:
[[140 160 180 200]
 [220 240 260 280]
 [300 320 340 360]], shape=(3, 4)
● r2:
[[150 180 210 240]
 [510 540 570 600]], shape=(2, 4)
● r3:
[[100 260 420]
 [580 740 900]], shape=(2, 3)
