# 数组属性

In [77]:
import numpy as np
import colorama as co

## 1. 基本属性

Numpy 数组的基本属性包括:

- `ndim`: 表示数组的维度
- `shape`: 表示数组的形状
- `size`: 表示数组元素个数
- `dtype`: 表示数组元素的数据类型
- `itemsize`: 表示数组元素的字节数
- `nbytes`: 表示数组整体占用字节数
- `flags`: 表示数组内存布局属性
- `strides`: 表示数组元素之间的字节偏移量
- `base`: 表示数组创建时使用的对象
- `data`: 表示数组数据指针

### 1.1. 维度属性 (`ndim`)

`ndim` 属性表示数组的维度, 值为一个整数

例如: 一维数组的 `ndim` 属性值为 `1`, 二维数组的 `ndim` 值为 `2`, 以此类推

一维数组

In [78]:
# 创建一维数组
a = np.array([1, 2, 3, 4])

# 获取一维数组 ndim 属性值, 值为 1
print(f"一维数组:\n{a}, dim={a.ndim}")

一维数组:
[1 2 3 4], dim=1


二维数组

In [79]:
# 创建二维数组
a = np.array(
    [
        [1, 2],
        [3, 4],
    ]
)

# 获取二维数组 ndim 属性值, 值为 2
print(f"二维数组:\n{a}, dim={a.ndim}")

二维数组:
[[1 2]
 [3 4]], dim=2


三维数组

In [80]:
# 创建三维数组
a = np.array(
    [
        [[1, 2], [3, 4]],
        [
            [5, 6],
            [7, 8],
        ],
    ],
)

# 获取三维数组 ndim 属性值, 值为 3
print(f"三维数组:\n{a}, dim={a.ndim}")

三维数组:
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]], dim=3


### 1.2. 形状属性 (`shape`)

`shape` 属性表示数组的形状, 即数组在各个维度上元素数量, 值为一个元组, 表示数组在每个维度的长度, 例如 `shape` 属性值为 `(2, 3)` 的数组, 表示一个有 `2` 行 `3` 列的二维数组

一维数组

In [81]:
# 创建一维数组
a = np.array([1, 2, 3, 4])

# 获取一维数组的形状, 为长度 1 的元组 (4,)
print(f"一维数组:\n{a}, shape={a.shape}")

一维数组:
[1 2 3 4], shape=(4,)


二维数组

In [82]:
# 创建二维数组
a = np.array(
    [
        [1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12],
    ]
)

# 获取二维数组的形状, 为长度 2 的元组 (3, 4)
print(f"二维数组:\n{a}, shape={a.shape}")

二维数组:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]], shape=(3, 4)


三维数组

In [83]:
# 创建三维数组
a = np.array(
    [
        [
            [1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12],
        ],
        [
            [13, 14, 15, 16],
            [17, 18, 19, 20],
            [21, 22, 23, 24],
        ],
    ]
)

# 获取三维数组的形状, 为长度 3 的元组 (2, 3, 4)
print(f"三维数组:\n{a}, shape={a.shape}")

三维数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], shape=(2, 3, 4)


### 1.3. 长度属性 (`size`)

`size` 属性表示数组的元素总个数, 和数组的形状无关

一维数组

一维数组的 `size` 属性和其长度一致, 即 `len(a) == a.size`

In [84]:
# 创建一维数组
a = np.arange(1, 11)

# 获取一维数组的总元素个数, 值为 24, 和 len(a) 结果一致
print(f"一维数组:\n{a}, size={a.size}, len={len(a)}")

一维数组:
[ 1  2  3  4  5  6  7  8  9 10], size=10, len=10


二维数组

从二维数组开始, `len(a) != a.size`, 即 `len` 函数只能获取到数组第一维的长度, 而非数组的总元素个数

In [85]:
# 创建二维数组, 形状为 2 x 4
a = np.arange(1, stop=9).reshape(2, -1)

# 获取二维数组的总元素个数, 值为 8, 但 len(a) 值为 2, 即第一维长度为 2 (矩阵行数)
print(f"二维数组:\n{a}, size={a.size}, len={len(a)}")

二维数组:
[[1 2 3 4]
 [5 6 7 8]], size=8, len=2


三维数组

In [86]:
# 创建三维数组, 形状为 2 x 3 x 4
a = np.arange(1, 25).reshape(2, 3, -1)

# 获取三维数组的总元素个数, 值为 24, 但 len(a) 值为 2, 即第一维长度为 2
print(f"三维数组:\n{a}, size={a.size}, len={len(a)}")

三维数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], size=24, len=2


### 1.4. 元素类型属性 (`dtype`)

数组的 `dtype` 属性表示数组中存储的元素的类型, 可以为 **数值型 (整型, 浮点型, 复数型)**, **布尔型**, **字符串型**, **字节串型**, **对象型 (object)**

数组的 `dtype` 属性比较复杂, 可以查看 [数组元素类型](./04_数组元素类型.ipynb) 章节, 本章节只做简单介绍

#### 1.4.1. 内置类型

Numpy 通过一组常量标识内置了各种数据类型的 `dtype` 值, 内置的 `dtype` 类型字节序为自动匹配本机 CPU, 内置的 `dtype` 常量标识包括:

| 类别    | 标识名称                                                                                           |
|--------|---------------------------------------------------------------------------------------------------|
| 整数类型 | `np.int8`, `np.int16`, `np.int32`, `np.int64`, `np.uint8`, `np.uint16`, `np.uint32`, `np.uint64` |
| 浮点类型 | `np.float16`, `np.float32`, `np.float64`                                                         |
| 复数类型 | `np.complex64`, `np.complex128`                                                                  |
| 布尔类型 | `np.bool_`                                                                                       |
| 串类型   | `np.str_`, `np.bytes_`                                                                           |
| 其它类型 |  `np.object_` , `np.void`                                                                         |

默认 `dtype` 属性

In [87]:
# 创建数组, 使用默认类型, 即根据所给数组元素值自动匹配 dtype 类型参数
a = np.array(
    [
        [
            [1, 2, 3, 4],
            [5, 6, 7, 8],
            [9, 10, 11, 12],
        ]
    ]
)

# 获取数组元素类型, 因为创建数组时传入元素值为整数, 故数组的 dtype 参数自动匹配为 np.int64
print(f"数组:\n{a}, dtype={a.dtype}")

数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]], dtype=int64


当数组的类型确定后, 则无法改变数组的 `dtype` 属性, 当给数组元素赋予错误的类型数据时, Numpy 首先会尝试类型转换, 如果转换失败, 则会抛出异常

In [88]:
# 创建 dtype 类型为 int64 的三维数组
a = np.arange(1, 25).reshape(2, 3, 4)
print(f"元素赋值前, 数组:\n{a}, dtype={a.dtype}")

# 为数组元素赋值一个浮点数, 会自动将浮点数转换为整数类型, 小数部分被截断
a[0, 0, 0] = 0.001
print(f"\n元素赋值后, 数组:\n{a}, dtype={a.dtype}")

# 尝试为数组元素赋值一个字符串, 会引发 ValueError 异常 (无法将字符串转为 int64 类型)
try:
    a[0, 0, 0] = 'Hello'
except ValueError as e:
    print(f"\n{co.Fore.RED}赋值错误: {e}{co.Fore.RESET}")

元素赋值前, 数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], dtype=int64

元素赋值后, 数组:
[[[ 0  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], dtype=int64

[31m赋值错误: invalid literal for int() with base 10: 'Hello'[39m


当对数组进行计算时, Numpy 会自动将数组的元素类型转换为计算结果需要的类型, 默认情况下, Numpy 会将元素类型转换为计算结果需要的类型

In [89]:
# 创建 dtype 类型为 int64 的三维数组
a = np.arange(1, 25).reshape(2, 3, 4)
print(f"计算前, 数组:\n{a}, dtype={a.dtype}")

# 将数组的各元素乘以 0.01, 返回新数组, dtype 类型变为 float64
a = a * 0.01
print(f"\n计算后, 数组:\n{a}, dtype={a.dtype}")

计算前, 数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], dtype=int64

计算后, 数组:
[[[0.01 0.02 0.03 0.04]
  [0.05 0.06 0.07 0.08]
  [0.09 0.1  0.11 0.12]]

 [[0.13 0.14 0.15 0.16]
  [0.17 0.18 0.19 0.2 ]
  [0.21 0.22 0.23 0.24]]], dtype=float64


也可以通过 `dtype` 参数指定数组元素类型, 此时如果所给元素值和 `dtype` 参数指定的类型不匹配, 则会对元素值进行强制转换

In [90]:
# 创建数组, 显示设置 dtype 类型为 np.bytes_, 即数组元素为字节串类型
a = np.array(['A', 'B', 'C', 'D'], dtype=np.bytes_)

# 获取数组 dtype 属性
print(f"数组:\n{a}, dtype={a.dtype}")

数组:
[b'A' b'B' b'C' b'D'], dtype=|S1


可以通过 `.astype` 函数, 显示转换数组的 dtype 属性, 前提是数组元素的类型可以转换为目标类型

In [91]:
# 创建数组, 显示设置 dtype 类型为 np.bytes_, 即数组元素为字节串类型
a = np.array(["A", "B", "C", "D"], dtype=np.bytes_)
print(f"转换前, 数组:\n{a}, dtype={a.dtype}")

# 将数组的 dtype 类型显示转换为 np.str_ 类型, 即数组元素为字符串类型
b = a.astype(np.str_)
print(f"\n转换后, 数组:\n{b}, dtype={b.dtype}")

try:
    a.astype(np.int32)
except ValueError as e:
    print(f"\n{co.Fore.RED}转换错误: {e}{co.Fore.RESET}")

转换前, 数组:
[b'A' b'B' b'C' b'D'], dtype=|S1

转换后, 数组:
['A' 'B' 'C' 'D'], dtype=<U1

[31m转换错误: invalid literal for int() with base 10: b'A'[39m


#### 1.4.2. 复合类型

如果需要在数组元素中存储复杂数据类型, 则可以定义复合 `dtype` 类型, 该类型是由多个 "字段" 组成, 每个字段可以表示一个指定 `dtype` 类型的值

注意: 复合 `dtype` 类型和 Python 的 Object 类型不同, 复合 `dtype` 类型仍是连续内存存储格式, 通过偏移量来访问字段

In [92]:
# 定义一个包含两个字段的 dtype 类型, 每个字段为一个标量类型
dt = np.dtype([("name", "U10"), ("age", "u4")])

# 通过 dtype 类型创建数组
a = np.array([("Tom", 25), ("Jerry", 30)], dtype=dt)
print(f"数组:\n{a}, dtype={a.dtype}")

# 可访问数组元素的指定字段
print(f"\n数组所有元素的 name 字段:\n{a['name']}")

# 可访问指定数组元素的指定字段
print(f"\n数组元素 0 的 name 字段:\n{a[0]['name']}")

数组:
[('Tom', 25) ('Jerry', 30)], dtype=[('name', '<U10'), ('age', '<u4')]

数组所有元素的 name 字段:
['Tom' 'Jerry']

数组元素 0 的 name 字段:
Tom


## 5. 内存占用属性

### 5.1. 元素字节大小属性 (`.itemsize`)

通过数组的 `.itemsize` 属性可以获取数组中每个元素的字节大小

### 5.2. 数组字节大小 (`.nbytes`)

通过数组的 `.nbytes` 属性可以获取整个数组的字节大小

### 5.3. 内存布局属性 (`.flags`)

通过数组的 `.flags` 属性可以获取数组在内存中存储的方式 (即内存布局), 该属性包括如下子属性 (全部为 `bool` 类型):

- `C_CONTIGUOUS` `(C)`: 数组是否是 C 连续的 (C 语言中数组的存储顺序)
- `F_CONTIGUOUS` `(F)`: 数组是否是 Fortran 连续的 (Fortran 语言中数组的存储顺序)
- `OWNDATA` `(O)`: 数组是否拥有自己的数据 (或者数组从另一个对象借用或引用内存)
- `WRITEABLE` `(W)`: 数组是否可写
- `ALIGNED` `(A)`: 数组是否是按字节对齐的
- `WRITEBACKIFCOPY` `(X)`: 此数组是否为另一个数组的副本

另外, `.flags` 属性还包括一些复合子属性, 包括:

- `FNC`: 相当于 `F_CONTIGUOUS` 且非 `C_CONTIGUOUS`
- `FORC`: 相当于 ``F_CONTIGUOUS` 或 `C_CONTIGUOUS`
- `BEHAVED` `(B)`: 相当于 `ALIGNED` 且 `WRITEABLE`
- `CARRAY` `(CA)`: 相当于 ``BEHAVED` 且 `C_CONTIGUOUS`
- `FARRAY` `(FA)`: 相当于 `BEHAVED` 且 `F_CONTIGUOUS` 且非 ``C_CONTIGUOUS`

要访问某个子属性, 可以使用点符号, 如 `.flags.c_contiguous` 或者使用属性下标 `.flags['C_CONTIGUOUS']`, 也可以使用简写属性下标 `.flags['C']`

一般情况下, 无需改变数组的 `.flags` 属性, 因为 NumPy 会自动处理这些属性, 但是在某些情况下, 可能需要改变这些属性

In [93]:
dts = [
    np.int8,
    np.int16,
    np.int32,
    np.int64,
    np.float32,
    np.float64,
    np.float128,
]

for dt in dts:
    a = np.zeros(10, dtype=dt)
    print(f"size={a.size}, dtype={a.dtype}, itemsize={a.itemsize}, nbytes={a.nbytes}, flags={a.flags}")

size=10, dtype=int8, itemsize=1, nbytes=10, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

size=10, dtype=int16, itemsize=2, nbytes=20, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

size=10, dtype=int32, itemsize=4, nbytes=40, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

size=10, dtype=int64, itemsize=8, nbytes=80, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

size=10, dtype=float32, itemsize=4, nbytes=40, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False

size=10, dtype=float64, itemsize=8, nbytes=80, flags=  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABL

### 5.4. 数组元素间偏移量属性 (`.strides`)

可以获取数组间相邻元素的偏移量差值, 即沿着数组的轴移动一次需要跳过的字节长度

该属性为一个元组, 包含每个维度 (轴) 相邻元素的偏移量差值

一维数组

In [94]:
# 创建一维数组, dtype 类型为 int64, 即每元素 8 字节
a = np.array([1, 2, 3, 4, 5])

# 获取数组元素间偏移量, 返回一个元组 (8,), 表示数组元素间差 8 个字节
print(f"数组:\n{a}, strides={a.strides}")

数组:
[1 2 3 4 5], strides=(8,)


多维数组

In [95]:
# 创建一个形状为 2 x 3 x 4 的三维数组, dtype 类型为 int64, 即每元素 8 字节
a = np.arange(1, 25).reshape(2, 3, 4)

# 获取数组元素间偏移量, 返回一个元组 (96, 32, 8), 表示:
# - 沿第一个轴移动一次, 偏移 96 字节 (8 x 12)
# - 沿第二个轴移动一次, 偏移 32 字节 (8 x 4)
# - 沿第三个轴移动一次, 偏移 8 字节 (8 x 1)
print(f"数组:\n{a}, strides={a.strides}")

数组:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]], strides=(96, 32, 8)
