# 数组元素类型

In [1]:
import numpy as np

## 1. dtype 类型

Numpy 通过数组的 `dtype` 属性来表示数组元素的类型

`dtype` 类型不仅表示数组元素的数据类型, 还表示了存储这些类型所需内存空间的大小和字节序

### 1.1. 类型说明

#### 1.1.1. 内置 `dtype` 类型

Numpy 通过一组常量标识内置了各种数据类型的 `dtype` 值, 内置的 `dtype` 类型字节序为自动匹配本机 CPU, 内置的 `dtype` 常量标识包括:

| 类别    | 标识名称                                                                                           |
|--------|---------------------------------------------------------------------------------------------------|
| 整数类型 | `np.int8`, `np.int16`, `np.int32`, `np.int64`, `np.uint8`, `np.uint16`, `np.uint32`, `np.uint64` |
| 浮点类型 | `np.float16`, `np.float32`, `np.float64`                                                         |
| 复数类型 | `np.complex64`, `np.complex128`                                                                  |
| 布尔类型 | `np.bool_`                                                                                       |
| 串类型   | `np.str_`, `np.bytes_`                                                                           |
| 其它类型 |  `np.object_` , `np.void`                                                                         |

可以通过显示设置 `dtype` 参数来指定数组元素类型

In [2]:
a = np.array([1, 2, 3], dtype=np.int32)
print(f"array={a}, dtype='{a.dtype}'")

array=[1 2 3], dtype='int32'


也可以通过 `.astype` 方法将一个数组的 `dtype` 转换为另一个, 同时数组中的值也随之进行转化

In [3]:
# 创建一个 `dtype` 为 `int32` 的数组
a = np.array([1, 2, 3], dtype=np.int32)
print(f"array={a}, dtype='{a.dtype}'")

# 将 `dtype` 为 `int32` 的数组转换成 `int64`
a = a.astype(np.int64)
print(f"array={a}, dtype='{a.dtype}'")

# 将 `dtype` 为 `int64` 的数组转换成 `float32`
a = a.astype(np.float32)
print(f"array={a}, dtype='{a.dtype}'")

# 将 `dtype` 为 `float32` 的数组转换成 `str`
a = a.astype(np.str_)
print(f"array={a}, dtype='{a.dtype}'")

# 将 `dtype` 为 `str` 的数组转换成 `float64`
a = a.astype(np.float64)
print(f"array={a}, dtype='{a.dtype}'")

array=[1 2 3], dtype='int32'
array=[1 2 3], dtype='int64'
array=[1. 2. 3.], dtype='float32'
array=['1.0' '2.0' '3.0'], dtype='<U32'
array=[1. 2. 3.], dtype='float64'


当一个数组元素值无法转化为目标 `dtype` 时, 会抛出 `ValueError` 异常

In [4]:
# 创建一个 `dtype` 为 `float64` 的数组, 并将 `dtype` 进一步转换为 `str`
a = np.array([1.1, 2.2, 3.3], dtype=np.float64).astype(np.str_)
print(f"array={a}, dtype='{a.dtype}'")

try:
    # 尝试将 `dtype` 转换为 `str` 的数组转换为 `int32`, 因为部分字符串无法转化为整数,
    # 故执行时会报错
    a = a.astype(np.int32)
except Exception as e:
    print(f"Error {e}")

array=['1.1' '2.2' '3.3'], dtype='<U32'
Error invalid literal for int() with base 10: np.str_('1.1')


#### 1.1.2. `dtype` 类型属性

一个 `dtype` 类型对象包括以下属性:

##### 1.1.2.1. `.name` 属性

`dtype` 对象的 `.name` 属性用于表示该类型的名称, 例如: `np.int64` 的 `.name` 属性是 `'int64'`

In [5]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', name: '{dt.name}'")

dtype: 'int32', name: 'int32'


##### 1.1.2.2. `.itemsize` 属性

`dtype` 对象的 `.itemsize` 属性用于表示该类型数据占内存字节数, 例如 `np.int32` 的 `.itemsize` 属性为 `4`, 表示该类型数据占据 `4` 个字节内存

In [6]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', itemsize: {dt.itemsize}")

dtype: 'int32', itemsize: 4


##### 1.1.2.3. `.byteorder` 属性

`dtype` 对象的 `.byteorder` 属性表示该类型数据的字节序, 用一个字符表示, 包括:

- `'<'`: Little-Endian (小端字节序)
- `'>'`: Big-Endian (大端字节序)
- `'='`: Native (本机字节序)
- `'|'`: one byte (单字节数据, 无字节序)

In [7]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', byteorder: '{dt.byteorder}'")

dtype: 'int32', byteorder: '='


##### 1.1.2.4. `.kind` 属性

`dtype` 对象的 `.kind`: 该类型数据的类型标识, 用一个字符表示, 包括:

- `i` 表示整肃
- `u` 表示无符号整肃
- `f` 表示浮点数
- `c` 表示复数
- `b` 表示布尔值
- `U` 表示 Unicode 字符串
- `S` 表示字节串
- `O` 表示对象

In [8]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', kind: '{dt.kind}'")

dtype: 'int32', kind: 'i'


##### 1.1.2.5. `.alignment` 属性

`dtype` 对象的 `.alignment` 属性表示该类型数据存储在内存中的字节对齐大小, 可取值为 `1`, `2`, `4`, `8` 或 `16`

In [9]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', alignment: {dt.alignment}")

dtype: 'int32', alignment: 4


##### 1.1.2.6. `.char` 属性

`dtype` 对象的 `.char` 属性表示该类型的名称标识, 用一个字符标识, 包括:

- `b` 表示 8 位有符号整数
- `h` 表示 16 位有符号整数
- `i` 表示 32 位有符号整数
- `l` 表示 64 位有符号整数
- `B` 表示 8 位无符号整数
- `H` 表示 16 位无符号整数
- `I` 表示 32 位无符号整数
- `L` 表示 64 位无符号整数
- `e` 表示 16 位浮点数
- `f` 表示 32 位浮点数
- `d` 表示 64 位浮点数
- `g` 表示 128 位浮点数
- `F` 表示 64 位复数
- `?` 表示 1 字节布尔值
- `U` 表示 4 字节 Unicode 字符串fu
- `S` 表示 1 字节字节串
- `O` 表示对象

In [10]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', char: '{dt.char}'")

dtype: 'int32', char: 'i'


##### 1.1.2.7. `.descr` 属性

`dtype` 对象的 `.descr` 表示该类型数据的描述符, 通过 '字节序' + '类型标识' + '字节数' 组成, 包括:

- `|i1`: 表示 1 字节有符号整数
- `<i2`: 表示 2 字节有符号整数, 小端字节序
- `>i2`: 表示 2 字节有符号整数, 大端字节序
- `=i2`: 表示 2 字节有符号整数, 本机字节序
- `<i4`: 表示 4 字节有符号整数, 小端字节序
- `>i4`: 表示 4 字节有符号整数, 大端字节序
- `=i4`: 表示 4 字节有符号整数, 本机字节序
- `<i8`: 表示 8 字节有符号整数, 小端字节序
- `>i8`: 表示 8 字节有符号整数, 大端字节序
- `=i8`: 表示 8 字节有符号整数, 本机字节序
- ... ...
- `<U3`: 表示 3 个 Unicode 字符, 小端字节序, 共 12 字节, 96 位
- `>U4`: 表示 4 个 Unicode 字符, 大端字节序, 共 16 字节, 128 位
- `=U2`: 表示 2 个 Unicode 字符, 本机字节序, 共 8 字节, 64 位
- `|S4`: 4 个字节的二进制字节串, 32 位
- `|S8`: 8 个字节的二进制字节串, 64 位

In [11]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', describe: {dt.descr}")

dtype: 'int32', describe: [('', '<i4')]


#### 1.1.3. 不同类型的 `dtype` 属性

In [12]:
from typing import Sequence, Any

from tabulate import tabulate

_DT_HEADERS = [
    "dtype",
    ".name",
    ".itemsize",
    ".kind",
    ".alignment",
    ".char",
    ".byteorder",
    ".descr",
]


def show_dtype(*dts: type[Any] | np.dtype[Any] | str, splitter="") -> None:
    """通过表格展示 `dtype` 对象及其属性

    Args:
        *dts (type[Any] | np.dtype[Any] | str): `dtype` 对象, 可以为一个或多个
    """

    def make_row(dt: np.dtype) -> list[Any]:
        """生成一个列表集合对象, 表示表格中的一行

        Args:
            dt (np.dtype): `dtype` 类型对象

        Returns:
            list[Any]: 表格一行内容, 为一个列表集合对象
        """
        return [
            f"{dt}",
            f"{dt.name}",
            f"{dt.itemsize}",
            f"{dt.kind}",
            f"{dt.alignment}",
            f"{dt.char}",
            f"{dt.byteorder}",
            f"{dt.descr}",
        ]

    output = [make_row(np.dtype(dt)) for dt in dts]
    print(f"{splitter}{tabulate(output, headers=_DT_HEADERS)}")

##### 1.1.3.1. 整数类型

In [13]:
# 显示内置的整型 `dtype` 对象
show_dtype(
    np.int8,
    np.int16,
    np.int32,  # 包括别名 `np.intc`
    np.int64,  # 包括别名 `np.intp`
    np.uint8,
    np.uint16,
    np.uint32,  # 包括别名 `np.uintc`
    np.uint64,  # 包括别名 `np.uintp`
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
int8     int8               1  i                   1  b        |             [('', '|i1')]
int16    int16              2  i                   2  h        =             [('', '<i2')]
int32    int32              4  i                   4  i        =             [('', '<i4')]
int64    int64              8  i                   8  l        =             [('', '<i8')]
uint8    uint8              1  u                   1  B        |             [('', '|u1')]
uint16   uint16             2  u                   2  H        =             [('', '<u2')]
uint32   uint32             4  u                   4  I        =             [('', '<u4')]
uint64   uint64             8  u                   8  L        =             [('', '<u8')]


##### 1.1.3.2. 浮点类型

In [14]:
# 显示内置的浮点型 `dtype` 对象
show_dtype(
    np.float16,  # 16位浮点数
    np.float32,  # 32位浮点数
    np.float64,  # 64位浮点数
    np.float128,  # 128位浮点数
)

dtype     .name       .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------  --------  -----------  -------  ------------  -------  ------------  --------------
float16   float16             2  f                   2  e        =             [('', '<f2')]
float32   float32             4  f                   4  f        =             [('', '<f4')]
float64   float64             8  f                   8  d        =             [('', '<f8')]
float128  float128           16  f                  16  g        =             [('', '<f16')]


##### 1.1.3.3. 复数类型

In [15]:
# 显示内置的复数型 `dtype` 对象
show_dtype(
    np.complex64,  # 64位复数
    np.complex128,  # 128位复数
)

dtype       .name         .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------  ----------  -----------  -------  ------------  -------  ------------  --------------
complex64   complex64             8  c                   4  F        =             [('', '<c8')]
complex128  complex128           16  c                   8  D        =             [('', '<c16')]


##### 1.1.3.4. 布尔类型

In [16]:
# 显示内置的布尔型 `dtype` 对象
show_dtype(
    np.bool_,  # 布尔型
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
bool     bool               1  b                   1  ?        |             [('', '|b1')]


##### 1.1.3.5. 字节串, 字符串类型

In [17]:
# 显示内置的字节串及字符串型 `dtype` 对象
show_dtype(
    np.bytes_,  # 字节串类型
    np.str_,  # 字符串类型
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|S0      bytes              0  S                   1  S        |             [('', '|S0')]
<U0      str                0  U                   4  U        =             [('', '<U0')]


##### 1.1.3.6. 其它类型

In [18]:
# 显示内置的其它类型 `dtype` 对象
show_dtype(
    np.void,  # 空类型
    np.object_,  # 对象类型
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|V0      void               0  V                   1  V        |             [('', '|V0')]
object   object             8  O                   8  O        |             [('', '|O')]


### 1.2. `dtype` 的字符串表示法

除过 Numpy 内置的 `dtype` 类型外, 还可以通过字符串的描述字符串创建 `dtype` 类型

对于字符串表示的 `dtype` 类型, 可以通过 `np.dtype` 函数，从字符串来创建具体的 `dtype` 类型对象

#### 1.2.1. 整型的字符串表示

In [19]:
# 展示字符串表示的整型 `dtype` 类型
show_dtype(
    "|i1",  # 1 字节整数, 不区分字节序
    "<i2",  # 2 字节整数, 小端字节序
    ">i2",  # 2 字节整数, 大端字节序
    "<i4",  # 4 字节整数, 小端字节序
    ">i4",  # 4 字节整数, 大端字节序
    "<i8",  # 8 字节整数, 小端字节序
    ">i8",  # 8 字节整数, 大端字节序
    "|u1",  # 1 字节无符号整数, 不区分字节序
    "<u2",  # 2 字节无符号整数, 小端字节序
    ">u2",  # 2 字节无符号整数, 大端字节序
    "<u4",  # 4 字节无符号整数, 小端字节序
    ">u4",  # 4 字节无符号整数, 大端字节序
    "<u8",  # 8 字节无符号整数, 小端字节序
    ">u8",  # 8 字节无符号整数, 大端字节序
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
int8     int8               1  i                   1  b        |             [('', '|i1')]
int16    int16              2  i                   2  h        =             [('', '<i2')]
>i2      int16              2  i                   2  h        >             [('', '>i2')]
int32    int32              4  i                   4  i        =             [('', '<i4')]
>i4      int32              4  i                   4  i        >             [('', '>i4')]
int64    int64              8  i                   8  l        =             [('', '<i8')]
>i8      int64              8  i                   8  l        >             [('', '>i8')]
uint8    uint8              1  u                   1  B        |             [('', '|u1')]
uint16   uint16             2  u                   2  H        =             [('', '<u2')]
>u2   

#### 1.2.2. 浮点型的字符串表示

In [20]:
# 展示字符串表示的浮点型 `dtype` 类型
show_dtype(
    "<f2",  # 2 字节浮点数, 小端字节序
    ">f2",  # 4 字节浮点数, 大端字节序
    "<f4",  # 4 字节浮点数, 小端字节序
    ">f4",  # 4 字节浮点数, 大端字节序
    "<f8",  # 8 字节浮点数, 小端字节序
    ">f8",  # 8 字节浮点数, 大端字节序
    "<f16",  # 16 字节浮点数, 大端字节序
    ">f16",  # 16 字节浮点数, 大端字节序
)

dtype     .name       .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------  --------  -----------  -------  ------------  -------  ------------  --------------
float16   float16             2  f                   2  e        =             [('', '<f2')]
>f2       float16             2  f                   2  e        >             [('', '>f2')]
float32   float32             4  f                   4  f        =             [('', '<f4')]
>f4       float32             4  f                   4  f        >             [('', '>f4')]
float64   float64             8  f                   8  d        =             [('', '<f8')]
>f8       float64             8  f                   8  d        >             [('', '>f8')]
float128  float128           16  f                  16  g        =             [('', '<f16')]
>f16      float128           16  f                  16  g        >             [('', '>f16')]


#### 1.2.3. 复数型的字符串表示

In [21]:
# 展示字符串表示的复数型 `dtype` 类型
show_dtype(
    "<c8",  # 8 字节复数型, 小端字节序
    ">c8",  # 8 字节复数型, 大端字节序
    "<c16",  # 16 字节复数型, 小端字节序
    ">c16",  # 16 字节复数型, 大端字节序
    "<c32",  # 32 字节复数型, 小端字节序
    ">c32",  # 32 字节复数型, 大端字节序
)

dtype       .name         .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------  ----------  -----------  -------  ------------  -------  ------------  --------------
complex64   complex64             8  c                   4  F        =             [('', '<c8')]
>c8         complex64             8  c                   4  F        >             [('', '>c8')]
complex128  complex128           16  c                   8  D        =             [('', '<c16')]
>c16        complex128           16  c                   8  D        >             [('', '>c16')]
complex256  complex256           32  c                  16  G        =             [('', '<c32')]
>c32        complex256           32  c                  16  G        >             [('', '>c32')]


#### 1.2.4. 布尔型的字符串表示

In [22]:
# 显示字符串表示的布尔型 `dtype` 类型
show_dtype(
    "|b1",  # 1 字节布尔型, 不区分字节序
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
bool     bool               1  b                   1  ?        |             [('', '|b1')]


#### 1.2.5. 串类型的字符串表示

Numpy 的串类型 `dtype` 包含 "字节串" 类型 (`np.bytes`) 和 "字符串" 类型 (`np.str`), 前者表示数组元素有固定长度的字节组成, 后者表示数组元素有固定长度的 UTF-8 字符组成

In [23]:
# 显示字符串表示的串类型 `dtype` 类型
show_dtype(
    "=U",  # 空字符串, 本机字节序
    "<U3",  # 3 字节长度的字串, 小端字节序
    ">U3",  # 3 字节长度的字串, 大端字节序
    "|S",  # 空字节串, 不区分字节序
    "|S4",  # 4 字节长度的字节串, 不区分字节序
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
<U0      str                0  U                   4  U        =             [('', '<U0')]
<U3      str96             12  U                   4  U        =             [('', '<U3')]
>U3      str96             12  U                   4  U        >             [('', '>U3')]
|S0      bytes              0  S                   1  S        |             [('', '|S0')]
|S4      bytes32            4  S                   1  S        |             [('', '|S4')]


#### 1.2.6. 其它类型的字符串表示

除上述 `dtype` 类型外, Numpy 还包含 "空" 类型 (`np.void`) 和 "对象" 类型 (`np.object`), 前者表示一个没有具体含义的字节串, 后者表示 Python 原始对象引用

In [24]:
# 显示字符串表示的其它类型 `dtype` 类型
show_dtype(
    "|V",  # 空类型, 不区分字节序
    "|V4",  # 4空类型, 不区分字节序
    "|O",  # 对象类型, 不区分字节序
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|V0      void               0  V                   1  V        |             [('', '|V0')]
|V4      void32             4  V                   1  V        |             [('', '|V4')]
object   object             8  O                   8  O        |             [('', '|O')]


## 2. 不同类型数组元素

In [25]:
from tabulate import tabulate

_AR_HEADERS = [
    "array",
    ".name",
    ".itemsize",
    ".kind",
    ".alignment",
    ".char",
    ".byteorder",
    ".descr",
]


def show_array_with_type(*arrs: np.ndarray, splitter="") -> None:
    """通过表格形式展示数组以及其 `dtype` 类型

    Args:
        *arrs (np.ndarray): Numpy 数组对象, 可以为一个或多个数组
        splitter (str, optional): 分隔符, 显示在整个表格之前. Defaults to ''.
    """

    def make_row(arr: np.ndarray) -> list[str]:
        """生成一个列表对象, 表示结果表格的一行

        Args:
            arr (np.ndarray): Numpy 数组对象

        Returns:
            list[str]: 表格行列表集合
        """
        dt = arr.dtype
        return [
            f"{arr}",
            f"{dt.name}",
            f"{dt.itemsize}",
            f"{dt.kind}",
            f"{dt.alignment}",
            f"{dt.char}",
            f"{dt.byteorder}",
            f"{dt.descr}",
        ]

    # 遍历参数中包含的所有数组, 转换为表格行
    output = [make_row(arr) for arr in arrs]
    print(f"{splitter}{tabulate(output, headers=_AR_HEADERS)}")

### 2.1. 数值类型数据

在创建 Numpy 数组时, 整数元素数组默认为 `int64` 类型, 浮点数元素数组默认为 `float64` 类型, 可以通过 `dtype` 参数指定明确的元素类型

可以通过数组对象的 `.astype` 方法将数组的元素类型转换为指定的类型, 返回指定元素类型的新数组

In [26]:
# 创建元素为整数类型的数组, `dtype` 默认为 `np.int64`, 即 `=i8`
a = np.array([1, 2, 3])

# 将数组的 `dtype` 转换为 `np.int32` 类型
b = a.astype(np.int32)

# 将数组的 `dtype` 转换为 `>u8` 类型, 即 `np.uint64` 大端类型
c = a.astype(">u8")

show_array_with_type(a, b, c)

array    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
[1 2 3]  int64              8  i                   8  l        =             [('', '<i8')]
[1 2 3]  int32              4  i                   4  i        =             [('', '<i4')]
[1 2 3]  uint64             8  u                   8  L        >             [('', '>u8')]


### 2.2. 布尔类型

在创建 Numpy 数组时, 布尔类型元素数组默认为 `bool_` 类型

如果将数值类型数组强制转换为布尔类型数组, 则数组中的非 `0` 元素会被转换为 `True`, `0` 元素会被转换为 `False`

如果将字符串类型数组强制转换为布尔类型数组, 则数组中的非空元素会被转换为 `True`, 空元素会被转换为 `False`

In [27]:
show_array_with_type(
    # 创建元素类型为布尔类型的数组, `dtype` 默认为 `np.bool_`
    np.array([False, True, False, False]),
    # 当用其它类型元素创建 `dtype` 为 `np.bool_` 的数组时, 会将其它类型的值转换为布尔值
    np.array([0, 1, 0, 2], dtype=np.bool_),
)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[False  True False False]  bool               1  b                   1  ?        |             [('', '|b1')]
[False  True False  True]  bool               1  b                   1  ?        |             [('', '|b1')]


### 2.3. 字节串类型

通过 `dtype` 类型为 `|Sn` (`n` 为任意整数) 创建的数组, 每个元素可以存储固定长度的字节串, 无需区分大小端

对于数组元素类型本身为 Python 字节串的情况, 默认 `dtype` 类型为 `|Sn` 类型 (`n` 为字符串长度)

In [28]:
# 创建一个长度为 3 的字节串数组, 每个字节串长度为 3 字节, 共占用 9 个字节 (3 * 3 字节)
a = np.array([b"AAA", b"BBB", b"CCC"])

# 创建一个长度为 4 的字节串数组, 每个字节串长度为 3 个字节, 共占用 12 个字节 (4 * 3 字节)
# 由于是定长字节串数组, 所以即便追加一个 2 字节的字节串, 也会被补齐到长度为 3 字节
b = np.append(a, b"DD")

# 创建一个长度为 5 的字节串数组, 每个字节串长度为 4 字节, 共占用 20 个字节 (5 * 4 字节)
# 由于是定长字节串数组, 所以加入一个长度为 4 的字节串会导致数组中其它字节串的长度被扩展到 4 字节
c = np.append(b, b"EEEE")

show_array_with_type(a, b, c)

array                                 .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'AAA' b'BBB' b'CCC']                bytes24            3  S                   1  S        |             [('', '|S3')]
[b'AAA' b'BBB' b'CCC' b'DD']          bytes24            3  S                   1  S        |             [('', '|S3')]
[b'AAA' b'BBB' b'CCC' b'DD' b'EEEE']  bytes32            4  S                   1  S        |             [('', '|S4')]


注意, 在整个数组中, 所有字节串长度必须相同, 占用相同的内存空间, 在上面的例子中, 在数组中添加了长度更长的字符串后, 会导致数组的每个元素字节长度成为最长字节串长度

如果在创建数组的同时就限定了元素的字节长度 (例如设置 `dtype` 为 `S5`, 即字符串最大长度为 5 个字节), 那么数组创建时, 如果元素的字节长度超出, 则字节串会被截断

In [29]:
# 通过 `dtype` 类型为 `S5` 创建一个长度为 2 的字节串数组, 则每个字节串长度为 5 字节, 共占用 10 字节 (2 * 5 字节)
# 对于数组中长度超过 5 字节的字节串, 会被截断, 例如 b'international' 会被截断为 b'inter'
a = np.array([b"international", b"short"], dtype="|S5")
b = np.append(a, b"international")

show_array_with_type(a, b)

array                                 .name       .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------------  --------  -----------  -------  ------------  -------  ------------  --------------
[b'inter' b'short']                   bytes40             5  S                   1  S        |             [('', '|S5')]
[b'inter' b'short' b'international']  bytes104           13  S                   1  S        |             [('', '|S13')]


### 2.4. 字符串类型

#### 2.4.1. 固定长度字符串数组

通过 `dtype` 类型为 `Un` (`n` 为任意整数) 创建的数组, 每个元素可以存储固定长度的 Unicode 字符串, 例如如下 `dtype` 类型:

- `<U2`: 长度为 2 的字符串, 小端字节序
- `<U3`: 长度为 3 的字符串, 小端字节序
- `>U8`: 长度为 8 的字符串, 大端字节序
- `=U16`: 长度为 16 的字符串, 本机字节序

对于数组元素类型本身为 Python 字符串的情况, 默认 `dtype` 类型为 `=Un` 类型 (`n` 为字符串长度)

如果

In [30]:
# 创建一个长度为 3 的字符串数组, 每个字符串长度为 3 个 Unicode 字符, 共占用 36 个字节 (3 * 3 * 4 字节)
a = np.array(["AAA", "BBB", "CCC"])

# 创建一个长度为 4 的字符串数组, 每个字符串长度为 3 个 Unicode 字符, 共占用 48 个字节 (4 * 3 * 4 字节)
# 由于是定长字符串数组, 所以即便追加一个长度为 2 的字符串, 也会被补齐到长度为 3 个 Unicode 字符
b = np.append(a, "DD")

# 创建一个长度为 5 的字符串数组, 每个字符串长度为 4 个 Unicode 字符, 共占用 80 个字节 (5 * 4 * 4 字节)
# 由于是定长字符串数组, 所以加入一个长度为 4 的字符串会导致数组中其它字符串的长度被扩展到 4 个 Unicode 字符
c = np.append(b, "EEEE")

show_array_with_type(a, b, c)

array                            .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
['AAA' 'BBB' 'CCC']              str96             12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC' 'DD']         str96             12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC' 'DD' 'EEEE']  str128            16  U                   4  U        =             [('', '<U4')]


注意, 在整个数组中, 所有字符串长度必须相同, 占用相同的内存空间, 在上面的例子中, 在数组中添加了长度更长的字符串后, 会导致数组的每个元素字符串长度成为最长字符串长度

如果在创建数组的同时就限定了元素的字符串长度 (例如设置 `dtype` 为 `U5`, 即字符串最大长度为 5 个字符), 那么数组创建时, 如果字符串长度超出, 则字符串会被截断

In [31]:
# 通过 `dtype` 类型为 `U5` 创建一个长度为 2 的字符串数组, 则每个字符串长度为 5 个 Unicode 字符, 共占用 40 个字节 (2 * 5 * 4 字节)
# 对于数组中长度超过 5 个字符的字符串, 会被截断, 例如 "international" 会被截断为 "inter"
a = np.array(["international", "short"], dtype="=U5")
b = np.append(a, "international")

show_array_with_type(a, b)

array                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------  -------  -----------  -------  ------------  -------  ------------  --------------
['inter' 'short']                  str160            20  U                   4  U        =             [('', '<U5')]
['inter' 'short' 'international']  str416            52  U                   4  U        =             [('', '<U13')]


固定长度字符串数组由于每个数组元素长度固定, 所以其性能表现最好, 但如果数组中的字符串长度参差不齐, 则会占用很多无效内存空间

#### 2.4.2. 可变长度字符串数组

##### 2.4.2.1. `StringDType` 类型

可变长字符串, 其 `dtype` 类型为 `np.dtypes.StringDtype`

所谓可变长字符串, 就是指字符串的长度是不固定的, 为了能让 Numpy 数组可以存储这类字符串, 需要将字符串单独进行存储, 并只在 Numpy 数组中存储字符串的引用, 这样一来既可以确保 Numpy 数组本身的固定元素长度的要求, 另一方面间接的存储了可变长度的字符串

In [32]:
# 创建一个包含 4 个可变字符串的数组, 数组每个元素存储一个字符串引用为 16 字节, 共占用 64 个字节 (4 * 16 字节)
a = np.array(["A", "BB", "CCC", "DDDD"], dtype=np.dtypes.StringDType())

# 通过下例可以确认, 可变字符串引用占用的数组元素长度和字符串本身长度无关, 而是固定为 16 字节
b = np.array(["AAAA", "BBBB", "CCCC", "DDDD"], dtype=np.dtypes.StringDType())

show_array_with_type(a, b)

array                          .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
['A' 'BB' 'CCC' 'DDDD']        StringDType128           16  T                   8  T        |             [('', 'StringDType()')]
['AAAA' 'BBBB' 'CCCC' 'DDDD']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


##### 2.4.2.2. 数组占位符

对于 `dtype` 为 `np.dtypes.StringDtype` 类型的可变长度字符串数组, 可以在数组元素未确定时, 通过一个占位符对数组元素位置进行占位

"占位符" 只存在于可变长度字符串数组中, 对于定长字符串数组, 则由于数组各元素须保持长度一致, 无法设置占位符

可以通过 `np.dtypes.StringDType` 类型构造函数的 `na_object` 参数来设置占位符对象, 下面以 `np.nan` 对象作为占位符为例

In [33]:
# 定义 `StringDType` 类型对象, 指定 `np.nan` 对象作为占位符对象
dt = np.dtypes.StringDType(na_object=np.nan)

# 创建动态数组对象, 通过加入 `np.nan` 占位符对象, 占据数组的元素位置
a = np.array(["A", "B", "C", np.nan, "E", np.nan, "F"], dtype=dt)
show_array_with_type(a)

array                          .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  --------------  -----------  -------  ------------  -------  ------------  ------------------------------------
['A' 'B' 'C' nan 'E' nan 'F']  StringDType128           16  T                   8  T        |             [('', 'StringDType(na_object=nan)')]


可以用任意对象作为占位符, 注意: 除了指定的占位符对象, 其它对象加入数组时, 都会被转换成字符串值

如下例中, 通过一个自定义类型对象作为占位符, 同时加入数组的 `np.nan` 对象会被转换成字符串 `'np.nan'` 后添加到数组中

In [34]:
class Empty:
    """定义自定义类型"""

    def __init__(self, name: str) -> None:
        self._name = name

    def __repr__(self) -> str:
        return f"Empty({self._name})"


# 创建自定义类型对象, 用于占位符
empty = Empty("EMPTY")

# 定义 `StringDType` 类型对象, 指定自定义对象作为占位符对象
dt = np.dtypes.StringDType(na_object=empty)

# 创建数组, 除自定义对象会作为占位符外, 其它非字符串对象都被转为字符串作为数组元素
a = np.array(["A", "B", "C", empty, "E", np.nan, "F"], dtype=dt)
show_array_with_type(a)

array                                     .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------------------------------------  --------------  -----------  -------  ------------  -------  ------------  ---------------------------------------------
['A' 'B' 'C' Empty(EMPTY) 'E' 'nan' 'F']  StringDType128           16  T                   8  T        |             [('', 'StringDType(na_object=Empty(EMPTY))')]


对于包含占位符的字符串数组进行排序后, 占位符会排在数组末尾

In [35]:
# 定义 `StringDType` 类型对象, 指定 `np.nan` 对象作为占位符对象
dt = np.dtypes.StringDType(na_object=np.nan)

# 创建动态数组对象, 通过加入 `np.nan` 占位符对象, 占据数组的元素位置
a = np.array(["A", "B", "C", np.nan, "E", np.nan, "F"], dtype=dt)
show_array_with_type(a)

# 对数组进行排序, 占位符会排序到数组末尾
a = np.sort(a)
show_array_with_type(a, splitter="\n")

array                          .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  --------------  -----------  -------  ------------  -------  ------------  ------------------------------------
['A' 'B' 'C' nan 'E' nan 'F']  StringDType128           16  T                   8  T        |             [('', 'StringDType(na_object=nan)')]

array                          .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  --------------  -----------  -------  ------------  -------  ------------  ------------------------------------
['A' 'B' 'C' 'E' 'F' nan nan]  StringDType128           16  T                   8  T        |             [('', 'StringDType(na_object=nan)')]


#### 2.4.3. 字符串元素转换

##### 2.4.3.1. 数值类型

定长数组因为长度已经确认, 所以数组每个元素都必须有一个字符串值, 没有 "占位符" 的概念

但对于 "可变长字符串数组", 则当字符串元素暂时不存在时, 可以设置一个 "占位符", 来占据数组对应元素的位置

In [36]:
dt = np.dtypes.StringDType(na_object=np.nan)

a = np.array(["A", "B", np.nan, "C"], dtype=dt)
show_array_with_type(a)

print(f"\na[0] = {a[0]}")
print(f"a[2] = {a[2]}")

f = a == np.nan
print(f"{f}")

array              .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------  --------------  -----------  -------  ------------  -------  ------------  ------------------------------------
['A' 'B' nan 'C']  StringDType128           16  T                   8  T        |             [('', 'StringDType(na_object=nan)')]

a[0] = A
a[2] = nan
[False False False False]


将一个数值类型元素的数组转换为字符串类型元素数组, 数组中的数值将按照其字面量值转换为对应的字符串, 例如: `123` 转换为 `"123"`

可以通过 `np.astype` 函数来完成类型转换, 转换结果可以是定长字符串元素数组, 也可以是可变长字符串元素数组

In [37]:
a = np.array([1.1, 2.2, 3.3, 4.4])

# 将整型元素类型的数组转为定长字符串类型数组
a1 = a.astype("U")  # `dtype` 参数也可以为 `np.str_`

# 将整型元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                      .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[1.1 2.2 3.3 4.4]          float64                   8  f                   8  d        =             [('', '<f8')]
['1.1' '2.2' '3.3' '4.4']  str1024                 128  U                   4  U        =             [('', '<U32')]
['1.1' '2.2' '3.3' '4.4']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


同样的, 字符串元素数组也可以转换为数值类型数组, 但如果字符串数组中包含无法转换为数值的项时, 该数组在转为数值类型数组时, 会抛出错误

In [38]:
# 创建一个字符串数组, 数组元素的字面量为浮点类型, 该字符串为可变长度字符串, 也可以是固定长度字符串 (`"U3"`)
a = np.array(["1.1", "2.2", "3.3", "4.4"], dtype=np.dtypes.StringDType())

# 将字符串数组转换为浮点数数组
a1 = a.astype(np.float32)
show_array_with_type(a, a1)

# 将一个字符串数组转换为整数数组, 但由于字符串数组中包含无法转换为整数的项, 故执行时会抛出错误
a = np.array(["A", "B", "C", "D"])
try:
    a.astype("i4")
except Exception as e:
    print(f"\nError: {e}")

array                      .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
['1.1' '2.2' '3.3' '4.4']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]
[1.1 2.2 3.3 4.4]          float32                   4  f                   4  f        =             [('', '<f4')]

Error: invalid literal for int() with base 10: np.str_('A')


字符串数组和其它数值类型数组的转换都和上面基本类似

##### 2.4.3.2. 布尔类型

可以将布尔类型元素数组转换为字符串类型数组

In [39]:
a = np.array([True, False, True, True])

# 将布尔型元素类型的数组转为定长字符串类型数组
a1 = a.astype(np.str_)

# 将布尔型元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                           .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[ True False  True  True]       bool                      1  b                   1  ?        |             [('', '|b1')]
['True' 'False' 'True' 'True']  str160                   20  U                   4  U        =             [('', '<U5')]
['True' 'False' 'True' 'True']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


但注意: 字符串类型数组转换为布尔类型数组时, 则不会按字符串的字面量进行转换, 其转换规则为: 空字符串转换为 `False`, 非空字符串转换为 `True`

In [40]:
# 创建一个字符串数组, 包含表示布尔值字面量的字符串值以及空字符串
a = np.array(["True", "False", "False", "", "True"], dtype=np.dtypes.StringDType())

# 将字符串数组转换为布尔类型数组, 转换和字符串字面量无关, 只有空字符串转换为 `False`, 其它所有非空字符串都会转换为 `True`
a1 = a.astype(np.bool_)
show_array_with_type(a, a1)

array                               .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
['True' 'False' 'False' '' 'True']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]
[ True  True  True False  True]     bool                      1  b                   1  ?        |             [('', '|b1')]


事实上, 任何元素类型数组都可以转为布尔类型数组, 其转换规则如下:

- 对于数值类型数组, 在转为布尔类型数组时, 数组元素为 `0` 或 `NaN` 转为 `False`, 非 `0` 且 `NaN` 转为 `True`;
- 对于字符串类型数组, 在转为布尔类型数组时, 数组元素为空字符串转为 `False`, 非空转为 `True`;
- 对于对象类型数组, 在转为布尔类型数组时, 值为 `None` 转为 `False`, 非 `None` 转为 `True`;

##### 2.4.3.3. 字节串类型

对于元素为字节串的数组, 如果其各元素均为 UTF-8 编码的字节串, 则该数组可直接转换为字符串类型数组

In [41]:
a = np.array([b"AAA", b"BBB", b"CCC"])

# 将字节串元素类型的数组转为定长字符串类型数组
a1 = a.astype("U")

# 将字节串元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                   .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[b'AAA' b'BBB' b'CCC']  bytes24                   3  S                   1  S        |             [('', '|S3')]
['AAA' 'BBB' 'CCC']     str96                    12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC']     StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


但如果字节串数组的元素中包含了非 UTF-8 字符，则该元素在转换为字符串数组时会以 `\xMN` (`M` 和 `N` 为个位整数) 的形式显示字节值

In [42]:
# 创建一个字节数组, 第一个元素 2 字节, 均非字符编码; 第二个元素 2 字节, 为两个 ASCII 编码字符
a = np.array([b"\x03\x04", b"\x41\x42"], dtype="S")

# 将字节串元素类型的数组转为定长字符串类型数组, 可以看到数组第一个元素为字节的 `\x` 表示法, 第二个元素为两个字母
a1 = a.astype("U")

# 将字节串元素类型的数组转为不定长字符串类型数组, 可以看到数组第一个元素为字节的 `\x` 表示法, 第二个元素为两个字母
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[b'\x03\x04' b'AB']  bytes16                   2  S                   1  S        |             [('', '|S2')]
['\x03\x04' 'AB']    str64                     8  U                   4  U        =             [('', '<U2')]
['\x03\x04' 'AB']    StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


同理, 字符串数组转字节串数组时, 如果字符串内容为 UTF-8 编码字符, 则字符串转为其对应的 UTF-8 编码字节串, 如果字符串包含 `"\xNN"` 格式的字符, 则字符串转成 `\x` 后数字表示的字节串

In [43]:
a = np.array(["\x01\x02", "AB"], dtype="U")

# 将字节串元素类型的数组转为定长字符串类型数组, 可以看到数组第一个元素为字节的 `\x` 表示法, 第二个元素为两个字母
a1 = a.astype("S")

show_array_with_type(a, a1)

array                .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------  -------  -----------  -------  ------------  -------  ------------  -------------
['\x01\x02' 'AB']    str64              8  U                   4  U        =             [('', '<U2')]
[b'\x01\x02' b'AB']  bytes16            2  S                   1  S        |             [('', '|S2')]


### 2.5. 其它类型

#### 2.5.1. `object` 类型

对于 `dtype` 为 `object` 元素类型的数组, 其数组元素将保留创建数组时的原始数据类型, 并不会对其进行转换

例如对于如下数组

In [44]:
# 创建一个 Python 列表集合对象, 每个元素的类型都不相同
a = [100, 1.25, "Hello", True]
print(f"Original list: {a}")

Original list: [100, 1.25, 'Hello', True]


如果通过 `dtype` 为 `object` 创建 Numpy 数组, 则:

In [45]:
# 将 Python 集合转为 Numpy 数组, 且 `dtype` 为 `object_`
# 该操作会将 Python 集合中元素原样存入 Numpy 数组中, 数组的 `dtype` 类型为 `object_`
a1 = np.array(a, dtype=np.object_)
show_array_with_type(a1)

array                    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------  -------  -----------  -------  ------------  -------  ------------  ------------
[100 1.25 'Hello' True]  object             8  O                   8  O        |             [('', '|O')]


所以, 一个 `dtype` 类型为 `object` 的数组, 存储的元素可以是任意 Python 对象, 其每个元素为 Python 对象或对象的引用, 并通过 `void` 类型表示

`object` 类型类似于 C 的 `Union` 类型, 存储 `8` 字节长度字节, 可以是数据本身的二进制内容 (`8` 字节内数据), 也可以是一个指定对象的引用 (`8` 字节以上数据)

故 `object` 类型为在 Numpy 数组中存储任意 Python 对象奠定了基础

下面演示了如何通过 `dtype` 为 `object` 的数组来存储一组 Python 对象

In [46]:
class Object:
    """定义一个 Python 类"""

    def __init__(self, value: int | float | str) -> None:
        """构造器, 初始化当前类对象

        Args:
            a (int | float | str): 传递给当前对象 `value` 属性的参数
        """
        self._value = value

    def __repr__(self) -> str:
        """将对象转化为字符串

        Returns:
            str: 表示当前对象的字符串
        """
        return f"O({self._value!r})"

    def value_type(self) -> type:
        """获取当前对象 `.value` 属性具体类型

        Returns:
            type: 当前对象 `.value` 属性的具体类型
        """
        return type(self._value)

    def value(self) -> int | float | str:
        """
        Returns:
            int | float | str: 当前对象 `.value` 属性值
        """
        return self._value


# 使用 `Object` 类的实例创建一个 Numpy 数组, 并指定 `dtype` 为 `np.object_`
a = np.array(
    [Object(100), Object(1.25), Object("Hello"), Object(True)], dtype=np.object_
)

# 显示数组元素类型, 可以看到数组每项存储对象的引用, 相当于在数组中存储了原始的 Python 对象
show_array_with_type(a)

array                                .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------------  -------  -----------  -------  ------------  -------  ------------  ------------
[O(100) O(1.25) O('Hello') O(True)]  object             8  O                   8  O        |             [('', '|O')]


#### 2.5.2. "空" 元素类型

##### 2.5.2.1. 创建 "空" 元素类型数组

数组的 `void` 元素类型 ("空" 元素类型) 指的并不是数组中存储为 "空" 的元素，而是数组的元素类型未知

`void` 元素类型本质上仍然是字节串, 只是并不是以字符串编码存储的字节串, 故无法直接展示为可显示的字符串, Numpy 也不会为其进行编解码操作

In [47]:
# 创建一个包含字节串的数组, 并指定 `dtype` 为 `np.void`
a = np.array([b"A", b"B", b"C"], dtype=np.void)
show_array_with_type(a)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'\x41' b'\x42' b'\x43']  void8              1  V                   1  V        |             [('', '|V1')]


##### 2.5.2.2. "空" 元素类型数组和其它类型数组转换

对于一个 `dtype` 类型为 `void` 的数组, 无法直接通过 `.astype` 方法将其 `dtype` 转换为其它类型, 需要通过如下步骤:

- 将 `dtype` 类型为 `void` 类型的数组通过 `.view` 方法转换为 `dtype` 类型为, 相当于对数组元素的内存区域进行重新解释, 转换后的数组 `dtype` 类型为 `bytes`;
- 通过 `.astype` 方法将 `dtype` 类型为 `bytes` 的数组转换为其它类型;

In [48]:
# 创建 `dtype` 类型为 `void` 的数组
a = np.array([b"A", b"B", b"C"], dtype=np.void)

# 获取数组的视图, 并将 `dtype` 转为定长字节串类型 `S1`, 此时数组的 `dtype` 类型从 `void` 变为 `S1`
a1 = a.view("S1")

# 进一步将 `dtype` 为 `S1` 的数组转为 `U1`, 得到元素类型为字符串的数组
a2 = a1.astype("U")

show_array_with_type(a, a1, a2)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'\x41' b'\x42' b'\x43']  void8              1  V                   1  V        |             [('', '|V1')]
[b'A' b'B' b'C']           bytes8             1  S                   1  S        |             [('', '|S1')]
['A' 'B' 'C']              str32              4  U                   4  U        =             [('', '<U1')]


也可以通过 `.astype` 方法, 将 `dtype` 类型为 `void` 的数组转换为 `dtype` 类型为 `object` 的数组, 此时数组中会存储原始的字节串对象引用

In [49]:
# 创建 `dtype` 类型为 `V1` 的数组 (也即 `dtype` 为 `void`)
a = np.array([b"A", b"B", b"C"], dtype="V1")

# 将 `dtype` 为 `void` 的数组转为 `object_` 类型的数组, 此时数组元素保持其原始类型, 即 `bytes` 类型
a1 = a.astype(np.object_)

show_array_with_type(a, a1)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'\x41' b'\x42' b'\x43']  void8              1  V                   1  V        |             [('', '|V1')]
[b'A' b'B' b'C']           object             8  O                   8  O        |             [('', '|O')]


## 3. 自定义类型

可以为特殊数据结构自定义 `dtype` 类型, 使其能满足较为复杂结构类型的数据存储

### 3.1. 标量类型

所谓标量类型, 即定义的 `dtype` 类型只包含一个值, 定义该值的类型即可

通过标量 `dtype` 创建的数组, 每个数组元素仅可包含一个值

In [50]:
# 创建一个标量 `dtype` 类型, 表示一个大端 64 位浮点数
dt = np.dtype(">f8")
show_dtype(dt)

# 通过自定义的 `dtype` 类型创建一个数组, 数组的每个元素都将被设置为该 `dtype` 类型定义的值类型
a = np.array([1.1, 2.2, 3.3, 4.4, 5.5], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
>f8      float64            8  f                   8  d        >             [('', '>f8')]

array                  .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[1.1 2.2 3.3 4.4 5.5]  float64            8  f                   8  d        >             [('', '>f8')]


### 3.2. 结构化类型

除过定义标量类型的 `dtype` 对象外, 也可以定义复合类型 `dtype`, 即结构化 `dtype` 类型, 此类型意味着可以存储多个值

结构化 `dtype` 类型是由若干基本 `dtype` 类型按照指定顺序组合而成, 用于表达更为复杂的数据结构, 即: 结构化 `dtype` 的组成是其它结构化 `dtype` 类型或标量 `dtype` 类型

通过结构化 `dtype` 类型, 可以为数组的每个元素存储多个值, 另数组可以存储复杂的结构化元素

#### 3.2.1. 字段

字段是结构化 `dtype` 类型的基础, 一个字段对应一个 `dtype` 类型, 字段相当于该 `dtype` 类型的标识或名称

##### 3.2.1.1. 定义字段

一个结构化 `dtype` 类型是通过一个或多个字段有机构成的, 每个字段又对应一个 `dtype` 类型, 可以是一个结构化或标量

结构化 `dtype` 类型在 Numpy 中被定义为 `void`, 即 Numpy 不负责其数据类型管理和转换

In [51]:
# 创建一个具备字段的 `dtype` 类型, 使用一个 2 项元组表示, 元组的第一项表示字段的名称, 第二项表示数据类型
dt = np.dtype([("percent", "=f8")])
show_dtype(dt)

dtype                 .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[('percent', '<f8')]  void64             8  V                   1  V        |             [('percent', '<f8')]


##### 3.2.1.2. 访问字段

定义具备字段的 `dtype` 类型对象后, 可通过多种方式访问各个字段类型

通过字段位置索引访问字段

In [52]:
dt = np.dtype([("percent", "=f8")])

# 通过索引获取 `dtype` 对象中第一个字段对应的类型
dt0 = dt[0]
show_dtype(dt0, splitter="\n")


dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
float64  float64            8  f                   8  d        =             [('', '<f8')]


通过字段名访问字段

In [53]:
# 创建一个具备字段的 `dtype` 类型, 使用一个 2 项元组表示, 元组的第一项表示字段的名称, 第二项表示数据类型
dt = np.dtype([("percent", "=f8")])

# 通过字段名获取 `dtype` 对象中字段对应的类型
dt_percent = dt["percent"]
show_dtype(dt_percent, splitter="\n")


dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
float64  float64            8  f                   8  d        =             [('', '<f8')]


访问所有字段

In [54]:
# 创建一个具备字段的 `dtype` 类型, 使用一个 2 项元组表示, 元组的第一项表示字段的名称, 第二项表示数据类型
dt = np.dtype([("percent", "=f8")])

if not dt.fields:
    raise AssertionError("dt.fields is empty")

# 输出 `dtype` 类型包含的所有字段
print(f".fields = {dt.fields}")

# 输出 `dtype` 类型中指定字段名对应的类型
print(f".fields['percent'] = {dt.fields['percent']}")

.fields = {'percent': (dtype('float64'), 0)}
.fields['percent'] = (dtype('float64'), 0)


##### 3.2.1.3. 创建数组

对于结构化的 `dtype` 类型, 在通过其创建数组时, 数组元素必须满足该 `dtype` 定义的结构, 即包含各个字段对应的值, 数组元素为一个元组 (`tuple`), 元素的每一项对应一个字段的值

例如: 对于类型为 `[('percent', '<f8')]` 的结构化 `dtype`, 数组每个元素为一个元组, 该元组必须包含一项, 表示 `percent` 字段的值

In [55]:
dt = np.dtype([("percent", "=f8")])

a = np.array([(1.1,), (2.2,), (3.3,), (4.4,)], dtype=dt)
show_array_with_type(a)

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]


对于只包含一个字段的 `dtype` 类型, 在创建数组时, 也可以将数组元素简化为单值, 而不必写为包含一个值的元组

In [56]:
dt = np.dtype([("percent", "=f8")])

a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]


如果在创建数组时传入的元素值类型和 `dtype` 定义类型不一致, 则:

- 如果元素值类型可以自动转换为 `dtype` 定义的类型, 则元素值会被自动转换
- 如果元素值类型无法自动转换为 `dtype` 定义的类型, 则会抛出 `ValueError` 异常

In [57]:
a = np.array(["1.1", "2.2", "3.3", "4.4"], dtype=dt)
show_array_with_type(a)

try:
    np.array(["A", "B", "C", "D"], dtype=dt)
except Exception as e:
    print(f"\nError: {e}")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

Error: could not convert string to float: 'A'


##### 3.2.1.4. 访问数组元素

要通过数组元素访问对应字段的值, 可以通过数组元素元组的索引, 也可以通过字段名称来访问数组元素

通过索引位置访问数组元素的字段值

In [58]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "=f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 访问数组第一个元素
print(f"\na[0] = {a[0]}")

# 访问数组第一个元素的第一个字段
print(f"a[0][0] = {a[0][0]}")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

a[0] = (1.1,)
a[0][0] = 1.1


通过索引位置写入数组元素的字段值

In [59]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "=f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 为第一个数组元素重新赋值
a[0] = (0.1,)
show_array_with_type(a, splitter="\n")

# 为第二个数组元素的第一个字段值赋值
a[1][0] = 0.2
show_array_with_type(a, splitter="\n")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(0.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(0.1,) (0.2,) (3.3,) (4.4,)]  void64             8  V                   1  V   

通过字段名称访问数组元素字段值

In [60]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "=f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 访问数组第一个元素的 `person` 字段
print(f"\na[0]['percent'] = {a[0]['percent']}")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

a[0]['percent'] = 1.1


通过字段名称写入数组元素字段值

In [61]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 为数组第一个和第二个元素的 `person` 字段赋值
a[0]["percent"] = 0.1
a[1]["percent"] = 0.2
show_array_with_type(a, splitter="\n")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(0.1,) (0.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]


访问所有元素的指定字段值

In [62]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 访问数组所有元素值的 `person` 字段值
print(f"\na['percent'] = {a['percent']}")

# 访问数组所有元素的 `person` 字段的第二个值, 相当于数组第二个元素的 `person` 字段值
print(f"a['percent'][1] = {a['percent'][1]}")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

a['percent'] = [1.1 2.2 3.3 4.4]
a['percent'][1] = 2.2


写入所有元素的指定字段值

In [63]:
# 创建一个包含字段的结构化 `dtype` 类型
dt = np.dtype([("percent", "f8")])

# 通过创建的 `dtype` 类型创建一个数组
a = np.array([1.1, 2.2, 3.3, 4.4], dtype=dt)
show_array_with_type(a)

# 为所有元素的 `person` 字段写入新值, 注意, 必须同时为所有元素的指定字段一同赋值, 赋值数量和数组元素数量不匹配时, 会抛出异常
a["percent"] = [0.1, 0.2, 0.3, 0.4]
show_array_with_type(a, splitter="\n")

# 为所有元素的 `person` 字段中的前两个进行赋值
a["percent"][0] = "0.01"
a["percent"][1] = "0.02"
show_array_with_type(a, splitter="\n")

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(1.1,) (2.2,) (3.3,) (4.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(0.1,) (0.2,) (0.3,) (0.4,)]  void64             8  V                   1  V        |             [('percent', '<f8')]

array                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------  -------  -----------  -------  ------------  -------  ------------  --------------------
[(0.01,) (0.02,) (0.3 ,) (0.4 ,)]  void64             8  V              

#### 3.2.2. 多字段

多个字段的 `dtype` 类型包含多个表示字段的元组, 在通过多字段 `dtype` 创建数组时, 数组每个元素为一个元组, 元组中包含多个值, 每个值必须和 `dtype` 中字段的顺序一致

下例中, 定义数组元素类型为一个元组, 包含两项, 第一项的字段名为 `name`, 类型为 `str`, 第二项的字段名为 `age`, 类型为 `int`

In [64]:
# 定义一个包含两个分项的 `dtype` 类型, 每个分项包含一个名称和数据类型
dt = np.dtype([("name", "U10"), ("age", "u4")])
show_dtype(dt)

# 通过上面定义的 `dtype` 类型创建一个数组
a = np.array([("Ryan", 21), ("Jane", 18)], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype                               .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[('name', '<U10'), ('age', '<u4')]  void352           44  V                   1  V        |             [('name', '<U10'), ('age', '<u4')]

array                        .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[('Ryan', 21) ('Jane', 18)]  void352           44  V                   1  V        |             [('name', '<U10'), ('age', '<u4')]


如果自定义 `dtype` 类型对字段名不敏感, 则可以省略字段名称

此时只需要通过一个描述各元素值类型的字符串即可定义 `dtype`, 在字符串中, 各元素的定义通过 `,` 分隔即可

类型的字段名会自动赋予, 通常为 `f0`, `f1`, `f2`, ...

In [65]:
# 创建自定义 `dtype` 类型, 相当于 `np.dtype([("f0", "U10"), ("f1", "u4")])`
dt = np.dtype("U10, u4")
show_dtype(dt)

# 通过创建的 `dtype` 创建数组
a = np.array([("Tom", 42), ("Emma", 43)], dtype=dt)
show_array_with_type(a, splitter="\n")

# 获取 `f0` 和 `f1` 字段的值
print("\nAccess fields in structured array:")
print(f"f0: {a['f0']}\nf1: {a['f1']}")

dtype                            .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------
[('f0', '<U10'), ('f1', '<u4')]  void352           44  V                   1  V        |             [('f0', '<U10'), ('f1', '<u4')]

array                       .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------
[('Tom', 42) ('Emma', 43)]  void352           44  V                   1  V        |             [('f0', '<U10'), ('f1', '<u4')]

Access fields in structured array:
f0: ['Tom' 'Emma']
f1: [42 43]


#### 3.2.3. 复合字段

可以将 `dtype` 的字段的类型定义为一个结构化 `dtype`, 从而可以表示更复杂的数据结构

如下例中, 定义数组元素包含两个字段 `person` 和 `age`, 其中 `person` 字段又是一个多字段类型, 包含 `name` 和 `age` 两个字段, 组合在一起表示了一个复合字段类型

In [66]:
# 定义一个包含两个字段的 `dtype` 类型, 每个字段为一个标量类型
dt_person = np.dtype([("name", "U10"), ("age", "u4")])

# 定义一个包含两个字段的 `dtype` 类型, 其中 `person` 字段为复合类型, `salary` 字段为标量类型
dt = np.dtype([("person", dt_person), ("salary", "f8")])
show_dtype(dt)

a = np.array([(("Tom", 25), 4000), (("Jerry", 30), 5999)], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype                                                                .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------------------------------
[('person', [('name', '<U10'), ('age', '<u4')]), ('salary', '<f8')]  void416           52  V                   1  V        |             [('person', [('name', '<U10'), ('age', '<u4')]), ('salary', '<f8')]

array                                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------------------------------
[(('Tom', 25), 4000.) (('Jerry', 30), 5999.)]  void416           52  V                   1  V        |             [('person', [('name', '<U

#### 3.2.4. 指定元素字段形状

如果要在复合字段的 `dtype` 类型中为某个具体字段指定数组类型 (即另元素值为一个多维数组), 则可以通过指定数组形状及数组元素类型来实现

在定义字段类型时, 可以使用字符串标识, 格式为 `"(shape)dtype"`, 例如下例中的 `"(2,)i4"`, 表示字段类型是一个长度为 `2` 

> 注意: 一旦为字段指定了形状, 则原则上输入的数组元素字段值必须为一个符合该形状的数组, 但实际上如果输入数组不满足形状, 则 Numpy 会通过广播方式将其扩展为满足形状的数组

In [67]:
# 定义复合类型, 其中 `array` 字段类型被指定为一个数组
dt = np.dtype([("code", "U1"), ("array", "(2,)i4")])
show_dtype(dt)

# 根据指定的 `dtype` 创建数组, 数组元素的 `array` 字段为一个包含两个整数的数组
a = np.array([("A", [1, 2]), ("B", [3, 4])], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype                                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------------------  -------  -----------  -------  ------------  -------  ------------  -----------------------------------------
[('code', '<U1'), ('array', '<i4', (2,))]  void96            12  V                   1  V        |             [('code', '<U1'), ('array', '<i4', (2,))]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  -----------------------------------------
[('A', [1, 2]) ('B', [3, 4])]  void96            12  V                   1  V        |             [('code', '<U1'), ('array', '<i4', (2,))]


也可以为字段指定更为复杂的形状, 如下例中的 `"(2,3)f8"`, 表示字段类型为一个 2 行 3 列的二维数组, 数组元素类型为8字节浮点数

In [68]:
# 定义复合类型, 其中 `array` 字段类型被指定为一个数组
dt = np.dtype([("code", "U1"), ("array", "(2,3)f8")])
show_dtype(dt)

# 根据指定的 `dtype` 创建数组, 数组元素的 `array` 字段为一个二维数组
a = np.array(
    [
        ("A", [[1.1, 2.2, 3.3], [4.4, 5.5, 6.6]]),
        ("B", [[7.7, 8.8, 9.9], [10.0, 11.1, 12.2]]),
    ],
    dtype=dt,
)
show_array_with_type(a, splitter="\n")

dtype                                        .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------
[('code', '<U1'), ('array', '<f8', (2, 3))]  void416           52  V                   1  V        |             [('code', '<U1'), ('array', '<f8', (2, 3))]

array                                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------
[('A', [[ 1.1,  2.2,  3.3], [ 4.4,  5.5,  6.6]])   void416           52  V                   1  V        |             [('code', '<U1'), ('array', '<f8', (2, 3))]
 ('B', [[ 7.7,  8.8,  9.9], [10. , 11.1, 12.2]])]


也可以通过元组 (而非字符串) 定义数组字段类型

In [69]:
# 定义复合类型, 其中 `array` 字段类型被指定为一个数组 (通过元组方式指定)
dt = np.dtype([("code", np.str_), ("array", np.int32, (2, 3))])
show_dtype(dt)

# 根据指定的 `dtype` 创建数组, 数组元素的 `array` 字段为一个二维数组
a = np.array(
    [("A", [[1, 2, 3], [4, 5, 6]]), ("B", [[7, 8, 9], [10, 11, 12]])],
    dtype=dt,
)
show_array_with_type(a, splitter="\n")

dtype                                       .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------
[('code', '<U'), ('array', '<i4', (2, 3))]  void192           24  V                   1  V        |             [('code', '<U0'), ('array', '<i4', (2, 3))]

array                                                                    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------------------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------------------------------------
[('', [[ 1,  2,  3], [ 4,  5,  6]]) ('', [[ 7,  8,  9], [10, 11, 12]])]  void192           24  V                   1  V        |             [('code', '<U0'), ('array', '<i4', (2, 3))]


#### 3.2.5. 数组元素拆分

Numpy 支持数组元素为标量类型, 但可通过字段将该标量按偏移量拆为多个值

例如本例中, 数组元素定义为 32 位无符号整数, 但通过 `dtype` 中定义字段, 将每个无符号整数拆为 2 个 16 位无符号整数, 且拆分后各部分字段名分别为 `x` 和 `y`

为了让内存数据存储和输入数据保持一致, 数组元素均采用大端字节序

In [70]:
# 定义 `dtype` 类型为 32 位无符号整数，并定义两个字段 `x` 和 `y`，分别表示该整数的低 16 位和高 16 位, 偏移量为 0 和 2,
# 表示底 16 位从整数的第 1 个字节算起, 高 16 位从整数的第 3 个字节算起
dt = np.dtype((">u4", {"x": (">u2", 0), "y": (">u2", 2)}))
show_dtype(dt)

# 为数组赋值, 使其包含 2 个无符号整数元素值
a = np.array([0x12345678, 0x90ABCDEF], dtype=dt)
show_array_with_type(a, splitter="\n")

# 通过数组索引访问数组元素, 通过定义的字段值访问数组元素的低 16 位和高 16 位
print(f"\na[0] = 0x{a[0]:X}")
print(f"a['x'][0] = 0x{a['x'][0]:X}")
print(f"a['y'][0] = 0x{a['y'][0]:X}")

print(f"\na[1] = 0x{a[1]:X}")
print(f"a['x'][1] = 0x{a['x'][1]:X}")
print(f"a['y'][1] = 0x{a['y'][1]:X}")

dtype                                         .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------------------------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------
(numpy.uint32, [('x', '>u2'), ('y', '>u2')])  uint32             4  u                   4  I        >             [('x', '>u2'), ('y', '>u2')]

array                    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------
[ 305419896 2427178479]  uint32             4  u                   4  I        >             [('x', '>u2'), ('y', '>u2')]

a[0] = 0x12345678
a['x'][0] = 0x1234
a['y'][0] = 0x5678

a[1] = 0x90ABCDEF
a['x'][1] = 0x90AB
a['y'][1] = 0xCDEF


#### 3.2.6. 字段的字典定义格式

可以通过字典格式来定义字段, 比

In [82]:
dt = np.dtype({'names': ['name', 'age'], 'formats': ['S32', 'i4']})
show_dtype(dt)

a = np.array([(b'Alice', 25), (b'Bob', 30)], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[('name', 'S32'), ('age', '<i4')]  void288           36  V                   1  V        |             [('name', '|S32'), ('age', '<i4')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[(b'Alice', 25) (b'Bob', 30)]  void288           36  V                   1  V        |             [('name', '|S32'), ('age', '<i4')]


In [81]:
dt = np.dtype({"name": ("S10", 0), "age": ("u2", 10)})
show_dtype(dt)

a = np.array([("Tom", 10), ("Jerry", 15)], dtype=dt)
show_array_with_type(a, splitter="\n")

dtype                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[('name', 'S10'), ('age', '<u2')]  void96            12  V                   1  V        |             [('name', '|S10'), ('age', '<u2')]

array                          .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  -------  -----------  -------  ------------  -------  ------------  ----------------------------------
[(b'Tom', 10) (b'Jerry', 15)]  void96            12  V                   1  V        |             [('name', '|S10'), ('age', '<u2')]
