# 数组元素类型

In [2]:
import numpy as np

## 1. dtype 类型

Numpy 通过数组的 `dtype` 属性来表示数组元素的类型

`dtype` 类型不仅表示数组元素的数据类型, 还表示了存储这些类型所需内存空间的大小和字节序

### 1.1. 类型说明

#### 1.1.1. 内置 `dtype` 类型

Numpy 通过一组常量标识内置了各种数据类型的 `dtype` 值, 内置的 `dtype` 类型字节序为自动匹配本机 CPU, 内置的 `dtype` 常量标识包括:

| 类别    | 标识名称                                                                                           |
|--------|---------------------------------------------------------------------------------------------------|
| 整数类型 | `np.int8`, `np.int16`, `np.int32`, `np.int64`, `np.uint8`, `np.uint16`, `np.uint32`, `np.uint64` |
| 浮点类型 | `np.float16`, `np.float32`, `np.float64`                                                         |
| 复数类型 | `np.complex64`, `np.complex128`                                                                  |
| 布尔类型 | `np.bool_`                                                                                       |
| 串类型   | `np.str_`, `np.bytes_`                                                                           |
| 其它类型 |  `np.object_` , `np.void`                                                                         |

#### 1.1.2. `dtype` 类型属性

一个 `dtype` 类型对象包括以下属性:

##### 1.1.2.1. `.name` 属性

`dtype` 对象的 `.name` 属性用于表示该类型的名称, 例如: `np.int64` 的 `.name` 属性是 `'int64'`

In [3]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', name: '{dt.name}'")

dtype: 'int32', name: 'int32'


##### 1.1.2.2. `.itemsize` 属性

`dtype` 对象的 `.itemsize` 属性用于表示该类型数据占内存字节数, 例如 `np.int32` 的 `.itemsize` 属性为 `4`, 表示该类型数据占据 `4` 个字节内存

In [4]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', itemsize: {dt.itemsize}")

dtype: 'int32', itemsize: 4


##### 1.1.2.3. `.byteorder` 属性

`dtype` 对象的 `.byteorder` 属性表示该类型数据的字节序, 用一个字符表示, 包括:

- `'<'`: Little-Endian (小端字节序)
- `'>'`: Big-Endian (大端字节序)
- `'='`: Native (本机字节序)
- `'|'`: one byte (单字节数据, 无字节序)

In [5]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', byteorder: '{dt.byteorder}'")

dtype: 'int32', byteorder: '='


##### 1.1.2.4. `.kind` 属性

`dtype` 对象的 `.kind`: 该类型数据的类型标识, 用一个字符表示, 包括:

- `i` 表示整肃
- `u` 表示无符号整肃
- `f` 表示浮点数
- `c` 表示复数
- `b` 表示布尔值
- `U` 表示 Unicode 字符串
- `S` 表示字节串
- `O` 表示对象

In [6]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', kind: '{dt.kind}'")

dtype: 'int32', kind: 'i'


##### 1.1.2.5. `.alignment` 属性

`dtype` 对象的 `.alignment` 属性表示该类型数据存储在内存中的字节对齐大小, 可取值为 `1`, `2`, `4`, `8` 或 `16`

In [7]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', alignment: {dt.alignment}")

dtype: 'int32', alignment: 4


##### 1.1.2.6. `.char` 属性

`dtype` 对象的 `.char` 属性表示该类型的名称标识, 用一个字符标识, 包括:

- `b` 表示 8 位有符号整数
- `h` 表示 16 位有符号整数
- `i` 表示 32 位有符号整数
- `l` 表示 64 位有符号整数
- `B` 表示 8 位无符号整数
- `H` 表示 16 位无符号整数
- `I` 表示 32 位无符号整数
- `L` 表示 64 位无符号整数
- `e` 表示 16 位浮点数
- `f` 表示 32 位浮点数
- `d` 表示 64 位浮点数
- `g` 表示 128 位浮点数
- `F` 表示 64 位复数
- `?` 表示 1 字节布尔值
- `U` 表示 4 字节 Unicode 字符串fu
- `S` 表示 1 字节字节串
- `O` 表示对象

In [8]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', char: '{dt.char}'")

dtype: 'int32', char: 'i'


##### 1.1.2.7. `.descr` 属性

`dtype` 对象的 `.descr` 表示该类型数据的描述符, 通过 '字节序' + '类型标识' + '字节数' 组成, 包括:

- `|i1`: 表示 1 字节有符号整数
- `<i2`: 表示 2 字节有符号整数, 小端字节序
- `>i2`: 表示 2 字节有符号整数, 大端字节序
- `=i2`: 表示 2 字节有符号整数, 本机字节序
- `<i4`: 表示 4 字节有符号整数, 小端字节序
- `>i4`: 表示 4 字节有符号整数, 大端字节序
- `=i4`: 表示 4 字节有符号整数, 本机字节序
- `<i8`: 表示 8 字节有符号整数, 小端字节序
- `>i8`: 表示 8 字节有符号整数, 大端字节序
- `=i8`: 表示 8 字节有符号整数, 本机字节序
- ... ...
- `<U3`: 表示 3 个 Unicode 字符, 小端字节序, 共 12 字节, 96 位
- `>U4`: 表示 4 个 Unicode 字符, 大端字节序, 共 16 字节, 128 位
- `=U2`: 表示 2 个 Unicode 字符, 本机字节序, 共 8 字节, 64 位
- `|S4`: 4 个字节的二进制字节串, 32 位
- `|S8`: 8 个字节的二进制字节串, 64 位

In [9]:
dt = np.dtype(np.int32)

print(f"dtype: '{dt}', describe: {dt.descr}")

dtype: 'int32', describe: [('', '<i4')]


#### 1.1.3. 不同类型的 `dtype` 属性

In [10]:
from typing import Sequence, Any

from tabulate import tabulate

HEADERS = [
    'dtype',
    '.name',
    '.itemsize',
    '.kind',
    '.alignment',
    '.char',
    '.byteorder',
    '.descr',
]


def show_dtype(*dts: type[Any] | str) -> None:
    def make_row(dt: np.dtype) -> list[Any]:
        return [
            f'{dt}',
            f'{dt.name}',
            f'{dt.itemsize}',
            f'{dt.kind}',
            f'{dt.alignment}',
            f'{dt.char}',
            f'{dt.byteorder}',
            f'{dt.descr}',
        ]

    output = [make_row(np.dtype(dt)) for dt in dts]
    print(tabulate(output, headers=HEADERS))

##### 1.1.3.1. 整数类型

In [11]:
show_dtype(
    np.int8,
    np.int16,
    np.int32,  # 包括别名 `np.intc`
    np.int64,  # 包括别名 `np.intp`
    np.uint8,
    np.uint16,
    np.uint32,  # 包括别名 `np.uintc`
    np.uint64,  # 包括别名 `np.uintp`
    )

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
int8     int8               1  i                   1  b        |             [('', '|i1')]
int16    int16              2  i                   2  h        =             [('', '<i2')]
int32    int32              4  i                   4  i        =             [('', '<i4')]
int64    int64              8  i                   8  l        =             [('', '<i8')]
uint8    uint8              1  u                   1  B        |             [('', '|u1')]
uint16   uint16             2  u                   2  H        =             [('', '<u2')]
uint32   uint32             4  u                   4  I        =             [('', '<u4')]
uint64   uint64             8  u                   8  L        =             [('', '<u8')]


##### 1.1.3.2. 浮点类型

In [12]:
show_dtype(
    np.float16,
    np.float32,
    np.float64,
    np.float128,
)

dtype     .name       .itemsize  .kind      .alignment  .char    .byteorder    .descr
--------  --------  -----------  -------  ------------  -------  ------------  --------------
float16   float16             2  f                   2  e        =             [('', '<f2')]
float32   float32             4  f                   4  f        =             [('', '<f4')]
float64   float64             8  f                   8  d        =             [('', '<f8')]
float128  float128           16  f                  16  g        =             [('', '<f16')]


##### 1.1.3.3. 复数类型

In [13]:
show_dtype(
    np.complex64,
    np.complex128,
)

dtype       .name         .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------  ----------  -----------  -------  ------------  -------  ------------  --------------
complex64   complex64             8  c                   4  F        =             [('', '<c8')]
complex128  complex128           16  c                   8  D        =             [('', '<c16')]


##### 1.1.3.4. 布尔类型

In [14]:
show_dtype(np.bool_)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
bool     bool               1  b                   1  ?        |             [('', '|b1')]


##### 1.1.3.5. 字节串, 字符串类型

In [15]:
show_dtype(
    np.bytes_,
    np.str_,
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|S0      bytes              0  S                   1  S        |             [('', '|S0')]
<U0      str                0  U                   4  U        =             [('', '<U0')]


##### 1.1.3.6. 其它类型

In [16]:
show_dtype(
    np.void,
    np.object_,
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|V0      void               0  V                   1  V        |             [('', '|V0')]
object   object             8  O                   8  O        |             [('', '|O')]


### 1.2. 创建 `dtype` 对象

通过 `np.dtype` 函数，可以通过字符串的描述字符串创建 `dtype` 类型对象

#### 1.2.1. 创建整数数值类型

In [17]:
show_dtype(
    "|i1",
    "<i2",
    ">i2",
    "<i4",
    ">i4",
    "<i8",
    ">i8",
    "|u1",
    "<u2",
    ">u2",
    "<u4",
    ">u4",
    "<u8",
    ">u8",
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
int8     int8               1  i                   1  b        |             [('', '|i1')]
int16    int16              2  i                   2  h        =             [('', '<i2')]
>i2      int16              2  i                   2  h        >             [('', '>i2')]
int32    int32              4  i                   4  i        =             [('', '<i4')]
>i4      int32              4  i                   4  i        >             [('', '>i4')]
int64    int64              8  i                   8  l        =             [('', '<i8')]
>i8      int64              8  i                   8  l        >             [('', '>i8')]
uint8    uint8              1  u                   1  B        |             [('', '|u1')]
uint16   uint16             2  u                   2  H        =             [('', '<u2')]
>u2   

#### 1.2.2. 创建浮点数值类型

In [18]:
show_dtype(
    "<f2",
    ">f2",
    "<f4",
    ">f4",
    "<f8",
    ">f8",
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
float16  float16            2  f                   2  e        =             [('', '<f2')]
>f2      float16            2  f                   2  e        >             [('', '>f2')]
float32  float32            4  f                   4  f        =             [('', '<f4')]
>f4      float32            4  f                   4  f        >             [('', '>f4')]
float64  float64            8  f                   8  d        =             [('', '<f8')]
>f8      float64            8  f                   8  d        >             [('', '>f8')]


#### 1.2.3. 创建复数数值类型

In [19]:
show_dtype(
    "<c8",
    ">c8",
    "<c16",
    ">c16",
)

dtype       .name         .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------  ----------  -----------  -------  ------------  -------  ------------  --------------
complex64   complex64             8  c                   4  F        =             [('', '<c8')]
>c8         complex64             8  c                   4  F        >             [('', '>c8')]
complex128  complex128           16  c                   8  D        =             [('', '<c16')]
>c16        complex128           16  c                   8  D        >             [('', '>c16')]


#### 1.2.4. 创建布尔类型

In [20]:
show_dtype("|b1")

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
bool     bool               1  b                   1  ?        |             [('', '|b1')]


#### 1.2.5. 创建串类型

In [21]:
show_dtype(
    "=U",
    "<U3",
    ">U3",
    "|S",
    "|S4",
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
<U0      str                0  U                   4  U        =             [('', '<U0')]
<U3      str96             12  U                   4  U        =             [('', '<U3')]
>U3      str96             12  U                   4  U        >             [('', '>U3')]
|S0      bytes              0  S                   1  S        |             [('', '|S0')]
|S4      bytes32            4  S                   1  S        |             [('', '|S4')]


#### 1.2.6. 创建其它类型

In [22]:
show_dtype(
    "|V",
    "|V4",
    "|O",
)

dtype    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
|V0      void               0  V                   1  V        |             [('', '|V0')]
|V4      void32             4  V                   1  V        |             [('', '|V4')]
object   object             8  O                   8  O        |             [('', '|O')]


## 2. `dtype` 类型数据

In [23]:
from typing import Sequence

from tabulate import tabulate

HEADERS = [
    "array",
    ".name",
    ".itemsize",
    ".kind",
    ".alignment",
    ".char",
    ".byteorder",
    ".descr",
]


def show_array_with_type(*arrs: np.ndarray, splitter='') -> None:
    def make_row(arr: np.ndarray) -> list[str]:
        dt = arr.dtype
        return [
            f"{arr}",
            f"{dt.name}",
            f"{dt.itemsize}",
            f"{dt.kind}",
            f"{dt.alignment}",
            f"{dt.char}",
            f"{dt.byteorder}",
            f"{dt.descr}",
        ]

    output = [make_row(arr) for arr in arrs]
    print(f"{splitter}{tabulate(output, headers=HEADERS)}")

### 2.1. 数值类型数据

在创建 Numpy 数组时, 整数元素数组默认为 `int64` 类型, 浮点数元素数组默认为 `float64` 类型, 可以通过 `dtype` 参数指定明确的元素类型

可以通过数组对象的 `.astype` 方法将数组的元素类型转换为指定的类型, 返回指定元素类型的新数组

In [24]:
# 创建元素为整数类型的数组, `dtype` 默认为 `np.int64`, 即 `=i8`
a = np.array([1, 2, 3])

# 将数组的 `dtype` 转换为 `np.int32` 类型
b = a.astype(np.int32)

# 将数组的 `dtype` 转换为 `>u8` 类型, 即 `np.uint64` 大端类型
c = a.astype(">u8")

show_array_with_type(a, b, c)

array    .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------  -------  -----------  -------  ------------  -------  ------------  -------------
[1 2 3]  int64              8  i                   8  l        =             [('', '<i8')]
[1 2 3]  int32              4  i                   4  i        =             [('', '<i4')]
[1 2 3]  uint64             8  u                   8  L        >             [('', '>u8')]


### 2.2. 其它类型数据

#### 2.2.1. 布尔类型

在创建 Numpy 数组时, 布尔类型元素数组默认为 `bool_` 类型

如果将数值类型数组强制转换为布尔类型数组, 则数组中的非 `0` 元素会被转换为 `True`, `0` 元素会被转换为 `False`

如果将字符串类型数组强制转换为布尔类型数组, 则数组中的非空元素会被转换为 `True`, 空元素会被转换为 `False`

In [25]:
show_array_with_type(
    # 创建元素类型为布尔类型的数组, `dtype` 默认为 `np.bool_`
    np.array([False, True, False, False]),
    # 当用其它类型元素创建 `dtype` 为 `np.bool_` 的数组时, 会将其它类型的值转换为布尔值
    np.array([0, 1, 0, 2], dtype=np.bool_),
)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[False  True False False]  bool               1  b                   1  ?        |             [('', '|b1')]
[False  True False  True]  bool               1  b                   1  ?        |             [('', '|b1')]


#### 2.2.2. 字节串类型

通过 `dtype` 类型为 `|Sn` (`n` 为任意整数) 创建的数组, 每个元素可以存储固定长度的字节串, 无需区分大小端

对于数组元素类型本身为 Python 字节串的情况, 默认 `dtype` 类型为 `|Sn` 类型 (`n` 为字符串长度)

In [26]:
# 创建一个长度为 3 的字节串数组, 每个字节串长度为 3 字节, 共占用 9 个字节 (3 * 3 字节)
a = np.array([b"AAA", b"BBB", b"CCC"])

# 创建一个长度为 4 的字节串数组, 每个字节串长度为 3 个字节, 共占用 12 个字节 (4 * 3 字节)
# 由于是定长字节串数组, 所以即便追加一个 2 字节的字节串, 也会被补齐到长度为 3 字节
b = np.append(a, b"DD")

# 创建一个长度为 5 的字节串数组, 每个字节串长度为 4 字节, 共占用 20 个字节 (5 * 4 字节)
# 由于是定长字节串数组, 所以加入一个长度为 4 的字节串会导致数组中其它字节串的长度被扩展到 4 字节
c = np.append(b, b"EEEE")

show_array_with_type(a, b, c)

array                                 .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'AAA' b'BBB' b'CCC']                bytes24            3  S                   1  S        |             [('', '|S3')]
[b'AAA' b'BBB' b'CCC' b'DD']          bytes24            3  S                   1  S        |             [('', '|S3')]
[b'AAA' b'BBB' b'CCC' b'DD' b'EEEE']  bytes32            4  S                   1  S        |             [('', '|S4')]


注意, 在整个数组中, 所有字节串长度必须相同, 占用相同的内存空间, 在上面的例子中, 在数组中添加了长度更长的字符串后, 会导致数组的每个元素字节长度成为最长字节串长度

如果在创建数组的同时就限定了元素的字节长度 (例如设置 `dtype` 为 `S5`, 即字符串最大长度为 5 个字节), 那么数组创建时, 如果元素的字节长度超出, 则字节串会被截断

In [27]:
# 通过 `dtype` 类型为 `S5` 创建一个长度为 2 的字节串数组, 则每个字节串长度为 5 字节, 共占用 10 字节 (2 * 5 字节)
# 对于数组中长度超过 5 字节的字节串, 会被截断, 例如 b'international' 会被截断为 b'inter'
a = np.array([b"international", b"short"], dtype="|S5")
b = np.append(a, b"international")

show_array_with_type(a, b)

array                                 .name       .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------------  --------  -----------  -------  ------------  -------  ------------  --------------
[b'inter' b'short']                   bytes40             5  S                   1  S        |             [('', '|S5')]
[b'inter' b'short' b'international']  bytes104           13  S                   1  S        |             [('', '|S13')]


#### 2.2.3. "空" 元素类型

##### 2.2.3.1. 创建 "空" 元素类型数组

数组的 `void` 元素类型 ("空" 元素类型) 指的并不是数组中存储为 "空" 的元素，而是数组的元素类型未知

`void` 元素类型本质上仍然是字节串, 只是并不是

In [28]:
a = np.array([b"A", b"B", b"C"], dtype=np.void)
show_array_with_type(a)

array                      .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
[b'\x41' b'\x42' b'\x43']  void8              1  V                   1  V        |             [('', '|V1')]


##### 2.2.3.2. "空" 元素类型数组和字节串元素类型数组相互转换

In [None]:
a = np.array([b"A", b"B", b"C"], dtype=np.void)
a1 = a.astype(np.bytes_)
show_array_with_type(a)

#### 2.2.4. 字符串类型

##### 2.2.4.1. 固定长度字符串数组

通过 `dtype` 类型为 `Un` (`n` 为任意整数) 创建的数组, 每个元素可以存储固定长度的 Unicode 字符串, 例如如下 `dtype` 类型:

- `<U2`: 长度为 2 的字符串, 小端字节序
- `<U3`: 长度为 3 的字符串, 小端字节序
- `>U8`: 长度为 8 的字符串, 大端字节序
- `=U16`: 长度为 16 的字符串, 本机字节序

对于数组元素类型本身为 Python 字符串的情况, 默认 `dtype` 类型为 `=Un` 类型 (`n` 为字符串长度)

如果

In [29]:
# 创建一个长度为 3 的字符串数组, 每个字符串长度为 3 个 Unicode 字符, 共占用 36 个字节 (3 * 3 * 4 字节)
a = np.array(["AAA", "BBB", "CCC"])

# 创建一个长度为 4 的字符串数组, 每个字符串长度为 3 个 Unicode 字符, 共占用 48 个字节 (4 * 3 * 4 字节)
# 由于是定长字符串数组, 所以即便追加一个长度为 2 的字符串, 也会被补齐到长度为 3 个 Unicode 字符
b = np.append(a, "DD")

# 创建一个长度为 5 的字符串数组, 每个字符串长度为 4 个 Unicode 字符, 共占用 80 个字节 (5 * 4 * 4 字节)
# 由于是定长字符串数组, 所以加入一个长度为 4 的字符串会导致数组中其它字符串的长度被扩展到 4 个 Unicode 字符
c = np.append(b, "EEEE")

show_array_with_type(a, b, c)

array                            .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------------  -------  -----------  -------  ------------  -------  ------------  -------------
['AAA' 'BBB' 'CCC']              str96             12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC' 'DD']         str96             12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC' 'DD' 'EEEE']  str128            16  U                   4  U        =             [('', '<U4')]


注意, 在整个数组中, 所有字符串长度必须相同, 占用相同的内存空间, 在上面的例子中, 在数组中添加了长度更长的字符串后, 会导致数组的每个元素字符串长度成为最长字符串长度

如果在创建数组的同时就限定了元素的字符串长度 (例如设置 `dtype` 为 `U5`, 即字符串最大长度为 5 个字符), 那么数组创建时, 如果字符串长度超出, 则字符串会被截断

In [30]:
# 通过 `dtype` 类型为 `U5` 创建一个长度为 2 的字符串数组, 则每个字符串长度为 5 个 Unicode 字符, 共占用 40 个字节 (2 * 5 * 4 字节)
# 对于数组中长度超过 5 个字符的字符串, 会被截断, 例如 "international" 会被截断为 "inter"
a = np.array(["international", "short"], dtype="=U5")
b = np.append(a, "international")

show_array_with_type(a, b)

array                              .name      .itemsize  .kind      .alignment  .char    .byteorder    .descr
---------------------------------  -------  -----------  -------  ------------  -------  ------------  --------------
['inter' 'short']                  str160            20  U                   4  U        =             [('', '<U5')]
['inter' 'short' 'international']  str416            52  U                   4  U        =             [('', '<U13')]


固定长度字符串数组由于每个数组元素长度固定, 所以其性能表现最好, 但如果数组中的字符串长度参差不齐, 则会占用很多无效内存空间

##### 2.2.4.2. 可变长度字符串数组

可变长字符串, 其 `dtype` 类型为 `np.dtypes.StringDtype`

所谓可变长字符串, 就是指字符串的长度是不固定的, 为了能让 Numpy 数组可以存储这类字符串, 需要将字符串单独进行存储, 并只在 Numpy 数组中存储字符串的引用, 这样一来既可以确保 Numpy 数组本身的固定元素长度的要求, 另一方面间接的存储了可变长度的字符串

In [31]:
# 创建一个包含 4 个可变字符串的数组, 数组每个元素存储一个字符串引用为 16 字节, 共占用 64 个字节 (4 * 16 字节)
a = np.array(["A", "BB", "CCC", "DDDD"], dtype=np.dtypes.StringDType())

# 通过下例可以确认, 可变字符串引用占用的数组元素长度和字符串本身长度无关, 而是固定为 16 字节
b = np.array(["AAAA", "BBBB", "CCCC", "DDDD"], dtype=np.dtypes.StringDType())

show_array_with_type(a, b)

array                          .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
['A' 'BB' 'CCC' 'DDDD']        StringDType128           16  T                   8  T        |             [('', 'StringDType()')]
['AAAA' 'BBBB' 'CCCC' 'DDDD']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


##### 2.2.4.3. 数组元素转换为字符串类型

1. 数值类型元素转换为字符串类型

   将一个数值类型元素的数组转换为字符串类型元素数组, 数组中的数值将按照其字面量值转换为对应的字符串, 例如: `123` 转换为 `"123"`

   可以通过 `np.astype` 函数来完成类型转换, 转换结果可以是定长字符串元素数组, 也可以是可变长字符串元素数组

In [32]:
a = np.array([1, 2, 3, 4])

# 将整型元素类型的数组转为定长字符串类型数组
a1 = a.astype(np.str_)

# 将整型元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

a = np.array([1.1, 2.2, 3.3, 4.4])

# 将浮点型元素类型的数组转为定长字符串类型数组
a1 = a.astype("=U")

# 将浮点型元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2, splitter="\n")

a = np.array([1 + 1j, 2 + 2j, 3 + 3j, 4 + 4j], dtype="=c16")

# 将复数型元素类型的数组转为定长字符串类型数组
a1 = a.astype("=U")

# 将复数型元素类型的数组转为不定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2, splitter="\n")

array              .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-----------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[1 2 3 4]          int64                     8  i                   8  l        =             [('', '<i8')]
['1' '2' '3' '4']  str672                   84  U                   4  U        =             [('', '<U21')]
['1' '2' '3' '4']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]

array                      .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
-------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[1.1 2.2 3.3 4.4]          float64                   8  f                   8  d        =             [('', '<f8')]
['1.1' '2.2' '3.3' '4.4']  str1024                 128  U                   4  U        =     

2. 布尔类型元素转换为字符串类型

   同样, 也可以将布尔类型元素数组转换为字符串类型数组

In [33]:
a = np.array([True, False, True, True])

# 将布尔型元素类型的数组转为不定长字符串类型数组
a1 = a.astype(np.str_)

# 将布尔型元素类型的数组转为定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                           .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
------------------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[ True False  True  True]       bool                      1  b                   1  ?        |             [('', '|b1')]
['True' 'False' 'True' 'True']  str160                   20  U                   4  U        =             [('', '<U5')]
['True' 'False' 'True' 'True']  StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


3. 字节串类型元素转字符串类类型

In [34]:
a = np.array([b"AAA", b"BBB", b"CCC"])

# 将字节串元素类型的数组转为不定长字符串类型数组
a1 = a.astype("U")

# 将字节串元素类型的数组转为定长字符串类型数组
a2 = a.astype(np.dtypes.StringDType())

show_array_with_type(a, a1, a2)

array                   .name             .itemsize  .kind      .alignment  .char    .byteorder    .descr
----------------------  --------------  -----------  -------  ------------  -------  ------------  -----------------------
[b'AAA' b'BBB' b'CCC']  bytes24                   3  S                   1  S        |             [('', '|S3')]
['AAA' 'BBB' 'CCC']     str96                    12  U                   4  U        =             [('', '<U3')]
['AAA' 'BBB' 'CCC']     StringDType128           16  T                   8  T        |             [('', 'StringDType()')]


##### 2.2.4.4. 数组占位符