# NumPy结构化数组详解
结构化数组是NumPy中一种特殊的ndarray，其数据类型由一组命名字段组成，每个字段可以有不同的数据类型。本教程将详细介绍结构化数组的创建、操作和应用。



## 结构化数组简介
结构化数组是数据类型为复合类型的ndarray，由一组命名字段组成。例如：

In [1]:
import numpy as np

# 创建一个结构化数组
data = np.array([('张三', 25, 65.5), ('李四', 30, 72.0)],
               dtype=[('name', 'U10'), ('age', 'i4'), ('weight', 'f4')])

print(data)


[('张三', 25, 65.5) ('李四', 30, 72. )]


这个一维数组包含两个元素，每个元素有三个字段：  
1、长度不超过10的Unicode字符串'name'  
2、32位整数'age'  
3、32位浮点数'weight'  

## 创建结构化数组
### 方法1：使用字段列表


In [2]:
dt = np.dtype([
    ('name', 'U10'),       # 10字符Unicode字符串
    ('age', 'i4'),         # 32位整数
    ('weight', 'f4'),      # 32位浮点数
    ('grades', 'f4', 4)    # 包含4个浮点数的子数组
])

students = np.array([
    ('张三', 20, 65.5, [90, 85, 88, 92]),
    ('李四', 21, 70.2, [78, 82, 80, 85])
], dtype=dt)

print(students['grades'])


[[90. 85. 88. 92.]
 [78. 82. 80. 85.]]


### 方法2：使用逗号分隔的字符串


In [3]:
dt = np.dtype('i8, f4, S3')  # 64位整数, 32位浮点数, 3字节字符串
arr = np.array([(1, 2.5, 'abc'), (3, 4.2, 'def')], dtype=dt)
arr

array([(1, 2.5, b'abc'), (3, 4.2, b'def')],
      dtype=[('f0', '<i8'), ('f1', '<f4'), ('f2', 'S3')])

### 方法3：使用字典（最灵活）


In [10]:
dt = np.dtype({
    'names': ['id', 'value', 'info'],
    'formats': ['i4', 'f8', 'U20'],
    'offsets': [0, 4, 12],  # 手动指定字段偏移量
    'itemsize': 96          # 调整为足够大的值(比92大且考虑对齐)
})

## 访问和操作结构化数组
### 按字段访问


In [5]:
# 获取所有'age'字段
ages = data['age']
print(ages)  # 输出: [25 30]

# 修改'weight'字段
data['weight'] = [68.0, 74.5]

[25 30]


### 按索引访问


In [6]:
# 获取第一个元素
first = data[0]
print(first)  # 输出: ('张三', 25, 68.0)

# 修改第二个元素的'name'
data[1]['name'] = '王五'

('张三', 25, 68.0)


### 多字段索引

In [7]:
# 获取'name'和'age'字段
subset = data[['name', 'age']]
print(subset)
"""
[('张三', 25) ('王五', 30)]
"""

[('张三', 25) ('王五', 30)]


"\n[('张三', 25) ('王五', 30)]\n"

## 实际应用示例
### 示例1：处理学生数据


In [8]:
# 定义数据类型
student_dt = np.dtype([
    ('id', 'i4'),
    ('name', 'U20'),
    ('scores', 'f4', 3),  # 3门课程成绩
    ('final_grade', 'f4')
])

# 创建数组
students = np.array([
    (1, '张三', [85, 90, 78], 0),
    (2, '李四', [92, 88, 95], 0),
    (3, '王五', [78, 85, 80], 0)
], dtype=student_dt)

# 计算最终成绩(加权平均)
students['final_grade'] = np.mean(students['scores'], axis=1) * 0.6 + 40 * 0.4

print(students)

[(1, '张三', [85., 90., 78.], 66.600006)
 (2, '李四', [92., 88., 95.], 71.      )
 (3, '王五', [78., 85., 80.], 64.600006)]


### 示例2：处理二进制数据


In [9]:
# 模拟从二进制文件读取的数据
binary_data = bytes([
    0x01, 0x00, 0x00, 0x00,    # id=1 (32位整数)
    0x40, 0x49, 0x0F, 0xDB,    # value=3.14159 (32位浮点数)
    0x41, 0x42, 0x43, 0x00      # tag="ABC" (4字节字符串)
])

# 定义匹配的数据类型
dt = np.dtype([
    ('id', 'i4'),
    ('value', 'f4'),
    ('tag', 'S4')
])

# 从缓冲区创建数组
data = np.frombuffer(binary_data, dtype=dt)
print(data[0])  # 输出: (1, 3.14159, b'ABC')

(1, -4.033146e+16, b'ABC')
