## Структурированные данные: структурированные массивы библиотеки NumPy

### структурированные массивы - structured arrays - массивы с составным типом данных
### массивы записей - record arrays
#### обеспечивают эффективное хранилище для сложных неоднородных данных
Подобные сценарии часто применяются при работе с DataFrame Pandas

In [1]:
import numpy as np

In [6]:
name = ['Alice', 'Bob', 'Cat', 'Batman']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]
# стандартные списки Python, но они никак не связаны м/у собой

In [22]:
# создали пустой массив-контейнер
data = np.zeros(4, dtype={
    'names': ('name', 'age', 'weight'),
    'formats': ('U10', 'i4', 'f8')
})

In [23]:
data

array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [24]:
data.dtype

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [26]:
data['name'] = name
data['age'] = age
data['weight'] = weight

In [27]:
data

array([('Alice', 25, 55. ), ('Bob', 45, 85.5), ('Cat', 37, 68. ),
       ('Batman', 19, 61.5)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [28]:
# в структурированных массивах ссылаться на значания можно как по имени так и по индексу
data['name']

array(['Alice', 'Bob', 'Cat', 'Batman'], dtype='<U10')

In [29]:
data[1]

('Bob', 45, 85.5)

In [30]:
data[-1]['name']

'Batman'

In [31]:
# фильтрация при помощи маскирования
data[data['age'] < 30]['name']

array(['Alice', 'Batman'], dtype='<U10')

### Создание структурированных массивов

In [32]:
np.dtype({'names': ('name', 'age', 'weight'),
         'formats': ((np.str_, 10), int, np.float32)})
# можно использовать как типы данных Python так и типы быблиотеки NumPy

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])

Составные типы данных можно задавать в виде кортежей:

In [33]:
np.dtype([
    ('name', 'S10'),
    ('age', 'i4'),
    ('weight', '<f4')
])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f4')])

In [34]:
# Если названия типов (полей) не важны:
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

### Более продвинутые типы данных
Можно создать тип, в котором каждый эл-т содержит массив или матрицу:

In [35]:
tp = np.dtype([
    ('id', 'i8'),
    ('mat', 'f8', (3,3))
])

In [36]:
X = np.zeros(1, dtype=tp)

In [37]:
X

array([(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])],
      dtype=[('id', '<i8'), ('mat', '<f8', (3, 3))])

In [38]:
X[0]

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])

In [39]:
X['mat'][0]

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
# теперь каждый эл-т массива Х состоит из целого числа id и матрицы 3х3
# в памяти такой массив имеет формат массива на C или Fortran

### Доступ к эл-там массива по атрибуту

In [40]:
data['age']

array([25, 45, 37, 19])

In [41]:
data_rec = data.view(np.recarray)

In [42]:
data_rec.age

array([25, 45, 37, 19])