# Структурированные данные: структурированные массивы библиотеки NumPy

In [1]:
import numpy as np

In [2]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

Ничто не указывает на то, что массивы как-то связаны. Лучше использовать для хранения этих данных единую структуру.

In [3]:
# создадим структурированный массив, применяя спецификацию сложного типа данных.
# используем для структурированного массива составной тип данных
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'), 'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


В данном примере:
'U10' - строка в кодировке Unicode максимальной длины 10;
'i4' - 4-байтное (32-битное) целое число;
'f8' - 8-байтное (64-битное) число с плавающей точкой.

Создав пустой массив-контейнер, мы можем заполнить его нашим списком значений.

In [4]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


В структурированных массивах удобно то, что можно ссылаться на значения и по имени и по индексу:


In [5]:
# извлечь все имена
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [6]:
# извлечь первую строку данных
data[0]

('Alice', 25, 55.)

In [7]:
# извлечь имя из последней строки
data[-1]['name']

'Doug'

Также есть возможность с помощью булева маскирования выполнять и более сложные операции

In [8]:
# извлечь имена людей с возрастом менее 30
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

Для выполнения более сложных операций лучше использовать пакет pandas.

## Создание структурированных массивов

Типы данных для структурированнных массивов можно задавать несколькими способами. Ранее мы рассмотрели метод с использованием словаря:

In [9]:
np.dtype({'names':('name', 'age', 'weight'), 'formats':('U10', 'i4', 'f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

Можно задавать числовые типы как с применением типов данных языка Python, так и типов dtype библиотеки NumPy

In [10]:
np.dtype({'names':('name', 'age', 'weight'), 'formats':((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

Составные типы данных можно задавать в виде кортежей

In [11]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

Если названия типов не важны можно задать только сами типы данных в разделенной запятыми строке

In [12]:
np.dtype('S10, i4, f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

## Более продвинутые типы данных

Можно описывать еще более продвинутые типы данных. Например, можно создать тип, в котором каждый элемент содержит массив или матрицу заначений. В следующем примере создается тип даннх, содержащий компонент mat, состоящий из матрицы 3 х 3 значения с плавающей точкой:

In [20]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


Теперь каждый элемент массива X состоит из целого числа id и матрицы 3 х 3.

## Массивы записей: структурированные массивы с дополнительными возможностями.

Библиотека NumPy предоставляет класс np.recfrray, который позволяет доступ к полям осуществлять как к атрибутам, а не только как к ключам словаря. 

In [22]:
data['age']

array([25, 45, 37, 19], dtype=int32)

Если представить наши данные как массив записей, то можно обращаться к этим данным с помощью чуть более короткого синтаксиса:

In [23]:
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19], dtype=int32)

Недостаток - ухудшение производительности

In [24]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

121 ns ± 3.49 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
3.57 µs ± 186 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
4.36 µs ± 30.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
