In [2]:
import numpy as np
np.__version__

'1.23.5'

# Часть 6. Структурированные массивы

До этого момента мы работали преимущественно с числовыми векторами. Однако на практике часто возникают задачи, когда нужно работать с массивами каких-либо более сложных сущностей: например, нужно обработать миллион заказов, у каждого из которых есть:
- дата совершения
- сумма заказа
- дата доставки

В таком случае мы уже имеем дело с целыми структурами, об обработке которых с помощью NumPy мы и поговорим

In [3]:
platforms = ["website", "ios", "android", "windows phone"]
num_active_versions = [14, 4, 8, 1]
complexity = [1.0, 1.4, 0.9, 2.1]

Выше представлены фейковые данные о каком-нибудь приложении, которое представлено на ряде платформ. На каждой из платформ может быть своё число активных версий (в зависимости от процедуры AB-тестирования). Кроме того, каждая из платформа имеет свой порог вхождения в разработку и сложность поддержки.

Конечно, можно обрабатывать каждый из списков отдельно, но это не очень удобно. Посмотрим, что может предложить NumPy:

In [4]:
data = np.zeros(
    4,
    dtype={
        "names": ["platform", "num_active_versions", "complexity"],
        "formats": ["U16", "i4", "f8"]
    }
)
print(data.dtype)

[('platform', '<U16'), ('num_active_versions', '<i4'), ('complexity', '<f8')]


Теперь, когда подготовлен некоторый placeholder, мы можем наполнить его реальными данными:

In [6]:
data["platform"] = platforms
data["num_active_versions"] = num_active_versions
data["complexity"] = complexity

for _ in data:
    print(_)

('website', 14, 1.)
('ios', 4, 1.4)
('android', 8, 0.9)
('windows phone', 1, 2.1)


Посмотрим, какие возможности у нас теперь есть:

In [7]:
# вытаскивать список всех платформ
data["platform"]

array(['website', 'ios', 'android', 'windows phone'], dtype='<U16')

In [8]:
# вытаскивать все атрибуты для конкретной строки
data[3]

('windows phone', 1, 2.1)

In [9]:
# использовать маски для подвыборки
print(data[data["complexity"] > 1.0]["platform"])

['ios' 'windows phone']


На самом деле структурированные массивы являются концепцией, крайне близкой к таблицам pandas, но об этом речь уже пойдёт в следующей части:)