# Создание `NumPy` массива. Основные операции.

## Общая характеристика библиотеки NumPy

Библиотека `NumPy` (Numerical Python) привносит в Python новый тип данных, который предназначен для хранения и работы с массивами числовых данных, а также реализует большое количество разнообразных функций для манипуляции, генерации, фильтрации, сортировки массивов. Реализованы также разнообразные математические, в том числе используются функции-обертки процедур библиотеки `LAPACK`, позволяющие решать задачи линейной алгебры.

В случае, если вы используете WinPython или Anaconda Python, то библиотека NumPy уже установлена. В случае Miniconda ее надо установить выполнив команду
```bash
  conda install numpy
```
после чего можно будет импортировать NumPy. Подключение любых библиотек осуществляется командой `import`. Инструкция `as` позволяет переименовать импортируемый модуль, чтобы название было короче и им было удобнее пользоваться при наборе кода. Для библиотеки `Numpy` стандартом стало  двухбуквенное сокращение `np`.
```python
  import numpy as np
```
После импорта, все функции и подмодули библиотеки `NumPy` станут доступны посредством оператора точка `'.'`. Подобная изоляция *пространства имен* разных модулей позволяет избежать конфликта имен и служит инструментом структурирования функционала библиотеки, позволяя распределить функции по тематическим подмодулям.

Массивы `NumPy` в первом приближении похожи на встроенный в `Python` тип данных `list`, но работают гораздо быстрее, так как каждый массив хранят данные только одного типа и их размер задается при инициализации. Это позволяет сократить накладные расходы памяти и уменьшить время доступа. Большинство функций и структур данных библиотеки `NumPy` реализованы на языках `С/С++` и `Fortran`. Также активно используется векторизация безиндексных операций над массивами, позволяющая задействовать все ядра многоядерных процессоров и распределить работу между ними.

В данной главе дается краткое введение в основные возможности `NumPy` версии не ниже `1.13`.

In [1]:
#! /usr/bin/env python3
# -*- coding: utf-8 -*-
import numpy as np

In [2]:
import math

## Создание массива

Основной функцией для создания массива служит функция `np.array()`.  Она принимает перечисляемые типы данных (`list`, `tuple`, генераторы и т.д.) и создает на их основе `numpy` массив. Переданная структура должна состоять из элементов одного типа. В случае числовых данных допускается комбинация целых, рациональных, вещественных и комплексных числе, однако при создании массива они будут приведены к наиболее общему типу. Рассмотрим ряд примеров.

In [3]:
a = np.array([1, 2, 3, 4, 5])
print(a, 'тип элементов', a.dtype)
# если хотя бы один элемент вещественный, то весь массив будет иметь вещественный тип
a = np.array([1, 2.0, 3, 4, 5])
print(a, 'тип элементов', a.dtype)
# то же самое справедливо для комплексного типа
a = np.array([1, 2.0, 3 + 1j, 4, 5])
print(a, 'тип элементов', a.dtype)
# можно передавать строки, тогда результатом будет символьный массив
a = np.array([1, 2.0, 3, '4', 5])
print(a, 'тип элементов', a.dtype)
a = np.array([1, 2.0, 3 + 1j, 'a', 5])
print(a, 'тип элементов', a.dtype)

[1 2 3 4 5] тип элементов int64
[ 1.  2.  3.  4.  5.] тип элементов float64
[ 1.+0.j  2.+0.j  3.+1.j  4.+0.j  5.+0.j] тип элементов complex128
['1' '2.0' '3' '4' '5'] тип элементов <U32
['1' '2.0' '(3+1j)' 'a' '5'] тип элементов <U64


Тип передаваемых элеметов можно указать явным образом с помощью аргумента `dtype`

In [4]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float64)
print(a, 'тип элементов', a.dtype)

[ 1.  2.  3.  4.  5.] тип элементов float64


`Numpy` поддерживает стандартные типы данных `Python` и плюс к этому определяет более специфические численные типы, вроде беззнаковых целых (`uint8`, `uint16`, `uint32` и `uint64`), действительных чисел (`float16`, `float32` и `float64`), комплексных чисел (`complex64`, `complex128`).

Для создания многомерных массивов можно использовать вложенные списки и списковые сборки

In [5]:
a = np.array([[i+j for i in range(5)] for j in range(5)])
print(a)

[[0 1 2 3 4]
 [1 2 3 4 5]
 [2 3 4 5 6]
 [3 4 5 6 7]
 [4 5 6 7 8]]


Также имеется ряд функций, предназначенных для создания массивов из нулей, единиц, одинаковых элементов или просто для выделения памяти.

In [6]:
# Массив, состоящий целиком из нулей
a = np.zeros(5, dtype=int)
b = np.zeros(shape=(5, 2), dtype=int)
a, b

(array([0, 0, 0, 0, 0]), array([[0, 0],
        [0, 0],
        [0, 0],
        [0, 0],
        [0, 0]]))

In [7]:
# Массив, состоящий целиком из единиц
a = np.ones(shape=(2, 2))
a, a.dtype

(array([[ 1.,  1.],
        [ 1.,  1.]]), dtype('float64'))

In [8]:
# Единичная матрица
E = np.eye(5)
E

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

Функция `np.arange(start, stop, step)` создает массив из элементов арифметической прогрессии начиная от `start` и заканчивая `stop` (но не включая его) с шагом `step`. Последовательность может состоять из вещественных чисел.

In [9]:
a = np.arange(1, 6, 2)
b = np.arange(1.0, 6.0, 2.0 )
a, a.dtype, b, b.dtype

(array([1, 3, 5]), dtype('int64'), array([ 1.,  3.,  5.]), dtype('float64'))

Функция `np.linspace(a, b, N)` разбивает отрезок $(a, b)$ на $N$ частей. Эту функцию удобно применять для задания области определения кривых.

In [10]:
l = np.linspace(0, 1, 20)
l

array([ 0.        ,  0.05263158,  0.10526316,  0.15789474,  0.21052632,
        0.26315789,  0.31578947,  0.36842105,  0.42105263,  0.47368421,
        0.52631579,  0.57894737,  0.63157895,  0.68421053,  0.73684211,
        0.78947368,  0.84210526,  0.89473684,  0.94736842,  1.        ])

Наконец, если необходимо лишь выделить память под данные определенного типа, то можно воспользоваться функцией `np.empty`. Значениями будут произвольные, случайно оказавшиеся в соответствующих ячейках памяти данные.

In [11]:
a = np.empty(shape=(2, 2), dtype=np.float64)
a

array([[ 1.,  1.],
       [ 1.,  1.]])

## Характеристики массива и доступ к элементам

У каждого `numpy`-массива имеется ряд характеристик, которые хранятся в виде атрибутов.
- Число измерений (целое число, атрибут `ndim`).
- Форма или иначе число элементов по каждому измерению (кортеж из целых чисел, атрибут `shape`).
- Общий размер массива, равный суммарному количеству элементов, содержащихся в массиве (целое число, атрибут `size`).
- Тип данных массива (атрибут `dtype`).

In [12]:
a = np.empty(shape = 1)
b = np.empty(shape = (2, 3))
c = np.empty(shape = (2, 3, 4), dtype=np.int64)
print('a: ndim={0}, shape={1}, size={2}, dtype={3}'.format(a.ndim, a.shape, a.size, a.dtype))
print('b: ndim={0}, shape={1}, size={2}, dtype={3}'.format(b.ndim, b.shape, b.size, b.dtype))
print('c: ndim={0}, shape={1}, size={2}, dtype={3}'.format(c.ndim, c.shape, c.size, c.dtype))

a: ndim=1, shape=(1,), size=1, dtype=float64
b: ndim=2, shape=(2, 3), size=6, dtype=float64
c: ndim=3, shape=(2, 3, 4), size=24, dtype=int64


Стандартным способом доступа к элементам массива является доступ по индексам. Здесь синтаксис сходен со стандартным синтаксисом языка `Python` и с другими языками, где индексация начинается с нуля. Кроме доступа к конкретным элементам, можно использовать синтаксис срезов, получая доступ сразу к набору элементов с заданным шагом. Точно также, как и в случае списков, последний элемент диапазона среза не входит в результат среза.

In [13]:
a = np.array([[11, 12, 13], [21, 22, 23], [31, 32, 33]])
# Вся вторая строка
print(a[1, :])
# Весь первый столбец
print(a[:, 0])

[21 22 23]
[11 21 31]


Перебрать все элементы можно с помощью цикла `for`. Обход при этом будет производиться по строкам.

In [14]:
for row in a:
    print('Строка', row, end=' и ее элементы: ')
    for item in row:
        print(item, end=' ')
    print()

Строка [11 12 13] и ее элементы: 11 12 13 
Строка [21 22 23] и ее элементы: 21 22 23 
Строка [31 32 33] и ее элементы: 31 32 33 


Функция `np.ndenumerate` является эквивалентом функции `enumerate` и служит для последовательного перебора всех элементов массива, возвращая кортеж `(index, item)`, где `index` в свою очередь является кортежем индексов элемента `item`. Рассмотрим пример.

In [15]:
for ((i, j), item) in np.ndenumerate(a):
    print('a[{0}, {1}] = {2}'.format(i, j, item))

a[0, 0] = 11
a[0, 1] = 12
a[0, 2] = 13
a[1, 0] = 21
a[1, 1] = 22
a[1, 2] = 23
a[2, 0] = 31
a[2, 1] = 32
a[2, 2] = 33


Обратите внимание, что и здесь обход производится по строкам. Это связанно со способом хранения элементов массива в ячейках памяти. Так как структуры данных `NumPy` реализованы на языке `C`, то элементы многомерных массивов располагаются в памяти по строкам, поэтому перебор по строкам --- это наиболее быстрый способ последовательного их перебора.

Кратко упомним основные функции, которые служат для изменения формы массивов.
- Функция `np.reshape` позволяет переформатировать массив.
- Функции `np.concatenate`, `np.vstack`, `np.hstack` позволяют разными способами слить несколько массивов в один.
- Функции `np.split`, `np.split`, `np.hsplit`, наоборот, разбивают массив на части.

## Алгебраические действия и математические функции

Стандартные циклы `Python` весьма медленны. Это обусловлено динамической природой языка, так как при каждой операции над элементами списка интерпретатор должен проверять тип элемента, который не известен заранее. Библиотека `NumPy` устраняет этот недостаток с помощью *векторизации* операций. Векторизованные операции в библиотеке `NumPy` реализованы посредством *универсальных функций* (ufuncs), главная задача которых состоит в быстром выполнении повторяющихся операций над значениями из массивов библиотеки NumPy.

При использовании больших массивов, следует избегать обращения к элементам по индексам и стараться работать с массивами в безиндексной форме. Например, если необходимо сложить, умножить, вычесть, разделить или возвести в степень все элементы массива, то можно воспользоваться обычными операторами `+`, `*`, `-`, `/` и `**` как показано в примере.

In [16]:
x = np.random.random(size=10**6)
y = np.random.random(size=10**6)
%timeit x + y
%timeit x * y
%timeit x - y
%timeit x / y
%timeit x**2

2.25 ms ± 16.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.24 ms ± 8.93 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.25 ms ± 9.63 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
4.27 ms ± 2.56 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.52 ms ± 4.75 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Если же теперь проделать все те же действия с помощью обычного цикла, обращаясь к элементам массива по индексу, то суммирование будет произведено более чем в 100 раз медленнее.

In [17]:
%%timeit
for i in range(10**6):
    x[i] = x[i] + y[i]

565 ms ± 2.73 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Кроме арифметических операторов, определены универсальные функции для стандартных математических действий, вроде нахождения абсолютного значения всех элементов, среднего, максимального и минимального значений. Также векторизированы элементарные математически функции (тригонометрические, гиперболические, экспонента, логарифмы, квадратный корень). Рассмотрим примеры их использования и оценим ускорение операций, которого они позволяют достичь.

In [18]:
%timeit [abs(item) for item in x]
%timeit np.abs(x)

221 ms ± 1.34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.52 ms ± 4.17 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Теперь сравним математические функции из стандартного модуля `math` и векторизированные математические функции из библиотеки `NumPy`.

In [19]:
%timeit [math.sin(item) for item in x]
%timeit np.sin(x)

327 ms ± 290 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
45.6 ms ± 43.5 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [20]:
%timeit [math.sqrt(item) for item in x]
%timeit np.sqrt(x)

278 ms ± 280 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
4.26 ms ± 406 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


Как видно из результатов, векторизированные функции обеспечивают ускорение на порядок, а в ряде случаев и на два порядка. Однако встроенные функции выигрывают в случае операции над скалярными данными.

In [21]:
%timeit math.sin(2.0)
%timeit np.sin(2.0)

171 ns ± 0.719 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
1.15 µs ± 0.977 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [22]:
%timeit math.sqrt(2.0)
%timeit np.sqrt(2.0)

149 ns ± 0.684 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
1.14 µs ± 3.53 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Некоторые из векторизированных функций могут задействовать несколько ядер процессора. Такова, например, функция `dot`, вычисляющая скалярное произведение двух массивов.

In [23]:
%timeit np.dot(x, y)

956 µs ± 15 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
