# Лекция 3.1. NumPy

NumPy это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.

Сообщество NumPy и SciPy поддерживает онлайн руководство, включающие гайды и туториалы, тут: http://docs.scipy.org/doc.

## Импорт модуля numpy

Есть несколько путей импорта. Стандартный метод это — использовать простое выражение:

In [0]:
import numpy

Тем не менее, для большого количества вызовов функций numpy, становится утомительно писать numpy.X снова и снова. Вместо этого намного легче сделать это так:

In [0]:
import numpy as np

Это выражение позволяет нам получать доступ к numpy объектам используя np.X вместо numpy.X. Также можно импортировать numpy прямо в используемое пространство имен, чтобы вообще не использовать функции через точку, а вызывать их напрямую:

In [0]:
from numpy import *

Однако, этот вариант не приветствуется в программировании на python, так как убирает некоторые полезные структуры, которые модуль предоставляет. До конца этого туториала мы будем использовать второй вариант импорта (import numpy as np).

## Массивы

Главной особенностью numpy является объект array. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.

Создание массива из списка:

In [63]:
a = np.array([1, 4, 5, 8], float)
a

array([1., 4., 5., 8.])

In [64]:
type(a)

numpy.ndarray

Здесь функция array принимает два аргумента: список для конвертации в массив и тип для каждого элемента. Ко всем элементам можно получить доступ и манипулировать ими также, как вы бы это делали с обычными списками:

In [65]:
a[:2]


array([1., 4.])

In [66]:
a[3]

8.0

In [67]:
a[0] = 5.
a

array([5., 4., 5., 8.])

Массивы могут быть и многомерными. В отличии от списков можно задавать команды в скобках. Вот пример двумерного массива (матрица):

In [68]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [69]:
a[0,0]

1.0

In [70]:
a[0,1]

2.0

Array slicing работает с многомерными массивами аналогично, как и с одномерными, применяя каждый срез, как фильтр для установленного измерения. Используйте ":" в измерении для указывания использования всех элементов этого измерения:

In [71]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a[1,:]

array([4., 5., 6.])

In [72]:
a[:,2]

array([3., 6.])

In [73]:
a[-1:, -2:]

array([[5., 6.]])

Метод shape возвращает количество строк и столбцов в матрице:

In [74]:
a.shape

(2, 3)

Метод dtype возвращает тип переменных, хранящихся в массиве:

In [75]:
a.dtype

dtype('float64')

Тут float64, это числовой тип данных в numpy, который используется для хранения вещественных чисел двойной точности. Так как же float в Python.

Метод len возвращает длину первого измерения (оси):

In [76]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
len(a)

2

Метод in используется для проверки на наличие элемента в массиве:

In [77]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
2 in a

True

In [78]:
0 in a

False

Массивы можно переформировать при помощи метода, который задает новый многомерный массив. Следуя следующему примеру, мы переформатируем одномерный массив из десяти элементов во двумерный массив, состоящий из пяти строк и двух столбцов:

In [79]:
a = np.array(range(10), float)
a

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [80]:
a = a.reshape((5, 2))
a

array([[0., 1.],
       [2., 3.],
       [4., 5.],
       [6., 7.],
       [8., 9.]])

In [81]:
a.shape

(5, 2)

Обратите внимание, метод reshape создает новый массив, а не модифицирует оригинальный.

Имейте ввиду, связывание имен в Python работает и с массивами. Метод copy используется для создания копии существующего массива в памяти:

In [82]:
a = np.array([1, 2, 3], float)
b = a
c = a.copy()
a[0] = 0
a

array([0., 2., 3.])

In [83]:
b

array([0., 2., 3.])

Обратите внимание, что после того, как мы выполнили a[0] = 0, массив, на который ссылается переменая b также изменился. Это объясняется тем, что в выражении b = a просто была создана ссылка на один и тот же массив, на который ссылалась переменная a. В памяти он располагается в одном месте и теперь на него стала ссылаться и переменная b. А вот использование метода copy создало копию массива в новом месте в памяти, поэтому массив c изменения массива, на который ссылается переменная a, не затронули:

In [84]:
c

array([1., 2., 3.])

Из numpy массивов можно также создавать обычные плоские списки Python вот так:


In [85]:
a = np.array([1, 2, 3], float)
a.tolist()

[1.0, 2.0, 3.0]

Или вот так:

In [86]:
list(a)

[1.0, 2.0, 3.0]

Массив можно заполнить одинаковыми значениями:

In [87]:
a = np.array([1, 2, 3], float)
a

array([1., 2., 3.])

In [88]:
a.fill(0)
a

array([0., 0., 0.])

Транспонирование массивов также возможно, при этом создается новый массив:

In [89]:
a = np.array(range(6), float).reshape((2, 3))
a

array([[0., 1., 2.],
       [3., 4., 5.]])

In [90]:
a.transpose()

array([[0., 3.],
       [1., 4.],
       [2., 5.]])

Многомерный массив можно переконвертировать в одномерный при помощи метода flatten:

In [91]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

array([[1., 2., 3.],
       [4., 5., 6.]])

In [92]:
a.flatten()

array([1., 2., 3., 4., 5., 6.])

Два или больше массивов можно сконкатенировать при помощи метода concatenate:

In [93]:
a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

array([1., 2., 3., 4., 5., 6., 7., 8., 9.])

Если массив не одномерный, можно задать ось, по которой будет происходить соединение. По умолчанию (не задавая значения оси), соединение будет происходить по первому измерению:

In [94]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7,8]], float)
np.concatenate((a,b))

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [95]:
np.concatenate((a,b), axis=0)

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [96]:
np.concatenate((a,b), axis=1)

array([[1., 2., 5., 6.],
       [3., 4., 7., 8.]])

Размерность массива может быть увеличена при использовании константы newaxis в квадратных скобках:

In [97]:
a = np.array([1, 2, 3], float)
a

array([1., 2., 3.])

In [98]:
a[:,np.newaxis]

array([[1.],
       [2.],
       [3.]])

In [99]:
a[:,np.newaxis].shape

(3, 1)

In [100]:
b[np.newaxis,:]

array([[[5., 6.],
        [7., 8.]]])

In [101]:
b[np.newaxis,:].shape

(1, 2, 2)

Заметьте, тут каждый массив двумерный; созданный при помощи newaxis имеет размерность один. Метод newaxis подходит для удобного создания надлежаще-мерных массивов в векторной и матричной математике.

## Другие пути создания массивов

Функция arange аналогична функции range, но возвращает массив:

In [102]:
np.arange(5, dtype=float)

array([0., 1., 2., 3., 4.])

In [103]:
np.arange(1, 6, 2, dtype=int)

array([1, 3, 5])

Функции zeros и ones создают новые массивы с установленной размерностью, заполненные этими значениями. Это, наверное, самые простые в использовании функции для создания массивов:

In [104]:
np.ones((2,3), dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.]])

In [105]:
np.zeros(7, dtype=int)

array([0, 0, 0, 0, 0, 0, 0])

Функции zeros_like и ones_like могут преобразовать уже созданный массив, заполнив его нулями и единицами соответственно:

In [106]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
np.zeros_like(a)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [107]:
np.ones_like(a)

array([[1., 1., 1.],
       [1., 1., 1.]])

Также есть некоторое количество функций для создания специальных матриц. Для создания квадратной матрицы с главной диагональю, которая заполненная единицами, воспользуемся методом identity:

In [108]:
np.identity(4, dtype=float)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

Функция eye возвращает матрицу с единичками на к-атой диагонали:

In [109]:
np.eye(4, k=1, dtype=float)

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

## Математические операции над массивами

Когда для массивов мы используем стандартные математические операции, должен соблюдаться принцип: элемент--элемент. Это означает, что массивы должны быть одинакового размера во время сложения, вычитания и тому подобных операций:

In [110]:
a = np.array([1,2,3], float)
b = np.array([5,2,6], float)
a + b


array([6., 4., 9.])

In [111]:
a - b

array([-4.,  0., -3.])

In [112]:
a * b

array([ 5.,  4., 18.])

In [113]:
b / a

array([5., 1., 2.])

In [114]:
a % b

array([1., 0., 3.])

In [115]:
b**a

array([  5.,   4., 216.])

Для двухмерных массивов, умножение остается поэлементным и не соответствует умножению матриц. Для этого существуют специальные функции, которые мы изучим позже.

In [116]:
a = np.array([[1,2], [3,4]], float)
b = np.array([[2,0], [1,3]], float)
a * b

array([[ 2.,  0.],
       [ 3., 12.]])

При несоответствии в размере выбрасываются ошибки:

In [117]:
a = np.array([1,2,3], float)
b = np.array([4,5], float)
# если раскомментировать нижнюю строку, то будет выброшена ошибка. Раскомментируйте, чтобы посмотреть
# a + b

ValueError: ignored

Однако, если размерность массивов не совпадает, они будут преобразованы для выполнения математических операций. Это зачастую означает, что меньший массив будет использован несколько раз для завершения операций. Рассмотрим такой пример:

In [118]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
b = np.array([-1, 3], float)
a

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

In [119]:
b

array([-1.,  3.])

In [120]:
a + b

array([[0., 5.],
       [2., 7.],
       [4., 9.]])

Тут, одномерный массив b был преобразован в двухмерный, который соответствует размеру массива a. По существу, b был повторен несколько раз, для каждой «строки» a. Иначе его можно представить так:

In [0]:
b = np.array([[-1.,  3.],
              [-1.,  3.],
              [-1.,  3.]])

Python автоматически преобразовывает массивы в этом случае. Иногда, однако, когда преобразование играет роль, мы можем использовать константу newaxis, чтобы изменить преобразование:

In [123]:
a = np.zeros((2,2), float)
b = np.array([-1., 3.], float)
a

array([[0., 0.],
       [0., 0.]])

In [124]:
b

array([-1.,  3.])

In [125]:
a + b

array([[-1.,  3.],
       [-1.,  3.]])

In [126]:
a + b[np.newaxis,:]

array([[-1.,  3.],
       [-1.,  3.]])

In [127]:
a + b[:,np.newaxis]

array([[-1., -1.],
       [ 3.,  3.]])

Вдобавок к стандартным операторам, в numpy включена библиотека стандартных математических функций, которые могут быть применены поэлементно к массивам. Собственно функции: abs, sign, sqrt, log, log10, exp, sin, cos, tan, arcsin, arccos, arctan, sinh, cosh, tanh, arcsinh, arccosh, и arctanh.

In [128]:
a = np.array([1, 4, 9], float)
np.sqrt(a)

array([1., 2., 3.])

Функции floor, ceil и rint возвращают нижние, верхние или ближайшие (округлённое) значение:

In [129]:
a = np.array([1.1, 1.5, 1.9], float)
np.floor(a)

array([1., 1., 1.])

In [130]:
np.ceil(a)

array([2., 2., 2.])

In [131]:
np.rint(a)

array([1., 2., 2.])

Также в numpy включены две важные математические константы:

In [132]:
np.pi

3.141592653589793

In [133]:
np.e

2.718281828459045

## Перебор элементов массива


Проводить итерацию массивов можно аналогично спискам:

In [135]:
a = np.array([1, 4, 5], int)
for x in a:
    print(x)

1
4
5


Для многомерных массивов итерация будет проводиться по первой оси, так, что каждый проход цикла будет возвращать «строку» массива:

In [136]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
for x in a:
    print(x)

[1. 2.]
[3. 4.]
[5. 6.]


Множественное присваивание также доступно при итерации:

In [137]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
for (x, y) in a:
    print(x * y)

2.0
12.0
30.0


## Базовые операции над массивами

Для получения каких-либо свойств массивов существует много функций. Элементы могут быть суммированы или перемножены:

In [138]:
a = np.array([2, 4, 3], float)
a.sum()

9.0

In [139]:
a.prod()

24.0

В этом примере были использованы функции массива. Также можно использовать собственные функции numpy:

In [140]:
np.sum(a)

9.0

In [141]:
np.prod(a)

24.0

Для большинства случаев могут использоваться оба варианта.
Некие функции дают возможность оперировать статистическими данными. Это функции mean (среднее арифметическое), вариация и девиация:

In [142]:
a = np.array([2, 1, 9], float)
a.mean()

4.0

In [143]:
a.var()

12.666666666666666

In [144]:
a.std()

3.559026084010437

Можно найти минимум и максимум в массиве:

In [145]:
a = np.array([2, 1, 9], float)
a.min()

1.0

In [146]:
a.max()

9.0

Функции argmin и argmax возвращают индекс минимального или максимального элемента:

In [147]:
a = np.array([2, 1, 9], float)
a.argmin()

1

In [148]:
a.argmax()

2

Для многомерных массивов каждая из функций может принять дополнительный аргумент axis и в зависимости от его значения выполнять функции по определенной оси, помещая результаты исполнения в массив:

In [149]:
a = np.array([[0, 2], [3, -1], [3, 5]], float)
a.mean(axis=0)

array([2., 2.])

In [154]:
a.mean(axis=1)

array([1., 1., 4.])

In [156]:
a.min(axis=1)

array([ 0., -1.,  3.])

In [152]:
a.max(axis=0)

array([3., 5.])

Как и списки, массивы можно отсортировать: