# Лекция 3.1. NumPy

**NumPy** - это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.

Сообщество NumPy и SciPy поддерживает онлайн руководство, включающие гайды и туториалы, тут: http://docs.scipy.org/doc.

## Импорт модуля numpy

Есть несколько путей импорта. Стандартный метод это — использовать простое выражение:

In [0]:
import numpy

Тем не менее, для большого количества вызовов функций numpy, становится утомительно писать numpy.X снова и снова. Вместо этого намного легче сделать это так:

In [0]:
import numpy as np

Это выражение позволяет нам получать доступ к numpy объектам используя np.X вместо numpy.X. Также можно импортировать numpy прямо в используемое пространство имен, чтобы вообще не использовать функции через точку, а вызывать их напрямую:

In [0]:
from numpy import *

Однако, этот вариант не приветствуется в программировании на python, так как убирает некоторые полезные структуры, которые модуль предоставляет. До конца этого туториала мы будем использовать второй вариант импорта (import numpy as np).

## Массивы

Главной особенностью numpy является объект array. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.

Создание массива из списка:

In [0]:
a = np.array([1, 4, 5, 8], float)
a

In [0]:
type(a)

Здесь функция array принимает два аргумента: список для конвертации в массив и тип для каждого элемента. Ко всем элементам можно получить доступ и манипулировать ими также, как вы бы это делали с обычными списками:

In [0]:
a[:2]


In [0]:
a[3]

In [0]:
a[0] = 5.
a

Массивы могут быть и многомерными. В отличии от списков можно задавать команды в скобках. Вот пример двумерного массива (матрица):

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

In [0]:
a[0,0]

In [0]:
a[0,1]

Array slicing работает с многомерными массивами аналогично, как и с одномерными, применяя каждый срез, как фильтр для установленного измерения. Используйте ":" в измерении для указывания использования всех элементов этого измерения:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a[1,:]

In [0]:
a[:,2]

In [0]:
a[-1:, -2:]

Метод shape возвращает количество строк и столбцов в матрице:

In [0]:
a.shape

Метод dtype возвращает тип переменных, хранящихся в массиве:

In [0]:
a.dtype

Тут float64, это числовой тип данных в numpy, который используется для хранения вещественных чисел двойной точности. Так как же float в Python.

Метод len возвращает длину первого измерения (оси):

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
len(a)

Метод in используется для проверки на наличие элемента в массиве:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
2 in a

In [0]:
0 in a

Массивы можно переформировать при помощи метода, который задает новый многомерный массив. Следуя следующему примеру, мы переформатируем одномерный массив из десяти элементов во двумерный массив, состоящий из пяти строк и двух столбцов:

In [0]:
a = np.array(range(10), float)
a

In [0]:
a = a.reshape((5, 2))
a

In [0]:
a.shape

Обратите внимание, метод reshape создает новый массив, а не модифицирует оригинальный.

Имейте ввиду, связывание имен в Python работает и с массивами. Метод copy используется для создания копии существующего массива в памяти:

In [0]:
a = np.array([1, 2, 3], float)
b = a
c = a.copy()
a[0] = 0
a

In [0]:
b

Обратите внимание, что после того, как мы выполнили a[0] = 0, массив, на который ссылается переменая b также изменился. Это объясняется тем, что в выражении b = a просто была создана ссылка на один и тот же массив, на который ссылалась переменная a. В памяти он располагается в одном месте и теперь на него стала ссылаться и переменная b. А вот использование метода copy создало копию массива в новом месте в памяти, поэтому массив c изменения массива, на который ссылается переменная a, не затронули:

In [0]:
c

Из numpy массивов можно также создавать обычные плоские списки Python вот так:


In [0]:
a = np.array([1, 2, 3], float)
a.tolist()

Или вот так:

In [0]:
list(a)

Массив можно заполнить одинаковыми значениями:

In [0]:
a = np.array([1, 2, 3], float)
a

In [0]:
a.fill(0)
a

Транспонирование массивов также возможно, при этом создается новый массив:

In [0]:
a = np.array(range(6), float).reshape((2, 3))
a

In [0]:
a.transpose()

Многомерный массив можно переконвертировать в одномерный при помощи метода flatten:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
a

In [0]:
a.flatten()

Два или больше массивов можно сконкатенировать при помощи метода concatenate:

In [0]:
a = np.array([1,2], float)
b = np.array([3,4,5,6], float)
c = np.array([7,8,9], float)
np.concatenate((a, b, c))

Если массив не одномерный, можно задать ось, по которой будет происходить соединение. По умолчанию (не задавая значения оси), соединение будет происходить по первому измерению:

In [0]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7,8]], float)
np.concatenate((a,b))

In [0]:
np.concatenate((a,b), axis=0)

In [0]:
np.concatenate((a,b), axis=1)

Размерность массива может быть увеличена при использовании константы newaxis в квадратных скобках:

In [0]:
a = np.array([1, 2, 3], float)
a

In [0]:
a[:,np.newaxis]

In [0]:
a[:,np.newaxis].shape

In [0]:
b[np.newaxis,:]

In [0]:
b[np.newaxis,:].shape

Заметьте, тут каждый массив двумерный; созданный при помощи newaxis имеет размерность один. Метод newaxis подходит для удобного создания надлежаще-мерных массивов в векторной и матричной математике.

## Другие пути создания массивов

Функция arange аналогична функции range, но возвращает массив:

In [0]:
np.arange(5, dtype=float)

In [0]:
np.arange(1, 6, 2, dtype=int)

Функции zeros и ones создают новые массивы с установленной размерностью, заполненные этими значениями. Это, наверное, самые простые в использовании функции для создания массивов:

In [0]:
np.ones((2,3), dtype=float)

In [0]:
np.zeros(7, dtype=int)

Функции zeros_like и ones_like могут преобразовать уже созданный массив, заполнив его нулями и единицами соответственно:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
np.zeros_like(a)

In [0]:
np.ones_like(a)

Также есть некоторое количество функций для создания специальных матриц. Для создания квадратной матрицы с главной диагональю, которая заполненная единицами, воспользуемся методом identity:

In [0]:
np.identity(4, dtype=float)

Функция eye возвращает матрицу с единичками на к-атой диагонали:

In [0]:
np.eye(4, k=1, dtype=float)

## Математические операции над массивами

Когда для массивов мы используем стандартные математические операции, должен соблюдаться принцип: элемент--элемент. Это означает, что массивы должны быть одинакового размера во время сложения, вычитания и тому подобных операций:

In [0]:
a = np.array([1,2,3], float)
b = np.array([5,2,6], float)
a + b


In [0]:
a - b

In [0]:
a * b

In [0]:
b / a

In [0]:
a % b

In [0]:
b**a

Для двухмерных массивов, умножение остается поэлементным и не соответствует умножению матриц. Для этого существуют специальные функции, которые мы изучим позже.

In [0]:
a = np.array([[1,2], [3,4]], float)
b = np.array([[2,0], [1,3]], float)
a * b

При несоответствии в размере выбрасываются ошибки:

In [0]:
a = np.array([1,2,3], float)
b = np.array([4,5], float)
# если раскомментировать нижнюю строку, то будет выброшена ошибка. Раскомментируйте, чтобы посмотреть
# a + b

Однако, если размерность массивов не совпадает, они будут преобразованы для выполнения математических операций. Это зачастую означает, что меньший массив будет использован несколько раз для завершения операций. Рассмотрим такой пример:

In [0]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
b = np.array([-1, 3], float)
a

In [0]:
b

In [0]:
a + b

Тут, одномерный массив b был преобразован в двухмерный, который соответствует размеру массива a. По существу, b был повторен несколько раз, для каждой «строки» a. Иначе его можно представить так:

In [0]:
b = np.array([[-1.,  3.],
              [-1.,  3.],
              [-1.,  3.]])

Python автоматически преобразовывает массивы в этом случае. Иногда, однако, когда преобразование играет роль, мы можем использовать константу newaxis, чтобы изменить преобразование:

In [0]:
a = np.zeros((2,2), float)
b = np.array([-1., 3.], float)
a

In [0]:
b

In [0]:
a + b

In [0]:
a + b[np.newaxis,:]

In [0]:
a + b[:,np.newaxis]

Вдобавок к стандартным операторам, в numpy включена библиотека стандартных математических функций, которые могут быть применены поэлементно к массивам. Собственно функции: abs, sign, sqrt, log, log10, exp, sin, cos, tan, arcsin, arccos, arctan, sinh, cosh, tanh, arcsinh, arccosh, и arctanh.

In [0]:
a = np.array([1, 4, 9], float)
np.sqrt(a)

Функции floor, ceil и rint возвращают нижние, верхние или ближайшие (округлённое) значение:

In [0]:
a = np.array([1.1, 1.5, 1.9], float)
np.floor(a)

In [0]:
np.ceil(a)

In [0]:
np.rint(a)

Также в numpy включены две важные математические константы:

In [0]:
np.pi

In [0]:
np.e

## Перебор элементов массива


Проводить итерацию массивов можно аналогично спискам:

In [0]:
a = np.array([1, 4, 5], int)
for x in a:
    print(x)

Для многомерных массивов итерация будет проводиться по первой оси, так, что каждый проход цикла будет возвращать «строку» массива:

In [0]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
for x in a:
    print(x)

Множественное присваивание также доступно при итерации:

In [0]:
a = np.array([[1, 2], [3, 4], [5, 6]], float)
for (x, y) in a:
    print(x * y)

## Базовые операции над массивами

Для добавления элементов в массив используется метод append:

In [0]:
a = np.array([2, 4, 3], int)
np.append(a, 1)

Также можно просто объединить 2 массива:

In [0]:
np.append([1, 2, 3], [4, 5, 6])

Можно объединять массивы разных размерностей:

In [0]:
np.append([1, 2, 3], [[4, 5, 6], [7, 8, 9]])

Для удаления элементов используется метот delete:

In [0]:
a = np.array([2, 4, 3], int)
np.delete(a, 0)

При удалении также можно указать ось axis:

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
np.delete(a, 0, axis=0)

Для получения каких-либо свойств массивов существует много функций. Элементы могут быть суммированы или перемножены:

In [0]:
a = np.array([2, 4, 3], float)
a.sum()

In [0]:
a.prod()

В этом примере были использованы функции массива. Также можно использовать собственные функции numpy:

In [0]:
np.sum(a)

In [0]:
np.prod(a)

Для большинства случаев могут использоваться оба варианта.
Некие функции дают возможность оперировать статистическими данными. Это функции mean (среднее арифметическое), вариация и девиация:

In [0]:
a = np.array([2, 1, 9], float)
a.mean()

In [0]:
a.var()

In [0]:
a.std()

Можно найти минимум и максимум в массиве:

In [0]:
a = np.array([2, 1, 9], float)
a.min()

In [0]:
a.max()

Функции argmin и argmax возвращают индекс минимального или максимального элемента:

In [0]:
a = np.array([2, 1, 9], float)
a.argmin()

In [0]:
a.argmax()

Для многомерных массивов каждая из функций может принять дополнительный аргумент axis и в зависимости от его значения выполнять функции по определенной оси, помещая результаты исполнения в массив:

In [0]:
a = np.array([[0, 2], [3, -1], [3, 5]], float)
a.mean(axis=0)

In [0]:
a.mean(axis=1)

In [0]:
a.min(axis=1)

In [0]:
a.max(axis=0)

Как и списки, массивы можно отсортировать:

In [0]:
a = np.array([6, 2, 5, -1, 0], float)
sorted(a)

In [0]:
a.sort()
a

Значения в массиве могут быть «сокращены», чтобы принадлежать заданному диапазону. Это тоже самое что применять min(max(x, minval), maxval) к каждому элементу x:

In [0]:
a = np.array([6, 2, 5, -1, 0], float)
a.clip(0, 5)

Уникальные элементы могут быть извлечены вот так:

In [0]:
a = np.array([1, 1, 4, 5, 5, 5, 7], float)
np.unique(a)

Для двухмерных массивов диагональ можно получить так:

In [0]:
a = np.array([[1, 2], [3, 4]], float)
a.diagonal()

## Операторы сравнения и тестирование значений

Булево сравнение может быть использовано для поэлементного сравнения массивов одинаковых длин. Возвращаемое значение это массив булевых True/False значений:



In [0]:
a = np.array([1, 3, 0], float)
b = np.array([0, 3, 2], float)
a > b

In [0]:
a == b

In [0]:
a <= b

Результат сравнения может быть сохранен в массиве:


In [0]:
c = a > b
c

Массивы могут быть сравнены с одиночным значением:


In [0]:
a = np.array([1, 3, 0], float)
a > 2

Операторы any и all могут быть использованы для определения истинны ли хотя бы один или все элементы соответственно:

In [0]:
c = np.array([ True, False, False], bool)
any(c)

In [0]:
all(c)

Комбинированные булевы выражения могут быть применены к массивам по принципу элемент — элемент используя специальные функции logical_and, logical_or и logical_not:

In [0]:
a = np.array([1, 3, 0], float)
np.logical_and(a > 0, a < 3)

In [0]:
b = np.array([True, False, True], bool)
np.logical_not(b)

In [0]:
c = np.array([False, True, False], bool)
np.logical_or(b, c)

Функция where создает новый массив из двух других массивов одинаковых длин используя булев фильтр для выбора межу двумя элементами. Базовый синтаксис: where(boolarray, truearray, falsearray):

In [0]:
a = np.array([1, 3, 0], float)
np.where(a != 0, a+1, 666)

С функцией where так же может быть реализовано «массовое сравнение»:

In [0]:
np.where(a > 0, 3, 2)

Некоторые функции дают возможность тестировать значения в массиве. Функция nonzero возвращает кортеж индексов ненулевых значений. Количество элементов в кортеже равно количеству осей в массиве:

In [0]:
a = np.array([[0, 1], [3, 0]], float)
a.nonzero()

Также можно проверить значения на конечность и NaN(not a number):

In [0]:
a = np.array([1, np.NaN, np.Inf], float)
a

In [0]:
array([  1.,  NaN,  Inf])
np.isnan(a)

In [0]:
np.isfinite(a)

Хотя здесь мы использовали константы numpy чтобы добавить значения NaN и бесконечность, они могут быть результатами применения стандартных математических операций.

## Выбор элементов массива и манипуляция с ними

Как и у списков, элементы массива можно получить используя операцию доступа по индексу. Однако, в отличии от списков, массивы также позволяют делать выбор элементов используя другие массивы. Это значит, что мы можем использовать массив для фильтрации специфических подмножеств элементов других массивов.

Булевы массивы могут быть использованы как массивы для фильтрации:

In [0]:
a = np.array([[6, 4], [5, 9]], float)
a >= 6

In [0]:
a[a >= 6]

Стоит заметить, что когда мы передаем булев массив a>=6 как индекс для операции доступа по индексу массива a, возвращаемый массив будет хранить только True значения. Также мы можем записать массив для фильтрации в переменную:

In [0]:
a = np.array([[6, 4], [5, 9]], float)
sel = (a >= 6)
a[sel]

Более замысловатая фильтрация может быть достигнута использованием булевых выражений:


In [0]:
a[np.logical_and(a > 5, a < 9)]
array([ 6.])

В придачу к булеву выбору, также можно использовать целочисленные массивы. В этом случае, целочисленный массив хранит индексы элементов, которые будут взяты из массива. Рассмотрим следующий одномерный пример:

In [0]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)
a[b]

Иными словами, когда мы используем b для получения элементов из a, мы берем 0-й, 0-й, 1-й, 3-й, 2-й и 1-й элементы a в этом порядке. Списки также могут быть использованы как массивы для фильтрации:

In [0]:
a = np.array([2, 4, 6, 8], float)
a[[0, 0, 1, 3, 2, 1]]

Для многомерных массивов, нам необходимо передать несколько одномерных целочисленных массивов в оператор доступа индексу (в нашем случае индексы - это массивы) для каждой оси. Потом каждый из массивов проходит такую последовательность: первый элемент соответствует индексу строки, который является первым элементом массива b, второй элемент соответствует индексу столбца, который является первым элементом массива c и так далее. Первый массив [2, 2] и второй [1, 4], имеем на выходе элементы с индексами [2, 1] и [2, 4]. Пример:


In [0]:
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b,c]

Специальная функция take доступна для выполнения выборки с целочисленными массивами. Это работает также как и использования оператора взятия по индексу:

In [0]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)
a.take(b)

Функция take также предоставляет аргумент axis (ось) для взятия подсекции многомерного массива вдоль какой-либо оси. Примечание: по строкам или столбцам для двумерных массивов.

In [0]:
a = np.array([[0, 1], [2, 3]], float)
b = np.array([0, 0, 1], int)
a.take(b, axis=0)

In [0]:
a.take(b, axis=1)

В противоположность к функции take есть функция put, которая будет брать значения из исходного массива и записывать их на специфические индексы в другом put-массиве.

In [0]:
a = np.array([0, 1, 2, 3, 4, 5], float)
b = np.array([9, 8, 7], float)
a.put([0, 3], b)
a

Заметим, что значение 7 из исходного массива b не было использовано, так как только 2 индекса [0, 3] указаны. Исходный массив будет повторен если необходимо в случае не соответствия длин:

In [0]:
a = np.array([0, 1, 2, 3, 4, 5], float)
a.put([0, 3], 5)
a

## Векторная и матричная математика

NumPy обеспечивает много функций для работы с векторами и матрицами. Функция dot возвращает скалярное произведение векторов:

In [0]:
a = np.array([1, 2, 3], float)
b = np.array([0, 1, 1], float)
np.dot(a, b)

Функция dot также может умножать матрицы:

In [0]:
a = np.array([[0, 1], [2, 3]], float)
b = np.array([2, 3], float)
c = np.array([[1, 1], [4, 0]], float)
a

In [0]:
np.dot(b, a)

In [0]:
np.dot(a, b)

In [0]:
np.dot(a, c)

In [0]:
np.dot(c, a)

NumPy также предоставляет набор встроенных функций и методов для работы с линейной алгеброй. Это всё можно найти в под-модуле linalg. Этими модулями также можно оперировать с вырожденными и невырожденными матрицами. Определитель матрицы ищется таким образом:

In [0]:
a = np.array([[4, 2, 0], [9, 3, 7], [1, 2, 1]], float)
a

In [0]:
np.linalg.det(a)

## Статистика

В придачу к функциям mean, var и std, NumPy предоставляет еще некоторые методы для работы со статистическими данными в массивах.
Медиана может быть найдена так:

In [0]:
a = np.array([1, 4, 3, 8, 9, 2, 3], float)
np.median(a)

Коэффициент корреляции для некоторых переменных, наблюдается несколько раз и может быть найден из массивов вида: [[x1, x2, ...], [y1, y2, ...], [z1, z2, ...], ...], где x, y, z это разные квантовые наблюдаемые и номера указывают количество «наблюдений»:

In [0]:
a = np.array([[1, 2, 1, 3], [5, 3, 1, 8]], float)
c = np.corrcoef(a)
c

Имеем возвращаемый массив c[i, j] который хранит корреляционный коэффициент для i-тых и j-тых квантовых наблюдаемых.
Аналогично, ковариационный момент может быть найден:

In [0]:
np.cov(a)

## Случайные числа

Важная часть каждой симуляции это способность генерировать случайные числа. Для этого мы используем встроенный в NumPy генератор псевдослучайных чисел в под-модуле random. Числа являются псевдо случайными, в том плане что, они сгенерированы детерминистически из порождающего элемента (seed number), но рассредоточены в статистическом сходстве с случайным образом. Для генерации NumPy использует особенный алгоритм который имеет название Mersenne Twister.
Задать порождающий элемент последовательности случайных чисел можно так:

In [0]:
np.random.seed(293423)

Seed это целое число. Каждая программа которая запускается с одинаковым seed`ом будет генерировать одинаковую последовательность чисел каждый раз. Это может быть полезно для отладки, но вообще нам не нужно задавать seed, на самом деле, когда мы запускаем программу несколько раз, мы хотим получать каждый раз разную последовательность чисел. Если эта команда не будет выполнена, то NumPy автоматически выбирает случайный seed (базирующийся на времени), который является разным при каждом запуске программы.
Массив из 5 случайных чисел из полуинтервала [0.0, 1.0) может быть сгенерирован так:

In [0]:
np.random.rand(5)

Функция rand может быть использована для генерации двумерных массивов, или можно использовать функцию reshape:

In [0]:
np.random.rand(2,3)

In [0]:
np.random.rand(6).reshape((2,3))

Для генерации единичного случайного числа на интервале [0.0, 1.0):

In [0]:
np.random.random()

Для генерации случайного целочисленного числа в диапазоне [min, max) используем функцию randint(min, max):

In [0]:
np.random.randint(5, 10)

В каждом нашем примере, мы генерировали числа из непрерывного равномерного распределения. NumPy также включает генераторы для других распределений, таких как: Бета, биномиальное, хи-квадрат, Дирихле, экспоненциальное, Фишера, Гамма, геометрическое, Гамбала, гипергеометрическое, Лапласа, логистическое, логнормальное, логарифмическое, мультиномиальное, многомерное нормальное, отрицательное биномиальное, нецентральное хи-квадрат, нецентральное Фишера, нормальное (Гаусса), Парето, Пуассона, степенное, Рэлея, Коши, Стьюдента, треугольное, Фон-Миса, Вальда, Вейбулла и Ципфа. Рассмотрим два примера.
Для генерации из дискретного распределения Пуассона при λ = 6.0,

In [0]:
np.random.poisson(6.0)

Для генерации числа из нормального распределения (Гаусса) при среднем значении μ = 1.5 и стандартной девиации σ = 4.0:

In [0]:
np.random.normal(1.5, 4.0)

Для получении числа из нормального распределения (μ = 0, σ = 1), без указания аргументов:

In [0]:
np.random.normal()

Для генерации нескольких значений используем аргумент size:

In [0]:
np.random.normal(size=5)

Модуль для генерации случайных чисел также может быть использован для случайного распределения значений в списке. Это может быть полезно если мы хотим случайно распределить значения в списке:

In [0]:
l = np.array(range(10), float)
l

In [0]:
np.random.shuffle(l)
l