# Библиотека NumPy

## Для чего она нужна:

- Инструменты для работы с массивами (array)
- Различные генераторы случайных чисел (тогда не нужен модуль **random** стандартной библиотеки)
- Математические функции (не нужен модуль **math** стандартной библиотеки)
- Некоторые базовые вещи из линейной алгебры

## Чем отличается **список** (list) от **массива** (array)?

- **Список** (базовый тип в Python) может содержать элементы **различных типов**, иметь **произвольную** сколь угодно сложную структуру.
- При этом производительность списков (скорость их обработки) ниже, чем нам бы хотелось. Особенно это чувствуется при работе с большими данными (миллионы элементов).
- Для обработки списков нам всегда нужен **for**-цикл, а for-циклы в Python работают медленно (если речь идёт о миллионах итераций, то это будет ощущаться).
- **Массив** (array) --- это новый тип данных, предоставляемый библиотекой NumPy.
- **Массив** --- это коллекция элементов **одного типа** (основное отличие!) произвольной длины. Массивы бывают одно-, двух- и многомерные, при этом размерность понимается в математическом смысле как размерность пространства.
- **Одномерный массив**, в отличие от списка, больше похож на **вектор** --- математический объект.
- **Двумерный массив** --- это **матрица** в математическом смысле.
- Для работы с массивами в NumPy реализовано множество встроенных функций, напоминающих математические операции над векторами и матрицами: поэлементное сложение, умножение на число, скалярное произведение, матричное произведение, норма и т. д.
- При обработке NumPy-массивов **не нужны** for-циклы. Их использование, вообще говоря, не рекомендуется из-за низкой производительности. Однако это становится критичным лишь при работе с большими данными либо если алгоритм является вычислительно трудоёмким.

## Импорт библиотеки

In [1]:
import numpy as np # np - это "псевдоним" (короткое имя), который в дальнейшем используется для вызова встроенных функций

## Создание массивов вручную

Для создания массива мы должны вызвать функцию **array** библиотеки NumPy. Так как мы используем псевдоним np, то это будет выглядеть как np.array(...). В качестве аргумента передаём обычный список значений через запятую в квадратных скобках.

In [3]:
a = np.array([1, 0.5, -2, 4])
b = np.array([1, 1, -1, -1])
print(a, b)

[ 1.   0.5 -2.   4. ] [ 1  1 -1 -1]


a и b - одномерные массивы. Проверим это с помощью атрибута "размерность" --- **ndim**:

In [12]:
a.ndim

1

У массива также есть атрибут **size** --- это просто количество элементов (аналог len() для списков):

In [7]:
a.size

4

Наконец, у массивов есть атрибут **shape** ("форма"). Он возвращает количество элементов по каждой размерности:

In [10]:
a.shape

(4,)

Вспоминаем, что (4,) --- это *кортеж* из одного элемента. Значит, массив одномерный длины 4.

Мы можем также проверить тип объекта a:

In [59]:
type(a)

numpy.ndarray

А можем проверить тип элементов вектора a:

In [60]:
a.dtype

dtype('float64')

Для создания двумерного массива просто передаём в функцию np.array список из списков (это есть список строк матрицы, как и раньше).

In [0]:
M = np.array([[1, 2], [3, 4]])
print(M)

Проверим уже известные нам атрибуты (ndim, size и shape) для матрицы M:

In [14]:
print(M.ndim, M.size, M.shape)

2 4 (2, 2)


Заметим, что size выдаёт общее число элементов в матрице (len(M) для списков, напомним, выдавал лишь количество строк).

### Векторы и матрицы специального вида

In [52]:
np.zeros(10) # вектор из нулей длины 10

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [53]:
np.zeros((3, 3)) # матрица 3х3 из нулей

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [55]:
np.ones(10) # вектор из единиц

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [56]:
np.ones((3, 3)) # матрица из единиц

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [48]:
np.eye(5) # единичная матрица размерности 5

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [58]:
np.diag([2, 3, -6]) # диагональная матрица с заданной главной диагональю

array([[ 2,  0,  0],
       [ 0,  3,  0],
       [ 0,  0, -6]])

## Операции над векторами и матрицами

Рассмотрим два вектора одной длины.

In [15]:
a = np.array([1, 0.5, -2, 4])
b = np.array([1, 1, -1, -1])

Все **арифметические операции** над векторами работают **поэлементно**. Проверим:

In [16]:
a + b # поэлементное сложение

array([ 2. ,  1.5, -3. ,  3. ])

In [17]:
a - b # поэлементное вычитание

array([ 0. , -0.5, -1. ,  5. ])

In [18]:
a * b # поэлементное умножение

array([ 1. ,  0.5,  2. , -4. ])

In [19]:
a / b # поэлементное деление

array([ 1. ,  0.5,  2. , -4. ])

Почему так происходит? Чтобы не использовать for-циклы! (Подумайте, как бы Вы сделали то же самое со списками.)

Однако это не всё. Оказывается, если к вектору применить **любую** математическую функцию, она будет применяться поэлементно.

In [20]:
np.abs(a) # модуль каждого элемента вектора

array([ 1. ,  0.5,  2. ,  4. ])

In [21]:
np.sin(a) # синус каждого элемента

array([ 0.84147098,  0.47942554, -0.90929743, -0.7568025 ])

In [22]:
a ** 2 # квадрат каждого элемента

array([  1.  ,   0.25,   4.  ,  16.  ])

In [23]:
np.sqrt(a) # квадратный корень (комплексные значения не вычисляются, а заменяются на nan - not a number, "не число")

  if __name__ == '__main__':


array([ 1.        ,  0.70710678,         nan,  2.        ])

А как насчёт скалярного произведения и модуля вектора?

In [24]:
np.dot(a, b) # скалярное произведение (по-английски dot product)

-0.5

In [26]:
np.linalg.norm(a) # модуль (норма) вектора

4.6097722286464435

Обратите внимание: норма находится не в самой библиотеке np, а в модуле linalg этой библиотеки.

In [27]:
a.dot(b) # то же самое, что np.dot(a, b)

-0.5

Для матриц также все математические функции применяются поэлементно. Нужно быть внимательным с умножением: A * B --- это не умножение матриц, а поэлементное умножение!

In [28]:
X = np.array([[1, 2], [3, 4]])
Y = np.array([[1, 1], [-1, -1]])

In [29]:
X * Y

array([[ 1,  2],
       [-3, -4]])

Чтобы умножить матрицы "по фэн-шую", используем всё ту же функцию dot:

In [30]:
X.dot(Y)

array([[-1, -1],
       [-1, -1]])

In [31]:
np.dot(X, Y)

array([[-1, -1],
       [-1, -1]])

## Некоторые полезные вещи из линейной алгебры

In [40]:
np.trace(X) # след матрицы

5

In [44]:
np.diag(X) # главная диагональ

array([1, 4])

In [45]:
X.T # транспонирование

array([[1, 3],
       [2, 4]])

In [47]:
np.linalg.inv(X) # обратная матрица

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [35]:
np.linalg.det(X) # определитель

-2.0000000000000004

In [43]:
np.linalg.matrix_rank(X) # ранг

2

In [57]:
A = np.array([[1, 2], [2, 5]])
b = np.array([1, 1])
x = np.linalg.solve(A, b) # решение СЛАУ A*x = b
x

array([ 3., -1.])

In [61]:
np.linalg.eig(A) # собственные значения и векторы матрицы A

(array([ 0.17157288,  5.82842712]), array([[-0.92387953, -0.38268343],
        [ 0.38268343, -0.92387953]]))

Как "добраться" до собственных значений и векторов?

Как видим, функция eig выдаёт *кортеж* из двух объектов: первый из них вектор, второй --- матрица.

In [62]:
eig_values = np.linalg.eig(A)[0] # первый элемент - собственные значения
print('Собственные значения:', eig_values[0], 'и', eig_values[1])

Собственные значения: 0.171572875254 и 5.82842712475


Собственные векторы (нормированные) --- это столбцы второго объекта-матрицы. Первый столбец соответствует первому с. з., второй --- второму.

In [63]:
eig_vectors = np.linalg.eig(A)[1]
print('Нормированные собственные векторы:', eig_vectors[:, 0], 'и', eig_vectors[:, 1])

Нормированные собственные векторы: [-0.92387953  0.38268343] и [-0.38268343 -0.92387953]


## Доступ и выборка элементов векторов и матриц

С векторами всё привычно и просто. Элементы нумеруются с нуля, для доступа к элементам используются индексы в квадратных скобках. Отрицательные индексы и срезы остаются в силе.

In [64]:
a = np.array([1, 2, -4, 3.5])

In [65]:
a[0]

1.0

In [66]:
a[-1]

3.5

In [67]:
a[:3]

array([ 1.,  2., -4.])

In [69]:
a[-3:]

array([ 2. , -4. ,  3.5])

In [70]:
a[::-1]

array([ 3.5, -4. ,  2. ,  1. ])

Для NumPy-матриц есть некоторые отличия в индексировании.

In [71]:
M = np.array([[1, 2], [3, 4]])

In [74]:
M[0][0] # привычная запись

1

In [73]:
M[0, 0] # более короткая запись

1

In [76]:
M[0] # вся первая строка

array([1, 2])

In [77]:
M[0, :] # тоже вся первая строка

array([1, 2])

In [78]:
M[:, 1] # весь второй столбец

array([2, 4])

Запись индексов через запятую принята в популярной системе Matlab, поэтому её решили сохранить. Однако и привычное двойное индексирование здесь работает.

Теперь рассмотрим более интересные и мощные вещи.

In [79]:
x = np.array([2, -1, -4, 5, 7])

In [81]:
x[x > 0] # выбор элементов по логическому условию

array([2, 5, 7])

In [82]:
x[abs(x) > 3]

array([-4,  5,  7])

In [87]:
x[(x < 0) & (abs(x) > 3)] # составное условие

array([-4])

In [89]:
M = np.array([[1, 2, 3], [-1, 2, 5], [1, 0.5, 0.5]])
print(M)

[[ 1.   2.   3. ]
 [-1.   2.   5. ]
 [ 1.   0.5  0.5]]


In [90]:
M[M[:, 0] == 1] # выбор только тех строк, для которых в первом столбце значение 1

array([[ 1. ,  2. ,  3. ],
       [ 1. ,  0.5,  0.5]])

Заметьте, что даже для таких, казалось бы, сложных вещей мы до сих пор ни разу не воспользовались **for**-циклом! Это и есть одна из целей библиотеки NumPy.