<a href="https://colab.research.google.com/github/mts-machines-learn/ml-course-dec2019/blob/dev/3.%20%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5%20%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8/numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Библиотека numpy


## Одномерные массивы

In [0]:
import numpy as np

Можно преобразовать список в массив.

In [0]:
a = np.array([1, 5, 10])
a, type(a)

(array([ 1,  5, 10]), numpy.ndarray)

`print` печатает массивы в удобной форме.

In [0]:
print(a)

[ 1  5 10]


Наш массив одномерный.

In [0]:
a.ndim

1

В $n$-мерном случае возвращается кортеж размеров по каждой координате.

In [0]:
a.shape

(3,)

`size` - это полное число элементов в массиве; `len` - размер по первой координате (в 1-мерном случае это то же самое).

In [0]:
len(a), a.size

(3, 3)

`numpy` предоставляет несколько типов для целых (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`).

In [0]:
a.dtype, a.dtype.name, a.itemsize

(dtype('int64'), 'int64', 8)

Индексировать массив можно обычным образом.

In [0]:
a[1]

5

Массивы - изменяемые объекты.

In [0]:
a[1] = 3
print(a)

[ 1  3 10]


Массивы, разумеется, можно использовать в `for` циклах. Но при этом теряется главное преимущество `numpy` - быстродействие. Всегда, когда это возможно, лучше использовать операции над массивами как едиными целыми.

In [0]:
for i in a:
    print(i)

1
3
10


Массив чисел с плавающей точкой.

In [0]:
b = np.array([1., 2, 5])
b.dtype

dtype('float64')

Точно такой же массив.

In [0]:
c = np.array([1, 2, 5], dtype=np.float64)
print(c)

[1. 2. 5.]


Преобразование данных

In [0]:
print(c.dtype)
print(c.astype(int))
print(c.astype(str))

float64
[1 2 5]
['1.0' '2.0' '5.0']


Массивы, заполненные нулями или единицами. Часто лучше сначала создать такой массив, а потом присваивать значения его элементам.

In [0]:
a = np.zeros(3)
print(a)

[0. 0. 0.]


In [0]:
b = np.ones(3, dtype=np.int64)
print(b)

[1 1 1]


Если нужно создать массив, заполненный нулями, длины другого массива, то можно использовать конструкцию

In [0]:
np.zeros_like(b)

array([0, 0, 0])

Функция `arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда *(конец-начало)/шаг* - целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.

In [0]:
a = np.arange(0, 10, 2)
print(a)

[0 2 4 6 8]


In [0]:
b = np.arange(0., 10, 2)
print(b)

[0. 2. 4. 6. 8.]


Последовательности чисел с постоянным шагом можно также создавать функцией `linspace`. Начало и конец диапазона включаются; последний аргумент - число точек.

In [0]:
a = np.linspace(0, 8, 5)
print(a)

[0. 2. 4. 6. 8.]


Последовательность чисел с постоянным шагом по логарифмической шкале от $10^0$ до $10^1$.

In [0]:
b = np.logspace(0, 1, 5)
print(b)

[ 1.          1.77827941  3.16227766  5.62341325 10.        ]


## Операции над одномерными массивами

Арифметические операции проводятся поэлементно.

In [0]:
print(a)
print(b)

[0. 2. 4. 6. 8.]
[ 1.          1.77827941  3.16227766  5.62341325 10.        ]


In [0]:
print(a + b)

[ 1.          3.77827941  7.16227766 11.62341325 18.        ]


In [0]:
print(a - b)

[-1.          0.22172059  0.83772234  0.37658675 -2.        ]


In [0]:
print(a * b)

[ 0.          3.55655882 12.64911064 33.74047951 80.        ]


In [0]:
print(a / b)

[0.         1.12468265 1.26491106 1.06696765 0.8       ]


In [0]:
print(a ** 2)

[ 0.  4. 16. 36. 64.]


Когда операнды разных типов, они приводятся к большему типу.

In [0]:
i = np.ones(5, dtype=np.int64)
print(a + i)

[1. 3. 5. 7. 9.]


`numpy` содержит элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (`ufunc`).

In [0]:
np.sin, type(np.sin)

(<ufunc 'sin'>, numpy.ufunc)

In [0]:
print(np.sin(a))

[ 0.          0.90929743 -0.7568025  -0.2794155   0.98935825]


Один из операндов может быть скаляром, а не массивом.

In [0]:
print(a + 1)

[1. 3. 5. 7. 9.]


In [0]:
print(2 * a)

[ 0.  4.  8. 12. 16.]


Сравнения дают булевы массивы.

In [0]:
print(a > b)

[False  True  True  True False]


In [0]:
print(a == b)

[False False False False False]


In [0]:
c = a > 5
print(c)

[False False False  True  True]


Кванторы "существует" и "для всех".

In [0]:
np.any(c), np.all(c)

(True, False)

Модификация на месте.

In [0]:
a += 1
print(a)

[1. 3. 5. 7. 9.]


In [0]:
b *= 2
print(b)

[ 2.          3.55655882  6.32455532 11.2468265  20.        ]


In [0]:
b /= a
print(b)

[2.         1.18551961 1.26491106 1.6066895  2.22222222]


При выполнении операций над массивами деление на 0 не возбуждает исключения, а даёт значения `np.nan` или `np.inf`.

In [0]:
print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))

[  0.  nan  inf -inf]


  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


In [0]:
np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

(nan, inf, nan, 0.0)

Сумма и произведение всех элементов массива; максимальный и минимальный элемент; среднее и среднеквадратичное отклонение.

In [0]:
print(b)

[2.         1.18551961 1.26491106 1.6066895  2.22222222]


In [0]:
b.sum(), b.prod(), b.max(), b.min(), b.mean(), b.std()

(8.279342393526044,
 10.708241812210389,
 2.2222222222222223,
 1.1855196066926152,
 1.6558684787052087,
 0.4039003342660745)

Имеются встроенные функции

In [0]:
print(np.sqrt(b))
print(np.exp(b))
print(np.log(b))
print(np.sin(b))
print(np.e, np.pi)

[1.41421356 1.08881569 1.12468265 1.26755256 1.49071198]
[7.3890561  3.27238673 3.54277764 4.98627681 9.22781435]
[0.69314718 0.17018117 0.23500181 0.47417585 0.7985077 ]
[0.90929743 0.92669447 0.95358074 0.99935591 0.79522006]
2.718281828459045 3.141592653589793


Иногда бывает нужно использовать частичные (кумулятивные) суммы.

In [0]:
print(b.cumsum())

[2.         3.18551961 4.45043067 6.05712017 8.27934239]


Функция `sort` возвращает отсортированную копию, метод `sort` сортирует на месте.

In [0]:
print(np.sort(b))
print(b)

[1.18551961 1.26491106 1.6066895  2.         2.22222222]
[2.         1.18551961 1.26491106 1.6066895  2.22222222]


In [0]:
b.sort()
print(b)

[1.18551961 1.26491106 1.6066895  2.         2.22222222]


Объединение массивов.

In [0]:
print(a)
print(b)

[1. 3. 5. 7. 9.]
[1.18551961 1.26491106 1.6066895  2.         2.22222222]


In [0]:
a = np.hstack((a, b))
print(a)

[1.         3.         5.         7.         9.         1.18551961
 1.26491106 1.6066895  2.         2.22222222]


Расщепление массива в позициях 3 и 6.

In [0]:
np.hsplit(a, [3, 6])

[array([1., 3., 5.]),
 array([7.        , 9.        , 1.18551961]),
 array([1.26491106, 1.6066895 , 2.        , 2.22222222])]

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [0]:
a = np.delete(a, [5, 7])
print(a)

[1.         3.         5.         7.         9.         1.26491106
 2.         2.22222222]


In [0]:
a = np.insert(a, 2, [0, 0])
print(a)

[1.         3.         0.         0.         5.         7.
 9.         1.26491106 2.         2.22222222]


In [0]:
a = np.append(a, [1, 2, 3])
print(a)

[1.         3.         0.         0.         5.         7.
 9.         1.26491106 2.         2.22222222 1.         2.
 3.        ]


Есть несколько способов индексации массива. Вот обычный индекс.

In [0]:
a = np.linspace(0, 1, 11)
print(a)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [0]:
b = a[2]
print(b)

0.2


Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.

In [0]:
b = a[2:6]
print(b)

[0.2 0.3 0.4 0.5]


In [0]:
b[0] = -0.2
print(b)

[-0.2  0.3  0.4  0.5]


In [0]:
print(a)

[ 0.   0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]


Диапазон с шагом 2.

In [0]:
b = a[1:10:2]
print(b)

[0.1 0.3 0.5 0.7 0.9]


In [0]:
b[0] = -0.1
print(a)

[ 0.  -0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]


Массив в обратном порядке.

In [0]:
b = a[::-1]
print(b)

[ 1.   0.9  0.8  0.7  0.6  0.5  0.4  0.3 -0.2 -0.1  0. ]


Подмассиву можно присвоить значение - массив правильного размера или скаляр.

In [0]:
a[1:10:3] = 0
print(a)

[ 0.   0.  -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Тут опять создаётся только новый заголовок, указывающий на те же данные.

In [0]:
b = a[:]
b[1] = 0.1
print(a)

[ 0.   0.1 -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Чтобы скопировать и данные массива, нужно использовать метод `copy`.

In [0]:
b = a.copy()
b[2] = 0
print(b)
print(a)

[0.  0.1 0.  0.3 0.  0.5 0.6 0.  0.8 0.9 1. ]
[ 0.   0.1 -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Можно задать список индексов.

In [0]:
print(a[[2, 3, 5]])

[-0.2  0.3  0.5]


Можно задать булев массив той же величины.

In [0]:
b = a > 0
print(b)

[False  True False  True False  True  True False  True  True  True]


In [0]:
print(a[b])

[0.1 0.3 0.5 0.6 0.8 0.9 1. ]


## 2-мерные массивы

In [0]:
a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)

[[ 0.  1.]
 [-1.  0.]]


In [0]:
a.ndim

2

In [0]:
a.shape

(2, 2)

In [0]:
len(a), a.size

(2, 4)

In [0]:
a[1, 0]

-1.0

Атрибуту `shape` можно присвоить новое значение - кортеж размеров по всем координатам. Получится новый заголовок массива; его данные не изменятся.

In [0]:
b = np.linspace(0, 3, 4)
print(b)

[0. 1. 2. 3.]


In [0]:
b.shape

(4,)

In [0]:
b.shape = 2, 2
print(b)

[[0. 1.]
 [2. 3.]]


Можно растянуть в одномерный массив

In [0]:
print(b.ravel())

[0. 1. 2. 3.]


Арифметические операции поэлементные

In [0]:
print(a)

[[ 0.  1.]
 [-1.  0.]]


In [0]:
print(a + 1)
print(a * 2)
print(a + [0, 1])  # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T)  # .T - транспонирование
print(a + b)

[[1. 2.]
 [0. 1.]]
[[ 0.  2.]
 [-2.  0.]]
[[ 0.  2.]
 [-1.  1.]]
[[0. 1.]
 [1. 2.]]
[[0. 2.]
 [1. 3.]]


Поэлементное и матричное умножение.

In [0]:
print(a * b)

[[ 0.  1.]
 [-2.  0.]]


In [0]:
print(a @ b)

[[ 2.  3.]
 [ 0. -1.]]


In [0]:
print(b @ a)

[[-1.  0.]
 [-3.  2.]]


Умножение матрицы на вектор.

In [0]:
print(b)

[[0. 1.]
 [2. 3.]]


In [0]:
v = np.array([1, -1], dtype=np.float64)
print(b @ v)

[-1. -1.]


In [0]:
print(v @ b)

[-2. -2.]


Единичная матрица.

In [0]:
I = np.eye(4)
print(I)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Метод `reshape` делает то же самое, что присваивание атрибуту `shape`.

In [0]:
print(I.reshape(16))

[1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1.]


In [0]:
print(I.reshape(2, 8))

[[1. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 1.]]


Строка.

In [0]:
print(I[1])

[0. 1. 0. 0.]


Цикл по строкам.

In [0]:
for row in I:
    print(row)

[1. 0. 0. 0.]
[0. 1. 0. 0.]
[0. 0. 1. 0.]
[0. 0. 0. 1.]


Столбец.

In [0]:
print(I[:, 2])

[0. 0. 1. 0.]


Подматрица.

In [0]:
print(I[0:2, 1:3])

[[0. 0.]
 [1. 0.]]


Можно построить двумерный массив из функции.

In [0]:
def f(i, j):
    print(i)
    print(j)
    return 10 * i + j

print(np.fromfunction(f, (4, 4), dtype=np.int64))

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]
[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[ 0  1  2  3]
 [10 11 12 13]
 [20 21 22 23]
 [30 31 32 33]]


Транспонированная матрица.

In [0]:
print(b.T)

[[0. 2.]
 [1. 3.]]


Соединение матриц по горизонтали и по вертикали.

In [0]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

[[0 1]
 [2 3]]
[[4 5 6]
 [7 8 9]]
[[4 5]
 [6 7]
 [8 9]]


In [0]:
print(np.hstack((a, b)))

[[0 1 4 5 6]
 [2 3 7 8 9]]


In [0]:
print(np.vstack((a, c)))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


Сумма всех элементов; суммы столбцов; суммы строк.

In [0]:
print(b)

[[4 5 6]
 [7 8 9]]


In [0]:
print(b.sum())
print(b.sum(axis=0))
print(b.sum(axis=1))

39
[11 13 15]
[15 24]


Аналогично работают `prod`, `max`, `min` и т.д.

In [0]:
print(b.max())
print(b.max(axis=0))
print(b.min(axis=1))

9
[7 8 9]
[4 7]


След - сумма диагональных элементов.

In [0]:
np.trace(a)

3

## Многомерные массивы

In [0]:
X = np.arange(24).reshape(2, 3, 4)
print(X)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


Суммирование (аналогично остальные операции)

In [0]:
# суммируем только по нулевой оси, то есть для фиксированных j и k суммируем только элементы с индексами (*, j, k)
print(X.sum(axis=0))
# суммируем сразу по двум осям, то есть для фиксированной i суммируем только элементы с индексами (i, *, *)
print(X.sum(axis=(1, 2)))

[[12 14 16 18]
 [20 22 24 26]
 [28 30 32 34]]
[ 66 210]


## Линейная алгебра

In [0]:
print(a)

[[0 1]
 [2 3]]


In [0]:
np.linalg.det(a)

-2.0

Обратная матрица.

In [0]:
a1 = np.linalg.inv(a)
print(a1)

[[-1.5  0.5]
 [ 1.   0. ]]


In [0]:
print(a @ a1)
print(a1 @ a)

[[1. 0.]
 [0. 1.]]
[[1. 0.]
 [0. 1.]]


Решение линейной системы $au=v$.

In [0]:
v = np.array([0, 1], dtype=np.float64)


In [0]:
u = np.linalg.solve(a, v)
print(u)

[0.5 0. ]


Проверим.

In [0]:
print(a1 @ v)

[0.5 0. ]


In [0]:
print(a @ u - v)

[0. 0.]


Собственные значения и собственные векторы: $a u_i = \lambda_i u_i$. `l` - одномерный массив собственных значений $\lambda_i$, столбцы матрицы $u$ - собственные векторы $u_i$.

In [0]:
l, u = np.linalg.eig(a)
print(l)
print(u)

[-0.56155281  3.56155281]
[[-0.87192821 -0.27032301]
 [ 0.48963374 -0.96276969]]


Проверим.

In [0]:
for i in range(2):
    print(a @ u[:, i] - l[i] * u[:, i])

[0.00000000e+00 1.66533454e-16]
[ 0.0000000e+00 -4.4408921e-16]


Функция `diag` от одномерного массива строит диагональную матрицу; от квадратной матрицы - возвращает одномерный массив её диагональных элементов.

In [0]:
L = np.diag(l)
print(L)
print(np.diag(L))

[[-0.56155281  0.        ]
 [ 0.          3.56155281]]
[-0.56155281  3.56155281]


Все уравнения $a u_i = \lambda_i u_i$ можно собрать в одно матричное уравнение $a u = u \Lambda$, где $\Lambda$ - диагональная матрица с собственными значениями $\lambda_i$ по диагонали.

In [0]:
print(a @ u - u @ L)

[[ 0.00000000e+00  0.00000000e+00]
 [ 1.66533454e-16 -4.44089210e-16]]


Поэтому $u^{-1} a u = \Lambda$.

In [0]:
print(np.linalg.inv(u) @ a @ u)

[[-5.61552813e-01  2.77555756e-17]
 [-2.22044605e-16  3.56155281e+00]]


## Сохранение в файл и чтение из файла

In [0]:
x = np.arange(0, 25, 0.5).reshape((5, 10))

# Сохраняем в файл example.txt данные x в формате с двумя точками после запятой и разделителем ';'
np.savetxt('example.txt', x, fmt='%.2f', delimiter=';')

Получится такой файл

In [0]:
! cat example.txt

0.00;0.50;1.00;1.50;2.00;2.50;3.00;3.50;4.00;4.50
5.00;5.50;6.00;6.50;7.00;7.50;8.00;8.50;9.00;9.50
10.00;10.50;11.00;11.50;12.00;12.50;13.00;13.50;14.00;14.50
15.00;15.50;16.00;16.50;17.00;17.50;18.00;18.50;19.00;19.50
20.00;20.50;21.00;21.50;22.00;22.50;23.00;23.50;24.00;24.50


Теперь его можно прочитать

In [0]:
x = np.loadtxt('example.txt', delimiter=';')
print(x)

[[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5]
 [ 5.   5.5  6.   6.5  7.   7.5  8.   8.5  9.   9.5]
 [10.  10.5 11.  11.5 12.  12.5 13.  13.5 14.  14.5]
 [15.  15.5 16.  16.5 17.  17.5 18.  18.5 19.  19.5]
 [20.  20.5 21.  21.5 22.  22.5 23.  23.5 24.  24.5]]


In [0]:
np.save('x.npy', x)

In [0]:
x = np.load('x.npy')
print(x)

[[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5]
 [ 5.   5.5  6.   6.5  7.   7.5  8.   8.5  9.   9.5]
 [10.  10.5 11.  11.5 12.  12.5 13.  13.5 14.  14.5]
 [15.  15.5 16.  16.5 17.  17.5 18.  18.5 19.  19.5]
 [20.  20.5 21.  21.5 22.  22.5 23.  23.5 24.  24.5]]


## Производительность numpy

Посмотрим на простой пример --- сумма первых $10^{8}$ чисел.

In [3]:
%%time

sum_value = 0
for i in range(10 ** 8):
    sum_value += i
print(sum_value)

4999999950000000
CPU times: user 10.4 s, sys: 4 ms, total: 10.4 s
Wall time: 10.5 s


Немного улучшеный код

In [4]:
%%time

sum_value = sum(range(10 ** 8))
print(sum_value)

4999999950000000
CPU times: user 1.76 s, sys: 2 ms, total: 1.76 s
Wall time: 1.76 s


Код с использованием функций библиотеки numpy

In [5]:
%%time

sum_value = np.arange(10 ** 8).sum()
print(sum_value)

4999999950000000
CPU times: user 223 ms, sys: 332 ms, total: 555 ms
Wall time: 565 ms


Простой и понятный код работает в $30$ раз быстрее!