In [2]:
import numpy as np

# Библиотека numpy

Пакет `numpy` предоставляет $n$-мерные однородные массивы (все элементы одного типа); в них нельзя вставить или удалить элемент в произвольном месте. В `numpy` реализовано много операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то это будет столь же эффективно, как в `C` или `matlab` - львиная доля времени тратится в библиотечных функциях, написанных на `C`.

*Замечание.* Модуль `numpy.random` не рассматривается целенаправленно. Вместо него на следующем занятии мы будем изучать модуль `scipy.stats`, который больше подходит под наши задачи.

## 1. Одномерные массивы

#### 1.1 Типы массивов, атрибуты

Можно преобразовать список в массив.

In [3]:
a = np.array([0, 2, 1])
a, type(a)

(array([0, 2, 1]), numpy.ndarray)

`print` печатает массивы в удобной форме.

In [4]:
print(a)

[0 2 1]


Класс `ndarray` имеет много методов.

In [None]:
set(dir(a)) - set(dir(object))

Наш массив одномерный.

In [6]:
a.ndim

1

В $n$-мерном случае возвращается кортеж размеров по каждой координате.

In [7]:
a.shape

(3,)

`size` - это полное число элементов в массиве; `len` - размер по первой координате (в 1-мерном случае это то же самое).

In [8]:
len(a), a.size

(3, 3)

`numpy` предоставляет несколько типов для целых (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`).

In [9]:
a.dtype, a.dtype.name, a.itemsize

(dtype('int64'), 'int64', 8)

Массив чисел с плавающей точкой.

In [10]:
b = np.array([0., 2, 1])
b.dtype

dtype('float64')

Точно такой же массив.

In [11]:
c = np.array([0, 2, 1], dtype=np.float64)
print(c)

[0. 2. 1.]


Преобразование данных

In [12]:
print(c.dtype)
print(c.astype(int))
print(c.astype(str))

float64
[0 2 1]
['0.0' '2.0' '1.0']


#### 1.2 Индексация

Индексировать массив можно обычным образом.

In [13]:
a[1]

2

Массивы - изменяемые объекты.

In [14]:
a[1] = 3
print(a)

[0 3 1]


Массивы, разумеется, можно использовать в `for` циклах. Но при этом теряется главное преимущество `numpy` - быстродействие. Всегда, когда это возможно, лучше использовать операции над массивами как едиными целыми.

In [15]:
for i in a:
    print(i)

0
3
1


**Упражнение:** создайте numpy-массив, состоящий из первых пяти простых чисел, выведите его тип и размер:

In [16]:
tmp_arr = np.array([2, 3, 5, 7, 11])
tmp_arr.shape, tmp_arr.dtype.name

((5,), 'int64')

#### 1.3 Создание массивов

Массивы, заполненные нулями или единицами. Часто лучше сначала создать такой массив, а потом присваивать значения его элементам.

In [17]:
a = np.zeros(3)
b = np.ones(3, dtype=np.int64)
print(a)
print(b)

[0. 0. 0.]
[1 1 1]


Если нужно создать массив, заполненный нулями, длины и типа другого массива, то можно использовать конструкцию

In [18]:
np.zeros_like(b)

array([0, 0, 0])

Функция `arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда *(конец-начало)/шаг* - целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.

In [19]:
a = np.arange(0, 9, 2)
print(a)

[0 2 4 6 8]


In [20]:
b = np.arange(0., 9, 2)
print(b)

[0. 2. 4. 6. 8.]


Последовательности чисел с постоянным шагом можно также создавать функцией `linspace`. Начало и конец диапазона включаются; последний аргумент - число точек.

In [21]:
a = np.linspace(0, 8, 5)
print(a)

[0. 2. 4. 6. 8.]


**Упражнение:** создайте и выведите последовательность чисел от 10 до 20 с постоянным шагом, длина последовательности - 21.

In [22]:
tmp_array = np.linspace(10, 20, 21)
tmp_array

array([10. , 10.5, 11. , 11.5, 12. , 12.5, 13. , 13.5, 14. , 14.5, 15. ,
       15.5, 16. , 16.5, 17. , 17.5, 18. , 18.5, 19. , 19.5, 20. ])

Последовательность чисел с постоянным шагом по логарифмической шкале от $10^0$ до $10^1$.

In [23]:
b = np.logspace(0, 1, 5)
print(b)

[ 1.          1.77827941  3.16227766  5.62341325 10.        ]


## 2. Операции над одномерными массивами

#### 2.1 Математические операции

Арифметические операции проводятся поэлементно.

In [24]:
a

array([0., 2., 4., 6., 8.])

In [25]:
b

array([ 1.        ,  1.77827941,  3.16227766,  5.62341325, 10.        ])

In [26]:
print(a + b)

[ 1.          3.77827941  7.16227766 11.62341325 18.        ]


In [27]:
print(a - b)

[-1.          0.22172059  0.83772234  0.37658675 -2.        ]


In [28]:
print(a * b)

[ 0.          3.55655882 12.64911064 33.74047951 80.        ]


In [29]:
print(a / b)

[0.         1.12468265 1.26491106 1.06696765 0.8       ]


In [30]:
print(a ** 2)

[ 0.  4. 16. 36. 64.]


Когда операнды разных типов, они приводятся к большему типу.

In [31]:
i = np.ones(5, dtype=np.int64)
print(a + i)

[1. 3. 5. 7. 9.]


`numpy` содержит элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (`ufunc`).

In [32]:
np.sin, type(np.sin)

(<ufunc 'sin'>, numpy.ufunc)

In [33]:
print(np.sin(a))

[ 0.          0.90929743 -0.7568025  -0.2794155   0.98935825]


Один из операндов может быть скаляром, а не массивом.

In [34]:
print(a + 1)

[1. 3. 5. 7. 9.]


In [35]:
print(2 * a)

[ 0.  4.  8. 12. 16.]


Сравнения дают булевы массивы.

In [36]:
print(a > b)

[False  True  True  True False]


In [37]:
print(a == b)

[False False False False False]


In [38]:
c = a > 5
print(c)

[False False False  True  True]


Кванторы "существует" и "для всех".

In [39]:
np.any(c), np.all(c)

(True, False)

Модификация на месте.

In [40]:
a

array([0., 2., 4., 6., 8.])

In [41]:
a += 1
print(a)

[1. 3. 5. 7. 9.]


In [42]:
b

array([ 1.        ,  1.77827941,  3.16227766,  5.62341325, 10.        ])

In [43]:
b *= 2
print(b)

[ 2.          3.55655882  6.32455532 11.2468265  20.        ]


In [44]:
b /= a
print(b)

[2.         1.18551961 1.26491106 1.6066895  2.22222222]


При выполнении операций над массивами деление на 0 не возбуждает исключения, а даёт значения `np.nan` или `np.inf`.

In [45]:
print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))

[  0.  nan  inf -inf]


  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


In [46]:
np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

(nan, inf, nan, 0.0)

Сумма и произведение всех элементов массива; максимальный и минимальный элемент; среднее и среднеквадратичное отклонение.

In [47]:
b

array([2.        , 1.18551961, 1.26491106, 1.6066895 , 2.22222222])

In [48]:
b.sum(), b.prod(), b.max(), b.min(), b.mean(), b.std()

(8.279342393526044,
 10.708241812210389,
 2.2222222222222223,
 1.1855196066926152,
 1.6558684787052087,
 0.4039003342660745)

Имеются встроенные функции

In [49]:
print(np.sqrt(b))
print(np.exp(b))
print(np.log(b))
print(np.sin(b))
print(np.e, np.pi)

[1.41421356 1.08881569 1.12468265 1.26755256 1.49071198]
[7.3890561  3.27238673 3.54277764 4.98627681 9.22781435]
[0.69314718 0.17018117 0.23500181 0.47417585 0.7985077 ]
[0.90929743 0.92669447 0.95358074 0.99935591 0.79522006]
2.718281828459045 3.141592653589793


Иногда бывает нужно использовать частичные (кумулятивные) суммы. В нашем курсе такое пригодится.

In [50]:
print(b.cumsum())

[2.         3.18551961 4.45043067 6.05712017 8.27934239]


#### 2.2 Сортировка, изменение массивов

Функция `sort` возвращает отсортированную копию, метод `sort` сортирует на месте.

In [51]:
b

array([2.        , 1.18551961, 1.26491106, 1.6066895 , 2.22222222])

In [52]:
print(np.sort(b))
print(b)

[1.18551961 1.26491106 1.6066895  2.         2.22222222]
[2.         1.18551961 1.26491106 1.6066895  2.22222222]


In [53]:
b.sort()
print(b)

[1.18551961 1.26491106 1.6066895  2.         2.22222222]


Объединение массивов.

In [54]:
a

array([1., 3., 5., 7., 9.])

In [55]:
b

array([1.18551961, 1.26491106, 1.6066895 , 2.        , 2.22222222])

In [56]:
a = np.hstack((a, b))
print(a)

[1.         3.         5.         7.         9.         1.18551961
 1.26491106 1.6066895  2.         2.22222222]


Расщепление массива в позициях 3 и 6.

In [57]:
np.hsplit(a, [3, 6])

[array([1., 3., 5.]),
 array([7.        , 9.        , 1.18551961]),
 array([1.26491106, 1.6066895 , 2.        , 2.22222222])]

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [58]:
a = np.delete(a, [5, 7])
print(a)

[1.         3.         5.         7.         9.         1.26491106
 2.         2.22222222]


In [59]:
a = np.insert(a, 2, [0, 0])
print(a)

[1.         3.         0.         0.         5.         7.
 9.         1.26491106 2.         2.22222222]


In [60]:
a = np.append(a, [1, 2, 3])
print(a)

[1.         3.         0.         0.         5.         7.
 9.         1.26491106 2.         2.22222222 1.         2.
 3.        ]


#### 2.3 Способы индексации массивов

Есть несколько способов индексации массива. Вот обычный индекс.

In [61]:
a = np.linspace(0, 1, 11)
print(a)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [62]:
b = a[2]
print(b)

0.2


Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.

In [63]:
b = a[2:6]
print(b)

[0.2 0.3 0.4 0.5]


In [64]:
b[0] = -0.2
print(b)

[-0.2  0.3  0.4  0.5]


In [65]:
print(a)

[ 0.   0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]


Диапазон с шагом 2.

In [66]:
b = a[1:10:2]
print(b)

[0.1 0.3 0.5 0.7 0.9]


In [67]:
b[0] = -0.1
print(a)

[ 0.  -0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]


Массив в обратном порядке.

In [68]:
b = a[::-1]
print(b)

[ 1.   0.9  0.8  0.7  0.6  0.5  0.4  0.3 -0.2 -0.1  0. ]


Подмассиву можно присвоить значение - массив правильного размера или скаляр.

In [69]:
a[1:10:3] = 0
print(a)

[ 0.   0.  -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Тут опять создаётся только новый заголовок, указывающий на те же данные.

In [70]:
b = a[:]
b[1] = 0.1
print(a)

[ 0.   0.1 -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Чтобы скопировать и данные массива, нужно использовать метод `copy`.

In [71]:
b = a.copy()
b[2] = 0
print(b)
print(a)

[0.  0.1 0.  0.3 0.  0.5 0.6 0.  0.8 0.9 1. ]
[ 0.   0.1 -0.2  0.3  0.   0.5  0.6  0.   0.8  0.9  1. ]


Можно задать список индексов.

In [72]:
print(a[[2, 3, 5]])

[-0.2  0.3  0.5]


Можно задать булев массив той же величины.

In [73]:
b = a > 0
print(b)

[False  True False  True False  True  True False  True  True  True]


In [74]:
print(a[b])

[0.1 0.3 0.5 0.6 0.8 0.9 1. ]


In [75]:
a

array([ 0. ,  0.1, -0.2,  0.3,  0. ,  0.5,  0.6,  0. ,  0.8,  0.9,  1. ])

In [76]:
b

array([False,  True, False,  True, False,  True,  True, False,  True,
        True,  True])

**Упражнение:**  
1)Создайте массив чисел от $-2\pi$  до $2\pi$  
2)Посчитайте сумму поэлементных квадратов синуса и косинуса для данного массива  
3)С помощью `np.all` проверьте, что в ответе только единицы

## 3. Двумерные массивы

#### 3.1 Создание, простые операции

In [77]:
a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)

[[ 0.  1.]
 [-1.  0.]]


In [78]:
a.ndim

2

In [79]:
a.shape

(2, 2)

In [80]:
len(a), a.size

(2, 4)

In [81]:
a[1, 0]

-1.0

Атрибуту `shape` можно присвоить новое значение - кортеж размеров по всем координатам. Получится новый заголовок массива; его данные не изменятся.

In [82]:
b = np.linspace(0, 3, 4)
print(b)

[0. 1. 2. 3.]


In [83]:
b.shape

(4,)

In [84]:
b.shape = 2, 2
print(b)

[[0. 1.]
 [2. 3.]]


Можно растянуть в одномерный массив

In [85]:
print(b.ravel())

[0. 1. 2. 3.]


Арифметические операции поэлементные

In [86]:
print(a + 1)
print(a * 2)
print(a + [0, 1])  # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T)  # .T - транспонирование
print(a + b)

[[1. 2.]
 [0. 1.]]
[[ 0.  2.]
 [-2.  0.]]
[[ 0.  2.]
 [-1.  1.]]
[[0. 1.]
 [1. 2.]]
[[0. 2.]
 [1. 3.]]


#### 3.2 Работа с матрицами

Поэлементное и матричное (только в Python >=3.5) умножение.

In [87]:
print(a * b)

[[ 0.  1.]
 [-2.  0.]]


In [88]:
print(a @ b)

[[ 2.  3.]
 [ 0. -1.]]


In [89]:
print(b @ a)

[[-1.  0.]
 [-3.  2.]]


**Упражнение:** создайте две матрицы $ \left( \begin{pmatrix} -3 & 4 \\ 4 & 3 \end{pmatrix},  \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \right)$. Посчитайте их поэлементное и матричное произведения.

Умножение матрицы на вектор.

In [90]:
v = np.array([1, -1], dtype=np.float64)
print(b @ v)

[-1. -1.]


In [91]:
print(v @ b)

[-2. -2.]


Если у вас Питон более ранней версии, то для работы с матрицами можно использовать класс `np.matrix`, в котором операция умножения реализуется как матричное умножение.

In [92]:
np.matrix(a) * np.matrix(b)

matrix([[ 2.,  3.],
        [ 0., -1.]])

Внешнее произведение $a_{ij}=u_i v_j$

In [93]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

[1. 2.]
[2. 3. 4.]


In [94]:
a = np.outer(u, v)
print(a)

[[2. 3. 4.]
 [4. 6. 8.]]


Двумерные массивы, зависящие только от одного индекса: $x_{ij}=u_j$, $y_{ij}=v_i$

In [95]:
x, y = np.meshgrid(u, v)
print(x)
print(y)

[[1. 2.]
 [1. 2.]
 [1. 2.]]
[[2. 2.]
 [3. 3.]
 [4. 4.]]


Единичная матрица.

In [96]:
I = np.eye(4)
print(I)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Метод `reshape` делает то же самое, что присваивание атрибуту `shape`.

In [97]:
print(I.reshape(16))

[1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1.]


In [98]:
print(I.reshape(2, 8))

[[1. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 1.]]


Строка.

In [99]:
print(I[1])

[0. 1. 0. 0.]


Цикл по строкам.

In [100]:
for row in I:
    print(row)

[1. 0. 0. 0.]
[0. 1. 0. 0.]
[0. 0. 1. 0.]
[0. 0. 0. 1.]


Столбец.

In [101]:
print(I[:, 2])

[0. 0. 1. 0.]


Подматрица.

In [102]:
print(I[0:2, 1:3])

[[0. 0.]
 [1. 0.]]


Можно построить двумерный массив из функции.

In [103]:
def f(i, j):
    print(i)
    print(j)
    return 10 * i + j

print(np.fromfunction(f, (4, 4), dtype=np.int64))

[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]
[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[ 0  1  2  3]
 [10 11 12 13]
 [20 21 22 23]
 [30 31 32 33]]


Транспонированная матрица.

In [104]:
print(b.T)

[[0. 2.]
 [1. 3.]]


Соединение матриц по горизонтали и по вертикали.

In [105]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

[[0 1]
 [2 3]]
[[4 5 6]
 [7 8 9]]
[[4 5]
 [6 7]
 [8 9]]


In [106]:
print(np.hstack((a, b)))

[[0 1 4 5 6]
 [2 3 7 8 9]]


In [107]:
print(np.vstack((a, c)))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


Сумма всех элементов; суммы столбцов; суммы строк.

In [108]:
print(b.sum())
print(b.sum(axis=0))
print(b.sum(axis=1))

39
[11 13 15]
[15 24]


Аналогично работают `prod`, `max`, `min` и т.д.

In [109]:
print(b.max())
print(b.max(axis=0))
print(b.min(axis=1))

9
[7 8 9]
[4 7]


След - сумма диагональных элементов.

In [110]:
np.trace(a)

3

**Упражнение:** в статистике и машинном обучении часто приходится иметь с функцией $RSS$, которая вычисляется по формуле $\sum_{i=1}^{n} (y_i - a_i)^2$, где $y_i$ - координаты одномерного вектора $y$,  $a_i$ - координаты одномерного вектора $a$. Посчитайте $RSS$ для $y = (1, 2, 3, 4, 5), a = (3, 2, 1, 0, -1)$

## 4. Тензоры (многомерные массивы)

In [111]:
X = np.arange(24).reshape(2, 3, 4)
print(X)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


Суммирование (аналогично остальные операции)

In [112]:
# суммируем только по нулевой оси, то есть для фиксированных j и k 
# суммируем только элементы с индексами (*, j, k)
print(X.sum(axis=0))
# суммируем сразу по двум осям, то есть для фиксированной i 
# суммируем только элементы с индексами (i, *, *)
print(X.sum(axis=(1, 2)))

[[12 14 16 18]
 [20 22 24 26]
 [28 30 32 34]]
[ 66 210]


## 5. Линейная алгебра

In [113]:
a = np.array([[0, 1], [2, 3]])

In [114]:
np.linalg.det(a)

-2.0

Обратная матрица.

In [115]:
a1 = np.linalg.inv(a)
print(a1)

[[-1.5  0.5]
 [ 1.   0. ]]


In [116]:
print(a @ a1)
print(a1 @ a)

[[1. 0.]
 [0. 1.]]
[[1. 0.]
 [0. 1.]]


Решение линейной системы $au=v$.

In [117]:
v = np.array([0, 1], dtype=np.float64)
print(a1 @ v)

[0.5 0. ]


In [118]:
u = np.linalg.solve(a, v)
print(u)

[0.5 0. ]


Проверим.

In [119]:
print(a @ u - v)

[0. 0.]


Собственные значения и собственные векторы: $a u_i = \lambda_i u_i$. `l` - одномерный массив собственных значений $\lambda_i$, столбцы матрицы $u$ - собственные векторы $u_i$.

In [120]:
l, u = np.linalg.eig(a)
print(l)

[-0.56155281  3.56155281]


In [121]:
print(u)

[[-0.87192821 -0.27032301]
 [ 0.48963374 -0.96276969]]


Проверим.

In [122]:
for i in range(2):
    print(a @ u[:, i] - l[i] * u[:, i])

[0.00000000e+00 1.66533454e-16]
[ 0.0000000e+00 -4.4408921e-16]


Функция `diag` от одномерного массива строит диагональную матрицу; от квадратной матрицы - возвращает одномерный массив её диагональных элементов.

In [123]:
L = np.diag(l)
print(L)
print(np.diag(L))

[[-0.56155281  0.        ]
 [ 0.          3.56155281]]
[-0.56155281  3.56155281]


Все уравнения $a u_i = \lambda_i u_i$ можно собрать в одно матричное уравнение $a u = u \Lambda$, где $\Lambda$ - диагональная матрица с собственными значениями $\lambda_i$ по диагонали.

In [124]:
print(a @ u - u @ L)

[[ 0.00000000e+00  0.00000000e+00]
 [ 1.66533454e-16 -4.44089210e-16]]


Поэтому $u^{-1} a u = \Lambda$.

In [125]:
print(np.linalg.inv(u) @ a @ u)

[[-5.61552813e-01  2.77555756e-17]
 [-2.22044605e-16  3.56155281e+00]]


Найдём теперь левые собственные векторы $v_i a = \lambda_i v_i$ (собственные значения $\lambda_i$ те же самые).

In [126]:
l, v = np.linalg.eig(a.T)
print(l)
print(v)

[-0.56155281  3.56155281]
[[-0.96276969 -0.48963374]
 [ 0.27032301 -0.87192821]]


Собственные векторы нормированы на 1.

In [127]:
print(u.T @ u)
print(v.T @ v)

[[ 1.         -0.23570226]
 [-0.23570226  1.        ]]
[[1.         0.23570226]
 [0.23570226 1.        ]]


Левые и правые собственные векторы, соответствующие разным собственным значениям, ортогональны, потому что $v_i a u_j = \lambda_i v_i u_j = \lambda_j v_i u_j$.

In [128]:
print(v.T @ u)

[[ 9.71825316e-01  0.00000000e+00]
 [-5.55111512e-17  9.71825316e-01]]


**Упражнение:** в машинном обучении есть модель линейной регрессии, для которой "хорошее" решение считается по следующей формуле: $\widehat{\theta} = (X^T \cdot X + \lambda \cdot I_n)^{-1}\cdot X^T y$. Вычислите $\widehat{\theta}$ для $ X = \begin{pmatrix} -3 & 4 & 1 \\ 4 & 3 & 1  \end{pmatrix}$, $y = \begin{pmatrix} 10 \\ 12  \end{pmatrix}$, $I_n$ - единичная матрица размерности 3, $\lambda = 0.1$

## 6. Интегрирование

In [129]:
from scipy.integrate import quad, odeint
from scipy.special import erf

In [130]:
def f(x):
    return np.exp(-x ** 2)

Адаптивное численное интегрирование (может быть до бесконечности). `err` - оценка ошибки.

In [131]:
res, err = quad(f, 0, np.inf)
print(np.sqrt(np.pi) / 2, res, err)

0.8862269254527579 0.8862269254527579 7.101318390472462e-09


In [132]:
res, err =  quad(f, 0, 1)
print(np.sqrt(np.pi) / 2 * erf(1), res, err)

0.7468241328124269 0.7468241328124271 8.291413475940725e-15


## 7. Сохранение в файл и чтение из файла

In [133]:
x = np.arange(0, 25, 0.5).reshape((5, 10))

# Сохраняем в файл example.txt данные x в формате с двумя точками после запятой и разделителем ';'
np.savetxt('example.txt', x, fmt='%.2f', delimiter=';')

Получится такой файл

In [134]:
! cat example.txt

0.00;0.50;1.00;1.50;2.00;2.50;3.00;3.50;4.00;4.50
5.00;5.50;6.00;6.50;7.00;7.50;8.00;8.50;9.00;9.50
10.00;10.50;11.00;11.50;12.00;12.50;13.00;13.50;14.00;14.50
15.00;15.50;16.00;16.50;17.00;17.50;18.00;18.50;19.00;19.50
20.00;20.50;21.00;21.50;22.00;22.50;23.00;23.50;24.00;24.50


Теперь его можно прочитать

In [135]:
x = np.loadtxt('example.txt', delimiter=';')
print(x)

[[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5]
 [ 5.   5.5  6.   6.5  7.   7.5  8.   8.5  9.   9.5]
 [10.  10.5 11.  11.5 12.  12.5 13.  13.5 14.  14.5]
 [15.  15.5 16.  16.5 17.  17.5 18.  18.5 19.  19.5]
 [20.  20.5 21.  21.5 22.  22.5 23.  23.5 24.  24.5]]


## 8. Производительность numpy

Посмотрим на простой пример --- сумма первых $10^8$ чисел.

In [136]:
%%time

sum_value = 0
for i in range(10 ** 8):
    sum_value += i
print(sum_value)

4999999950000000
CPU times: user 10.2 s, sys: 0 ns, total: 10.2 s
Wall time: 10.2 s


Немного улучшеный код

In [137]:
%%time

sum_value = sum(range(10 ** 8))
print(sum_value)

4999999950000000
CPU times: user 1.85 s, sys: 0 ns, total: 1.85 s
Wall time: 1.85 s


Код с использованием функций библиотеки numpy

In [138]:
%%time

sum_value = np.arange(10 ** 8).sum()
print(sum_value)

4999999950000000
CPU times: user 165 ms, sys: 125 ms, total: 290 ms
Wall time: 288 ms


Простой и понятный код работает в $30$ раз быстрее!

Посмотрим на другой пример. Сгенерируем матрицу размера $500\times1000$, и вычислим средний минимум по колонкам.

Простой код, но при этом даже использующий некоторые питон-функции

*Замечание*. Далее с помощью `scipy.stats` происходит генерация случайных чисел из равномерного распределения на отрезке $[0, 1]$. Этот модуль будем изучать на следующем занятии.

In [139]:
import scipy.stats as sps

In [140]:
%%time

N, M = 500, 1000
matrix = []
for i in range(N):
    matrix.append([sps.uniform.rvs() for j in range(M)])

min_col = [min([matrix[i][j] for i in range(N)]) for j in range(M)]
mean_min = sum(min_col) / N
print(mean_min)

0.0036667660232181393
CPU times: user 17.8 s, sys: 127 ms, total: 18 s
Wall time: 17.8 s


Понятный код с использованием функций библиотеки numpy

In [141]:
%%time

N, M = 500, 1000
matrix = sps.uniform.rvs(size=(N, M))
mean_min = matrix.min(axis=1).mean()
print(mean_min)

0.0010493006401683025
CPU times: user 60.5 ms, sys: 7.98 ms, total: 68.5 ms
Wall time: 250 ms


Простой и понятный код работает в 1500 раз быстрее!

## 9. Суммы Эйнштейна

С помощью соглашения Эйнштейна о суммировании, многие общие многомерные линейные алгебраические операции с массивами могут быть представлены простым способом.

`Если одна и та же буква в обозначении индекса встречается и сверху, и снизу, то такой член полагается просуммированным по всем значениям, которые может принимать этот индекс. `

Например, выражение $c_j = a_i b^i_j$ понимается как $c_j = \sum_{i=1}^n a_i b^i_j$.

Подобные операции часто возникают в анализе данных, в особенности при реализации байесовских методов.

В `numpy` такие операции реализует функция `einsum`, причем здесь не делается разницы между нижними и верхними индексами. Функция принимает на вход сигнатуру операции в виде текстовой строки и матрицы с данными.

Разберем на примере выше. В данном случае сигнатура имеет вид `i,ji->j`. Элементы сигнатуры последовательно означают следующее (тензор = многомерная матрица):
* `i` --- объявление обозначений индексов тензора $A$. Поскольку индекс один, то тем самым $A$ должен быть вектором.
* `,` --- переход к объявлению индексов следующему тензору.
* `ji` --- объявление обозначений индексов тензора $B$. Поскольку индекса два, то тем самым $B$ должен быть матрицей.
* `->` --- разграничение входа и выхода.
* `j` --- индекс на выходе. Поскольку индекс $i$ объявлен на входе и не объявлен на выходе, по нему происходит суммирование поэлементных произведений.

In [142]:
A = np.array([0, 1, 2])
B = np.array([[10, 15, 20], [100, 150, 200]])
print(A)
print(B)

[0 1 2]
[[ 10  15  20]
 [100 150 200]]


$c_0 = a_0 \cdot b^0_0 + a_1 \cdot b^1_0 + a_2 \cdot b^2_0$. В нашем случае: $c_0 = 0 \cdot 1 + 1 \cdot 15 + 2 \cdot 20$  
$c_1 = a_0 \cdot b^0_1 + a_1 \cdot b^1_1 + a_2 \cdot b^2_1$. В нашем случае: $c_1 = 0 \cdot 1 + 1 \cdot 150 + 2 \cdot 200$  

In [None]:
np.einsum('i,ji->j', A, B)

Суммирование элементов вектора $A$

In [None]:
np.einsum('i->', A)

Суммирование элементов матрицы $B$ по столбцам

In [None]:
np.einsum('ji->i', B)

Рассмотрим следующие матрицы

In [None]:
A = np.array([[0, 1, 2], [3, 4, 5]])
B = np.array([[0, 1], [10, 100], [30, 70]])
print(A)
print(B)

Транспонирование матрицы $A$

In [None]:
np.einsum('ij->ji', A) 

Матричное умножение

In [None]:
np.einsum('ij,jk->ik', A, B) 

Можно наоборот

In [None]:
np.einsum('jk,ij->ik', B, A) 

Квадратная матрица

In [None]:
C = np.arange(9).reshape((3, 3))
C

Диагональ

In [None]:
np.einsum('ii->i', C)

След

In [None]:
np.einsum('ii->', C)

Какая-то странная операция

In [None]:
np.einsum('ij,kj,jl->ilk', A, C, B) 

**Упражнение.** Создайте матрицы $A\in\mathbb{R}^{3\times2}, B\in\mathbb{R}^{2\times2}$. Посчитайте $\text{tr} (ABBA^T)$