## Библиотека Numpy

---

При работе с предыдущими ноутбуками вы познакомились с основами языка Python. Узнали, что Python -- довольно простой, понятный язык программирования, научились пользоваться jupyter notebook'ом и оценили плюсы и возможности python+jupyter -- написание кода в отдельных ячейках и последовательный запуск кода в ячейках.

Но есть и обратная сторона медали -- Python очень медленный язык. Возможно, пока что это было не очень заметно, потому что мы не работали с большими массивами данных. Но в эпоху big data, при работе с огромными массивами данных даже небольшое отставание языка программирования по скорости становится заметно и критично. Есть, конечно, языки программирования, которые работают намного быстрее (например, С++), но они гораздо сложнее в написании и не интерпретируемы, а компилируемы (то есть, в jupyter notebook'е с такими языками работать бы не получилось).

Как же найти компромисс? Ответ прост: написать python-библиотеку для работы с массивами данных, функции которой будут написаны на очень быстром языке С++, но которую можно было бы использовать из Python. Эта библиотека называется **NumPy** (НамПай).

Пакет `numpy` предоставляет интерфейс для работы с $n$-мерными массивами. В `numpy` реализовано множество всевозможных операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то с помощью numpy в python это будет столь же эффективно, как в `C` или `matlab`.

Конечно, тот факт, что код numpy написан на С++, накладывает некоторые ограничения на массивы этой библиотеки: в любом numpy-массиве могут храниться элементы только одного типа: например, все float или все string (как вы помните с прошлого урока, в обычном python в массивах могут быть элементы совершенно разных типов)

Этот ноутбук полностью посвещен знакомству с библиотекой numpy и работе с ней

## Одномерные массивы

### Создание массива

In [None]:
# принято, что numpy импортируют именно так
import numpy as np

Как же завести массив в numpy?

Очень просто! Надо всего лишь перевести обычный python list в np.array:

In [None]:
# 'перевести' python list в np.array -- это обернуть массив в np.array()
a = np.array([3, 4, 1])
print(a)
type(a)

[3 4 1]


numpy.ndarray

Обычный питоновский `print` печатает массивы в удобной форме (точно так же, как и list питона)

In [None]:
print(a)

### Типы данных в массивах np.array

Поговорим о типах данных, хранящихся в массивах:

Чаще всего мы будем работать с числовыми массивами, поэтому поговорим о инх.

В отличие от чистого питона, в `numpy` есть несколько типов для целых чисел (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`). Они отличаются тем, с какой точностью в памяти хранятся элементы массива.

Чтобы посмотреть, какой тип у вашего массива, можно вывести его dtype:

In [None]:
a.dtype

Конечно, можно скастовать массив из одного типа в другой.

Давайте переведем наш массив 'a' из типа np.int64 в тип np.float32:

In [None]:
a = a.astype(np.float32)
a.dtype

Далее мы будем рассматривать n-мерный массивы, для них преобразование типов работает так же. И для них все еще все элементы должны иметь одинаковый тип.

### Изменение массивов np.array

Как и list в питоне, массивы np.array - изменяемые объекты. Механика изменений значений в них такая же, как у питоновских list'ов. Давайте в этом убедимся:

In [None]:
a = np.array([3, 4 ,1])

a[1] = 3
print(a)

Единственный (но логичный) нюанс: при изменении значения в массиве с элементами одного типа на элемент другого типа новый элемент будет приведен к типу массива:

In [None]:
# или: a = np.array([3, 4 ,1], dtype=np.int64)
a = np.array([3, 4 ,1]).astype(np.int64)

# значение 3.5 будет приведено к типу int64, т.е. станет 3
a[1] = 3.5
print(a)

In [None]:
# обратите внимание -- если создается np.array с чисоами разных типов (int и float),
# то все числа будут приведены к более точному типу, т.е. float
# таким образом, 1 из целого числа станет числом с плавающей точкой 1.
a = np.array([3., 4. ,1])

# значение 5 будет приведено к типу int64, т.е. станет 5.
a[1] = 5
print(a)

[3. 5. 1.]


А вот добавить к массиву новый элемент в конец чуть сложнее, чем у list. Напомним, в list это делалось с помощью метода .append(). В numpy это также делается с помощью append, но чуть по-другому:

Обратите внимание, что в numpy при append *создается новый массив*, а не происходит добавление элемента в уже существующий массив. Поэтому не рекомендуется создавать массивы с помощью append в numpy.

In [None]:
a = np.array([3, 4 ,1])

In [None]:
# вот так пишется append
a = np.append(a, 6)

a

array([3, 4, 1, 6])

## Многомерные массивы

Мы узнали, как создавать и изменять одномерные массивы, как они выглядят в numpy и нюансы приведения типов. Настало время познакомиться с многомерными массивами.

Многомерный массив -- это массив, элементы которого тоже массивы. В принципе, ничего нового, все как и у list в питоне.

In [None]:
two_dim_array = np.array([[2, 3], [4, 5]])

print(two_dim_array)

In [None]:
three_dim_array = np.array([[[2, 3], [4, 5]], [[5, 6], [7, 8]]])

print(three_dim_array)

Напомним, что в numpy, неважно, в одномерном или многомерном массиве, *все* элементы имеют одинаковый тип

Давайте в этом убедимся:

In [None]:
# 2 и 3 приведутся к типу чисел 4. и 5., т.е. float64
a = np.array([[2, 3], [4., 5.]])
print(a, a.dtype)



### Информация о массиве

Теперь научимся получать основную информацию о массиве

## Операции над одномерными массивами


 ### Арифметические операции

In [None]:
a = np.array([2, 5, 6, 7])
b = np.array([9, 7, 8, 9])

С двумя массивами одинаковой

In [None]:
print(a + b)

[11 12 14 16]


In [None]:
print(a - b)

In [None]:
print(a * b)

[18 35 48 63]


In [None]:
print(a / b)

In [None]:
print(a ** 2)

[ 4 25 36 49]


`numpy` содержит элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (`ufunc`).

In [None]:
np.sin, type(np.sin)

(<ufunc 'sin'>, numpy.ufunc)

In [None]:
print(np.sin(a))
print(np.cosh(a))

Один из операндов может быть скаляром, а не массивом.

In [None]:
a

In [None]:
print(a + 1)

In [None]:
print(2 * a)

Сравнения дают булевы массивы.

In [None]:
print(a > b)

[False False False False]


In [None]:
print(a < b)

In [None]:
print(a == b)

In [None]:
c = a > 5
print(c)

Кванторы "существует" и "для всех".

In [None]:
np.any(c), np.all(c)

Модификация на месте.

In [None]:
a += 1
print(a)

In [None]:
b *= 2
print(b)

In [None]:
b /= a
print(b)

При выполнении операций над массивами деление на 0 не возбуждает исключения, а даёт значения `np.nan` или `np.inf`.

In [None]:
np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

Сумма и произведение всех элементов массива; максимальный и минимальный элемент; среднее и среднеквадратичное отклонение.

In [None]:
b.sum(), b.prod(), b.max(), b.min(), b.mean(), b.std()

(33, 4536, 9, 7, 8.25, 0.82915619758885)

In [None]:
x = np.random.normal(size=1000)
x.mean(), x.std()

Имеются встроенные функции

In [None]:
print(np.sqrt(b))
print(np.exp(b))
print(np.log(b + 1))
print(np.sin(b))
print(np.e, np.pi)

[3.         2.64575131 2.82842712 3.        ]
[8103.08392758 1096.63315843 2980.95798704 8103.08392758]
[2.30258509 2.07944154 2.19722458 2.30258509]
[0.41211849 0.6569866  0.98935825 0.41211849]
2.718281828459045 3.141592653589793


Иногда бывает нужно использовать частичные (кумулятивные) суммы. В нашем курсе такое пригодится.

In [None]:
print(b.cumsum()[::-1])

Функция `sort` возвращает отсортированную копию, метод `sort` сортирует на месте.

In [None]:
print(np.sort(b))
print(b)

In [None]:
b.sort()
print(b)

Объединение массивов "по-горизонтали" (horizontal stack).

In [None]:
a = np.array([1, 2, 3])
b = np.array([100, 200, 300])

print(np.hstack((a, b)))

Объединение массивов "по-вертикали" (vertical stack).

In [None]:
print(np.vstack((a, b)))

Расщепление массива в позициях 3 и 6.

In [None]:
a = np.random.random(10)
np.hsplit(a, [3, 6])

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [None]:
a = np.arange(10)

In [None]:
a = np.delete(a, [5, 7])
print(a)

In [None]:
a = np.insert(a, 2, [0, 0])
print(a)

In [None]:
a = np.append(a, [1, 2, 3])
print(a)

Есть несколько способов индексации массива. Вот обычный индекс.

In [None]:
a = np.linspace(0, 1, 11)
print(a)

In [None]:
b = a[2]
print(b)

Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.

In [None]:
b = a[2:6]
print(b)

In [None]:
b[0] = -0.2
print(b)

In [None]:
print(a)

Диапазон с шагом 2.

In [None]:
b = a[1:10:2]
print(b)

In [None]:
b[0] = -0.1
print(a)

Массив в обратном порядке.

In [None]:
b = a[len(a):0:-1]
print(b)

Подмассиву можно присвоить значение - массив правильного размера или скаляр.

In [None]:
a[1:10:3] = 0
print(a)

Тут опять создаётся только новый заголовок, указывающий на те же данные.

In [None]:
b = a[:]
b[1] = 0.1
print(a)

Чтобы скопировать и данные массива, нужно использовать метод `copy`.

In [None]:
b = a.copy()
b[2] = 0
print(b)
print(a)

Можно задать список индексов.

In [None]:
print(a[[2, 3, 5]])

Можно задать булев массив той же величины.

In [None]:
b = a > 0
print(b)

In [None]:
print(a[b])

## 2-мерные массивы

In [None]:
a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)

In [None]:
a.ndim

In [None]:
a.shape

In [None]:
len(a), a.size

In [None]:
a[1, 0]

Атрибуту `shape` можно присвоить новое значение - кортеж размеров по всем координатам. Получится новый заголовок массива; его данные не изменятся.

In [None]:
b = np.linspace(0, 3, 4)
print(b)

In [None]:
b.shape

In [None]:
b.shape = 2, 2
print(b)

Можно растянуть в одномерный массив

In [None]:
print(b.ravel())

Арифметические операции поэлементные

In [None]:
a

In [None]:
b = np.array([[3, 4],
    [8, 6 ]])
print(b)

In [None]:
print(a + 1)
print(a * 2)
print(a + [0, 1])  # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T)  # .T - транспонирование
print(a + b)

Поэлементное и матричное (только в Python 3.5) умножение.

In [None]:
print(a)

In [None]:
print(b)

In [None]:
print(a * b)

In [None]:
print(a @ b)

In [None]:
print(b @ a)

Умножение матрицы на вектор.

In [None]:
v = np.array([1, -1], dtype=np.float64)
print(b @ v)

In [None]:
print(v @ b)

Если у вас Питон более ранней версии, то для работы с матрицами можно использовать класс `np.matrix`, в котором операция умножения реализуется как матричное умножение.

In [None]:
np.matrix(a) * np.matrix(b)

Внешнее произведение $a_{ij}=u_i v_j$

In [None]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

In [None]:
a = np.outer(u, v)
print(a)

Двумерные массивы, зависящие только от одного индекса: $x_{ij}=u_j$, $y_{ij}=v_i$

In [None]:
x, y = np.meshgrid(u, v)
print(x)
print(y)

Единичная матрица.

In [None]:
I = np.eye(4)
print(I)

Метод `reshape` делает то же самое, что присваивание атрибуту `shape`.

In [None]:
print(I.reshape(16))

In [None]:
print(I.reshape(8, 2))

Строка.

In [None]:
print(I[2])

Цикл по строкам.

In [None]:
for row in I:
    print(row)

Столбец.

In [None]:
print(I[1, 1])

Подматрица.

In [None]:
print(I[0:2, 1:3])

Можно построить двумерный массив из функции.

In [None]:
def f(i, j):
    print(i)
    print(j)
    return 10 * i + j

print(np.fromfunction(f, (4, 4), dtype=np.int64))

Транспонированная матрица.

In [None]:
print(b.T)

Соединение матриц по горизонтали и по вертикали.

In [None]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

In [None]:
print(np.hstack((a, b)))

In [None]:
print(np.vstack((a, c)))

Сумма всех элементов; суммы столбцов; суммы строк.

In [None]:
b

In [None]:
print(b.sum())
print(b.sum(axis=0))
print(b.sum(axis=1))

Аналогично работают `prod`, `max`, `min` и т.д.

In [None]:
print(b.max())
print(b.max(axis=0))
print(b.min(axis=1))

След - сумма диагональных элементов.

In [None]:
np.trace(a)

## Многомерные массивы
опциональный материал

In [None]:
X = np.arange(24).reshape(2, 3, 4)
print(X)

Суммирование (аналогично остальные операции)

In [None]:
# суммируем только по нулевой оси, то есть для фиксированных j и k суммируем только элементы с индексами (*, j, k)
print(X.sum(axis=0))
# суммируем сразу по двум осям, то есть для фиксированной i суммируем только элементы с индексами (i, *, *)
print(X.sum(axis=(1, 2)))

## Линейная алгебра

Найдем определитель матрицы

In [None]:
np.linalg.det(a)

Обратная матрица.

In [None]:
a1 = np.linalg.inv(a)
print(a1)

In [None]:
print(a @ a1)
print(a1 @ a)

Решение линейной системы $au=v$.

In [None]:
v = np.array([0, 1], dtype=np.float64)
print(a1 @ v)

In [None]:
u = np.linalg.solve(a, v)
print(u)

Проверим.

In [None]:
print(a @ u - v)

Собственные значения и собственные векторы: $a u_i = \lambda_i u_i$. `l` - одномерный массив собственных значений $\lambda_i$, столбцы матрицы $u$ - собственные векторы $u_i$.

In [None]:
l, u = np.linalg.eig(a)
print(l)

In [None]:
print(u)

Проверим.

In [None]:
for i in range(2):
    print(a @ u[:, i] - l[i] * u[:, i])

Функция `diag` от одномерного массива строит диагональную матрицу; от квадратной матрицы - возвращает одномерный массив её диагональных элементов.

In [None]:
L = np.diag(l)
print(L)
print(np.diag(L))

Все уравнения $a u_i = \lambda_i u_i$ можно собрать в одно матричное уравнение $a u = u \Lambda$, где $\Lambda$ - диагональная матрица с собственными значениями $\lambda_i$ на диагонали.

In [None]:
print(a @ u - u @ L)

Поэтому $u^{-1} a u = \Lambda$.

In [None]:
print(np.linalg.inv(u) @ a @ u)

Найдём теперь левые собственные векторы $v_i a = \lambda_i v_i$ (собственные значения $\lambda_i$ те же самые).

In [None]:
l, v = np.linalg.eig(a.T)
print(l)
print(v)

Собственные векторы нормированы на 1.

In [None]:
print(u.T @ u)
print(v.T @ v)

Левые и правые собственные векторы, соответствующие разным собственным значениям, ортогональны, потому что $v_i a u_j = \lambda_i v_i u_j = \lambda_j v_i u_j$.

In [None]:
print(v.T @ u)

# Интегрирование

In [None]:
from scipy.integrate import quad, odeint
from scipy.special import erf

In [None]:
def f(x):
    return np.exp(-x ** 2)

Адаптивное численное интегрирование (может быть до бесконечности). `err` - оценка ошибки.

In [None]:
res, err = quad(f, 0, np.inf)
print(np.sqrt(np.pi) / 2, res, err)

In [None]:
res, err =  quad(f, 0, 1)
print(np.sqrt(np.pi) / 2 * erf(1), res, err)

## Сохранение в файл и чтение из файла

In [None]:
x = np.arange(0, 25, 0.5).reshape((5, 10))

# Сохраняем в файл example.txt данные x в формате с двумя точками после запятой и разделителем ';'
np.savetxt('example.txt', x, fmt='%.2f', delimiter=';')

Получится такой файл

In [None]:
!cat example.txt