# Лекция 7
Грибанов Сергей Сергеевич, 7 декабря 2022

# Пакет Numpy: эффективная работа с массивами

In [None]:
import numpy as np

In [None]:
np.__version__

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline  

### Сравнение cо списками

In [None]:
a = np.arange(1000) # numpy-массив чисел от 0 до 999 включительно

In [None]:
a

Измерим время поэлементного возведения в квадрат numpy-массива `a`:

In [None]:
%%timeit
a**2

In [None]:
l = list(range(1000)) # список чисел от 0 до 999 включительно

Измерем время поэлементного возведения в квадрат списка `l`:

In [None]:
%%timeit
[i**2 for i in l]

Вывод: операции с numpy-массивами выполняются на порядок быстрее, чем со списаками

### Создание массивов

#### Вручную

`1D`-массив:

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])
print(f'a = {a}\ndim = {a.ndim}\nshape={a.shape}\ndtype={a.dtype}')

In [None]:
b = a.copy()
b[2] = -5
print(f'b = {b}')
print(f'a = {a}')

In [None]:
b = a.view()
b[2] = -5
print(f'b = {b}')
print(f'a = {a}')

In [None]:
print(a.reshape(2, 3))

In [None]:
a

In [None]:
print(a.reshape(2, -1)) # -1 => numpy сам посчитает размер

In [None]:
b = a.reshape(2, -1) # view

In [None]:
print(a)

In [None]:
print(b)

In [None]:
b[0, 1] = 100
print(a)

In [None]:
b = np.resize(a, (2, 3))
b[0,1] = -1

In [None]:
print(a)

In [None]:
print(b)

In [None]:
a.resize(2, 3) # in-place
print(a)

`2D`-массив:

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
print(f'a =\n {a}\ndim = {a.ndim}\nshape={a.shape}\ndtype={a.dtype}')

In [None]:
print(a)

In [None]:
print(a.T) # view

In [None]:
b = a.T
b[0, 1] = 10
print(a)

In [None]:
print(a.flatten()) # copy

In [None]:
print (a.ravel()) # view

In [None]:
print(a.T.ravel())

В `numpy` можно создавать массивы произвольной размерности: `1D`, `2D`, `3D` и т.д.

При создании numpy-массива не рекомендуется использовать в аргументе конструктора последовательности разной длины:

In [None]:
a = np.array([[1, 2, 3], [4, 5]])
print(f'ndim={a.ndim}\n\033[1mshape={a.shape}\033[0m\ndtype={a.dtype}')

Т.е. в этом примере был создан не `2D`-массив чисел типа `int64`, а `1D`-массив объектов (в нашем случае - списков). Если `1D`-массив объектов - желаемый результат, то лучше сделать так:

In [None]:
a = np.array([[1, 2, 3], [4, 5]], dtype=object)
print(a)

#### Стандартные массивы

In [None]:
print(np.arange(10))

In [None]:
print(np.arange(-1.5, 1.5, 0.5))

In [None]:
print(np.linspace(-5, 5, 100))

In [None]:
print(np.zeros(shape=(3, 3)))

In [None]:
print(np.ones(shape=(3, 3)))

In [None]:
print(np.eye(3))

In [None]:
print(np.diag([-2, -1, 0, 1, 2]))

#### Тип данных

In [None]:
x = np.array([1, 2, 3], dtype=np.float32)
print(x.dtype)
print(x)

In [None]:
x = np.array([1, 2, 3], dtype=np.float64)
print(x.dtype)
print(x)

In [None]:
x = np.array([1, 2, 3], dtype=np.float128)
print(x.dtype)
print(x)

In [None]:
x = np.ones(shape=(3, 3), dtype=np.complex256)
print(x.dtype)
print(x)

#### Генерация массивов случайных чисел

Массив случайных чисел, равномерно распределенных в диапазоне `[0, 1)`:

In [None]:
x = np.random.rand(3, 3)
print(x)

Массив случайных чисел, равномерно распределенных в диапазоне `[a, b)`:

In [None]:
a = 7
b = 9
x = a + (b - a) * np.random.rand(3, 3)
print(x)

Тоже массив случайных чисел, равномерно распределенных в диапазоне `[a, b)`:

In [None]:
x = np.random.uniform(a, b, size=(3, 3))
print(x)

Одномерный массив чисел, равномерно распределенных в диапазоне `[a, b)':

In [None]:
x = np.random.uniform(a, b, size=10000)
plt.hist(x)

Нормальное распределение

In [None]:
x = np.random.normal(3., 1., size=10000)
plt.hist(x, bins=50)

Многомерное нормальное распределение

In [None]:
mean = [-2, 5]
cov = [[3, 3.5], [3.5, 10]]
x = np.random.multivariate_normal(mean, cov, size=100000)
plt.hist2d(x[:, 0], x[:, 1], bins=(100, 100))

Целые случайные числа из диапазона `[a, b)`:

In [None]:
a = 5
b = 10
# При работе со случайными числами можно непосредственно создавать объект генератора случайных чисел.
# Подробнее о генератор в numpy можно прочитать здесь: https://numpy.org/doc/stable/reference/random/generator.html
rng = np.random.default_rng(seed=1)

# Целые случайные числа из диапазона [a, b):
x = rng.integers(a, b,  size=10)
print(x)

In [None]:
lst = [3, 2, 1, 3, 4, 3, 2, 5, 3, 3, 2]
N = 100000
x = rng.choice(lst, size=N)
print(x)

In [None]:
from collections import Counter

c0 = Counter(lst)
c = Counter(x)
for key, val in c.most_common():
    print(f'value {key}:\tP measured = {val / N},\tP expected = {c0[key] / len(lst)}')

С `numpy` можно генерировать случайные величины, подчиняющиеся и другим распределениям. Подробнее об этом можно прочитать в документации: https://numpy.org/doc/1.16/reference/routines.random.html

Случайная перестановка элементов:

In [None]:
lst = [1, 2, 3, 4, 5]
np.random.shuffle(lst) # in-place
# или используя заранее созданный объект генератора: rng.shuffle(lst)
print(lst)

In [None]:
lst = [1.1, -2, 3, 4, 5]
x = np.random.permutation(lst)
print(type(lst))
print(lst)
print(type(x))
print(x)

### Индексация

In [None]:
x = np.array([3, -2, 1, 5, 7, 9, -1, 0, 5, 6, 3, 2, -2, 3, 7])
print(x[1])

In [None]:
print(x[2:5])

In [None]:
print(x[2:12:3])

In [None]:
print(x[::-1])

In [None]:
x = np.arange(9).reshape(3, -1)
print(x)

In [None]:
print(x[1, 2])

In [None]:
print(x[:, 1])

In [None]:
print(x[2, :])

In [None]:
print(x[1:, 1:])

In [None]:
x = np.random.normal(5, 1, size=100000)
mask = np.abs(x - 5) <= 1.0
print(mask)

In [None]:

y = x[mask]

bins = 50
bins = np.histogram(np.hstack((x, y)), bins=bins)[1]
plt.hist(x, bins=bins)
plt.hist(y, bins=bins)

In [None]:
z = x.copy()
z[mask] = 1 # изменяются элементы массива z, элементы массива x не меняются, т.к. мы копировали x в z
z[~mask] = 0
plt.hist(z, bins=2)

Пример: вычисление интеграла методом Симпсона
\begin{equation}
\begin{split}
\int\limits^b_a f(x)dx &= \frac{h}{3}\sum\limits^{N-1}_{k=1,3,5,\ldots}\left[f(x_{k-1}) + 4f(x_{k}) + f(x_{k+1})\right],\\
x_k &= a + kh, \\
h &= \frac{b - a}{N}
\end{split}
\end{equation}

С использованием `np.vectorize`

In [None]:
def simpson_int_v1(fcn, a, b, N=10000000):
    x = np.linspace(a, b, N)
    h = x[1] - x[0]
    g = np.vectorize(fcn)
    return h/3 * np.sum(g(x[0:N-2:2]) + 4*g(x[1:N-1:2]) + g(x[2:N:2]))

In [None]:
%%time
simpson_int_v1(lambda x: x**3, 0, 1)

`np.vectorize` векторизует функцию `fcn`, т.е. вызывает Python-овскую функцию `fcn` на каждый элемент массива, 
поэтому приведенный выше пример не  претендует на высокую производительность.

Рассмотрим второй вариант функции интегрирования:

In [None]:
def simpson_int_v2(fcn, a, b, N=10000000):
    x = np.linspace(a, b, N)
    h = x[1] - x[0]
    return h/3 * np.sum(fcn(x[0:N-2:2]) + 4*fcn(x[1:N-1:2]) + fcn(x[2:N:2]))

In [None]:
%%time
simpson_int_v2(lambda x: x**3, 0, 1)

### Операции с массивами

#### Арифметические операции и функции

In [None]:
a = np.arange(10)
print(a + 5)

In [None]:
print(a**2)

In [None]:
print(np.exp(a))

In [None]:
print(np.sin(a))

In [None]:
x = 2 * np.ones(3)
print(x)

In [None]:
y = np.array([1, -2, 3])
print(x * y)

In [None]:
print(np.dot(x, y)) # скалярное произведение

In [None]:
print(np.cross(x, y)) # векторное произведение

#### Логические операции

In [None]:
x = np.ones(10)
y = np.random.choice([1, 1, 1, 2], size=10)
print(x==y)

In [None]:
x = np.linspace(0, 1.e-3, 10000)
y = np.sin(x)
print(np.allclose(x, y))

In [None]:
x = np.array([1, 0, 1], dtype=bool)
y = np.array([1, 1, 0], dtype=bool)
print(f'x = {x}')
print(f'y = {y}')

In [None]:
print(f'x = {~x}')

In [None]:
print(x & y)

In [None]:
print(x | y)

In [None]:
print(np.any(x))

In [None]:
print(np.all(x))

#### Суммирование

In [None]:
x = np.ones(10)

In [None]:
print(np.sum(x))

In [None]:
print(x.sum())

In [None]:
x = np.arange(9).reshape(3, -1)
print(x)

In [None]:
print(x.sum(axis=0))

In [None]:
print(x.sum(axis=1))

#### Экстремумы

In [None]:
x = np.linspace(0, 2 * np.pi, 10000)
y = np.sin(x)

In [None]:
print(y.min())

In [None]:
print(y.max())

In [None]:
print(y.argmin())
print(x[y.argmin()] / np.pi)

In [None]:
print(y.argmax())

* Статистика

In [None]:
x = np.random.normal(5, 3, size=50)

Выборочная оценка среднего:

\begin{equation}
\bar{x} = \frac{1}{N}\sum\limits^N_1x_k
\end{equation}

In [None]:
print(x.mean())

Смещенная выборочная оценка стандартного отклонения:

\begin{equation}
\sigma=\sqrt{\frac{1}{N}\sum\limits^N_{k=1}\left(x_k - \overline{x}\right)^2}
\end{equation}

In [None]:
print(x.std())

Несмещенная выборочная оценка стандартного отклонения:

\begin{equation}
\sigma_{\text{corr}}=\sqrt{\frac{1}{N-1}\sum\limits^N_{k=1}\left(x_k - \overline{x}\right)^2}
\end{equation}

In [None]:
print(x.std(ddof=1))

In [None]:
# медиана - такое значение x, левее и правее которго находится одинаковое число элементов
# медиана не всегда совпадает со средним
print(np.median(x))

#### Сортировка

In [None]:
x = np.random.randint(1, 10, size=(3, 3))
print(x)

In [None]:
print(np.sort(x, axis=0))

In [None]:
print(np.sort(x, axis=1))

In [None]:
x.sort(axis=0) # in-place sort
print(x)

In [None]:
x = np.linspace(-10, 10, 20)
mask = np.argsort(np.abs(x - 3))
print(x[mask])

#### Broadcasting
* Основные операции над массивами `numpy` выполняются поэлементно
* Необходимо следить за соответствием размеров массивов
* В некоторых случаях можно выполнять операции с массивами разных размеров. При этом `numpy` автоматически преобразовывает размеры массивов

In [None]:
a = np.ones((4, 5))
print(a)

In [None]:
a[0] = 2
print(a)

In [None]:
a += 1
print(a)

In [None]:
a += np.array([1, 2, 3, 4, 5])
print(a)

### Линейная алгебра с `numpy`

In [None]:
A = np.array([[1, 2, 3], [1, 1, 1]])
v = np.array([1, -1, 1]).reshape(1, -1) # вектор-строка
print(A @ v.T)

In [None]:
A = np.array([[1, -1, 2], [-1, 3, 3], [2, 3, 1]])
print(A)

In [None]:
v @ A @ v.T

In [None]:
(v @ A @ v.T).item()

In [None]:
np.linalg.det(A)

In [None]:
np.linalg.inv(A) * A

In [None]:
v * A * v.T

In [None]:
v = np.matrix(v)
A = np.matrix(A)
v * A * v.T

In [None]:
evals, evecs = np.linalg.eig(A)

In [None]:
print(evecs[:, 0])

In [None]:
A * evecs[:, 0] / evals[0]

Сингулярное разложение: 
\begin{equation}
A = U\Sigma{V^\dagger}
\end{equation}

In [None]:
u, v, vh = np.linalg.svd(A)

### Полиномы в `numpy`
Пример: $3𝑥^2+2𝑥−1$

In [None]:
p = np.polynomial.Polynomial([-1, 2, 3, 0, 5])
p

In [None]:
p(0)

In [None]:
p.degree()

In [None]:
print(p.roots())

In [None]:
rng = np.random.default_rng(seed=1)
x = np.linspace(-0.5, 0.5, 200)
y = np.cos(2*x + 0.3)
y = np.random.normal(y, 0.05)
p = np.polynomial.Chebyshev.fit(x, y, 6);
p

In [None]:
import matplotlib.pyplot as plt
plt.figure(num=2, figsize=(20, 7))
plt.plot(x, y, '.')
plt.plot(x, p(x))
plt.show()

In [None]:
def fcn(x1):
    a, om, phi = x1
    return np.sum((y - a*np.cos(om*x + phi))**2)

from scipy.optimize import minimize

In [None]:
fitres = minimize(fcn, [1.1, 1.8, 0.0])
a0, om0, phi0 = fitres.x
fitres

In [None]:
plt.figure(num=2, figsize=(20, 7))
plt.plot(x, y, '.')
plt.plot(x, p(x))
plt.plot(x, a0 * np.cos(om0 * x + phi0))
plt.show()

#### Работа с файлами в `numpy`
* Бинарный формат `.npy` позволяет быстро записывать/считывать данные, выполняет сжатие данных
* `numpy` поддерживает несколько других форматов данных. Читайте документацию

In [None]:
mean = [-2, 5]
cov = [[3, 3.5], [3.5, 10]]
x = np.random.multivariate_normal(mean, cov, size=100000)
np.savetxt('myarray.txt', x)
np.save('myarray.npy', x)

In [None]:
y = np.loadtxt('myarray.txt')
plt.hist2d(x[:, 0], x[:, 1], bins=(100, 100))

In [None]:
y = np.load('myarray.npy')
plt.hist2d(x[:, 0], x[:, 1], bins=(100, 100))