<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    <b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b>
</h1>

---

<h1 style="text-align: center;">
    <b>Python. Занятие 2: NumPy</b>
</h1>

<img align=center src="../img/python_logo.png" width=500>

#### При подготовке ноутбука использовался сайт: http://www.inp.nsk.su/~grozin/python/

---

## Библиотека `NumPy`

Пакет **`NumPy`** предоставляет $n$-мерные однородные массивы (все элементы одного типа); в них нельзя вставить или удалить элемент в произвольном месте. В `NumPy` реализовано много операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то это будет столь же эффективно, как в `C` или `MATLAB`, поскольку функции этой библиотеки реализованы на `C`, и мы просто вызываем их из питона.

In [None]:
# стандартное название для импорта numpy - np
import numpy as np

In [None]:
# from numpy import *
# как и в любом другом языке и библиотке, так делать не стоит
# вы очень быстро запутаетесь в функциях из numpy
# и запутаете всех, кто читает ваш код

## Векторы и матрицы в `NumPy`

$$
A = \begin{bmatrix}
    x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
    x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
\end{bmatrix}
$$

### Одномерные массивы

Я предполагаю, что почти все знают про обычные массивы и про операции над ними. Они выглядят следующим образом:

In [None]:
x = [3, 4, 1]
print(x)

Давайте преобразуем наш массив в `NumPy` массив:

In [None]:
a = np.array(x)
print(a, '|', type(a))

`print` печатает массивы в удобной форме:

In [None]:
print(a / 89)

### Многомерные массивы

In [None]:
# простая матрица
x = [[3, 4, 1],
     [1, 2, 3]]
print(x)

In [None]:
a = np.array(x)
print(a)

In [None]:
# реально многомерный массив
x = [
        [ [1, 2, 3], [4, 5, 6]],
        [ [7, 8, 9], [10, 11, 12]] 
    ]
print(x)

In [None]:
a = np.array(x)
print(a)

Как мы видим, для `NumPy` нет никакой разницы, сколько измерений у матрицы, все они представляются `numpy.ndarray`.

## Типы данных в `NumPy`

`NumPy` предоставляет несколько типов для целых чисел (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`).

In [None]:
a.dtype, a.dtype.name, a.itemsize

In [None]:
b = np.array([0., 2, 1])
b, b.dtype

Точно такой же массив, тип указан явно:

In [None]:
c = np.array([0.1, 2, 1], dtype=np.float64)
c, c.dtype

Преобразование данных в другой тип:

In [None]:
print(c.dtype)
print(c.astype(int))
print(c.astype(str))

Так для чего нам нужны эти массивы, почему нам может не хватать возможностей обычных массивов?

## Методы массивов в `NumPy`

Класс `ndarray` имеет много методов:

In [None]:
dir(a)

### Одномерные массивы

#### Числовые операции и нахождение статистик:

In [None]:
x = [1, 2, 0, 3, 4]
a = np.array(x)
a

In [None]:
# у массивов можно легко и быстро посчитать разные статистики
print(a.std())  # стандартное отклонение
print(a.sum())  # сумма
print(a.prod()) # произведение
print(a.min())  # минимум
print(a.max())  # максимум
print(a.mean()) # среднее

In [None]:
# массивы можно умножать и складывать со скалярами и
# другими массивами, операции выполняются поэлементно
a * 2, a / 2, a + 1, a - 1

In [None]:
a + a, a * a, a / a, a ** 2

In [None]:
# с листами из питона так не получится
# для них операции имеют другое значение
print(type(x))
print(x)
print(x + x)
print(x * 2)
print(x ** 2) # возведение в степень не определено

#### Поэлементные операции

In [None]:
# в numpy есть функции, которых хватает для построения почти любых рассчётов
# есть много других функций, лучше просто загуглить, когда вам что-то понадобится
np.exp(a), np.sin(a), np.cos(a), np.round(a)

#### Cортировка, добавление, удаление элементов массива

In [None]:
b = np.arange(9, -1,-1)
print(f'sorted b {np.sort(b)}')
print(f'original b {b}')
b.sort()
print(f'original b after inplace sort {b}')

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [None]:
a = np.arange(10, -1, -1)
a = np.delete(a, [5, 7])
print(a)

In [None]:
a = np.insert(a, [2, 3], [-100, -200])
print(a)

In [None]:
a = np.append(a, [1, 2, 3])
print(a)

### Многомерные массивы

В случае многомерных массивов работает всё, что мы только что попробовали для одномерных, но появляются и новые возможности.

#### Работа с `shape` массива

У многомерных массивов есть понятие осей (их ещё можно назвать измерениями). Так как одни и те же данные могут храниться в массивах разной формы, в `NumPy` есть методы, чтобы эту форму менять.

`ndarray.shape` — размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из `n` строк и `m` столбцов, `shape` будет равен `(n, m)`. 

В $n$-мерном случае возвращается кортеж размеров по каждой координате.

In [None]:
x = [[1, 2, 3],
     [4, 5, 6]]
a = np.array(x)
print('shape():', a.shape, '\nndim():', a.ndim, '\nsize():', a.size, '\nlen():', len(a))

**Вопрос:**

> Как связаны элементы кортежа `shape`, `ndim`, `size`?

**Ответ:**

> `ndim` - это длина кортежа `shape` \
  `size` - это произведение всех элементов `shape`

**Вопрос:**

> Каковы значения `shape`, `ndim`, `size` для картинки RGB 160x100? \
  А для массива из 1000 таких картинок?

**Ответ:**

> Для картинки `shape == (160, 100, 3)`, `ndim == 3`, `size == 160 * 100 * 3` \
  Для массива картинок `shape == (1000, 160, 100, 3)`, `ndim == 4`, `size == 1000 * 160 * 100 * 3`

Для смены `shape` существуют методы `reshape`, `flatten` и `ravel`:

In [None]:
print(a)
# reshape
print(a.reshape(3, 2))
# вместо одной из осей можно просто вставить -1, тогда numpy 
# попытается сам понять, какое там должно быть число
print(a.reshape(-1, 2))
# если такое число не получится найти, то будет ошибка
print(a.reshape(-1))

In [None]:
# flatten и ravel очень похожи, они вытягивают матрицу любой размерности в строчку
# единственное отличие в том, что flatten возвращает копию массива, вытянутую в строчку
# а ravel - просто view (т.е. не происходит реального копирования значений)
# пример снизу показывает это отличие
flattened = a.flatten()
flattened[0] = 1000
print(a)
raveled = a.ravel()
raveled[0] = 1000
print(a)

#### Подсчет статистик по осям

In [None]:
print(a)

In [None]:
# если не написать axis, то статистика посчиатется по всему массиву
# если axis=1, то для трёхмерной матрицы операция (например, суммирование)
# будет идти по элементам с индексами (i, *, j)
# если axis=(1, 2), то для трёхмерной матрицы операция будет
# идти по элементам с индексами (i, *, *)
a.std(axis=0), a.sum(axis=0), a.prod(axis=0), a.min(axis=0), a.max(axis=0), a.mean(axis=0)

In [None]:
# посчитаем, итерируясь по 1 оси
a.std(axis=1), a.sum(axis=1), a.prod(axis=1), a.min(axis=1), a.max(axis=1), a.mean(axis=1)

## Булевы массивы
Булевы массивы не настолько особенны, чтобы выделять их в отдельную категорию, но у них есть несколько интересных свойств, которые нам помогут. Булевы массивы естественно возникают в нашей программе при сравнении каких-то двух массивов в numpy (==, >, >=, <, <=).

In [None]:
a = np.array([1, 2, 3])
b = np.array([1, 2, 0])

a == b, a > b, a >= b, a < b, a <= b

Посмотрим, что мы можем делать с такими массивами:

In [None]:
a = np.array([True, False, True])
b = np.array([False, False, True])

# логические поэлементные операции
print(f'a and b {a & b}')
print(f'a or b {a | b}')
print(f'not a {~a}')
print(f'a xor b {a ^ b}')

In [None]:
# логические операции над всеми элементами массива
# в них тоже можно использовать параметр axis
a.any(), a.all()

In [None]:
# если к булевому массиву применить функции, предназначенные только для чисел
# то перед применением все True сконвертируются в 1, а False в 0
# здесь также можно добавить параметр axis
a.mean(), a.max(), a.sum(), a.std()

**Задание на булевы массивы:**

> Пусть у нас есть два одномерных массива y_pred - предсказанный нашей моделью класс, и y_true - настоящий класс. Посчитайте accuracy нашего классификатора на этих данных (долю случаев, в которых реальный класс совпал с предсказанием).

In [None]:
y_pred = np.array([1, 2, 1, 2, 1, 1])
y_true = np.array([1, 2, 1, 1, 1, 1])

(y_pred == y_true).mean()

## Полезные функции из `NumPy`

Также в `NumPy` есть много полезных методов для получения готовых массивов определённого вида.

Функция `np.arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда `(конец − начало) / шаг` - это целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.

In [None]:
# поиграемся с питоновским методом range
print(list(range(8)))
print(*range(0, 8))
print(*[2, 5])
print(2, 5)

In [None]:
# в нём нельзя использовать нецелый шаг
print(*range(0, 8, 0.5))

In [None]:
# перейдем к arange
# здесь нецелый шаг использовать уже можно
print(type(np.arange(0, 8)))
print(np.arange(0, -8, -0.5))

In [None]:
print(np.arange(0, 8, 0.5))

Но самое главное:

In [None]:
%time np.arange(0, 50000000)
%time list(range(0, 50000000))
%time range(0, 50000000)

**Вопрос на знание питона:**

> Почему `range` занял даже меньше времени, чем `np.arange`?

Еще один метод, похожий на `arange` - это `linspace`. С его помощью можно создавать последовательности чисел с постоянным шагом. Начало и конец диапазона включаются, последний аргумент - число элементов.

In [None]:
a = np.linspace(0, 8, 8)
print(a)

**Быстродействие.** Массивы, разумеется, можно использовать в `for` циклах. Но при этом теряется главное преимущество `NumPy` - быстродействие. Всегда, когда это возможно, лучше использовать операции, определенные в `NumPy`.

In [None]:
a = np.linspace(0, 8, 8000)

In [None]:
%%time 
res = a + a

In [None]:
%%time
res = []
for value in a:
    res.append(value + value)

В совсем простых операциях, таких как сложение двух чисел, `Python` не уступает в скорости `C++` или `C`, а поэтому использование `NumPy` не дает выйгрыша, но в более тяжёлых вычислениях разница становится колоссальнной.

Ещё один способ создавать стандартные массивы - `np.eye(N, M=None, ...)`, `np.zeros(shape, ...)`, `np.ones(shape, ...)`.

Первая функция создает единичную матрицу размера $N \times M$; если $M$ не задано, то $M = N$. 

Вторая и третья функции создают матрицы, состоящие целиком из нулей или единиц соответственно. В качестве первого аргумента необходимо задать размерность массива — кортеж целых чисел. В двумерном случае это набор из двух чисел: количество строк и столбцов матрицы.

**Примеры:**

In [None]:
b = np.eye(5)
print("Единичная матрица:\n", b)

In [None]:
c = np.ones((7, 5))
print("Матрица, состоящая из одних единиц:\n", c)

**Обратите внимание: размерность массива задается не двумя аргументами функции, а одним — кортежем!** 

Вот так — `np.ones(7, 5)` — создать массив не получится, так как функции в качестве параметра `shape` передается `7`, а не кортеж `(7, 5)`.

**Задание на создание матриц:**

> Создайте матрицу размера 4х5, у которой все элементы, стоящие на диагонали, равны -1, а все остальные равны 0.5.

In [None]:
-1.5 * np.eye(4, 5) + 0.5

## Slices, Fancy Indexing and stuff

**Обращение по слайсам**

Так же как и для обычных листов, для `NumPy` массивов доступно обращение по слайсам (`a[2:5:2]`, `2:5:2` - слайс). Но есть одно отличие - в `NumPy` можно писать несколько слайсов через запятую, чтобы сделать *срез* сразу по нескольким осям - `a[2:5, 1:4]`. 

In [None]:
a = np.array([
                [1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]
             ])
print(a)
print(a[0:2, 1:3])

**Обращение по слайсам с добавлением новых осей**

В `NumPy` к размерностям объектов можно добавлять фиктивные оси с помощью `np.newaxis`. Для того, чтобы понять, как это сделать, рассмотрим пример:

In [None]:
a = np.arange(1, 4, 1)
print(a)
print('Вектор a с newaxis --> вектор-строка:\n', a[None, :])
print('Полученная размерность:', a[np.newaxis, :].shape)
print('Вектор a с newaxis --> вектор-столбец:\n', a[:, None])
print('Полученная размерность:', a[:, np.newaxis].shape)

**Обращение по индексам**

В `NumPy` можно обращаться сразу к нескольким элементам массива, которые не идут подряд, передав в качестве аргумента `list` или `np.array` индексов:

In [None]:
a = np.array([0, 1, 2, 3])
a[0], a[[0, 1, 1, 2]], a[np.array([0, 1, 1, 2])]

In [None]:
# многомерный случай
z = np.array([[1, 2], [3, 4]])
print(z)
# можно передать массив с индексами для каждого из измерений
# в данном случае выберутся элементы с индексами (0, 0) и (1, 1)
# результат - одномерный массив
print(z[[0, 1], [0, 1]])

**Обращение по булевому массиву**

In [None]:
print(a)
print(a[[True, False, True, True]])
# как мы уже выяснили, в результате сравнения numpy массивов получается булев массив
# его очень удобно использовать, чтобы обращаться к элементам, удовлетворяющим некоторому условию
print(a[a > 1])

**Присвоение значений во view**

Когда мы используем слайсы для выборки каких-то элементов массива, нам возвращается не новый массив с этими элементами, а просто объект `view`, который ссылается на какие-то ячейки в реальном массиве. Поэтому мы можем сделать так:

In [None]:
a = np.array([1, 2, 3])
b = a[0:2]
print(b)
b[0] = 100
print(b)
print(a)

Изменив элемент во `view` b, мы поменяли элемент и в массиве а. Если же обратиться по списку координат или булевому массиву, так не получится:

In [None]:
a = np.array([1, 2, 3])
b = a[[0, 1]]
print(b)
b[0] = 100
print(b)
print(a)

In [None]:
a = np.array([1, 2, 3])
b = a[[True, True, False]]
print(b)
b[0] = 100
print(b)
print(a)

**Вопрос:**

> Означает ли это, что не сработают выражения вида: \
      `a[[0, 1]] = 100` \
      `a[[True, True, False]] = 200`

**Ответ:**

> Присваивания сработают, потому что в данном случае копия массива создаваться не будет, вместо этого вызовется магический метод питона `__setitem__`. Очень удобная особенность питона, про которую не стоит забывать.

In [None]:
print(a)
a[[0, 1]] = 100
print(a)
a[[True, True, False]] = 200
print(a)

Если же слева будет не просто обращение по индексу, а двойное обращение по индексу, то питону придется вычислить значение

```python
a[[True, True, False]]
```

тем самым создав копию, и только потом взять у него нулевой элемент. Поэтому $100$ присвоится в массив-копию, который тут же уничтожится:

In [None]:
a = np.array([1, 2, 3])
a[[True, True, False]][0] = 100
print(a)

**Задание на slicing:**

> Создайте матрицу 4х4, у которой элементы, для которых `i == 4 - j`, равны 1, а остальные - 0.

In [None]:
m = np.zeros((4, 5))
m[[0, 1, 2, 3], [3, 2, 1, 0]] = [1, 1, 1, 1]
print(m)


**Константы**

In [None]:
np.e, np.pi

## Линейная Алгебра

До этого мы рассматривали разные операции `NumPy`, которые не связаны напрямую с линейной алгеброй. Пришло время это исправить!

**Скалярное произведение**

$$a~\cdot~b = (a_1, a_2, .., a_n) \cdot (b_1, b_2, .., b_n) = a_1b_1 + a_2b_2 + .. + b_nb_n = \sum_{i=1}^{n} a_ib_i$$

In [None]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
print(a, b)

In [None]:
a @ b

In [None]:
print(np.matmul(a, b))

**Векторы и матрицы**

In [None]:
b = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

Наш 2-мерный массив `b`, также его можно назвать матрицей, имеет 2 строки и 3 столбца.
То есть наша матрица состоит из 2 вектор-строк:

In [None]:
print(b)
b[0:2, 0:1]

In [None]:
b[1:2]

Обычно в линейной алгебре под любым вектором подразумевается вектор-столбец. Наша матрица содержит 3 вектор-стобца:

In [None]:
b[:, 0:1]

In [None]:
b[:, 1:2]

In [None]:
b[:, 2:3]

In [None]:
a @ b

**Операции с матрицами**

In [None]:
A = np.array([[1, 0], [0, 1]])
B = np.array([[4, 1], [2, 2]])

Напоминание теории. **Транспонированной матрицей** $A^{T}$ называется матрица, полученная из исходной матрицы $A$ заменой строк на столбцы. Формально: элементы матрицы $A^{T}$ определяются как $a^{T}_{ij} = a_{ji}$, где $a^{T}_{ij}$ — элемент матрицы $A^{T}$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

В `NumPy` транспонированная матрица вычисляется с помощью функции `numpy.transpose()` или с помощью *метода* `array.T`, где `array` — нужный двумерный массив:

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.transpose(a)
c = a.T

In [None]:
print("Матрица:\n", a)
print("Транспонирование функцией:\n", b)
print("Транспонирование методом:\n",  c)

In [None]:
a @ b

Напоминание теории. Операция **умножения** определена для двух матриц, если число столбцов первой равно числу строк второй.

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$. **Произведением** матриц $A$ и $B$ называется матрица $C$, такая что $c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$, где $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

В `NumPy` произведение матриц вычисляется с помощью функции `numpy.dot(a, b, ...)` или с помощью *метода* `array1.dot(array2)`, где `array1` и `array2` — перемножаемые матрицы:

In [None]:
y = np.array([1, 0])
z = np.dot(A, y)

In [None]:
y = np.linalg.solve(A, z)
print(y)

**Модуль `np.linalg`**

In [None]:
A = np.array([[1, 0], [1, 0]])
x = np.array([[4, 1], [2, 2]])
b = np.dot(A, x)
print(b)

Решение линейной системы $Ax=b$:

In [None]:
x = np.linalg.solve(A, b)
print(x)

## Библиотека `SciPy`

**Оптимизация функции (нахождение минимума/максимума)**

In [None]:
from scipy.optimize import minimize

Обязательно посмотрите документацию, сходу не очевидно, как именно использовать:

In [None]:
?minimize

Опмтимизируем (минимизируем) простую функцию:

In [None]:
def f(x):
    return x ** 2

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

x = np.arange(-3, 3, .1)
y = f(x)

plt.plot(x,y)
plt.show()

In [None]:
res = minimize(f, x0=100)
res

Тут нужно смотреть на 4 строчки: `fun`, `message`, `success` и `x`: 
* `fun` - значние функции в точке минимума
* `message` - служебное сообщение об окончании процесса (может быть "успешно", как здесь, или сообщение о том, что что-то пошло не так ("не сошлось"))  
* `success` - `True`, если успешно сошлось (но лучше всегда всё же смотреть и `message`) 
* `x` - точка, в которой достигается минимум

Можно в аргумент `method` подавать разные ключевые слова для смены метода оптимизации, подробнее о них лучше читать документацию или погуглить.

**Интегрирование**

In [None]:
from scipy.integrate import quad, odeint
from scipy.special import erf

In [None]:
def f(x):
    return np.exp(-x ** 2)

?erf

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

x = np.arange(-3, 3, .1)
y = f(x)

plt.plot(x,y);
plt.show()

Адаптивное численное интегрирование (может быть до бесконечности), `err` - оценка ошибки:

In [None]:
res, err = quad(f, 0, np.inf)
print(np.sqrt(np.pi) / 2, res, err)

In [None]:
res, err = quad(f, 0, 1)
print(np.sqrt(np.pi) / 2 * erf(1), res, err)

## Работа с изображениями

Изображение - это тензор. Загрузим картинку из сети.

In [None]:
from PIL import Image
import requests
from io import BytesIO

url = 'https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg'

response = requests.get(url)
img = Image.open(BytesIO(response.content))

In [None]:
type(img)

Код выше был скопирован с гугла и не представляет для нас большого интереса. Главное - получить изображение в формате `NumPy`:

In [None]:
img = np.array(img)
img.shape

In [None]:
from matplotlib import pyplot as plt
plt.imshow(img)
plt.show()

In [None]:
# поменяем местами красный и синий цвета
img2 = img[:, :, ::-1]
plt.imshow(img2)
plt.show()

In [None]:
# отразим по вертикали
img3 = img[:, ::-1]
plt.imshow(img3)
plt.show()

In [None]:
# соберём из картинок массив
batch = np.concatenate([img[np.newaxis, :, :, :], img2[np.newaxis, :, :, :], img3[np.newaxis, :, :, :]])
batch.shape

In [None]:
# превратим картинку в чёрно-белую
img4 = img.sum(axis=2)
plt.imshow(img4, cmap=plt.cm.gray)
plt.show()

In [None]:
img4.shape

## Список материалов для самостоятельного изучения

Статья на Хабре по основам `NumPy` - https://habr.com/post/121031/

100 задач по `NumPy` для любителей посидеть вечерком за чашечкой программирования - https://pythonworld.ru/numpy/100-exercises.html  

Очень крутой, продвинутый ноутбук по `NumPy` - https://nbviewer.jupyter.org/github/vlad17/np-learn/blob/master/presentation.ipynb

Штука, которая вам в будущем может пригодиться ;) - https://stackoverflow.com/questions/27948363/numpy-broadcast-to-perform-euclidean-distance-vectorized/35814006  

Лекции по `SciPy` и `NumPy` - http://www.scipy-lectures.org/index.html