# Numpy

* Пакет для Python, реализующий многомерные массивы
* Массивы **статически типизированные**. Тип элементов определяется при создании массива.
* Массивы эффективно используют память.
* Методы линейной алгебры в numpy реализованы на C и Fortran, что обеспечивает хорошую производительность.
* Пакет numpy активно используется в научных проектах по всему миру.

In [33]:
import numpy as np

## Создание массивов

Существует несколько способов создания новых numpy массивов:
* через списки и кортежи Python
* используя специальные функции numpy такие, как `arange`, `linspace`, и так далее.
* вычитывая данные из файлов

### 1D массивы:

In [34]:
a = np.array([0,1,2,3])
a

array([0, 1, 2, 3])

In [35]:
type(a), a.dtype

(numpy.ndarray, dtype('int32'))

In [36]:
a.ndim, a.shape, len(a)

(1, (4,), 4)

In [37]:
b = np.array((3, 4, 5))
b

array([3, 4, 5])

В numpy существует множество функций для генерации массивов:

#### `arange`

Генерирует значения в интервале [start, stop) с шагом step. Аналог встроенной функции Python `range`. На уровне типов они, конечно, отличаются. `np.arange` возвращает обычный numpy-массив, в то время как `range` является lazy sequence/lazy iterable и стоит в общем ряду с `list` и `tuple`. Funny fact: `range` не является итератором -- он не "иссякает", для него нельзя вызвать `next()` и можно `len()`, но, в отличие от списка, он lazy

In [38]:
x = np.arange(0, 10, 1) # аргументы: start, stop, step
type(range(10))

range

In [39]:
x = np.arange(-1, 1, 0.1)
x

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

#### `linspace` и `logspace`

`linspace` Генерирует равномерно распределенные числа, включая конечные точки.

`logspace` То же, но в логарифмической шкале.

In [40]:
np.linspace(0, 10, 10) # аргументы: start, stop, число точек

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

In [41]:
np.logspace(0.1, 1, 4, base=2)

array([1.07177346, 1.31950791, 1.62450479, 2.        ])

#### `zeros`, `ones`, `zeros_like` и `ones_like`

In [42]:
np.zeros((5,))   # Аргумент должен быть кортежем

array([0., 0., 0., 0., 0.])

In [43]:
a = np.ones((4,))
a

array([1., 1., 1., 1.])

In [44]:
b = np.zeros_like(a)
b

array([0., 0., 0., 0.])

In [45]:
c = np.ones_like(b)
c

array([1., 1., 1., 1.])

### Многомерные массивы

In [46]:
# Матрица
m = np.array([[1., 2.], [3., 4.]])
m

array([[1., 2.],
       [3., 4.]])

In [47]:
type(m), m.dtype

(numpy.ndarray, dtype('float64'))

In [48]:
m.ndim, np.shape(m), len(m), np.size(m)

(2, (2, 2), 2, 4)

При попытке назначить значение другого типа будет выдана ошибка:

In [49]:
m[0,0] = 'hello' 

ValueError: could not convert string to float: 'hello'

#### `zeros`, `ones`, `zeros_like` и `ones_like`

In [None]:
a = np.ones((3, 3))
a

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [None]:
b = np.zeros((2, 2))
b

array([[0., 0.],
       [0., 0.]])

#### Другие функции

In [None]:
c = np.eye(3) # единичная матрица
c

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [None]:
d = np.diag([3, 5, 7]) # диагональная матрица
d

array([[3, 0, 0],
       [0, 5, 0],
       [0, 0, 7]])

### Упражнение 1
Построить диагональную матрицу, на диагонали которой расположены числа от 0 до 3.

In [None]:
a = np.diag(np.arange(4))
a

array([[0, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3]])

### Упражнение 2

Создать матрицу размерности 3x3x3 со случайными значениями, имеющими равномерное распределение от 1 до 5.

In [None]:
np.random.uniform(low=1,high=5, size=(3,3,3))

array([[[2.50928238, 2.39375043, 2.93799126],
        [4.31284261, 1.58612934, 4.26978498],
        [2.59000473, 1.3656297 , 4.44430658]],

       [[4.71853062, 1.14178609, 3.24343147],
        [4.14306601, 1.50583113, 1.15658669],
        [1.99972051, 1.91076495, 1.5606981 ]],

       [[4.05491157, 1.81750328, 4.7163407 ],
        [2.16485563, 3.64635043, 3.21486276],
        [3.84311215, 1.21258384, 1.06925955]]])

## Копирование в NumPy

Как мы помним, в Python при присваивании не происходит копирование объектов. 

In [None]:
m = np.array([[1, 2], [3, 4]])
m

array([[1, 2],
       [3, 4]])

In [None]:
n = m

In [None]:
# Изменение N меняет M
n[0, 0] = 10
n

array([[10,  2],
       [ 3,  4]])

In [None]:
m

array([[10,  2],
       [ 3,  4]])

Глубокая копия создается в NumPy с помощью функции `copy`:

In [None]:
n = np.copy(m)

In [None]:
# теперь при изменении N M остается нетронутым
n[0,0] = -5
n

array([[-5,  2],
       [ 3,  4]])

In [None]:
m

array([[10,  2],
       [ 3,  4]])

Слайсинг в numpy создает лишь представление изначального массива, т.е. копирования в памяти не происходит.

При изменении представления меняется и изначальный массив:

In [None]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
b = a[::2]
b

array([0, 2, 4, 6, 8])

In [None]:
b[0] = 12
b

array([12,  2,  4,  6,  8])

In [None]:
a # (!!)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [None]:
a = np.arange(10)
b = a[::2].copy() # глубокое копирование
b[0] = 12
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Слияние массивов

Функции `vstack`, `hstack` и `concatenate` позволяются составить общий массив из нескольких массивов:

### `concatenate`

In [55]:
a = np.array([[1, 2]])
a

array([[1, 2]])

In [56]:
b = np.array([[5, 6]])
b

array([[5, 6]])

In [57]:
np.concatenate((a, b), axis=0)


array([[1, 2],
       [5, 6]])

In [58]:
np.concatenate((a, b.T), axis=1)

ValueError: all the input array dimensions except for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 1 and the array at index 1 has size 2

### `hstack` и `vstack`

In [59]:
np.vstack((a,b))

array([[1, 2],
       [5, 6]])

In [60]:
np.hstack((a,b.T))

ValueError: all the input array dimensions except for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 1 and the array at index 1 has size 2

## Индексация

Доступ к данным массива организуется с помощью индексов и оператора `[]`.

In [None]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
a[0], a[2], a[-1]

(0, 2, 9)

Для многомерных массивов индексами является кортеж целых чисел:

In [61]:
m = np.diag(np.arange(3))
m

array([[0, 0, 0],
       [0, 1, 0],
       [0, 0, 2]])

In [62]:
m[1, 1]

1

In [63]:
m[(1, 1)]

1

Можно использовать "`:`" для получения доступа к целой колонке или строке: 

In [64]:
m[1, :] # строка 1

array([0, 1, 0])

In [65]:
m[:, 2] # колонка 2

array([0, 0, 2])

Присваивание новых значений элементам массива:

In [66]:
m[2, 1] = 10
m

array([[ 0,  0,  0],
       [ 0,  1,  0],
       [ 0, 10,  2]])

In [67]:
m[1, :] = 5
m[: ,2] = -1

In [68]:
m

array([[ 0,  0, -1],
       [ 5,  5, -1],
       [ 0, 10, -1]])

## Слайсинг

NumPy поддерживает слайсинг, как и списки с кортежами в Python:

In [69]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Все три параметра слайсинга являются опциональными: по умолчанию `start` равен **0**, `end` равен последнему элемену и `step` равен **1** в `a[start:stop:step]`:

In [70]:
a[::] # все параметры слайсинга имеют значения по умолчанию

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
a[1:3]

array([1, 2])

In [72]:
a[:3]

array([0, 1, 2])

In [73]:
a[3:]

array([3, 4, 5, 6, 7, 8, 9])

In [74]:
a[2:9:2] 

array([2, 4, 6, 8])

Отрицательные индексы отсчитываются от конца массива:

In [75]:
a[-1] # последний элемент массива

9

In [76]:
a[-3:] # последние три элемента

array([7, 8, 9])

Слайсы являются представлениями массива, а потому являются изменяемыми:

In [None]:
a[1:3] = [-2,-3]
a

Слайсинг работает точно так же и для многомерных массивов:

In [None]:
m = np.random.randint(1,100, size=(4, 4))
m

In [None]:
m[1:4, 1:4]

In [None]:
m[::2, ::2]

### Упражнение 3
Создать нулевую матрицу размерности 5х5 с единицами по ее "границам".

In [None]:
a = np.ones((5, 5))
a[1:-1, 1:-1] = 0
a

array([[1., 1., 1., 1., 1.],
       [1., 0., 0., 0., 1.],
       [1., 0., 0., 0., 1.],
       [1., 0., 0., 0., 1.],
       [1., 1., 1., 1., 1.]])

## Линейная алгебра

Код, написанный на numpy становится эффективным тогда, когда он достаточно векторизован (т.е. векторные и матричные операции используются в бОльшей части программы).

### Поэлементные операции

Все арифметические операции по умолчанию являются поэлементными:

In [None]:
a = np.arange(4)
a + 1

In [None]:
5*a

In [None]:
2**a

In [None]:
j = np.arange(5)
2**(j + 1) - j

### Операции между массивами

In [None]:
a = np.arange(4)
b = np.ones(4) + 3
print('a = ', a)
print('b = ', b)
a - b

a =  [0 1 2 3]
b =  [4. 4. 4. 4.]


array([-4., -3., -2., -1.])

In [None]:
a * b

Сравнения:

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
a == b

In [None]:
a > b

Логические операции:

In [None]:
a = np.array([1, 1, 0, 0], dtype=bool)
b = np.array([1, 0, 1, 0], dtype=bool)
np.logical_or(a, b)

In [None]:
a | b

In [None]:
np.logical_and(a, b)

In [None]:
a & b

Использование логических операторов позволяет обращаться к элементам массива через маску:

In [None]:
c = np.array([1, 2, 3, 4], dtype=int)
d = np.array([1, 2, 5, 6], dtype=int)
c[c == d]

### Упражнение 4
Создать случайный вектор размера 10 и найти его среднее значение.

In [None]:
a = np.random.sample(10)
np.mean(a)

0.6297617422267345

### Упражнение 5
Создать случайную матрицу размерности 10х2, хранящую декартовы координаты. Затем конвертируйте их в полярные координаты.

In [None]:
def distance (x,y):
    return np.sqrt(x**2+y**2)
a = np.random.random([10,2])
print(a)
x = a[:, 0]
y = a[:, 1]
print(x)
print(y)
r = distance(x,y)
phi = np.arctan2(y,x)
print(r)
print(phi)

[[0.68454941 0.07479443]
 [0.60230555 0.0318251 ]
 [0.71628331 0.64800908]
 [0.97758171 0.27249647]
 [0.93391965 0.48785015]
 [0.3261317  0.19803338]
 [0.89531267 0.44304226]
 [0.10946142 0.32475774]
 [0.25886988 0.46889291]
 [0.999872   0.3160276 ]]
[0.68454941 0.60230555 0.71628331 0.97758171 0.93391965 0.3261317
 0.89531267 0.10946142 0.25886988 0.999872  ]
[0.07479443 0.0318251  0.64800908 0.27249647 0.48785015 0.19803338
 0.44304226 0.32475774 0.46889291 0.3160276 ]
[0.68862334 0.60314576 0.96590763 1.01484991 1.05366204 0.3815483
 0.99893504 0.3427089  0.53560636 1.04862646]
[0.10882913 0.0527897  0.73539618 0.27184499 0.48138181 0.54571072
 0.45951624 1.24569947 1.0663519  0.30613217]


### Матричная алгебра

Перемножение массивов является поэлементным. Для матричного умножения необходимо использовать функцию `dot`:

In [None]:
m = np.array([[1., 2.], [3., 4.]])
m

In [None]:
m * m

In [None]:
m.dot(m)

In [None]:
m @ m

### Трансформирование массивов

Для транспонирования матриц используется либо `.T`, либо функция `transpose`:

In [None]:
m

In [None]:
m.T

In [None]:
m.transpose()

Другие математические функции:

In [None]:
c = np.matrix([[1j, 2j], [3j, 4j]])
c

In [None]:
np.conjugate(c)

Эрмитово-сопряженная матрица(transpose + conjugate):

In [None]:
c.H

Вещественная и мнимая части могут быть получены с помощью `real` и `imag`:

In [None]:
np.real(c) # то же: c.real

In [None]:
np.imag(c) # то же: c.imag

Модули элементов матрицы:

In [None]:
np.abs(c)

### Упражнение 6
Найти ближайшее значение к числу 4 в векторе [4.3, 1.0, 3.9, 5.0, 2.0, 1.9]

In [None]:
x = 4
a = np.array( [4.3, 1.0, 3.9, 5.0, 2.0, 1.9])
idx = np.abs(x - a).argmin()
print(a[idx])

3.9


### Матричные вычисления

#### inverse

In [None]:
np.linalg.inv(c) # то же: C.I 

In [None]:
c.I * c

#### determinant

In [None]:
np.linalg.det(c)

In [None]:
np.linalg.det(c.I)

## Векторизация функций

Numpy предлагает средства для создания векторизованных оберток над функциями, которые изначально принимают на вход скалярные значения.

In [None]:
def foo(x):
    if x >= 0:
        return 1
    else:
        return 0

In [None]:
foo(np.array([-3, -2, -1, 0, 1, 2, 3]))

Эта функция работает для скалярных данных. 

Чтобы это функция принимала векторные значения, необходимо провести векторизацию с помощью функии `vectorize`:

In [None]:
foo_vec = np.vectorize(foo)

In [None]:
foo_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))

# Matplotlib

* Пакет для Python, используемый для создания качественных 2D визуализацией (есть минимальная поддержка 3D)
* Возможность создавать интерактивные графики
* Добавление множества графиков на один рисунок с кастомным расположением
* Экспорт в различные форматы изображений
* Есть поддержка анимаций

In [77]:
# Позволяет matplotlib отображать графики сразу в notebook.
%matplotlib inline

## Matplotlib API

Импортирование модуля `matplotlib.pyplot` под именем `plt`:

In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np

Простейший пример построения графиков в matplotlib:

In [None]:
x = np.linspace(-2., 2., 128, endpoint=True)
y1 = x**2
y2 = np.exp(x)
plt.plot(x, y1)
plt.plot(x, y2)
plt.xlabel(r'$x \in \mathbb{R}$', fontsize=12)
plt.ylabel(r'$y(x)$', fontsize=12)
plt.show()

Рекомендуется создавать отдельный объект для каждого более-менее сложного графика. Это можно реализоваться, например, с помощью функии `subplots`:

In [79]:
# Сетка графиков -- 1x1. Размер задается с помощью figsize.
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(8, 6))
ax.plot(x, y1, color="blue", linewidth=1.0, linestyle="-")
ax.plot(x, y2, color="green", linewidth=1.0, linestyle="--")
ax.grid()
ax.set_xlabel(r'$x$', fontsize=12)
ax.set_ylabel(r'$y$', fontsize=12)
plt.show()

NameError: name 'plt' is not defined

Множественные графики

In [None]:
# Создаем 2 графика (в 2 колонках)
fig, axes = plt.subplots(1, 2, figsize=(10, 6))
axes[0].plot(x, y1, 'r')
axes[1].plot(x, y2, 'b')
fig.tight_layout()

## Сохранение графиков

Текущий график можно сохранить, вызвав метод `savefig` класса `Figure`:

In [None]:
fig.savefig("filename.png")

Также можно указать DPI и различные форматы:

In [None]:
fig.savefig("filename.pdf", dpi=200)

### Легенды, описания осей и графиков

**Заголовок графика**


`axes.set_title("title")`

**Описания осей**


`axes.set_xlabel("x")
axes.set_ylabel("y")`

**Легенда**

Легенды могут создаваться двумя способами. Первый -- явно через метод `legend`:

`axes.legend(["curve1", "curve2"])`

Второй метод -- использование `label="label text"` при вызове `plot` с последующим вызовом метода `legend`: 

`axes.plot(x, x**2, label="curve1")
axes.plot(x, x**3, label="curve2")
axes.legend()`

Также можно выбрать расположение легенды на графике:

`ax.legend(loc=0) # автовыбор
ax.legend(loc='upper right')
ax.legend(loc='upper left')
ax.legend(loc='lower left')
ax.legend(loc='lower right')`

Пример использования описанного выше:

In [78]:
fig, ax = plt.subplots()
ax.plot(x, x**2, label="y = x**2")
ax.plot(x, x**3, label="y = x**3")
ax.legend(loc='upper left')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_title('title')

NameError: name 'plt' is not defined