## Часть 3: Знакомство с numpy.  Работа с векторами и матрицами.

Автор: Потанин Марк, mark.potanin@phystech.edu

`NumPy` — это расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами.

Основной элемент NumPy – __массивы__, о которых можно думать как о векторах (одноразмерные массивы) и матрицах (двуразмерные массивы).

Подключить numpy к нашей среде разработки можно с помощью команды `import numpy as np`. В дальнейшем будем обрщаться к объектам `numpy` через `np`, для краткости. 

In [None]:
import numpy as np

Главной особенностью `numpy` является объект `array`, он же массив. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как `float` и `int`. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками.


Массив можно создать из списка при помощи функции `np.array()`.

In [None]:
vec1 = np.array([1, 2, 3])

In [None]:
vec1

In [None]:
type(vec1)

Метод `shape` позволяет получить размерность массива, в данном случае – это вектор 3х1.

In [None]:
vec1.shape

Создние матрицы.

In [None]:
matrix1 = np.array([[1, 2, 3],
                    [4, 5, 6]])

In [None]:
matrix1.shape

Матрица размера 2х3

In [None]:
matrix1.shape

Функция `np.zeros()` позволяет создать массив заданного размера, заполненный нулями.

In [None]:
np.zeros(20)

In [None]:
np.zeros((45,49))

Аналогичная функция `np.ones()` создает массив заданного размера, заполненный единицами.

In [None]:
np.ones((3, 5))

Функция `np.full()` создает массив заполненный указанным элементом. В примере мы создаем массив размером 3x5, заполненый значением 3.14.

In [None]:
np.full((3, 5), 3.14)

Функция `np.arange()` позволяет создать последовательность чисел. Мы указываем начало, конец, и шаг последовательности.

In [None]:
np.arange(0, 20, 2)

In [None]:
np.arange(10)

Есть похожая функция `np.linspace()`. В ней мы указываем начало последовательности, ее конец, и количество точек в последовательности. Она автоматически разбивает указанный отрезок на интервалы.

In [None]:
np.linspace(0, 1, 5)

#### Массивы случайных чисел.

Можно создавать массивы со случайными числами при помощи функции `rand()` модуля `random`.

In [None]:
np.random.rand(4)

Для получения случайных чисел из нормального распределения используем функцию `randn()` из модуля `random`. Для создания матрицы случайных чисел надо передать функции два числа.

In [None]:
np.random.randn(5)

In [None]:
np.random.randn(5,3)

Создаем массив размером 3х3 случайных целых чисел в промежутке (0, 10):

In [None]:
np.random.randint(0, 10, (3, 3))

Создаем единичную матрицу размером 3х3:

In [None]:
np.eye(3)

#### Индексация массива: доступ к отдельным элементам.

In [None]:
x = np.arange(20)

In [None]:
x

Индексация как для стандартных списков Python.

In [None]:
x[0]

In [None]:
x[5]

In [None]:
x1=np.random.randint(0, 10, (3, 3))

In [None]:
x1

In [None]:
x1[0][0]

In [None]:
x1[2][1]

Массивы можно изменять.

In [None]:
x1[1][2] = 100

In [None]:
x1

Так же как со списками, удобно делать срезы массивов.

In [None]:
x

In [None]:
x[:5] # первые пять элементов

In [None]:
x[4:7] 

In [None]:
x[::4] # каждый второй элемент

In [None]:
x[::-2] # все элементы в обратном порядке

In [None]:
x2=np.random.randint(0, 10, (5, 5))

In [None]:
x2

In [None]:
x2[:2, :3] # две строки и три столбца

In [None]:
x2[:3, ::2] # все строки, каждый второй столбец

Доступ к строкам и столбцам массива происходит с помощью среза. И имеет вид `x[:,num_col]` для выбора столбца с номером `num_col`, `x[:,num_row]` для выбора строки с номером `num_row`.

In [None]:
x2[:, 0] # первый столбец массива

In [None]:
x2[0, :] # первая строка массива - эквивалентно x2[0]

In [None]:
x2[0]

In [None]:
x2[2,2]

#### Изменение формы массивов.

Изменить массив в желаемую форму поможет функция `reshape`. Она принимает на вход размерность нового массива, который мы хотим получить.

In [None]:
grid = np.arange(1, 10)

In [None]:
grid

In [None]:
np.arange(1, 10).reshape(3, 3) # поместить числа от 1 до 10 в таблицу 3х3

#### Слияние и разбиение массивов.

Метод `np.concatenate` принимает на вход список массивов, и склеивает их.

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])


Можно объединить более двух массивов одновременно

In [None]:
z = [99, 99, 99]
np.concatenate([x, y, z])

Для объединения двух массивов можно также использовать `np.concatenate`.

In [None]:
grid = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
grid

In [None]:
np.concatenate([grid, grid]) # слияние по первой оси координат


In [None]:
np.concatenate([grid, grid], axis=1) # слияние по второй оси координат(с индексом 0)

Для работы с массивами с различающимися измерениями удобнее и понятнее использовать функции `np.vstack` (вертикальное объединение) и `np.hstack` (горизонтальное объединение).

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])
np.vstack([x, grid]) # объединяет массивы по вертикали

In [None]:
y = np.array([[99],
             [99]])
np.hstack([grid, y]) # объединяе массивы по горизонтали

#### Выполнение вычислений над массивами.


NumPy поддерживает векторизованные операции - операция с массивом, которая применяется ко всем элементам массива. Это, наверное, одна из главных фишек NumPy.

Пример

In [None]:
[2,3,4]*10

In [None]:
np.array([2,3,4])*2

Здесь нас ждем ошибка. Потому как питон не понимает, как можно разделить число на список.

In [None]:
1/[2,3,4]

NumPy же справляется с этой задачей.

In [None]:
1/np.array([2,3,4])

Можно складывать массивы поэелементно.

In [None]:
[1,2,3]+[3,4,2]

Можно складывать массивы поэелементно.

In [None]:
x = np.arange(5)
y = np.arange(1, 6)

In [None]:
x

In [None]:
y

In [None]:
x+y

Работа с многомерными массивами.

In [None]:
x = np.arange(9).reshape((3, 3))
2 ** x

In [None]:
x = np.arange(9).reshape((3, 3))

In [None]:
x

In [None]:
x**2

#### Обзор универсальных функций.

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2) # деление с округлением в меньшую сторону

Существует также унарная универсальная функция для операции изменения знака, оператор `**` для возведения в степень и оператор `%` для деления по модулю. Все как у обычных чисел в питоне, только теперь мы можем легко применять эти операции к целому массиву данных.

In [None]:
print("-x     =", -x)
print("x ** 2 =", x ** 2)
print("x % 2 =", x % 2)

#### Далее мы посмотрим на основные математические функции, которые могут применяться к массивам.

In [None]:
x = np.array([-2, -1, 0, 1, 2])

Абсолютное значение.


In [None]:
np.abs(x)

Тригонометрические функции.

In [None]:
np.pi

In [None]:
theta = np.linspace(0, np.pi, 3)
theta

In [None]:
print("theta      =", theta)
print("sin(theta) =", np.sin(theta))
print("cos(theta) =", np.cos(theta))
print("tan(theta) =", np.tan(theta))


Показательные функции и логарифмы.

In [None]:
x = [1, 2, 3]
print("x    =", x)
print("e^x  =", np.exp(x))
print("2^x  =", np.exp2(x))
print("3^x  =", np.power(3, x))

In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)    =", np.log2(x))
print("log10(x)    =", np.log10(x))

Суммирование значений из массива.

In [None]:
L = np.random.randint(10000,size=(10,10))

In [None]:
L

In [None]:
np.sum(L)

In [None]:
big_array = np.random.rand(1000000)

In [None]:
big_array

In [None]:
np.sum(big_array)

Минимум и максимум.

In [None]:
np.min(big_array)

In [None]:
np.max(big_array)

Агрегирование по столбцу или строке - один из часто применяемых видов операций агрегирования. Пусть имеются какие-либо данные, находящиеся в двумерном массиве.

In [None]:
M = np.random.random((3, 4))

In [None]:
M

In [None]:
M

In [None]:
np.sum(M)

По умолчанию все функции агрегирования NumPy возвращают сводный показатель по всему массиву. Но можно указать ось, по которой вычисляется сводный показатель. Например, можно найти минимальное значение каждого из столбцов, указав axis=0.

In [None]:
np.min(M,axis=1) # Функция возвращает четыре значения, соответствующие четырем столбцам чисел.


Для поиска максимального значения в строке можно использовать axis=1:

In [None]:
np.max(M,axis=1) # Функция возвращает три значения, соответствующие трем строкам чисел.

Еще одно замечание - необязательно вызывать функцию аггрегирования напрямую из NumPy. Пусть `M` - некоторый массив (матрица например), тогда вместо `np.max()` можно написать `M.max()` - так тоже будет работать.

In [None]:
np.max(M)

In [None]:
M.max()

In [None]:
M.min()

Есть много других функций агрегирования.

In [None]:
x = np.random.rand(1, 20)
x

In [None]:
x.prod() # произведение элементов

In [None]:
x.mean() # среднее значение элементов

In [None]:
x.std() # стандартное отклонение

In [None]:
x.var() # дисперсия

In [None]:
np.median(x) # медиана элементов

#### Транслирование.

Транслирование - применение универсальных функций (сложение, вычитание, умножение и т.д.) к массивам различного размера.

Для массивов одного размера математические операции выполняются поэлементно.

In [None]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

Транслирование дает возможность выполнять подобные виды бинарных операций над массивами различных размеров, например, можно легко прибавить скалярное значение (рассматривая его как нульмерный массив) к массиву:

In [None]:
a + 5

Транслирование в массивах большей размерности:

In [None]:
M = np.ones((3, 3))
M

In [None]:
a

In [None]:
M+a

Здесь одномерный массив `а` растягивается (транслируется) на второе измерение, чтобы соответствовать форме массива `М`.

Пример использования транслирования на практике - центрирование массива.

In [None]:
x = np.random.random((10, 3))
x

In [None]:
xmean = x.mean(axis=0)
xmean

Можно отцентрировать массив вычитанием среднего значения (это операция транслирования):

In [None]:
x_centered = x - xmean
x_centered

#### Сравнения и булевы маски.

In [None]:
x = np.array([1, 2, 3, 4, 5])

In [None]:
x < 3

In [None]:
x != 3

In [None]:
x == 3

In [None]:
x = np.random.randint(10, size=(3, 4))
x

In [None]:
x < 6

Для подсчета количества элементов `True` в булевом массиве можно использовать `np.count_nonzero`.

In [None]:
np.count_nonzero(x<6)

In [None]:
x

In [None]:
x<6

In [None]:
np.sum(x < 6) # подсчет количества элементов в массиве, значения которых меньше 6 (False == 0, True == 1)

`np.any()` позволяет проверить условие присутствия в массиве значений больше какого то числа, например 8 (проверить что хотя бы одно число в массиве больше 8).

In [None]:
np.any(x > 8) 

`np.all()` позволяет проверить условие того, что все элементы массива больше какого то числа, например 1.

In [None]:
np.all(x > 1) 


In [None]:
np.any(x == 0)

Функции `np.any()` и `np.all()` также можно было использовать по конкретным осям.

In [None]:
np.all(x > 3, axis=0)

In [None]:
np.all(x > 3, axis=1)

Булевы массивы как маски.

In [None]:
x

In [None]:
x<4

Чтобы выбрать нужные значения из массива, достаточно просто проиндексировать исходный массив `x` по этому булеву массиву. Такое действие носит название наложение маски или маскирование:

In [None]:
x[x < 4]

#### Сортировка массивов.

Чтобы получить отсортированную версию массива, можно использовать функцию `np.sort`.

In [None]:
x = np.array([2, 1, 4, 3, 5])

In [None]:
x

In [None]:
np.sort(x)

Функция `argsort` возвращает индексы отсортированных элементов.

In [None]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)

In [None]:
i

Можно сортировать матрицы по строкам и столбцам.

In [None]:
X = np.random.randint(0, 10, (4, 6))

In [None]:
X

Сортировка всех столбцов массива X.

In [None]:
np.sort(X, axis=0)

Сортировка всех строк массива X.

In [None]:
np.sort(X, axis=1)

Все строки или столбцы массива рассматриваются как отдельные массивы, так что любые возможные взаимосвязи между значениями строк или столбцов будут утеряны.

C помощью функций `np.dot()` или `np.matmul()` можно производить произведение матриц. 


In [None]:
matrix_1 = np.array([[7, 4, 1], 
                     [1, 2, 2]])
matrix_2 = np.array([[3, 2], 
                     [1, 1], 
                     [0, 4]])

In [None]:
np.dot(matrix_1,matrix_2)