# **Урок 11.** Библиотека Numpy

`NumPy` — это библиотека языка Python, добавляющая поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых (и очень быстрых) математических функций для операций с этими массивами.

Фактически, `Numpy` - это основная математическая библиотека для работы с данными (если вы решаете задачи машинного обучения или анализа данных). Именно Numpy, а не встроенный Math.

`Numpy` лежит в основе других важных библиотек: `Pandas` (работа с табличными данными), `SciPy` (работы с методами оптимизации и научными расчётами), `Matplotlib` (построение графиков) и т.д.

Именно поэтому важно уметь работать с `Numpy`, чтобы быстро применять векторные операции, а не проходить по всему массиву в цикле `for`.

Чтобы начать работать с `numpy`, как и с любым другим модулем или пакетом, его необходимо импортировать:

In [None]:
import numpy

Помните, что для `Numpy` очень распространено использование **"алиаса"** np, т.е. сокращённой записи под которой импортируется данный пакет:

In [2]:
import numpy as np

# Numpy векторы

Вектор (или массив) в `numpy` - это упорядоченный набор однородных данных.

1. "Упорядоченный" значит, что каждый элемент вектора имеет определённое место. К нему можно обратиться по его индексу (прямо как к элементу списка). И порядок следования элементов задаётся при создании вектора (как и списка) вами (а не хешами, например, как для множества).

2. "Однородный" значит, что все элементы вектора имеют один и тот же тип. Логический (bool), целочисленный (int), строковый (str) или какой-то иной, но все один.

# Создание массивов

* `array(object)` — n-мерный массив из любой (возможно, вложенной) последовательности,
* `eye(N, M=N, k=0)` -- двумерный массив с N строками с единицами на диагонали и нулями во всех остальных позициях. Число столбцов M по умолчанию равно N, k — сдвиг диагонали (0 для основной диагонали, положительные числа для верхних диагоналей и отрицательные для нижних),
* `zeros(shape)` -- новый массив указанной формы, заполненный нулями,
* `ones(shape)` -- новый массив указанной формы, заполненный единицами,
* `full(shape, fill_value)` -- новый массив указанной формы, заполненный fill_value

Один из наиболее простых - создать массив из обычных списков или кортежей Python, используя функцию `numpy.array()` (запомните: array - функция, создающая объект типа ndarray):

In [None]:
a = np.array([1, 2, 3, 4, 5])
print(a)

Ко всем элементам можно получить доступ и манипулировать ими так же, как вы бы это делали с обычными списками:

In [None]:
a[:2]

In [None]:
a[3]

In [None]:
a[0] = 8

Массивы могут быть и многомерными. В отличии от списков можно использовать запятые в скобках. Вот пример двумерного массива (матрица):


In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)
print(a)

In [None]:
a[0,0]

In [None]:
a[0,1]

Метод `shape` возвращает количество строк и столбцов в матрице:

In [None]:
a.shape

Метод `dtype` возвращает тип переменных, хранящихся в массиве:

In [None]:
a.dtype

Метод `len` возвращает длину первого измерения (оси):

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)

In [None]:
len(a)

Метод `in` используется для проверки на наличие элемента в массиве:


In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], float)

In [None]:
2 in a

Функция `array()` не единственная функция для создания массивов. Обычно элементы массива вначале неизвестны, а массив, в котором они будут храниться, уже нужен. Поэтому имеется несколько функций для того, чтобы создавать массивы с каким-то исходным содержимым (по умолчанию тип создаваемого массива — float64).

Функция `zeros()` создает массив из нулей, а функция `ones()` — массив из единиц. Обе функции принимают кортеж с размерами, и аргумент dtype:

In [None]:
np.zeros(10)

In [None]:
np.ones(10)

In [None]:
np.full(10, 2.5)

Функция eye() создаёт единичную матрицу (двумерный массив)

In [None]:
np.eye(5)

Функция empty() создает массив без его заполнения. Исходное содержимое случайно и зависит от состояния памяти на момент создания массива (то есть от того мусора, что в ней хранится):


In [None]:
np.empty(10)

In [None]:
np.empty((3, 3))

Для создания последовательностей чисел, в NumPy имеется функция arange(), аналогичная встроенной в Python range(), только вместо списков она возвращает массивы, и принимает не только целые значения:

In [None]:
np.arange(10)

In [None]:
np.arange(0, 1, 0.1)

Вообще, при использовании arange() с аргументами типа float, сложно быть уверенным в том, сколько элементов будет получено (из-за ограничения точности чисел с плавающей запятой). Поэтому, в таких случаях обычно лучше использовать функцию linspace(), которая вместо шага в качестве одного из аргументов принимает число, равное количеству нужных элементов:

In [None]:
np.linspace(0, 2, 9)  # 9 чисел от 0 до 2 включительно

Самый простой способ задать массив со случайными элементами - использовать функцию `sample` (или `random`, или `random_sample`, или ranf - это всё одна и та же функция).

In [None]:
np.random.sample()

In [None]:
np.random.sample(3)

In [None]:
np.random.sample((2, 3))

Без аргументов возвращает просто число в промежутке [0, 1), с одним целым числом - одномерный массив, с кортежем - массив с размерами, указанными в кортеже (все числа - из промежутка [0, 1)).

С помощью функции `randint` или `random_integers` можно создать массив из целых чисел. Аргументы: `low, high, size`: от какого, до какого числа (randint не включает в себя это число, а random_integers включает), и size - размеры массива.

In [None]:
np.random.randint(0, 3, 10)

In [None]:
np.random.randint(0, 3, (2, 10))

# Выбор и перемешивание

Перемешать NumPy массив можно с помощью функции `shuffle`:

In [None]:
a = np.arange(10)

In [None]:
np.random.shuffle(a)

# Инициализация генератора случайных чисел

Функция `random.seed()` в Python используется для инициализации случайных чисел. По умолчанию генератор случайных чисел использует текущее системное время. Если вы дважды используете одно и то же начальное значение, вы получите один и тот же результат, что означает случайное число дважды.

In [None]:
np.random.seed(1000)
np.random.random(10)

In [None]:
np.random.random(10)

In [None]:
np.random.seed(1000)
np.random.random(10)

In [None]:
np.random.seed(2)
np.random.randint(low=0, high=100, size=(5, 2))

# Векторные операции

Numpy поддерживает векторные операции.

Это означает, что вы можете за 1 операцию умножить или поделить все координаты своего вектора на одно и то же число, например (что разумнее, чем умножение списка на число для его "увеличения"):

In [None]:
np.array([1, 2, 3]) * 5

In [None]:
np.array([1, 2, 3]) / 10

In [None]:
np.array([1, 2, 3]) - 1

In [None]:
np.array([1, 2, 3]) + 7.5

Так же вам доступны другие векторные операции, например, покоординатное вычитание и сложение векторов (т.е. когда операция производится для каждой соответствующей координаты):

In [12]:
a = np.array([1, 2, 3])
b = np.array([5, 2, 6])

In [None]:
a + b

In [None]:
a - b

In [None]:
a * b

In [None]:
b / a

In [None]:
a % b

In [None]:
b**a

При несоответствии в размере выбрасываются ошибки:

In [14]:
a = np.array([1, 2, 3])
b = np.array([5, 2])

In [None]:
a + b

Вдобавок к стандартным операторам, в numpy включена библиотека стандартных математических функций, которые могут быть применены поэлементно к массивам. Собственно функции: `abs, sign, sqrt, log, log10, exp, sin, cos, tan, arcsin, arccos, arctan, sinh, cosh, tanh, arcsinh, arccosh, и arctanh`.

In [16]:
a = np.array([1, 4, 9])

In [None]:
np.sqrt(a)

Функции `floor`, `ceil` и `rint` возвращают нижние, верхние или ближайшие (округлённое) значение

In [18]:
a = np.array([1.1, 1.5, 1.9])

In [None]:
np.floor(a)

In [None]:
np.ceil(a)

In [None]:
np.rint(a)

# Перебор элементов массива

Проводить итерацию массивов можно аналогично спискам:

In [None]:
a = np.array([1, 4, 5])

In [None]:
for x in a:
    print(x)

Для многомерных массивов итерация будет проводиться по первой оси, так, что каждый проход цикла будет возвращать «строку» массива:

In [None]:
a = np.array([[1, 2], [3, 4], [5, 6]])

In [None]:
for x in a:
    print(x)

Множественное присваивание также доступно при итерации:

In [None]:
for (x, y) in a:
    print(x * y)

# Базовые операции над массивами

Для получения каких-либо свойств массивов существует много функций. Элементы могут быть суммированы или перемножены:

In [None]:
a = np.array([2, 4, 3], float)

In [None]:
a.sum()

In [None]:
a.prod()

В этом примере были использованы функции массива. Также можно использовать собственные функции numpy:

In [None]:
np.sum(a)

In [None]:
np.prod(a)

Для большинства случаев могут использоваться оба варианта.
Некие функции дают возможность оперировать статистическими данными. Это функции mean (среднее арифметическое), вариация и девиация:

In [None]:
a.mean()

В статистике **дисперсией** называют величину, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания

In [None]:
a.var()

**Стандартное отклонение (std)** – это мера, на которую элементы набора отклоняются или расходятся от среднего значения.

In [None]:
a.std()

Можно найти минимум и максимум в массиве:

In [None]:
a.min()

In [None]:
a.max()

Функции argmin и argmax возвращают индекс минимального или максимального элемента:


In [None]:
a.argmin()

In [None]:
a.argmax()

Как и списки, массивы можно отсортировать:

In [None]:
a = np.array([6, 2, 5, -1, 0], float)

In [None]:
sorted(a)

In [None]:
a.sort()

Уникальные элементы могут быть извлечены вот так:

In [None]:
a = np.array([1, 1, 4, 5, 5, 5, 7], float)

In [None]:
np.unique(a)

Для двухмерных массивов диагональ можно получить так:

In [None]:
a = np.array([[1, 2], [3, 4]], float)

In [None]:
a.diagonal()

# Операторы сравнения и тестирование значений

Булево сравнение может быть использовано для поэлементного сравнения массивов одинаковых длин. Возвращаемое значение это массив булевых True/False значений:

In [None]:
a = np.array([1, 3, 0], float)
b = np.array([0, 3, 2], float)

In [None]:
a > b

In [None]:
a == b

In [None]:
a <= b

Результат сравнения может быть сохранен в массиве:

In [None]:
c = a > b

Массивы могут быть сравнены с одиночным значением:

In [None]:
a = np.array([1, 3, 0], float)

In [None]:
a > 2