<a href="https://colab.research.google.com/github/dm-fedorov/numpy_basic/blob/master/start_numpy/2.%20Введение%20в%20NumPy.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

> © Семён Лукашевский [сайт автора](https://pyprog.pro/why_numpy.html)

Пожалуй, первое с чего стоит начать, так это с того, что массивы NumPy могут быть обычными операндами в математических выражениях:

In [None]:
import numpy as np

a = [1, 2, 3]    #  список Python
b = np.array([1, 2, 3])    #  массив NumPy
c = 7

In [None]:
#  Если мы умножим список на число, то...
a * c

In [None]:
#  Если попытаемся к списку это число прибавить, то
#  Python попытается выполнить конкатенацию, а не сложение.

In [None]:
#  Теперь умножим массив NumPy на число:
b * c

In [None]:
#  Прибавим к массиву число:
b + c

Для выполнения таких операций на Python, мы были вынуждены писать циклы. 

Писать такие циклы в NumPy, нет никакой необходимости, потому что все операции и так выполняются поэлементно:

In [None]:
a = np.array([[5, 7], [11, 13]])
a / 3 #  обычное деление

In [None]:
a // 3 #  целочисленное деление

In [None]:
a % 3 #  остаток от деления

In [None]:
a ** 3 #  возведение в степень

In [None]:
1 / a #  частное 1 и каждого элемента массива

In [None]:
-a #  изменение знака элементов массива

Точно так же обстоят дела и с математическими функциями:

In [None]:
a = np.arange(6)
a

In [None]:
np.sin(a)    #  синус каждого элемента массива

In [None]:
np.log(a)    #  натуральный логарифм элементов массива

Такие операции как `+=`, `-=`, `*=`, `/=` и прочие подобные, могут применяться к массивам и так же выполняются поэлементно. 

Они не создают новый массив, а изменяют старый:

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([0.1, 0.2, 0.3, 0.4, 0.5])

In [None]:
a += 2
a

In [None]:
a *= 2
a

In [None]:
#  Вещественный тип ('float64') не может быть 
#  преобразован в целочисленный ('int32'):
# a += b

In [None]:
#  А вот преобразование целочисленного типа в вещественный возможно
b += a
b

При работе с массивами разного типа, тип результирующего массива приводится к более общему:

In [None]:
a = np.arange(5)
a

In [None]:
b = np.linspace(0, 5, 5)
b

In [None]:
a.dtype

In [None]:
b.dtype

In [None]:
c = a + b
c

In [None]:
c.dtype

Применение логических операций к массивам, так же возможно и так же выполняется поэлементно. 

Результатом таких операций является массив булевых значений (`True` и `False`):

In [None]:
a = np.array([2, 3, 5, 7, 11, 13])
a > 5

In [None]:
a == 7

In [None]:
b = np.array([2, 2, 5, 5, 11, 11])
a > b

In [None]:
a == b

Мы уже знаем что массив и число могут быть операндами самых разных математических выражений:

In [None]:
a = np.array([1, 2, 3])
(a + 3) * 7

Операндами могут быть даже несколько различных массивов, правда их размеры должны быть одинаковыми:

In [None]:
a = np.array([1, 2, 3])
b = np.array([3, 2, 1])
a + b

In [None]:
a ** b

In [None]:
a = np.arange(9).reshape(3, 3)
a

In [None]:
b = np.arange(9, 0, -1).reshape(3, 3)
b

In [None]:
a + b

In [None]:
a ** b

Хотя, если честно, их размеры должны быть не равны, а должны быть совместимыми. 

Если их размеры совместимы, т.е. один массив может быть растянут до размеров другого, то в дело включается механизм транслирования массивов NumPy. 

Этот механизм очень прост, но имеет весьма специфичные нюансы. 

Рассмотрим простой пример:

In [None]:
a = np.arange(9).reshape(3, 3)
a

In [None]:
b = np.array([1, 2, 3])
b

In [None]:
c = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])
c

In [None]:
a * b

In [None]:
a * c

В данном примере массив `b` может быть растянут до размеров массива `a` и станет абсолютно идентичен массиву `c`. 

Транслирование массивов невероятно удобно, так как позволяет избежать создания множества вложенных и невложенных циклов. 

К тому же в NumPy этот механизм реализован для максимально быстрого выполнения. Так что используйте транслирование везде, где это возможно в ваших вычислениях.

Вычисление суммы всех элементов в массиве и прочие унарные операции в NumPy реализованы как методы класса `ndarray`:

In [None]:
a = np.arange(10)
a

In [None]:
a.sum()

In [None]:
a.min()

In [None]:
a.max()

По умолчанию, эти операции применяются к массиву, как к обычному списку чисел, без учета его ранга (размерности). 

Но если указать в качестве параметра одну из осей `axis`, то вычисления будут производиться именно по ней:

In [None]:
b = np.arange(16).reshape(4, 4)
b

In [None]:
b.sum(axis=0)    #  Сумма элементов каждого столбца

In [None]:
b.sum(axis=1)    #  Сумма элементов каждой строки

In [None]:
b.min(axis=1)    #  Минимальный элемент каждой строки

In [None]:
b.max(axis=0)    #  Максимальный элемент каждого столбца

### Значения -inf, inf и nan

Возможно вы обратили внимание на то, что когда мы вычисляли натуральный логарифм массива, среди значений которого был ноль, не появилось абсолютно никакой ошибки, а сам логарифм стал равен значению `-inf` (минус бесконечность). 

Убедимся в этом еще раз:

In [None]:
np.log(0)

Более того, в NumPy мы даже можем делить на ноль:

In [None]:
a = np.array([0])
1 / a

NumPy предупредил нас о том, что встретил деление на ноль, но тем не менее выдал ответ `inf` (плюс бесконечность). 

Дело в том, что с математической точки зрения все абсолютно верно - если вы что-то делите на бесконечно малое значение, то в результате получете значение, которое окажется бесконечно большим. 

Если результатом математической операции является плюс или минус бесконечность, то логичнее выдать значение `inf` или `-inf`, чем выдавать ошибку.

В NumPy есть еще одно специальное значение - `nan`. Данное значение выдается тогда, когда результат вычислений не удается определить:

In [None]:
a = np.array([0, 1, np.inf])
a

In [None]:
np.cos(a)

Заметьте, что NumPy нас просто предупредил о том, что ему попалось недопустимое значение, но ошибки не возникло. 

Дело в том, что в реальных вычислениях значения `nan`, `inf` или `-inf` встречается очень часто, поэтому появление этого значения проще обрабатывать специальными методами (функции `numpy.isnan()` и `numpy.isinf()`), чем постоянно лицезреть сообщения об ошибках.

Новичкам, довольно трудно привыкнуть, к тому что в недрах компьютера вся арифметика на самом деле является двоичной и с этим связано очень много казусов. 

Во-первых не совсем понятно, когда ждать появления значений `-inf` и `inf`:

In [None]:
np.cos(0)/np.sin(0)

In [None]:
np.sin(np.pi/2)/np.cos(np.pi/2)    #  ожидаем значение 0, но...

Число `1.633123935319537e+16` появилось потому что в NumPy выполняются арифметические, а не символьные вычисления, т. е. число `π` хранится в памяти компьютера не как знание о том, что это математическая константа с бесконечным количеством десятичных знаков после запятой, а как обычное число с десятичной точкой (десятичная дробь) равная числу `π` с очень маленькой, но все же, погрешностью:

In [None]:
np.pi    #  значение числа pi в NumPy

Если из-за самых незначительных погрешностей вычисления все же возможны, то NumPy их обязательно выполнит. 

В этих случаях вместо значений `-inf` или `inf` у вас будут появляться самые маленькие или самые большие числа, которые возможно представить на вашем компьютере.

Если вам необходимы точные решения, то лучше обратиться к системам компьютерной алгебры и символьных вычислений, например пакету [SymPy](http://www.sympy.org/en/index.html). 

Если вы решили отправиться в самые дебри теории чисел, алгебры и криптографии, то лучшим решением окажется программа [GAP](http://www.gap-system.org/Overview/Capabilities/basic.html). 

Программа GAP не является программой Python, но имеет Python интерфейс в замечательной программе [Sage](http://www.sagemath.org/index.html), которая определенно заслуживает вашего внимания (см. [книгу](http://sagebook.gforge.inria.fr/english.html)).

### Линейная алгебра

[Много функций](https://pyprog.pro/linear_algebra_functions/linalg_functions.html).

Произведение одномерных массивов представляет собой скалярное произведение векторов:

In [None]:
a = np.array([1, 2])
b = np.array([3, 4])
np.dot(a, b)

Произведение двумерных массивов по правилам линейной алгебры также возможно:

In [None]:
a = np.arange(2, 6).reshape(2, 2)
a

In [None]:
b = np.arange(6, 10).reshape(2, 2)
b

In [None]:
np.dot(a, b)

При этом размеры матриц (массивов) должны быть либо равны, а сами матрицы квадратными, либо быть согласованными, т.е. если размеры матрицы `А` равны `[m,k]`, то размеры матрицы `В` должны быть равны `[k,n]`:

In [None]:
a = np.arange(2, 8).reshape(2, 3)
a

In [None]:
b = np.arange(4, 10).reshape(3, 2)
b

In [None]:
np.dot(a,b)

Также по правилам умножения матриц, мы можем умножить матрицу на вектор (одномерный массив). 

При этом в таком умножении вектор столбец должен находиться справа, а вектор строка слева:

In [None]:
a = np.array([1, 2, 3])
a

In [None]:
b = np.arange(4, 10).reshape(3, 2)
b

In [None]:
np.dot(a, b)

In [None]:
a = np.arange(1, 3).reshape(2, 1)
a

In [None]:
b = np.arange(4, 10).reshape(3, 2)
b

In [None]:
np.dot(b, a)

Квадратные матрицы можно возводить в степень `n` т.е. умнажать сами на себя `n` раз:

In [None]:
a = np.arange(1, 5).reshape(2, 2)
a

In [None]:
np.dot(a, a)    #  Равносильно a**2

In [None]:
np.linalg.matrix_power(a, 2)

In [None]:
np.linalg.matrix_power(a, 0)

Довольно часто приходится вычислять ранг матриц:

In [None]:
a = np.arange(1, 10).reshape(3, 3)
a

In [None]:
np.linalg.matrix_rank(a)

In [None]:
b = np.arange(1, 24, 2).reshape(3, 4)
b

In [None]:
np.linalg.matrix_rank(b)

Еще чаще приходится вычислять определитель матриц, хотя результат вас может немного удивить:

In [None]:
a = np.array([[1, 3], [4, 3]])
a

In [None]:
np.linalg.det(a)

In [None]:
1*3 - 3*4    #  Результат должен быть целым числом

В данном случае, из-за двоичной арифметики, результат нецелое число и округлять до ближайшего целого придется вручную. 

Это связано с тем, что алгоритм вычисления определителя использует [LU-разложение](https://ru.wikipedia.org/wiki/LU-%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5) - это намного быстрее, чем обычный алгоритм, но за скорость все же приходится немного заплатить ручным округлением (конечно, если таковое требуется):

In [None]:
np.linalg.det(a)

In [None]:
round(np.linalg.det(a))

In [None]:
b = np.arange(1, 48, 3).reshape(4, 4)
b

In [None]:
np.linalg.det(b)

In [None]:
round(np.linalg.det(b))

Транспонирование матриц:

In [None]:
a

In [None]:
a.T

Вычисление обратных матриц:

In [None]:
a

In [None]:
b = np.linalg.inv(a)
b

In [None]:
np.dot(a, b)

Решение систем линейных уравнений:

In [None]:
#  система из двух линейных уравнений:
#  1*x1 + 5*x2 = 11
#  2*x1 + 3*x2 = 8
a = np.array([[1, 5], [2, 3]])
b = np.array([11, 8])

In [None]:
x = np.linalg.solve(a, b)
x

In [None]:
np.dot(a, x)

### Статистика

[Элементарные статистические функции](https://pyprog.pro/statistics_functions/statistics_function.html):

In [None]:
a = np.random.randint(20, size=(5, 5))
a

In [None]:
np.amin(a)    #  Минимальный элемент массива

In [None]:
np.amax(a)    #  максимальный элемент

In [None]:
np.amin(a, axis=0)  #  минимальный элемент вдоль первой оси (столбцы)

In [None]:
np.amin(a, axis=1)  #  минимальный элемент вдоль второй оси (строки)

In [None]:
#  Процентили:
np.percentile(a, 25)

In [None]:
np.percentile(a, 50)

In [None]:
np.percentile(a, 75)

Средние значения элементов массива и их отклонения:

In [None]:
a = np.random.randint(13, size=(5, 5))
a

In [None]:
np.median(a)    #  медиана элементов массива

In [None]:
np.mean(a)    #  среднее арифметическое

In [None]:
np.var(a)    #  дисперсия

In [None]:
np.std(a)    #  стандартное отклонение

Корреляционные коэфициенты и ковариационные матрицы величин:

In [None]:
x = np.array([1, 4, 3, 7, 10, 8, 14, 21, 20, 23])
y = np.array([4, 1, 6, 9, 13, 11, 16, 19, 15, 22])
z = np.array([29, 22, 24, 20, 18, 14, 16, 11, 9, 10])

In [None]:
#  Линейный коэфициент корреляции Пирсона
#  величин 'x' и 'y'

XY = np.stack((x, y), axis=0)
XY

In [None]:
np.corrcoef(XY)

In [None]:
#  Кросс-корреляции:
np.correlate(x, y)

In [None]:
np.correlate(x, z)

In [None]:
#  Ковариационные матрицы:
np.cov(XY)

In [None]:
np.cov(x)

Так же NumPy предоставляет функции для вычисления гистограмм наборов данных различной размерности и некоторые другие статистичские функции.

### Генерация случайных значений

Получение простых случайных данных:

In [None]:
np.random.rand()    #  случайное число от 0 до 1

In [None]:
np.random.rand(10)    #  одномерный массив случайных значений

In [None]:
np.random.rand(3, 4)    #  двумерный массив случайных значений

In [None]:
np.random.randn(10)    #  случайные значения с нормальным распределением

In [None]:
np.random.randint(10)    #  случайное целое число от 0 до 10

In [None]:
np.random.randint(10, 100)    #  случайное целое число от 10 до 100

In [None]:
np.random.randint(10, size=7)    #  одномерный массив случайных целых чисел

In [None]:
np.random.randint(10, size=(4, 4))    #  двумерный массив случайных целых чисел

Перестановки:

In [None]:
x = np.arange(7)
x

In [None]:
np.random.shuffle(x)    #  перетасовывает содержимое массива
x

In [None]:
np.random.permutation(7)    #  выполняет тоже самое, не требуя входного массива

In [None]:
y = np.arange(9).reshape(3, 3)
y

In [None]:
np.random.shuffle(y)    #  перестановки выполняются только по 1-й оси

NumPy предоставляет [порядка 30 функций](https://pyprog.pro/random_sampling_functions/random_sampling_functions.html), позволяющих генерировать случайные числа с самыми разными вероятностными распределениями:

In [None]:
np.random.beta(0.1, 0.6, size=5)    #  бета распределение

In [None]:
np.random.gamma(shape=0.8, scale=1.7, size=5)    # гамма распределение

In [None]:
np.random.pareto(3.5, size=5)    #  Паретто распределение

In [None]:
np.random.chisquare(2.2, size=5)     #  хи-квадрат распределение

Вы так же имеете доступ к состоянию генератора случайных чисел, а так же можете управлять им:

In [None]:
#np.random.get_state()    #  Вы можете узнать состояние генератора

In [None]:
np.random.seed(123)    #  устанавливает состояние генератора

In [None]:
np.random.rand(5)

### Множества

В случаях, когда массивы содержат очень много элементов, среди которых есть одинаковые, возникает задача поиска уникальных элементов, количества их вхождений в исходный массив:

In [None]:
x = np.array([1, 2, 1, 2, 3, 1])
np.unique(x)

In [None]:
np.unique(x, return_counts=True)    #  количество вхождений

В двумерных и многомерных массивах уникальные массивы можно искать, как по всему множеству его значений, так и по отдельным осям:

In [None]:
x = np.array([[0, 1, 1, 2], [0, 1, 1, 2], [9, 1, 1, 2]])
x

In [None]:
np.unique(x, axis=0)    #  множество уникальных строк

In [None]:
np.unique(x, axis=1)    #  множество уникальных столбцов

Так же имеется ряд других полезных функций:

In [None]:
X = np.array([0, 2, 4, 6, 8])
Y = np.array([0, 3, 4, 6, 7])

In [None]:
np.in1d(X, Y)    #  наличие элементов из X среди элементов Y

In [None]:
np.intersect1d(X, Y)    #  пересечение множеств элементов массивов

In [None]:
np.setdiff1d(X, Y)    #  разность множеств

In [None]:
np.setxor1d(X, Y)    #  симметрическая разность (исключающее или)

In [None]:
np.union1d(X, Y)     #  объединение множеств

### Логические операции

Логические функции NumPy, условно, можно разделить на два множества: первое - позволяет определять специфику элементов массива и самого массива; второе - обычные логические операции, которые действуют над массивами поэлементно.

Иногда, возникает потребность определить тип элементов:

In [None]:
A = np.array([-np.inf, np.inf, np.nan, -1, 0, 1, 1.47, 2, 3 + 2j])

In [None]:
np.isfinite(A)    #  Все ли элементы в A числа?

In [None]:
np.isinf(A)    #  Есть ли в A бесконечности?

In [None]:
np.isnan(A)    #  Есть ли в A значения nan?

In [None]:
np.iscomplex(A)    #  есть ли в A комплексные числа?

In [None]:
np.isreal(A)    #  Есть ли в A вещественные числа?

Привычные нам логические операции выполняются над массивами булевых значений (массивы из значений True и False):

In [None]:
X = np.array([True, False, True, False])
Y = np.array([True, True, False, False])

In [None]:
np.logical_and(X, Y)    #  логическое "И"

In [None]:
np.logical_or(X, Y)    #  логическое "ИЛИ"

In [None]:
np.logical_not(X)    #  логическое "НЕ"

In [None]:
np.logical_xor(X, Y)    # исключающее "ИЛИ"

Помимо всего прочего, NumPy позволяет производить различные сравнения:

In [None]:
np.allclose([1, 2, 3], [1, 2, 2.99999])    #  Являются ли значения массивов близкими?

In [None]:
x = np.random.randint(4, size=5)
x

In [None]:
y = np.random.randint(4, size=5)
y

In [None]:
np.greater(x, y)    #  поэлементное x > y 

In [None]:
np.less(x, y)    #  поэлементное x < y

In [None]:
np.equal(x, y)    #  поэлементное x == y