<center>
    <img src="img/1920px-NumPy_logo.svg.png">
</center>

# Библиотека `NumPy`

- Библиотека `NumPy`
    * Введение
    * Создание одномерных массивов `ndarray` и индексация по ним
    * Создание многомерных массивов `ndarray` и индексация по ним
    * Представление данных, хранящихся в массиве `ndarray`
    * Операции над массивами
    * Подпрограммы `NumPy` для работы с массивами
- Библиотека `SciPy`
    * Интегрирование
    * Оптимизация
    * Интерполяция
    * Статистика

`NumPy` $–$  библиотека с открытым исходным кодом для языка программирования `Python`. Предназначена для поддержки векторизованных вычислений. Написана на `C` и `Fortran`.

`SciPy` $–$ библиотека для языка программирования `Python` с открытым исходным кодом, предназначенная для выполнения научных и инженерных расчётов. Написана на `C`, `C++` и `Fortran`.

## Библиотека `NumPy`

### Введение

Базовым классом пакета `numpy` является `ndarray` $-$ класс $n$-мерных массивов (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо логические значения. Поскольку это массивы, то, в отличие от стандартного `Python` `list` в них нельзя вставлять или удалять элементы в произвольном месте.

В `numpy` реализовано много операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то это будет столь же эффективно, как в `C` или `matlab`, в котором львиная доля времени тратится в библиотечных функциях, написанных на `C`.

In [None]:
import numpy as np

#### Зачем нужен пакет `NumPy`

Рассмотрим список из $1000000$ элементов и сгенерируем из него список, состоящий из квадратов элементов исходного

In [None]:
a = list(range(1_000_000))

In [None]:
%%timeit

[e * e for e in a]

In [None]:
a = np.arange(1_000_000)

In [None]:
%%timeit

a * a

Узким местом, с точки зрения производительности, в языке программирования `Python` являются циклы. Построим двумерный массив размера $1000\times 1000$ и вычислим по нему массив состоящий из элементов исходного умноженных на $2$.

In [None]:
rows, cols = 1_000, 1_000

a = [list(range(i, i + cols)) for i in range(rows)]
b = [[0 for j in range(cols)] for i in range(rows)]

In [None]:
%%timeit

for i in range(rows):
    for j in range(cols):
        b[i][j] = 2 * a[i][j]

In [None]:
a = np.asarray(a)

In [None]:
%%timeit

b = 2 * a #numpy намного быстрее

Комментарии излишни.

### Создание одномерных массивов `ndarray` и индексация по ним

#### Создание одномерных массивов

Создание одномерного массива `ndarray` из списка 

In [None]:
a = np.array([1, 2, 3, 4, 5])
a, type(a)

Возврат размера массива

In [None]:
a.shape

Метод возвращает кортеж. А кортеж из одного элемента так и задается

In [None]:
tuple_1 = ('Hello'); print(tuple_1) #это не кортеж, а строка

In [None]:
tuple_1 = ('Hello', ); print(tuple_1) #получился кортеж из одного элемента

Возврат типа элементов. Выведем тип числовых элементов, выбранных интерпретатором по умолчанию

In [None]:
a.dtype

Создать массив из вещественных чисел можно следующим образом

In [None]:
a = np.array([1., 2., 3., 4., 5.])
a, a.dtype

Также можно передать аргумент `dtype` функции `numpy.array()`

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float32)
a,a.dtype

##### Типы данных

* np.int32 — Signed 32-bit integer types
* np.int64 — Signed 64-bit integer types
* np.float32 — Standard single-precision floating point
* np.float64 — Standard double-precision floating point
* np.complex — Complex numbers represented by 128 floats
* np.bool — Boolean type storing TRUE and FALSE values
* np.object — Python object type
* np.string_ — Fixed-length string type
* np.unicode_ — Fixed-length unicode type

Преобразование типов:

In [None]:
a.astype(np.complex), a.astype(np.int64)

#### Индексация в одномерных массивах

Индексация используется для получения значений и присваивания.

In [None]:
a = np.arange(15)

a[10] = 100
a

In [None]:
a[0], a[5], a[len(a) - 1]

#### Отрицательные индексы

Также допустима отрицательная индексация массивов.

In [None]:
a[len(a) - 1], a[-1]

In [None]:
a[len(a) - 5], a[-5]

#### Срезы

Объекты `ndarray` поддерживают инструментарий генерации срезов, который позволяет вернуть часть массива своих данных.

Общая форма инструкции

In [None]:
array[start=0:stop=len(array)-1:step=1]

- `start` $-$ первый индекс среза;
- `stop` $-$ последний индекс среза;
- `step` $-$ шаг среза.

Рассмотрим на примере массива из $15$ элементов

In [None]:
a = np.arange(15)
a

Первые $5$ элементов.

In [None]:
variants = [ a[0:5:1], a[0:5], a[:5] ]

variants

При необходимости передать срез, как аргумент функции, или сохранить в переменной используется объект `slice()`

In [None]:
slice(stop) или slice(start, stop[, step])

- start $-$ Начальный индекс среза. Если не указан, используется индекс первого элемента "разрезаемого" объекта $=$ `0`;

- stop $-$ Конечный индекс. Если не указан, используется индекс последнего элемента "разрезаемого" объекта;

- step $-$ Шаг выборки. Отрицательное значение позволяет строить срез из элементов в обратном порядке.

In [None]:
variants = [ a[slice(0, 5, 1)], a[slice(0, 5)], a[slice(5)] ]
variants

Возврат элементов на четных позициях.

In [None]:
variants = [ a[0:len(a):2], a[0::2], a[::2] ]

variants

Получить все элементы, стоящие на нечетных позициях.

In [None]:
variants = [ a[1:len(a):2], a[1::2] ]

variants

Взять все элементы с $3$ по $12$ (не включительно) с шагом $3$.

In [None]:
variants = [ a[3:12:3], a[3:-3:3] ]

variants

Взять все элементы с $3$ по $12$ (включительно) с шагом $3$ в обратном порядке.

In [None]:
variants = [ a[3:13:3][::-1], a[12:2:-3], a[-3:2:-3] ]

variants

#### Фильтрация по булевым маскам

Объекты `ndarray` поддерживают булеву индексацию. В качестве индекса можно передать объект `ndarray` из логических элементов  (булеву маску), согласованного размера с исходным. Рассмотрим это на примере:

In [None]:
a = np.array([1, 2, 3, 4, 5])
mask = np.array([False, True, True, False, True])
mask, a, a[mask]

В результате получаем массив, построенный по принципу:

- в массиве `mask` на $j$-й позиции **True**, следовательно элемент `a[j]` включается в результирующий массив;
- в массиве `mask` на $k$-й позиции **False**, следовательно элемент `a[k]` не включается в результирующий массив.

Для объектов `ndarray` определены операции сравнения, которые в результате возвращают массивы логических значений, которые можно использовать для булевой индексации.

In [None]:
np.random.seed(1024)

a = np.random.randint(-2, 7, 34)
a

Получить все элементы, обладающие некоторым свойством.

In [None]:
a[a < 0]

Получить все элементы, кратные $3$-м.

In [None]:
variants = [ a[a % 3 == 0],
            a[np.logical_not(a % 3)],
            a[~((a % 3).astype(bool))] ]

variants

In [None]:
np.random.seed(1234)

a = np.random.randint(0, 9, 23)
a

Найти все элементы, кратные или $3$, или $5$.

In [None]:
mask_3 = a % 3 == 0
mask_5 = a % 5 == 0

variants = [ a[np.logical_or(mask_3, mask_5)],
            a[mask_3 | mask_5] ] 
#маска - np массив, можно передать список, он приведется
mask_3, mask_5, a, variants

Получить индексы значений **True** можно с помощью функции `numpy.where()`.

In [None]:
mask = np.array([True, True, False, True, False])

mask, np.where(mask)

Эту функцию тоже удобно использовать для фильтрации элементов.

#### Пример

Индексы положительных элементов.

In [None]:
np.where(a > 0)

Альтернативный способ получения положительных элементов.

In [None]:
a[np.where(a > 0)]

### Создание многомерных массивов `ndarray` и индексация по ним

#### Создание многомерных массивов

Создание двумерных массивов (матриц)

In [None]:
a = np.array([[1, 2, 3, 4, 5],
              [6, 7, 8, 9, 0]], dtype=np.float32)
#списки должны иметь одинаковую длину
a, a.shape, a.dtype

Получение количества измерений (размерность кортежа `.shape`)

In [None]:
a.ndim, len(a.shape)

Примером использования массивов размерности большей $2$ являются `OLAP`-кубы. На изображении приведен типичный `OLAP`-куб с данными о поставках товаров некоторой компанией в Западном полушарии.

<center>
    <img src="img/alpero2i2.gif">
</center>

Создание массивов больших размерностей рассмотрим на примере трехмерного массива

In [None]:
a = np.array(
    [
        [
            [ 0,  1,  2,  3],        
            [ 4,  5,  6,  7],
            [ 8,  9, 10, 11]
        ],
        [
           [12, 13, 14, 15],        
           [16, 17, 18, 19],        
           [20, 21, 22, 23]],
        [
            [24, 25, 26, 27],        
            [28, 29, 30, 31],
            [32, 33, 34, 35]
        ],
        [
            [36, 37, 38, 39],        
            [40, 41, 42, 43],        
            [44, 45, 46, 47]
        ]
    ])
a, a.shape, a.ndim, a.dtype

<center>
    <img src="img/3nd_array.jpg" width=320>
</center>

#### Индексация в многомерных массивах

In [None]:
a = np.arange(30).reshape(5, -1)
a

Неудачный способ индексации, потому что в этом случае доступ к элементам выполняется после предварительно копирования массива при доступе по первым индексам.

In [None]:
#копирование
a[0][0], a[0][2], a[1][1], a[-1][-2]

In [None]:
a[0][0]

В отличие от`Python` `list`, `ndarray` поддерживает индексацию по нескольким индексам. При подобной индексации выполняется прямой доступ к элементам

In [None]:
# хороший способ

a[0,0], a[0,2], a[1,1], a[-1,-2]

Получить строку с индексом $2$.

In [None]:
variants = [ a[2], a[2,:] ]

variants

Получить столбец с индексом $3$.

In [None]:
a[:,3]

Получить все элементы, стоящие в четных столбцах.

In [None]:
a[:,::2]

Получить все элементы, стоящие в первой ($0$-й) строке и нечетных стоблцах.

In [None]:
a[0,1::2]

Получить все элементы `a[i,j]`, такие что:

- i $–$ нечетные;
- j $–$ дающие остаток $2$ при делении на $3$;

индексация по строкам, должна быть обратной.

In [None]:
a, a[1::2,2::3][::-1]

#### Индексирование по списку индексов (fancy Indexing)

Получение $2$, $4$ и $3$ строк двумерного массива.

In [None]:
a = np.arange(30).reshape(5, -1)

a, a[[2, 4, 3]]

Получить элементы в $0$-м и последнем столбце. 

In [None]:
a, a[:,[0, -1]]

Чтобы получить элементы на пересечении $2$, $4$, $3$ строк и $0$, $5$ столбцов.

In [None]:
a[[2, 4, 3]][:,[0, -1]]

#### Сокращенная индексация

Получение всех элементов последним индексом равным $0$

In [None]:
a = np.arange(24).reshape(2, 3, 4)
a, a[...,0],a[:,:,0]#синоним

Получение всех элементов с первым индексом равным $1$

In [None]:
a,a[1, ...]
#a[1,:,:]#синоним

Получение всех элементов со вторым индексом равным $0$

In [None]:
a,a[..., 0, :]

### Представление данных, хранящихся в массиве `ndarray`

Данные в памяти хранятся последовательно. А объекты `ndarray` реализуют различные варианты представления этих данных.

<img src="files/data.png" width="450px">

In [None]:
a = np.array([
        [ 1.,  2.,  3.,  4.,  5., 6.],
        [ 7.,  8.,  9.,  10.,  11., 12.]]
    )
a

Получение количества элементов в массиве

In [None]:
count = a.size
print(count)

Размер элементов массива в байтах.

In [None]:
item_size = a.dtype.itemsize   # sizeof(float64)
print(item_size)

Требуемая память для хранения массива.

In [None]:
array_size = count* item_size
print(array_size)
print(a.nbytes)

Кортеж в котором приведены количество байтов, на которые надо сместиться, чтобы перейти к следующей строке ($6\cdot 8=48$ байт) и к следующему элементу строки ($8$ байт)

In [None]:
a, a.strides

#### Полные и частичные копии массивов

При работе с массивами требуется создавать их копии. При этом возможны два варианта:

- Полная копия. Осуществляется полная копия хранящихся данных и создается объект `ndarray` для их представления;

- Частичная копия. Создается новый объект `ndarray`, в общем случае выполняющих иное представление данных. Например с другой размерностью.

Различные объекты `ndarray`, оперирующие с одними и теми же данными, называются их представлениями (*view*).

#### Пример

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float32)

Частичная копия массива, объект указывает на те же данные, на которые указывает *a*

In [None]:
b = np.asarray(a)
b

Полная копия массива, объект указывает на копию данных

In [None]:
c = np.array(a)

a[2]=-2

a, c

Копия с изменением типа данных

In [None]:
b = np.asarray(a, dtype=np.int32)#скопируютися данные

a[1]=-1000
a,b

Метод `ndarray.view([dtype][, type])`, создает новое представление массива с теми же самыми данными.

Передача **None** для dtype отличается от пропуска параметра, поскольку первый вызывает `dtype(None)` который является псевдонимом для `dtype('float_')`.

Параметры
        
- `dtype` $-$ тип данных возвращаемого представления, например `float32` или `int16`. Если его опустить, представление будет иметь тот же тип данных, что и базовый массив.

- `type` $-$ тип возвращаемого представления, например, `ndarray` или `matrix`. Отсутствие параметра приводит к сохранению типа.

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float32)
b = a.view(np.int32)

a[2] = -2
a,b

#### Изменение формы представления

In [None]:
b = a.reshape(6, 2)
b, b.shape, b.strides #2*8=16 для перехода к следующей строке

In [None]:
c = a.reshape(3, 2, 2) 
c, c.shape, c.strides#4*8=32 для перехода к следующему двумерному массиву,
#2*8=16 для перехода к следующей строке в двумерном массиве,
#8 для перехода к следующему элементу

Некорректные размеры преобразованного массива приводят к генерации исключения

In [None]:
a.reshape(2, 3) 

Массив из $3$-х столбцов, $-1$ означает автоматическое вычисление согласованного числа строк

In [None]:
a.reshape(-1, 3) 

При выполнении метода `.reshape()`, не выполняется копирования данных, а создается представление, работающее с теми же данными.

In [None]:
b = a.reshape(3, -1)   # same memory

a[0, 1] = -10
b #объект указывает на те же данные

Создает копию данных, с которыми оперирует объект `ndarray`, и возвращает новый объект, который представляет их в виде одномерного массива.

In [None]:
b = a.flatten() #данные копируются
a[0, 1] = -20

b

Создает новый объект представляющий данные в виде одномерного массива

In [None]:
b = a.ravel()     #копия данных не выполняется
a[0, 1] = -30

b

Транспонирование матрицы, результирующий объект представляет исходные данные без копирования.

In [None]:
c = a.T          # same as a.transpose() транспонирование
a[0, 1] = -40

c, c.strides, a.strides

Для некоторых подпрограмм требуется преобразование одномерных массивов в двумерные, но состоящих из одной строки. Такое преобразование можно осуществить рядом способов. Рассмотрим их на примерах. Сгенерируем массив из равномерного ряда чисел.

In [None]:
b = np.arange(10)
b, b.shape, b.dtype

Создание представления с новой размерностью, при помощи объекта `newaxis`. Добавим новую ось к массиву элементов.

In [None]:
#a = b[np.newaxis, :]
a = b.reshape(1, *b.shape)#синоним
b[2] = -20
b,a

Этот же результат можно получить в императивном стиле

In [None]:
c = np.expand_dims(b, axis=0)
b[3] = -30
c, c.shape, c.dtype

Добавление новой оси к каждому из элементов массива.

In [None]:
b[:, np.newaxis]
#b.reshape(*b.shape, 1)#синоним

#### Добавление новых осей

Формирование размерности представления в виде (*длина массива*, 1, 1)

In [None]:
c1 = b[:, np.newaxis, np.newaxis]
c1, c1.shape

Представление в форме (1, *длина массива*, 1)

In [None]:
c2 = b[np.newaxis, :, np.newaxis]
c2, c2.shape

Представление в форме (1, 1, *длина массива*)

In [None]:
c3 = b[np.newaxis, np.newaxis, :]

c3, c3.shape

#### Создание массивов с особыми свойствами

Массив нулей

In [None]:
a = np.zeros(shape=(3, 2))
a, a.shape

Копия массива нулей такой же размерности как *a*

In [None]:
b = np.zeros_like(a)

a[0][1] = -0.1
b, b.shape

Одномерный массив из $1$

In [None]:
np.ones(5)   # синоним np.ones(shape=(5, )) ones_like()

Единичные матрицы размера $4\times 4$

In [None]:
np.eye(4)

Генерация монотонных последовательностей `arange(fin)` или `arange(start, fin, step=1, endpoint=False)`:

- *start* $-$ начальное значение;
- *fin* $-$ конечное значение;
- *step* $-$ шаг;
- *endpoint* $-$ включать или не включать последнюю точку последовательности

In [None]:
np.arange(1, 10) #последовательный список элементов, сохраняет в память

In [None]:
np.arange(1, 10, 2)#шаг

In [None]:
np.arange(1, 10, 0.5)

In [None]:
np.linspace(0, 1, 5, endpoint=True)#разбивает отрезок на нужное число частей

### Операции над массивами

#### Поэлементные операции над массивами

##### Операции со скалярами и унарные операции

In [None]:
a = np.arange(10).reshape(2, -1)
a

In [None]:
a ** 3   # синоним np.power(a, 3)

In [None]:
a + 2    #  np.add(a, 2) прибавить 2 к каждому элементу

In [None]:
2 * a    # синоним np.multiply(2, a)

In [None]:
2 ** a   # синоним np.power(2, a)

In [None]:
np.sqrt(a)

In [None]:
np.exp(a)

In [None]:
np.log(1 + a)

In [None]:
np.log2(1 + a)

In [None]:
np.sin(a)

In [None]:
np.greater(a, 0) #синоним a > 0

##### Агрегирующие операции

Рассмотрим применение агрегирующих операций на примере одномерного случайного массива из семи элементов

In [None]:
np.random.seed(128)#начальные условия для создания псевдослучайной последовательности
a = np.random.randint(0, 10, size=(7, ))#генерация массива из 7 псевдослучайных
#целых чисел в диапазоне от 0 до 10
a[3] = 10
a

Максимальное значение, аргумент максимального значения, сумма, произведение, среднее

In [None]:
a.min(), a.max(), a.argmax(), a.sum(), a.prod(), a.mean()

Императивные синонимы

In [None]:
np.min(a), np.max(a), np.argmax(a), np.sum(a), np.prod(a), np.mean(a)

Эти операции выполняются на низком уровне, сразу по всем хранимым данным, вне зависимости от их представления. Поэтому агрегирующие операции можно применять и к многомерным массивам

In [None]:
np.random.seed(16)

a = np.random.randint(0, 10, size=(4, 4))
a[2, 2] = 25

a

In [None]:
a.argmax()

Получить элемент по порядковому номеру можно с помощью преобразования представления в одномерный массив:

In [None]:
a.ravel()[a.argmax()]

Или найти путем нехитрых вычислений:

In [None]:
i = np.argmax(a)
i, j = i // a.shape[1], i % a.shape[1]

print("value =", a[i, j])
print("index =", (i, j))

Или при помощи функции `unravel_index()`, получающей в качестве аргументов линейный индекс и размерность массива.

In [None]:
np.unravel_index(np.argmax(a), a.shape)

В `Python` есть стандартные агрегирующие функции, предназначенные для работы с итерируемыми объектами, а объекты `ndarray` итерируемы. Для примера проведем сравнения производительности `numpy.max()` и стандартной функции `max()`.

In [None]:
b = np.random.randint(0, 10, size=(1_000, 1_000))
b[36, 42] = 20
b = b.ravel()

In [None]:
%%timeit

np.max(b)

In [None]:
%%timeit

max(b)#с многомерными массивами, без преобразования
#в одномерные, не работает

##### Агрегирующие операции вдоль осей

<img src="files/axis.png" width="320px">

`a.agg(axis=axis)` – агрегирующая операция вдоль оси `axis`:

* выполняет агрегирующую операцию по оси `axis`;
* удаляет ось `axis` из исходного массива.

При этом, `axis=0` отвечает строкам, `axis=1` отвечает столбцам

In [None]:
np.random.seed(32)

a = np.random.randint(0, 10, size=(3, 7))
a[1, 3] = 15

a

Выполнение аггрегирующей операции вдоль оси `axis=0` (по столбцам)

In [None]:
a.max(axis=0)

Выполнение аггрегирующей операции вдоль оси `axis=1` (по строкам)

In [None]:
a.sum(axis=1)

#### Бинарные операции над числовыми массивами

Для демонстрации поэлементных операций над числовыми массивами создадим два случайных массива согласованных размеров.

In [None]:
np.random.seed(8)

a = np.random.randint(0, 10, size=(4, 2))
a[2][1]=21

np.random.seed(64)

b = np.random.randint(0, 10, size=a.shape)

a, b

##### Поэлементное произведение

In [None]:
a * b
#np.multiply(a, b)#синоним

##### Поэлементная сумма

In [None]:
a,b,a + b
#np.add(a, b)#синоним

##### Поэлементное сравнение двух массивов и создание массива из соответствующих максимальных элементов

In [None]:
a,b

In [None]:
np.fmax(a, b)

##### Поэлементное сравнение массивов и создание массива из результатов сравнений элементов

In [None]:
a,b,a > b
#np.greater(a, b)#синоним

Поэлементное сравнение двух вещественных массивов с заданной точностью

`numpy.isclose(a, b, rtol=1e-05, atol=1e-08, equal_nan=False)`

Возвращает булевский массив результатов поэлементного сравнения массивов.

`numpy.allclose(a, b, rtol=1e-05, atol=1e-08, equal_nan=False)`

Возвращает булевский массив результов поэлементного сравнения массивов.

- `a`, `b` $-$ массивы для сравнения

- `rtol`, `atol` $-$ относительная и абсолютная погрешности, соответственно

- `equal_nan` $-$ сравнивать ли **NaN** как равные. Если **True**, **NaN** в `a` будет считаться равным **NaN** в `b` в выходном массиве. 

Поэлементное сравнение осуществляется по формуле:
$$
    |a - b| \le atol + rtol * |b|
$$

In [None]:
np.random.seed(256)

a = np.random.random(size=(2, 5))#генерация вещественного случайного массива
b = a + np.random.random(size=(2, 5)) * 1e-6

In [None]:
a,b

In [None]:
np.isclose(a,b)

In [None]:
np.allclose(a, b)
# синоним np.isclose(a, b).all()

Сравнение элементов массива со скаляром, нулем в примере

In [None]:
np.random.seed(4)

a = (np.random.random(size=(5, )) - 0.5) * 1e-7
a,np.isclose(a, 0, atol=1e-6)

#### Унарные операции над булевыми массивами

In [None]:
a = np.asarray([True, True, False, False, True])
a

Возвращает **True** если есть хотя бы один элемент **True**

In [None]:
a.any(), np.any(a)

Возвращает **True** если все элементы **True**

In [None]:
a.all(), np.all(a)

Методы `.all()` и `any()` можно применять и для многомерных массивов, передавая им оси вдоль которых требуется выполнять эти операции.

In [None]:
a = np.asarray([[True, True,  False, False, True ],
                [True, False, False, True,  False]])
a, a.any(axis=0), a.all(axis=1)

Логическое и побитовое отрицания. Синонимы для булевых массивов.

In [None]:
np.logical_not(a), ~a

##### Пример

Получить строки массива, в которых есть хотя бы один $0$.

In [None]:
np.random.seed(256)

a = np.random.randint(-5, 5, size=(5, 5))

a, (a == 0).any(axis=1), a[(a == 0).any(axis=1)]

#### Бинарные операции над булевыми массивами

Логические операции `and`, `or` и `xor`

In [None]:
a = np.asarray([True, True,  False, False, True ])
b = np.asarray([True, False, False, True,  False])

a, b

In [None]:
np.logical_and(a, b), np.logical_or(a, b), np.logical_xor(a, b)

Побитовые операции `&`, `|` и `^`, являющиеся синонимами логических, при применении к булевым массивам реализованы двумя способами: через символы операций и через функции.

In [None]:
a & b, a | b, a ^ b

In [None]:
np.bitwise_and(a, b),np.bitwise_or(a, b),np.bitwise_xor(a, b) #битовые функции

Получите столбцы, в которых число положительных элементов больше числа отрицательных.

In [None]:
np.random.seed(256)

a = np.random.randint(-5, 5, size=(5, 5))

a, (a == 0).any(axis=1), a[(a == 0).any(axis=1)]

In [None]:
a > 0,a < 0

In [None]:
a[:, (a > 0).sum(axis=0) > (a < 0).sum(axis=0)]
#true конвертируется в 1 автоматически

### Подпрограммы `NumPy` для работы с массивами

#### Линейная алгебра

In [None]:
A = np.random.randint(0,5, size=(3, 2))
B = np.random.randint(5,10, size=(2,3))
A,B

##### Произведение матриц

In [None]:
np.matmul(A, B)

In [None]:
A@B

##### Скалярное произведение векторов и произведение матриц

In [None]:
a=np.random.randint(0,5, size=(4,))
b=np.random.randint(5,10, size=(4,))
a,b

In [None]:
np.dot(a, b), np.dot(A,B)

Для работы с матрицами можно использовать класс `numpy.matrix`, в котором операция умножения реализуется как матричное умножение.

In [None]:
C = np.asmatrix(A)#создается представление
D = np.matrix(B)#создается новый массив
A[0][0] = 12
B[0][0] = 24

C, D

In [None]:
F = C * D
F

Поэлементное возведение в квадрат

In [None]:
A,A ** 2

Матричный квадрат

In [None]:
F,F ** 2

In [None]:
np.random.seed(512)

A = np.random.randint(0,5, size=(3, 3))
A

##### Определитель

In [None]:
np.linalg.det(A)

##### Обратная матрица

In [None]:
A1 = np.linalg.inv(A)
A1

In [None]:
A @ A1, A1 @ A

##### Решение линейных систем $Ax=b$

In [None]:
b = np.array([1, -2, 1], dtype=np.float64)
A,b

In [None]:
x = np.linalg.solve(A, b)
x

Проверка

In [None]:
A @ x - b

##### Собственные числа и собственные векторы

$$
    Av_k=\lambda_k v_k,\quad \lambda_k\neq 0
$$
- $\lambda_k$ $-$ собственные числа;
- $v_k$ $-$ собственные векторы.

In [None]:
lam, V = np.linalg.eig(A)
lam, V

- `lam` $-$ одномерный массив собственных значений;

- `V` $-$ массив собственных векторов.

##### Пример

Найти решение задачи регрессии
$
    X = \left(\begin{array}{cc}
        3 & 4\\
        2 & 7\\
        1 & 5\\
    \end{array}\right)
$,
$y = \left(\begin{array}{c}
        1\\
        4\\
        2\\
    \end{array}\right)$
по формуле $\widehat{w}=(X^T\cdot X + \lambda E)^{-1}X^T y$, в которой $E$ $-$ единичная матрица размера $2$, коэффициент регуляризации $\lambda=0.01$.

In [None]:
X = np.array([[3, 4], [2, 7], [1, 5]])
y = np.array([1, 4, 2])
E = np.eye(2)
lam = 0.01
w = np.linalg.inv(X.T @ X + lam * E) @ X.T @ y
w

#### Генерация случайных чисел

Генерация массива из $10$ псевдослучайных чисел распределенных в отрезке $[0,1]$

In [None]:
np.random.rand(10)

Генерация от $0$ до $10$, массив из $10$ элементов

In [None]:
np.random.randint(0, 10, 10)

Перестановка из 10 элементов

In [None]:
np.random.permutation(10)

Выбор $10$ элементов из $0$, $\dots$, $10$

In [None]:
np.random.choice(10, size=10)
#выбор из подмножества на каждом шаге

#### Сортировка

In [None]:
np.random.seed(2048)

a = np.random.choice(10, size=(3, 10))
a

Возврат отсортированного массива

In [None]:
np.sort(a.ravel())

Сортировка элементов массива вдоль `axis=0`

In [None]:
a.sort(axis=0)
a

Сортировка элементов массива вдоль `axis=1`

In [None]:
a.sort(axis=1)
a

In [None]:
np.random.seed(32)

a = np.random.choice(10, size=(3, 10))
a

Массивы перестановок индексов (на соответствующих позициях указаны номера элементов, которые необходимо переставить на нее при сортировке), при сортировке по вертикали и по горизонтали.

In [None]:
a, a.argsort(axis=0), a.argsort(axis=1)

#### Получение уникальных элементов

In [None]:
a,np.unique(a)

## Библиотека `SciPy`

Пакет `SciPy` построен на базе низкоуровневой библиотеки `NumPy` для многомерных массивов и предоставляет большое количество научных алгоритмов более высокого уровня. Вот некоторые из разделов математики, подпрограммы для численного анализа в которых охватывает `SciPy`:

* Специальные функции ([scipy.special] (http://docs.scipy.org/doc/scipy/reference/special.html))
* Интегрирование и решение дифференциальных уравнений ([scipy.integrate] (http://docs.scipy.org/doc/scipy/reference/integrate.html))
* Оптимизация ([scipy.optimize] (http://docs.scipy.org/doc/scipy/reference/optimize.html))
* Интерполяция ([scipy.interpolate] (http://docs.scipy.org/doc/scipy/reference/interpolate.html))
* Преобразования Фурье ([scipy.fftpack] (http://docs.scipy.org/doc/scipy/reference/fftpack.html))
* Обработка сигналов ([scipy.signal] (http://docs.scipy.org/doc/scipy/reference/signal.html))
* Линейная алгебра ([scipy.linalg] (http://docs.scipy.org/doc/scipy/reference/linalg.html))
* Проблемы с разреженными собственными значениями ([scipy.sparse] (http://docs.scipy.org/doc/scipy/reference/sparse.html))
* Статистика ([scipy.stats] (http://docs.scipy.org/doc/scipy/reference/stats.html))
* Обработка многомерных изображений ([scipy.ndimage] (http://docs.scipy.org/doc/scipy/reference/ndimage.html))
* Файловый ввод-вывод ([scipy.io] (http://docs.scipy.org/doc/scipy/reference/io.html))

Далее, мы рассмотрим, как использовать часть данного математического обеспечения.

Чтобы получить доступ к пакету `SciPy` в `Python`, мы начинаем с импорта всего из модуля `scipy`.

In [None]:
import scipy

scipy.__version__

### Интегрирование

In [None]:
from scipy.integrate import quad, dblquad, tplquad

Численное вычисление определенного интеграла
$$
    \displaystyle \int_a^b f(x) dx
$$
называется *числовой квадратурой* или просто *квадратурой*. `SciPy` предоставляет ряд функций для различных видов *квадратур*, например, `quad`, `dblquad` и `tplquad` для одиночных, двойных и тройных интегралов соответственно. 

In [None]:
f = lambda x: np.exp(-x**2)
a = 0; b = 1

integr, abs_err = quad(f, a, b)
print(f"Значение {integr}, абсолютная погрешность {abs_err}")

При необходимости передать дополнительные аргументы используется кортеж `args`, передаваемый функции `quad()`

In [None]:
f = lambda x,n: x**n

a = 0; b = 1

integr, abs_err = quad(f, a, b, args=(3,))

print(f"Значение {integr}, абсолютная погрешность {abs_err}")

Кратные интегралы реализуются по схожей схеме.

In [None]:
f = lambda x,y: np.exp(-x**2-y**2)

integr, abs_err = dblquad(f, -np.Inf, np.Inf, lambda x : -np.Inf, lambda x: x)
print(f"Значение {integr}, абсолютная погрешность {abs_err}")

`SciPy` предоставляет два разных способа решения дифференциальных уравнений: в императивном подходе, основанном на функции `odeint`, и объектно-ориентированный подходе, основанном на классе `ode`.

Мы будем использовать функцию `odeint`. Для получения информации о классе `ode` можно выполнить `help(ode)`. Объекты этого класса делают почти то же самое, что и `odeint`, но в рамках объектно-ориентированной парадигмы.

Чтобы использовать `odeint`, сначала необходимо импортировать его из модуля `scipy.integrate`.

In [None]:
from scipy.integrate import odeint, ode

Система записывается в нормальной форме
$$
    y′ = f(y,t)
$$
где
$y = [y_1(t), y_2(t), \dots, y_n(t)]$ и $f$ $-$ некоторая функция описывающая правую часть системы. Чтобы решить систему дифференциальных уравнений, необходимо задать функцию $f$ и начальные условия $y(0)$.

После определения функции `Python` f и массива $y_0$ (для описания $f(y,t)$ и $y(0)$), можно использовать функцию `odeint`:

y_t = odeint(f, y_0, t)

где $t$ $-$ массив с координатами времени, для которых необходимо решить задачу Коши. y_t - это массив с одной строкой для каждого момента времени в $t$, где каждый столбец соответствует решению $y_i(t)$ в этот момент времени.

#### Пример. Затухающий осцилятор

Уравнение затухающего осциллятора:

$$
    \displaystyle\frac{\mathrm{d}^2 x} {\mathrm{d} t^2} + 2\zeta\omega_0 \frac{\mathrm{d} x} {\mathrm{d} t} + \omega^2_0x = 0
$$

где $x$ $-$ положение осциллятора, $\omega_0$ $-$ частота, а $\zeta$ $-$ коэффициент затухания. Чтобы записать это дифференциальное уравнение второго порядка в нормальной форме, введем $p = \frac{\mathrm{d} x}{\mathrm{d} t}$:

$\displaystyle\frac{\mathrm{d} p}{\mathrm{d} t} = -2\zeta\omega_0 p - \omega^2_0 x$

$\displaystyle\frac{\mathrm{d}x}{\mathrm{d}t} = p$

In [None]:
def f(y, t, zeta, w0):
    """
    Правая часть уравнения
    """
    x, p = y[0], y[1]
    
    dx = p
    dp = -2 * zeta * w0 * p - w0**2 * x

    return [dx, dp]

In [None]:
# начальные условия
y0 = [1.0, 0.0]

In [None]:
#сетка по времени для интегрирования
t = np.linspace(0, 10, 1000)
w0 = 2*np.pi*1.0

In [None]:
#Решение задачи Коши для различных значений коэффициента демпфирования

y1 = odeint(f, y0, t, args=(0.0, w0)) # undamped
y2 = odeint(f, y0, t, args=(0.2, w0)) # under damped
y3 = odeint(f, y0, t, args=(1.0, w0)) # critial damping
y4 = odeint(f, y0, t, args=(5.0, w0)) # over damped

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.display import Image

In [None]:
fig, ax = plt.subplots()
ax.plot(t, y1[:,0], 'k', label="незатухающий", linewidth=0.25)
ax.plot(t, y2[:,0], 'r', label="демпфирование")
ax.plot(t, y3[:,0], 'b', label="критическое затухание")
ax.plot(t, y4[:,0], 'g', label="чрезмерное демпфирование")
ax.legend();

### Оптимизация

Оптимизация (поиск экстемумов функции) $-$ важная область математики. Задача многомерной оптимизации может быть достаточно непростой. Рассмотрим только несколько очень простых случаев. 

Чтобы использовать модуль оптимизации в `scipy`, необходим модуль `optimize`:

In [None]:
from scipy import optimize

#### Нахождение минимального значения

Минимум функции одной переменной

In [None]:
def f(x):
    return 4*x**3 + (x-2)**2 + x**4

In [None]:
fig, ax  = plt.subplots()
x = np.linspace(-5, 3, 100)
ax.plot(x, f(x));

Для нахождения минимума функции используется `fmin_bfgs`.

In [None]:
x_min = optimize.fmin_bfgs(f, -2)
x_min 

In [None]:
optimize.fmin_bfgs(f, 0.5) 

Мы также можем использовать функции `brent()` или `fminbound()`. У них немного другой синтаксис и используют другие алгоритмы. 

In [None]:
optimize.brent(f)

In [None]:
optimize.fminbound(f, -4, 2)

#### Нахождение корней функции

Для нахождения корней функции $f(x)=0$ используется функция `fsolve()`, которая требует начального приближения.

In [None]:
def f(x):
    return np.tan(x) - 2.0/x

In [None]:
fig, ax  = plt.subplots(figsize=(10,4))
x = np.linspace(-5, 5, 1000)
y = f(x)
mask = np.where(abs(y) > 50)
x[mask] = y[mask] = np.NaN
ax.plot(x, y)
ax.plot([-5, 5], [0, 0], 'k')
ax.set_ylim(-10,10)

In [None]:
optimize.fsolve(f, 0.1)

In [None]:
optimize.fsolve(f, 2)

In [None]:
optimize.fsolve(f, -4)

### Интерполяция

Интерполяция в `scipy` реализуется простой функцией `interp1d`, когда заданы массивы, описывающие данные $X$ и $Y$, возвращает и объект, который ведет себя как функция, которая может быть вызвана для произвольного значения $x$ (в диапазоне, охватываемом $X$), и возвращает соответствующее интерполированное значение $y$.

In [None]:
from scipy.interpolate import *

#### Примеры

Построение линейной и кубической интерполяций функции $f(x)=\sin{x}$ по $10$ точкам.

In [None]:
def f(x):
    return np.sin(x)

In [None]:
n = np.arange(0, 10)
x = np.linspace(0, 9, 100)

y_meas = f(n)
y_real = f(x)

linear_interpolation = interp1d(n, y_meas)
y_interp1 = linear_interpolation(x)

cubic_interpolation = interp1d(n, y_meas, kind='cubic')
y_interp2 = cubic_interpolation(x)

In [None]:
fig, ax = plt.subplots(figsize=(10,4))
ax.plot(n, y_meas, 'bs', label='узлы')
ax.plot(x, y_real, 'k', lw=2, label='функция')
ax.plot(x, y_interp1, 'r', label='линейная интерполяция')
ax.plot(x, y_interp2, 'g', label='кубическая интерполяция')
ax.legend(loc=3)

### Статистика

Модуль `scipy.stats` содержит большое количество вероятностных распределений, статистических функций и тестов.

In [None]:
from scipy import stats

#### Пример

Создать объект, описывающий дискретное случайное распределение Пуассона
$$
    P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda}
$$
с параметром $\lambda=3.5$

In [None]:
X = stats.poisson(3.5)

In [None]:
n = np.arange(0,15)

fig, axes = plt.subplots(3,1, sharex=True)

# Построение ряда распределения
axes[0].step(n, X.pmf(n))

# Построение функции распределения
axes[1].step(n, X.cdf(n))

# Построение гистограмы 1000 случайных реализаций случайной величины
axes[2].hist(X.rvs(size=1000))

Создать объект, описывающий стандартное нормальное распределение.

In [None]:
Y = stats.norm()

In [None]:
x = np.linspace(-5,5,100)

fig, axes = plt.subplots(3,1, sharex=True)

# Построение плотности распределения вероятностей (PDF)
axes[0].plot(x, Y.pdf(x))

# Построение функции распределения вероятностей (CDF)
axes[1].plot(x, Y.cdf(x));

# Построение гистограмы 1000 случайных реализаций случайной величины
axes[2].hist(Y.rvs(size=1000), bins=50);

Распределение Пуассона.

In [None]:
X.mean(), X.std(), X.var()

Нормальное распределение.

In [None]:
Y.mean(), Y.std(), Y.var()

#### Статистические тесты

#### Пример

Проверка гипотезы о равенстве математических ожиданий двух независмых выборок с помощью критерия Стьюдента. Нулевая гипотеза: математические ожидания равны, конкурирующая гипотеза $-$ не равны.

In [None]:
t_statistic, p_value = stats.ttest_ind(X.rvs(size=1000), X.rvs(size=1000))

print(f"t-statistic = {t_statistic}")
print(f"p-value = {p_value}")

Поскольку значение $p>0.05$, мы принимаем гипотезу о равенстве средних значений.

Чтобы проверить, имеет ли среднее значение одной выборки данных среднее значение $0.1$ (истинное среднее значение равно $0.0$):

In [None]:
stats.ttest_1samp(Y.rvs(size=1000), 0.1)

Малое значение $p$ означает, что мы можем отвергнуть гипотезу о том, что среднее значение $Y$ равно $0.1$.

In [None]:
Y.mean()

In [None]:
stats.ttest_1samp(Y.rvs(size=1000), Y.mean())

Значение $p$ велико, поэтому мы принимаем гипотезу о равенстве средних значений.