In [None]:
import numpy as np # подключение библиотеки NumRy

# Библиотека NumPy

Пакет `numpy` предоставляет $n$-мерные однородные массивы (все элементы одного типа); в них нельзя вставить или удалить элемент в произвольном месте. В `numpy` реализовано много операций над массивами в целом. Если задачу можно решить, произведя некоторую последовательность операций над массивами, то это будет столь же эффективно, как в `C` или `matlab` - львиная доля времени тратится в библиотечных функциях, написанных на `C`.

## 1. Одномерные массивы

#### 1.1 Типы массивов, атрибуты

Можно преобразовать список в массив.

In [None]:
a = np.array([0, 2, 1])  # создание массива numpy

`print` печатает массивы в удобной форме.

In [None]:
print(a)

Класс `ndarray` имеет много методов.

In [None]:
set(dir(a)) - set(dir(object)) # получить список атрибутов массива, за исключением относящихся к классу object
# set() - создание множества
# dir() - список атрибутов

Наш массив одномерный.

In [None]:
a.ndim  # размерность массива

В $n$-мерном случае возвращается кортеж размеров по каждой координате.

In [None]:
a.shape # для массива [3:2] кортеж - (3, 2)

`size` - это полное число элементов в массиве; `len` - размер по первой координате (в 1-мерном случае это то же самое).

In [None]:
len(a) # размер, стандартная функция python

In [None]:
a.size  # размер, функция numpy

`numpy` предоставляет несколько типов для целых (`int16`, `int32`, `int64`) и чисел с плавающей точкой (`float32`, `float64`).

In [None]:
a.dtype  # тип элементов массива
a.dtype.name  # имена полей массива
a.itemsize  #количество байт, занимаемое элементом

Массив чисел с плавающей точкой.

In [None]:
b = np.array([0., 2, 1])
b.dtype  # тип - float64

Точно такой же массив.

In [None]:
c = np.array([0, 2, 1], dtype=np.float64)  # объявление массива с указанием типа вручную
print(c)

Преобразование данных

In [None]:
print(c.dtype)
print(c.astype(int))  # приведение объекта к типу int
print(c.astype(str))  # приведение объекта к типу string

#### 1.2 Индексация

Индексировать массив можно обычным образом.

In [None]:
a[1]  # указание на 2-й элемент массива

Массивы - изменяемые объекты.

In [None]:
a[1] = 3
print(a)

Массивы, разумеется, можно использовать в `for` циклах. Но при этом теряется главное преимущество `numpy` - быстродействие. Всегда, когда это возможно, лучше использовать операции над массивами как едиными целыми.

In [None]:
for i in a:
    print(i)

# Задание 1: создайте numpy-массив, состоящий из первых пяти простых чисел, выведите его тип и размер:

In [None]:
import numpy as np

a = np.array([1, 2, 3, 5, 7])  # создание массива numpy

print(type(a))  # тип объекта
print(len(a))  # размер, стандартная функция python
print(a.size)  # размер, функция numpy

#### 1.3 Создание массивов

Массивы, заполненные нулями или единицами.

In [None]:
a = np.zeros(3) # создание массива из 3-х нулей, тип по умолчанию - float64
b = np.ones(3, dtype=np.int64) # создание массива из 3-х нулей, тип - int64
print(a)
print(b)

Если нужно создать массив, заполненный нулями, длины и типа другого массива, то можно использовать конструкцию

In [None]:
np.zeros_like(b)  # создание массива с такими же длиной и типом, как и у b, но заполненного нулями

Функция `arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда *(конец-начало)/шаг* - целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.

In [None]:
a = np.arange(0, 9, 2)  # создание массива целых чисел от 0 до 9 с шагом 2
print(a)

In [None]:
b = np.arange(0., 9, 2)  # создание массива чисел с плавающей точкой 
от 0 до 9 с шагом 2
print(b)

Последовательности чисел с постоянным шагом можно также создавать функцией `linspace`. Начало и конец диапазона включаются; последний аргумент - число точек.

In [None]:
a = np.linspace(0, 8, 5)
print(a)

# Задание 2: создайте и выведите последовательность чисел от 10 до 20 с постоянным шагом, длина последовательности - 21.

In [None]:
import numpy as np

a = np.linspace(10, 20, 21)  # создание массива numpy 
# в виде последовательности чисел

print(type(a))  # вывод

Последовательность чисел с постоянным шагом по логарифмической шкале от $10^0$ до $10^1$.

In [None]:
b = np.logspace(0, 1, 5)  # создание массива из пяти элементов от 10^0 до 10^1
print(b)

## 2. Операции над одномерными массивами

#### 2.1 Математические операции

Арифметические операции проводятся поэлементно.

In [None]:
a

In [None]:
b

In [None]:
print(a + b)  # сложение

In [None]:
print(a - b)  # вычитание

In [None]:
print(a * b)  # умножение

In [None]:
print(a / b)  # деление

In [None]:
print(a ** 2)  # возведение в степень

Когда операнды разных типов, они приводятся к большему типу.

In [None]:
i = np.ones(5, dtype=np.int64)  # возвращает массив из пяти элементов типа int64
print(a + i)

`numpy` содержит элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (`ufunc`).

In [None]:
np.sin  # функция синуса
type(np.sin)

In [None]:
print(np.sin(a))

Один из операндов может быть скаляром, а не массивом.

In [None]:
print(a + 1)  # к каждому элементу массива прибавляется 1

In [None]:
print(2 * a)  # каждый элемент массива умножается на 2

Сравнения дают булевы массивы.

In [None]:
print(a > b)  # выводится массив из True и False для каждого элемента
# количество элементов в массивах должно быть одинаковым

In [None]:
print(a == b)

In [None]:
c = a > 5
print(c)

Кванторы "существует" и "для всех".

In [None]:
np.any(c)  # возвращает True, если хотя бы один элемент массива не None
np.all(c)  # возвращает True, если все элементы массива не None

Модификация на месте.

In [None]:
a

In [None]:
a += 1  # к каждому элементу массива прибавляется 1
print(a)

In [None]:
b

In [None]:
b *= 2  # каждый элемент массива умножается на 2
print(b)

In [None]:
b /= a  # элементы массива b делятся на элементы массива a
print(b)

При выполнении операций над массивами деление на 0 не возбуждает исключения, а даёт значения `np.nan` или `np.inf`.

In [None]:
print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))

In [None]:
np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

Сумма и произведение всех элементов массива; максимальный и минимальный элемент; среднее и среднеквадратичное отклонение.

In [None]:
b

In [None]:
b.sum()  # сумма элементов
b.prod()  # произведение элементов
b.max()  # максимальный элемент
b.min()  # минимальный элемент
b.mean()  # среднее значение элементов
b.std()  # среднеквадратичное отклонение элементов

Имеются встроенные функции

In [None]:
print(np.sqrt(b))  # возведение в квадрат
print(np.exp(b))  # экспонента
print(np.log(b))  # логарифм
print(np.sin(b))  # синус
print(np.e, np.pi)  # число e и число pi

Иногда бывает нужно использовать частичные (кумулятивные) суммы. В нашем курсе такое пригодится.

In [None]:
print(b.cumsum())  # возвращает массив, элементы которого - промежуточные суммы
# сложения элементов исходного массива

#### 2.2 Сортировка, изменение массивов

Функция `sort` возвращает отсортированную копию, метод `sort` сортирует на месте.

In [None]:
b

In [None]:
print(np.sort(b))  # сортировка по возрастанию
print(b)

In [None]:
b.sort()
print(b)

Объединение массивов.

In [None]:
a

In [None]:
b

In [None]:
a = np.hstack((a, b))  # возвращает массив, содержащий в себе
# все элементы из a и b
print(a)

Расщепление массива в позициях 3 и 6.

In [None]:
np.hsplit(a, [3, 6])  # массив разделяется на три части: 0-2, 3-5 и 6-n

Функции `delete`, `insert` и `append` не меняют массив на месте, а возвращают новый массив, в котором удалены, вставлены в середину или добавлены в конец какие-то элементы.

In [None]:
a = np.delete(a, [5, 7])  # удаляются элементы 5 и 7
print(a)

In [None]:
a = np.insert(a, 2, [0, 0])  # с индекса 2 добавляются элементы 0 и 0
print(a)

In [None]:
a = np.append(a, [1, 2, 3])  # в конец массива добавляются элементы 1, 2, 3
print(a)

#### 2.3 Способы индексации массивов

Есть несколько способов индексации массива. Вот обычный индекс.

In [None]:
a = np.linspace(0, 1, 11)
print(a)

In [None]:
b = a[2]
print(b)

Диапазон индексов. Создаётся новый заголовок массива, указывающий на те же данные. Изменения, сделанные через такой массив, видны и в исходном массиве.

In [None]:
b = a[2:6]  # элементы от 2 до 5
print(b)

In [None]:
b[0] = -0.2
print(b)

In [None]:
print(a)

Диапазон с шагом 2.

In [None]:
b = a[1:10:2]  # элементы от 1 до 9 с шагом в 2
print(b)

In [None]:
b[0] = -0.1  # a[0] изменится
print(a)

Массив в обратном порядке.

In [None]:
b = a[::-1]
print(b)

Подмассиву можно присвоить значение - массив правильного размера или скаляр.

In [None]:
a[1:10:3] = 0 # элементам от 1 до 9 с шагом в 3 будет присвоено значение 0
print(a)

Тут опять создаётся только новый заголовок, указывающий на те же данные.

In [None]:
b = a[:]
b[1] = 0.1  # a[1] изменится
print(a)

Чтобы скопировать и данные массива, нужно использовать метод `copy`.

In [None]:
b = a.copy()
b[2] = 0  # a[2] не изменится
print(b)
print(a)

Можно задать список индексов.

In [None]:
print(a[[2, 3, 5]])  # вывод элементов с индексом 2, 3 и 5

Можно задать булев массив той же величины.

In [None]:
b = a > 0  # массив, b[i] = True, если a[i]>0
print(b)

In [None]:
print(a[b])  # вывод элементов, имеющих те же индексы, что и элементы True в b

In [None]:
a

In [None]:
b

# Задание 3   
## 1)Создайте массив чисел от $-2\pi$  до $2\pi$  
## 2)Посчитайте сумму элементов созданного массива  


In [None]:
import numpy as np
import math as m

a = np.array(-2 * m.pi, 2 * m.pi, 15)  # создание массива numpy

print(sum(a))  # сумма, стандартная функция python
print(a.sum())  # сумма, функция numpy


## 3. Двумерные массивы

#### 3.1 Создание, простые операции

In [None]:
a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)

In [None]:
a.ndim  # возвращает размерность массива

In [None]:
a.shape  # возвращает размеры массива в длину и ширину

In [None]:
len(a)  # количество строк двумерного массива
a.size  # количество элементов двумерного массива

In [None]:
a[1, 0]

Атрибуту `shape` можно присвоить новое значение - кортеж размеров по всем координатам. Получится новый заголовок массива; его данные не изменятся.

In [None]:
b = np.linspace(0, 3, 4)
print(b)

In [None]:
b.shape

In [None]:
b.shape = 2, 2  # изменить форму: 2 строки, 2 столбца
print(b)

Можно растянуть в одномерный массив

In [None]:
print(b.ravel())

Арифметические операции поэлементные

In [None]:
print(a + 1)
print(a * 2)
print(a + [0, 1])  # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T)  # .T - транспонирование
print(a + b)

#### 3.2 Работа с матрицами

Поэлементное и матричное (только в Python >=3.5) умножение.

In [None]:
print(a * b)  # поэлементное произведение

In [None]:
print(a @ b)  # матричное произведение

In [None]:
print(b @ a)  # матричное произведение

# Задание 4: создайте две матрицы $ \left( \begin{pmatrix} -3 & 4 \\ 4 & 3 \end{pmatrix},  \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \right)$. Посчитайте их поэлементное и матричное произведения.

In [None]:
import numpy as np

a = np.array([[-3, 4], [4, 3]])  # создание массива numpy
b = np.array([[2, 1], [1, 2]])  # создание массива numpy

print(a * b)  # поэлементное произведение
print(a @ b)  # матричное произведение

Умножение матрицы на вектор.

In [None]:
v = np.array([1, -1], dtype=np.float64)
print(b @ v)

In [None]:
print(v @ b)

Если у вас Питон более ранней версии, то для работы с матрицами можно использовать класс `np.matrix`, в котором операция умножения реализуется как матричное умножение.

In [None]:
np.matrix(a) * np.matrix(b)

Внешнее произведение $a_{ij}=u_i v_j$

In [None]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

In [None]:
a = np.outer(u, v)  # возвращает двумерный массив внешнего произведения
print(a)

Двумерные массивы, зависящие только от одного индекса: $x_{ij}=u_j$, $y_{ij}=v_i$

In [None]:
x, y = np.meshgrid(u, v)  # возвращает:
# массив x - из строк массива u, где высота - длина массива v 
# массив y - со столбцами из строк массива u, где высота - длина массива v 
print(x)
print(y)

Единичная матрица.

In [None]:
I = np.eye(4)  # возвращает двумерную матрицу 4 на 4 с единицами на главной диагонали и нулями на всех остальных позициях
print(I)

Метод `reshape` делает то же самое, что присваивание атрибуту `shape`.

In [None]:
print(I.reshape(16))

In [None]:
print(I.reshape(2, 8))

Строка.

In [None]:
print(I[1])

Цикл по строкам.

In [None]:
for row in I:
    print(row)

Столбец.

In [None]:
print(I[:, 2])

Подматрица.

In [None]:
print(I[0:2, 1:3])

Можно построить двумерный массив из функции.

In [None]:
def f(i, j):
    print(i)
    print(j)
    return 10 * i + j

print(np.fromfunction(f, (4, 4), dtype=np.int64))  # массив 4 на 4 типа int64, где значения ячеек вычисляются функцией f

Транспонированная матрица.

In [None]:
print(b.T)  # замена строк на столбцы

Соединение матриц по горизонтали и по вертикали.

In [None]:
a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

In [None]:
print(np.hstack((a, b)))  # соединение по горизонтали

In [None]:
print(np.vstack((a, c)))  # соединение по вертикали

Сумма всех элементов; суммы столбцов; суммы строк.

In [None]:
print(b.sum())  # сумма всех элементов
print(b.sum(axis=0))  # суммы столбцов
print(b.sum(axis=1))  # суммы строк

Аналогично работают `prod`, `max`, `min` и т.д.

In [None]:
print(b.max())  # максимальный элемент среди всех элементов
print(b.max(axis=0))  # максимальные элементы среди столбцов
print(b.min(axis=1))  # максимальные элементы среди строк

След - сумма диагональных элементов.

In [None]:
np.trace(a)  # сумма элементов по главной диагонали

## 4. Сохранение в файл и чтение из файла

In [None]:
x = np.arange(0, 25, 0.5).reshape((5, 10))

# Сохраняем в файл example.txt данные x в формате с двумя точками после запятой и разделителем ';'
np.savetxt('c:\JupyterCode\example.txt', x, fmt='%.2f', delimiter=';')

Теперь его можно прочитать

In [None]:
x = np.loadtxt('example.txt', delimiter=';')  # выгрузить текст из файла example.txt с разделителем ';'
print(x)

## 5. Производительность numpy

Посмотрим на простой пример --- сумма первых $10^8$ чисел.

In [None]:
%%time

sum_value = 0
for i in range(10 ** 8):
    sum_value += i
print(sum_value)

Немного улучшеный код

In [None]:
%%time

sum_value = sum(range(10 ** 8))
print(sum_value)

Код с использованием функций библиотеки numpy

In [None]:
%%time

sum_value = np.arange(10 ** 8).sum()
print(sum_value)

Простой и понятный код работает в $30$ раз быстрее!

Посмотрим на другой пример. Сгенерируем матрицу размера $500\times1000$, и вычислим средний минимум по колонкам.

Простой код, но при этом даже использующий некоторые питон-функции

*Замечание*. Далее с помощью `scipy.stats` происходит генерация случайных чисел из равномерного распределения на отрезке $[0, 1]$. Этот модуль будем изучать на следующем занятии.

In [None]:
import scipy.stats as sps

In [None]:
%%time

N, M = 500, 1000
matrix = []
for i in range(N):
    matrix.append([sps.uniform.rvs() for j in range(M)])

min_col = [min([matrix[i][j] for i in range(N)]) for j in range(M)]
mean_min = sum(min_col) / N
print(mean_min)

Понятный код с использованием функций библиотеки numpy

In [None]:
%%time

N, M = 500, 1000
matrix = sps.uniform.rvs(size=(N, M))
mean_min = matrix.min(axis=1).mean()
print(mean_min)

Простой и понятный код работает в 1500 раз быстрее!