In [None]:
import numpy as np
np.__version__

In [None]:
import scipy
scipy.__version__

numpy - библиотека для векторизированных вычислений. Написана на Си.

scipy - библиотека для научных вычислений. Написана на Си, Си++ и Fortran.

## За что не любят Python и любят С/С++? ##

In [None]:
a = list(range(1_000_000))

In [None]:
%%timeit

[e * e for e in a]

In [None]:
a = np.arange(1_000_000)

In [None]:
%%timeit

a * a

Самое медленное в языке - циклы

In [None]:
rows, cols = 1_000, 1_000

a = [list(range(i, i + cols)) for i in range(0, rows)]
b = [[0 for j in range(cols)]  for i in range(0, rows)]

In [None]:
%%timeit

for i in range(rows):
    for j in range(cols):
        b[i][j] = 2 * a[i][j]

In [None]:
a = np.asarray(a)

In [None]:
%%timeit

2 * a

## Создание массивов ##

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float64)
a

In [None]:
a = np.array([[1, 2, 3, 4, 5], # вложенные списки должны быть одинаковой длины
             [6, 7, 8, 9, 10]], dtype=float)
a

In [None]:
a.shape # размерность

In [None]:
a.ndim # сколько размерностей

In [None]:
a.dtype # тип данных внутри массива

In [None]:
a.astype(int) # Измененение типа данных в массиве

## Размерность массивов ##

In [None]:
a # данные хранятся как последовательности

In [None]:
a.dtype

In [None]:
a.dtype.itemsize # sizeof(float64)

In [None]:
a.shape

In [None]:
a.strides # количество байтов в строке, в строке - 40, в 1 элементе - 8

In [None]:
b = a.reshape(5, 2) # изменение размерности
b

In [None]:
b.shape

In [None]:
b.strides

In [None]:
a.reshape(-1, 2)

In [None]:
b = a.reshape(-1, 2) # same memory
a[0, 1] = -10

b

In [None]:
b = a.flatten() # copy
a[0, 1] = -20

b

In [None]:
b = a.ravel() # view (same memory)
a[0, 1] = -30

b

In [None]:
c = a.T # view (same memory) same as a.transpose()
a[0, 1] = -40

c

In [None]:
c.strides, a.strides

Фиктивная ось с размерностью 1.

In [None]:
b = np.arange(10)
b

In [None]:
b[np.newaxis, :] # same as b.reshape(1, *b.shape)

In [None]:
np.expand_dims(b, axis=0)

In [None]:
b[:, np.newaxis] # same as b.reshape(*b.shape, 1)

In [None]:
b[np.newaxis, :, np.newaxis].shape

### Создание массивов с особыми свойствами ###

In [None]:
np.zeros(shape=(3,2))

In [None]:
np.zeros_like(a)

In [None]:
np.ones(5) # same as np.ones(shapes=(5, ))

In [None]:
np.eye(4)

In [None]:
np.arange(1, 10)

In [None]:
np.arange(1, 10, 2) # с шагом 2

In [None]:
np.arange(1, 10, 0.5) # дробный шаг

In [None]:
np.linspace(0, 1, 5, endpoint=True) # разбивает отрезок

## Избегаем ненужного копирования ##

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float32)
b = np.asarray(a) # объект с ссылками на те же данные
c = np.array(a) # копия данных

b, c

In [None]:
a[0] = 0
b, c

In [None]:
a = np.array([1, 2, 3, 4, 5], dtype=np.float32)
b = np.asarray(a, dtype=np.int32)
c = np.array(a)

a, b, c

In [None]:
a[0] = 0
a, b, c

In [None]:
d = [1, 2, 3, 4, 5]
a = np.asarray(a)
d[0] = 0

a

In [None]:
a.copy() # копирование

In [None]:
np.copy(a) # копирование

## Поэлементные операции над массивами ##

### Операция со скалярами и унарные операции ###

Все операции производятся поэлементно

In [None]:
a = np.arange(10).reshape(2, -1)
a

In [None]:
a ** 3 # same as np.power(a, 3)

In [None]:
a + 2 # same as np.add(a, 2)

In [None]:
2 * a # same as np.multiply(a, 2)

In [None]:
2 ** a # same as np.power(2, a)

In [None]:
np.sqrt(a)

In [None]:
np.exp(a)

In [None]:
np.log(1 + a)

In [None]:
np.log2(1 + a)

In [None]:
np.sin(a)

In [None]:
a > 0 # same as np.greater(a, 0)

## Агрегирующие операции ##

In [None]:
np.random.seed(5656)
a = np.random.randint(0, 10, size=(7, ))
a[3] = 10
a

In [None]:
a.min(), a.max(), a.argmax(), a.sum(), a.prod(), a.mean()

In [None]:
np.min(a), np.max(a), np.argmax(a), np.sum(a), np.prod(a), np.mean(a)

In [None]:
# крайне не рекомендуемый вариант. Подходит только для олномерных массивов

min(a), max(a), sum(a)

a = agg(axis=axis) - агрегирующая операция вдоль оси axis:
* выполняет редукцию (агрегирующую операцию) по оси axis
* удаляет ось axis из исходного массива

In [None]:
np.random.seed(5555)

a = np.random.randint(0, 10, size=(3, 7))
a[1, 3] = 15

a

In [None]:
a.min()

In [None]:
a.max(axis=0) # редукция вдоль оси axis=0 или редукция по столбцу

In [None]:
a.sum(axis=1) # редукция вдоль оси axis=1 или редукция по строке

In [None]:
a

In [None]:
a.argmax() # позиция максимального значения в массиве

In [None]:
a.ravel()[a.argmax()]

In [None]:
# пересчет вручную

i = np.argmax(a)
i, j = i // a.shape[1], i % a.shape[1]

print('value =', a[i, j])
print('index =', (i, j))

In [None]:
np.unravel_index(np.argmax(a), a.shape) # "двумерный" индекс значения в массиве

Что быстрее?

In [None]:
b = np.random.randint(0, 10, size=(1_000, 1_000))
b[36, 42] = 20
b = b.ravel()

In [None]:
%%timeit

b.max()

In [None]:
%%timeit

max(b)

### Унарные операции над булевыми массивами ###

In [None]:
a = np.asarray([True, True, False, False, True])
a

In [None]:
a.any(), np.any(a), any(a) # последний вариант крайне не рекомендуется

In [None]:
a.all(), np.all(a), all(a) # последний вариант крайне не рекомендуется

In [None]:
a = np.asarray([[True, True, False, False, True],
              [True, False, False, True, False]])
a

In [None]:
a.any(axis=0)

In [None]:
a.all(axis=1)

In [None]:
np.logical_not(a) # инверсия

In [None]:
~a # bitwise; same as np.bitwise_not(a)

In [None]:
a.astype(bool)

### Бинарные операции ###

In [None]:
a = a.astype(int)
a

In [None]:
np.random.seed(4968)

b = np.random.randint(0, 10, size=a.shape)
b

In [None]:
a * b # same as np.multily(a, b)

In [None]:
a + b # same as np.add(a, b)

In [None]:
a

In [None]:
b

In [None]:
np.fmax(a, b) # element-wise maximum

In [None]:
a > b # same as np.greater(a, b)

Что еще умеют бинарные ufunc: https://jakevdp.github.io/PythonDataScienceHandbook/02.03-computation-on-arrays-ufuncs.html

In [None]:
np.random.seed(4987)

a = np.random.random(size=(2,5))
b = a + np.random.random(size=(2,5)) * 1e-5

In [None]:
a

In [None]:
b

In [None]:
np.isclose(a, b)

In [None]:
np.allclose(a, b) # same as np.isclose(a, b).all()

In [None]:
np.isclose(a, b).any() # np.anyclose(a, b) # doesn't exist

In [None]:
np.random.seed(4987)

a = (np.random.random(size=(5, )) - 0.5) * 1e-7 
np.isclose(a, 0, atol=1e-6)

### Бинарные операции над булевыми массивами ###

In [None]:
a = np.asarray([True, True, False, False, True])
b = np.asarray([True, False, False, True, False])

a, b

In [None]:
np.logical_and(a, b), np.logical_or(a, b), np.logical_xor(a, b)

In [None]:
a & b, a | b, a ^ b # bitwise

In [None]:
np.bitwise_and(a, b), np.bitwise_or(a, b), np.bitwise_xor(a, b)

### Более хитрые примеры бинарных операций ###

In [None]:
a = np.arange(30).reshape(3, -1)

a

In [None]:
b = np.arange(a.shape[1])

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
a + b

In [None]:
b = np.arange(a.shape[0])

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
# Oooops!

a + b

In [None]:
b = np.arange(a.shape[0])[:, np.newaxis]

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
a + b

### Еще более хитрые бинарные операции ###

In [None]:
a = np.arange(5).reshape(1, -1)

a

In [None]:
b = a.reshape(-1, 1)

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
a + b

In [None]:
a >= b

### Поэтому не забывайте следить за размерностью! ###

**Правило приведение размерности (broadcasting)**

1. Предположим, что a.shape = (a_1, a_2, ... a_n) и >b_shape = (b_1, b_2, ... b_n). Над a и b можно произвести поэлементую бинарную операцию, если Ɐ i ∈ 1 ... n выполнено хотя бы одно из условий:
 * a_i == b_i
 * a_i == 1
 * b_i == 1
 
2. Если размерности не совпадают, то к массиву меньшей размерности добавляются ведущие фиктивные размерности.

Документация: https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

Пункт a_i == b_i означает, что размерность в точности совпадает.

In [None]:
a = np.arange(20).reshape(4, -1)
a

In [None]:
np.random.seed(1987)

b = np.random.randint(-1, 2, size=(4,5))
b

In [None]:
a * b

Пункты a_i == 1 или b_i == 1 означают, что массив по этой оси можно повторить нужное количество раз, и свести задачу к передыдущему пункту.

In [None]:
a

In [None]:
np.random.seed(7892)
b = np.random.randint(-1, 2, size=(4,1))

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
c = np.repeat(b, a.shape[1], axis=1)

c

In [None]:
print('a.shape =', a.shape)
print('c.shape =', c.shape)

In [None]:
np.array([[[1, 2, 3]]]).shape, np.array([1, 2, 4, 4, 5, 6]).reshape(3, 2, 1).shape # можно провести бинарную операцию

In [None]:
np.array([[[1, 2, 3]]]) + np.array([1, 2, 4, 4, 5, 6]).reshape(3, 2, 1)

Если размерности не совпадают, то добавляются ведущие фиктивные размерности.

In [None]:
a = np.arange(20).reshape(-1, 5)
a

In [None]:
np.random.seed(6579)
b = np.random.randint(0, 2, size=(5))

b

In [None]:
print('a.shape =', a.shape)
print('b.shape =', b.shape)

In [None]:
a * b

In [None]:
с = b[np.newaxis, :]

c

In [None]:
print('a.shape =', a.shape)
print('c.shape =', c.shape)

In [None]:
c * a

## Матричные операции над массивами ##

In [None]:
av = np.arange(1, 5).reshape(-1, 2)

av

In [None]:
bv = np.array([[1, 2], [-2,1]])

bv

In [None]:
av * bv # поэлементное перемножение

In [None]:
np.matmul(av, bv) # матричное перемножение

In [None]:
np.dot(av, bv) # матричное перемножение

In [None]:
# no copy, pls

am = np.asmatrix(av)
bm = np.asmatrix(bv)

am

In [None]:
am * bm # матричное

In [None]:
av ** 2

In [None]:
am ** 2

Все самое важное для линейной алгебры:

https://numpy.org/doc/stable/reference/routines.linalg.html  

## Индексация в одномерных массивах ##

**Замечание:** индексация может быть использована не только для получения значений, но и для их присвоения.

In [None]:
a = np.arange(15)

a

In [None]:
a[0], a[5], a[len(a)-1]

### Отрицательные индексы ###

In [None]:
a[len(a)-1], a[-1]

In [None]:
a[len(a)-5], a[-5]

### Срезы (slice) ###

**Общее правило:** массив[первый индекс:последний индекс:шаг]

Значения по умолчанию:
* первый индекс = 0;
* последний индекс = len(массив);
* шаг = 1.

Последний индекс не включается.

In [None]:
a = np.arange(15)

a

Взять первые 5 элементов

In [None]:
variants = [ a[0:5:1], a[0:5], a[:5] ]

print(*map(repr, variants), sep='\n')

In [None]:
variants = [ a[slice(0,5,1)], a[slice(0,5)], a[slice(5)] ]

print(*map(repr, variants), sep='\n')

Взять все элементы, стоящие на четных позициях.

In [None]:
variants = [ a[0:len(a):2], a[0::2], a[0::2] ]

print(*map(repr, variants), sep='\n')

Взять все элементы, стоящие на нечетных позициях.

In [None]:
variants = [ a[1:len(a):2], a[1::2] ]

print(*map(repr, variants), sep='\n')

Взять все элементы с 3-го по 12-й (не включительно) с шагом 3.

In [None]:
variants = [ a[3:12:3], a[3:-3:3] ]

print(*map(repr, variants), sep='\n')

Взять все элементы с 3-го по 12-й (включительно) с шагом 3 в обратном порядке.

In [None]:
variants = [ a[3:13:3][::-1], a[12:2:-3], a[-3:2:-3] ]

print(*map(repr, variants), sep='\n')

### Булева индексация (маски) ##

In [None]:
np.random.seed(1234)

a = np.random.randint(-2, 7, 34)
a

Найти все отрицательные элементы:

In [None]:
a < 0

In [None]:
a[a < 0]

Найти все элементы, кратные 3:

In [None]:
variants = [ a[a % 3 == 0], a[np.logical_not(a % 3)], a[~((a % 3).astype(bool))] ]

print(*map(repr, variants), sep='\n')

In [None]:
np.random.seed(1234)

a = np.random.randint(0, 9, 23)
a

Найти все элементы, кратные 3 или 5:

In [None]:
mask_3 = a % 3 == 0
mask_5 = a % 5 == 0

variants = [ a[np.logical_or(mask_3, mask_5)], a[mask_3 | mask_5] ]

print(*map(repr, variants), sep='\n')

Найти все элементы, кратные и 2, и 3:

In [None]:
mask_2 = a % 2 == 0
mask_3 = a % 3 == 0

variants = [ a[np.logical_and(mask_2, mask_3)], a[mask_2 & mask_3], a[a % 6 == 0] ]

print(*map(repr, variants), sep='\n')

### Индексация в многомерных массивах ###

In [None]:
a = np.arange(30).reshape(5, -1)

a

In [None]:
# плохой способ, мы работаем с numpy-массивами, а не со списками

a[0][0], a[0][2], a[1][1], a[-1][-2]

In [None]:
# хороший способ

a[0,0], a[0,2], a[1,1], a[-1,-2]

Получить строку с индексом 2

In [None]:
variants = [ a[2], a[2,:] ]

print(*map(repr, variants), sep='\n')

Получить столбец с индексом 3

In [None]:
a[:,3]

Получить все элементы, стоящие в четных столбцах:

In [None]:
a[:,::2]

Получить все элементы, стоящие в первой (0-й) строке и нечетных столбцах:

In [None]:
a[0,1::2]

Получить все элементы a[i,j], такие что:
    * i - нечетные;
    * j - дающие остаток 2 при делении на 3;
    
Индексация по строкам должна быть обратной.

In [None]:
a[1::2,2::3][::-1]

In [None]:
np.random.seed(2238)

a = np.random.randint(-5, 5, size=(5, 5))
a

Получите строки, в которых есть хотя бы один 0.

In [None]:
a[(a == 0).any(axis=1)]

Получите столбцы, в которых число положительных элементов больше числа отрицательных.

In [None]:
a[:, (a > 0).sum(axis=0) > (a < 0).sum(axis=0)]

Получить положительные аргументы

In [None]:
a[a > 0]

Получить индексы положительных аргументов.

In [None]:
np.where(a > 0)

In [None]:
a[np.where(a > 0)]

In [None]:
np.vstack(np.where(a > 0)).T

### Fancy Indexing (прихотливая индексация) ###

In [None]:
a

Получить 2, 4 и 3 строки

In [None]:
a[[2, 4, 3]]

Получить элементы в 2, 4 и 3 строках и в 0-м и последнем стобце.

In [None]:
# Ooops!

a[[2, 4, 3], [0, -1]]

In [None]:
a

In [None]:
# Хм.. Такая же логика, как с np.where

a[[2, 4, 3], [0, -1, 2]]

In [None]:
# Решим все же изначальную проблему

a[[2, 4, 3]][:,[0, -1]]

In [None]:
a[np.ix_([2, 4, 3], [0, -1])]

А в чем разница?

In [None]:
a = np.arange(15).reshape(3, -1)
a

In [None]:
# copy

a[[0, 1], :][:,[0, 3, 2]] = 100
a

In [None]:
# view

a[np.ix_([0, 1],[0, 3, 2])] = 100
a

Разница между view и copy:

https://www.jessicayung.com/numpy-views-vs-copies-avoiding-costly-mistakes/

### Сокращенная индексация ###

In [None]:
a = np.arange(24).reshape(2, 3, 4)

a

In [None]:
a[..., 0]

In [None]:
a[0, ...]

In [None]:
a[..., 0, :]

## Что еще есть полезного в Numpy и Scipy ##

### Генерация случайных чисел ###

In [None]:
np.random.rand(10) # 10 чисел

In [None]:
np.random.randint(0, 10, 10) # числа от 0 до 10 (не включая), всего 10

In [None]:
np.random.permutation(10) # перестановки

In [None]:
np.random.choice(10, size=10) # один элемент удаляется на каждом шаге

### Сортировка ###

In [None]:
np.random.seed(4445)

a = np.random.choice(10, size=(3, 10))

a

In [None]:
np.sort(a.ravel()) # return sorted copy

In [None]:
a.sort(axis=0) # inplace sort
a

In [None]:
a.sort(axis=1)
a

In [None]:
np.random.seed(4445)

a = np.random.choice(10, size=(3, 10))

a

In [None]:
a.argsort(axis=0)

In [None]:
a.argsort(axis=1)

### Получение уникальных элементов ###

In [None]:
np.unique(a)

### Объединение массивов ###

In [None]:
from itertools import chain, zip_longest

In [None]:
def print_as_columns(*args, sep='\t'):
    """
    print as columns
    """
    
    args = list(map(lambda s: s.split('\n'), args))
    width = max(map(len, chain.from_iterable(args)))
    
    fill = lambda s: '{:<{width}s}'.format(s, width=width)
    fillvalue = fill('')
    
    args = map(lambda e: map(fill, e), args)
    args = map(sep.join, zip_longest(*args, fillvalue = fillvalue))
    print(*args, sep='\n')

In [None]:
np.random.seed(1398)

c = np.random.permutation(np.arange(0, 12))
i = c.shape[0] // 2

a, b = c[:i], c[i:]
a, b = a.reshape(3, 2), b.reshape(3, 2)

In [None]:
print_as_columns(repr(a), repr(b))

In [None]:
print_as_columns(repr(a), repr(b))
np.vstack((a, b))

In [None]:
np.concatenate((a, b), axis=0)

In [None]:
print_as_columns(repr(a), repr(b))
np.hstack((a, b))

In [None]:
np.concatenate((a, b), axis=1)

### Подсчет расстояний между точками ###

In [None]:
from scipy.spatial.distance import pdist, squareform

In [None]:
np.random.seed(9872)

X = np.random.random(size=(5, 2)) * 10
X

In [None]:
d = pdist(X)
d

In [None]:
squareform(d)

In [None]:
norm = np.linalg.norm(X, ord=2, axis=1)

norm

In [None]:
squareform(pdist(X / norm[:, np.newaxis]))

In [None]:
pdist(X, metric='cosine')

Последний совет на сегодня:

**<center>Не забываем читать документацию и пользоваться поиском</center>**