# NumPy
[Библиотека](https://numpy.org) для работы с массивами произвольной размерности (N-dimensional array или `ndarray`) и линейной алгебры над ними.

Рекомендуемое ядро для запуска кода: `Python v3.7` или выше.

In [13]:
from os import mkdir
from os.path import isdir, join as join_path
from functools import partial
from warnings import filterwarnings

import numpy as np


filterwarnings('ignore')

DATA_DIR = 'class_data/'  # Папка, куда мы будем сохранять все файлы
if not isdir(DATA_DIR):
    mkdir(DATA_DIR)

to_data_dir = partial(join_path, DATA_DIR)
print(f'Пример работы функции \'to_data_dir\': {to_data_dir("test.file")}')

Пример работы функции 'to_data_dir': class_data/test.file


## Инициализация
### Одномерные массивы (векторы)
#### Можно получить из `list`

In [14]:
arr = np.array([2, 3, 4])
print(arr)

[2 3 4]


#### Можно получить из `tuple`

Результат &mdash; тот же!

In [15]:
arr = np.array((2, 3, 4))
print(arr)

[2 3 4]


#### Можно получить из `range`

In [16]:
arr = np.array(range(2, 5))
print(arr)

[2 3 4]


In [17]:
arr = np.arange(2, 5)  # То же самое, но чуточку быстрее
print(arr)

[2 3 4]


#### Да хоть из произвольного итерируемого объекта!

In [18]:
arr = np.fromiter(range(2, 5), dtype=int)
print(arr)

[2 3 4]


А зачем нужен `dtype` &mdash; поговорим потом

In [19]:
arr = np.fromiter([2, 3, 4], dtype=int)
print(arr)

[2 3 4]


In [20]:
def from_2_to_4():
    for i in range(2, 5):
        yield i ** 2   # Ленивое вычисление квадратов 2-х, 3-х и 4-х
                       # Медленный аналог map(lambda x: x ** 2, range(2, 5))


arr = np.fromiter(from_2_to_4(), dtype=int)
print(arr)

[ 4  9 16]


In [21]:
# Все чётные от 0 до 10
arr = np.fromiter((i for i in range(0, 11) if i % 2 == 0), dtype=int)
print(arr)

[ 0  2  4  6  8 10]


In [22]:
# То же самое
arr = np.fromiter(
    filter(lambda x: x % 2 == 0, range(0, 11)),
    dtype=int
)
print(arr)

[ 0  2  4  6  8 10]


In [23]:
print(
    np.linspace(0, 3, 5)
)  # 5 значений на равном удалении между 0 и 3

[0.   0.75 1.5  2.25 3.  ]


In [24]:
print(
    np.logspace(0, 3, 5)
)  # то же самое, только в логарифмическом масштабе

[   1.            5.62341325   31.6227766   177.827941   1000.        ]


In [25]:
arr = np.array([32, 332, 32, 32, -2332, 435, 3])

np.hsplit(arr, (3, 6))  # Расщепление массива в позициях 3 и 6

[array([ 32, 332,  32]), array([   32, -2332,   435]), array([3])]

#### Также можно считать из файла

In [26]:
file_content = '2 3 4'                        # 2, 3, 4 через пробел
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=int)
print(arr)

[2 3 4]


In [27]:
file_content = '\n'.join('234')               # 2, 3, 4 все на новой строке
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=int)
print(arr)                                   # То же самое!

[2 3 4]


In [28]:
file_content = '\n'.join(('First_string', 'Second_string', '3rd_string'))
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=str)
print(arr)
print(f'Тип элементов массива: {arr.dtype}')

['First_string' 'Second_string' '3rd_string']
Тип элементов массива: <U13


Этот тип означает *строку размера не более 13 символов*.

#### Можно и сохранить в файл

In [29]:
arr = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

cur_file = to_data_dir('integer_array.tsv')

np.savetxt(cur_file, arr, fmt='%i', delimiter='\t')
print('integer_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))

integer_array.tsv

1	2	3
4	5	6



In [30]:
cur_file = to_data_dir('integer_array.csv')

np.savetxt(cur_file, arr, fmt='%i', delimiter=';')
print('\ninteger_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


integer_array.csv

1;2;3
4;5;6



In [31]:
arr = np.array(
    [[1.4325,       2.435,    3.345],
     [4.435345, 5.3454352, 6.543345]]
)

cur_file = to_data_dir('integer_array.tsv')

np.savetxt(cur_file, arr, fmt='%i', delimiter='\t')
print('integer_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))

integer_array.tsv

1	2	3
4	5	6



In [32]:
cur_file = to_data_dir('integer_array.csv')

np.savetxt(cur_file, arr, fmt='%i', delimiter=';')
print('\ninteger_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


integer_array.csv

1;2;3
4;5;6



In [33]:
cur_file = to_data_dir('float_array.tsv')

np.savetxt(cur_file, arr, fmt='%.9f', delimiter='\t')  # 2 в fmt - это точность сохранения
print('\nfloat_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


float_array.tsv

1.432500000	2.435000000	3.345000000
4.435345000	5.345435200	6.543345000



In [34]:
cur_file = to_data_dir('float_array.csv')

np.savetxt(cur_file, arr, fmt='%.5f', delimiter=';')
print('\nfloat_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


float_array.csv

1.43250;2.43500;3.34500
4.43534;5.34544;6.54335



С описанием специфики `np.savetxt` лучше знакомиться по мере необходимости на [сайте](https://numpy.org/doc/1.18/reference/generated/numpy.savetxt.html) с документацией.

#### Инициализация вставкой или удалением элементов

<span style="color:red">**ЭТО ВАЖНО!**</span>

Основной спецификой `ndarray` является тот факт, что в него нельзя вставить/удалить элемент в произвольном месте, не переаллоциров весь массив. Это так по следующим причинам:
- Вне зависимости от размерности (будь то это вектор, матрица, 3-тензор или 4-тензор и т.д.), `ndarray` представляется одним большим протяжённым линейным куском оперативной памяти
- Операционные системы не могут расширять уже выделенные для работы программы куски оперативной памяти
- Поэтому единственная возможность при вставке элемента в произвольное место массива &mdash; это
  - Дополнительное выделение памяти большего размера в другом месте
  - Полное копирование уже имеющегося массива туда
  - И запись вставляемого значения в желаемое место в массиве

Поэтому применение следующих операций в циклах может сильно замедлить вашу программу.

In [35]:
arr = np.arange(20)
print(
    np.delete(arr, (5, 7))
)  # Удаление элементов на позициях 5 и 7

[ 0  1  2  3  4  6  8  9 10 11 12 13 14 15 16 17 18 19]


In [36]:
print(
    np.insert(arr, 2, [0, 0])
)

[ 0  1  0  0  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [37]:
print(
    np.append(arr, [1, 2, 3])
)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19  1  2  3]


### Двумерные массивы (матрицы)
#### Из вложенных `list`

In [38]:
arr = np.array([[2, 3, 4], [5, 6, 7]])
print(arr)

[[2 3 4]
 [5 6 7]]


#### Да хоть так

In [39]:
arr = np.array([range(2, 5), (5, 6, 7)])
print(arr)

[[2 3 4]
 [5 6 7]]


In [40]:
arr = np.array((range(2, 5), (5, 6, 7)))
print(arr)

[[2 3 4]
 [5 6 7]]


In [41]:
arr = np.array(
    (
        range(2, 5),
        np.fromiter((i for i in (5, 6, 7)), dtype=int)
    )
)  # Естественно, это утрированный пример
print(arr)

[[2 3 4]
 [5 6 7]]


In [42]:
print(
    np.eye(5, dtype=int)
)  # Единичная матрица

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


#### Конкатенация
##### По строкам

In [43]:
a = np.array(
    [[0, 1],
     [2, 3]]
)
b = np.array(
    [[4, 5, 6],
     [7, 8, 9]]
)
c = np.array(
    [[4, 5],
     [6, 7],
     [8, 9]]
)

In [44]:
print(
    np.hstack(
        (a, b)
    )
)  # По строкам

[[0 1 4 5 6]
 [2 3 7 8 9]]


In [45]:
print(
    np.vstack(
        (a, c)
    )
)  # По столбцам

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


#### Чтение из файла

In [46]:
file_content = ('2 3 4\n'
                '5 6 7')
cur_file = to_data_dir('temp_arr.txt')
with open(cur_file, 'w') as out:
    out.write(file_content)

arr = np.loadtxt(cur_file, dtype=int)
print(arr)

[[2 3 4]
 [5 6 7]]


In [47]:
file_content = ('2_3_4\n'
                '5_6_7')
cur_file = to_data_dir('temp_arr.txt')
with open(cur_file, 'w') as out:
    out.write(file_content)

arr = np.loadtxt(cur_file, dtype=int, delimiter='_')
print(arr)  

[[2 3 4]
 [5 6 7]]


Если вы хотите узнать количество строк и столбцов, воспользуйтесь атрибутом `shape`.

Возвращает `tuple` длины размерности `ndarray`

In [48]:
arr.shape

(2, 3)

In [49]:
arr = np.array([1, 2, 3])
assert len(arr) == arr.shape[0]

### N-мерные массивы (n-тезоры)
$\huge T_{i_1,..i_n}$
#### Из вложенных `list`, `tuple` и `range`

In [50]:
arr = np.array([[[2, 3], [4, 5]], [[6, 7], [8, 9]]])
print(arr)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


#### Или из одномерного массива путём переиндексации

In [51]:
arr = np.array(range(2, 10))
print(arr)

[2 3 4 5 6 7 8 9]


In [52]:
reshaped = arr.reshape(2, 2, 2)  # В 3-тензор
print(reshaped)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


In [53]:
reshaped.shape

(2, 2, 2)

##### Или попросить вывести размерность индекса самостоятельно
В данном случае &mdash; второго

In [54]:
reshaped = arr.reshape(2, -1, 2)
print(reshaped)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


##### Иногда сделать это невозможно

In [55]:
arr = np.array(range(2, 11))      # В массив добавили ещё один элемент - десятку
print(arr)

[ 2  3  4  5  6  7  8  9 10]


In [56]:
reshaped = arr.reshape(2, -1, 2)  # Выдаёт ошибку

ValueError: cannot reshape array of size 9 into shape (2,newaxis,2)

##### Аналогично можно проинициализировать 4-тензор

In [57]:
arr = np.array(range(2, 18))
print(arr)

[ 2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [58]:
reshaped = arr.reshape(2, 2, 2, 2)
reshaped = arr.reshape(2, 2, -1, 2)  # То же самое
print(reshaped)

[[[[ 2  3]
   [ 4  5]]

  [[ 6  7]
   [ 8  9]]]


 [[[10 11]
   [12 13]]

  [[14 15]
   [16 17]]]]


А можно и так!

In [59]:
arr = np.array(range(2, 18))
print(arr)

[ 2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [60]:
arr.shape = (2, 2, -1, 2)
print(arr)

[[[[ 2  3]
   [ 4  5]]

  [[ 6  7]
   [ 8  9]]]


 [[[10 11]
   [12 13]]

  [[14 15]
   [16 17]]]]


In [61]:
arr.shape

(2, 2, 2, 2)

А можно и растянуть обратно

In [62]:
arr.ravel()    # Копирует содержимое массива только, если это нужно

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17])

In [63]:
arr.flatten()  # Копирует содержимое массива в другую область памяти в любом случае, но результат - тот же

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17])

Для понимания подобных тонкостей читайте документацию!

- [Ravel](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.ravel.html)
- [Flatten](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.flatten.html)

#### Инициализация существующими массивами
##### Конкатенация

In [64]:
a = np.array(
    [[1, 2],
     [3, 4]]
)
b = np.array(
    [[5, 6]]
)

np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [65]:
np.concatenate((a, b), axis=1)   # Нельзя

ValueError: all the input array dimensions except for the concatenation axis must match exactly

In [66]:
c = b.T
print(c)

[[5]
 [6]]


In [67]:
np.concatenate((a, c), axis=1)  # А так можно

array([[1, 2, 5],
       [3, 4, 6]])

##### Дополнительные способы

In [68]:
print(
    np.zeros((3, 2, 3))
)

[[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]


In [69]:
print(
    np.zeros_like(
        [[32, 323],
         [ 3,   4],
         [ 0,  -3]]
    )
)

[[0 0]
 [0 0]
 [0 0]]


In [70]:
print(
    np.ones((3, 6))
)

[[1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]]


## Индексация массивов
### Одномерный случай
К срезу элементов `Ndarray` можно получить доступ стандартным питоновским подходом.

In [71]:
arr = np.arange(44, 126)
print(arr)

[ 44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61
  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79
  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97
  98  99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
 116 117 118 119 120 121 122 123 124 125]


In [72]:
arr[:12]

array([44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55])

In [73]:
arr[:12:2]

array([44, 46, 48, 50, 52, 54])

In [74]:
arr[20:25]

array([64, 65, 66, 67, 68])

In [75]:
arr[20:125:8]

array([ 64,  72,  80,  88,  96, 104, 112, 120])

In [76]:
arr[32:12:-1]

array([76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60,
       59, 58, 57])

In [77]:
arr[::-1]

array([125, 124, 123, 122, 121, 120, 119, 118, 117, 116, 115, 114, 113,
       112, 111, 110, 109, 108, 107, 106, 105, 104, 103, 102, 101, 100,
        99,  98,  97,  96,  95,  94,  93,  92,  91,  90,  89,  88,  87,
        86,  85,  84,  83,  82,  81,  80,  79,  78,  77,  76,  75,  74,
        73,  72,  71,  70,  69,  68,  67,  66,  65,  64,  63,  62,  61,
        60,  59,  58,  57,  56,  55,  54,  53,  52,  51,  50,  49,  48,
        47,  46,  45,  44])

### Многомерный случай

In [78]:
arr = np.array(
    [[4, 5,     4,  4,  554],
     [6, 7,    43, 43, 4343],
     [8, 9, 32435, 34,   21]]
)
print(arr)

[[    4     5     4     4   554]
 [    6     7    43    43  4343]
 [    8     9 32435    34    21]]


In [79]:
arr[1:4, 2:4:2]

array([[   43],
       [32435]])

In [80]:
arr[:, ::-1]

array([[  554,     4,     4,     5,     4],
       [ 4343,    43,    43,     7,     6],
       [   21,    34, 32435,     9,     8]])

## Тип данных (`dtype`)

Все массивы `NumPy` имеют фиксированный тип, в отличие от родных массивов `Python`. Это нужно для ускорения вычислений и включения процессорных оптимизаций при выполнении векторизованных операций (о них будет чуть позже).

In [81]:
arr = np.array([2, 3, 4])
print(arr)

[2 3 4]


In [82]:
print(type(arr))

<class 'numpy.ndarray'>


`dtype` массива хранится в атрибуте... `dtype`

In [83]:
print(arr.dtype)

int64


### Наиболее распространённые типы
#### `int`
Который конвертируется в `np.int64`, то есть в целочисленную переменную со знаком, занимающую 64 бита оперативной памяти.

In [84]:
arr = np.array([2, 3, 4], dtype=int)
print(arr)

[2 3 4]


In [85]:
print(arr.dtype)

int64


Может принимать значения от $-2^{63}$ до $2^{63}-1$, то есть $\in[-9223 372 036 854 775 808, 9 223 372 036 854 775 807]$. Этого хватает для подавляющего большинства задач.

У подхода с фиксированным размером численной переменной есть недостатки:

- При прибавлении к $2^{63}-1$ единицы происходит переполнение, и значение переменной становится равным $-2^{63}$.

- Аналогично происходит при вычитании из нижней границы.

In [86]:
integer = np.int64(2 ** 63 - 1)
print(integer)

9223372036854775807


In [87]:
print(integer + 1)

-9223372036854775808


In [88]:
integer = np.int64(-2 ** 63)
print(integer)

-9223372036854775808


In [89]:
print(integer - 1)

9223372036854775807


Нативный питоновский `int` такими свойствами не обладает: он **не переполняем**. Но за это приходится расплачиваться значительно более медленной арифметикой. А для `NumPy` главное &mdash; скорость.

#### `float`
Конвертируется в `np.float64`.

In [90]:
arr = np.array([2.0, 3.0, 4.0])
print(arr)

[2. 3. 4.]


In [91]:
print(arr.dtype)

float64


In [92]:
arr = np.array([2.0, 3, 4])
print(arr)

[2. 3. 4.]


In [93]:
print(arr.dtype)

float64


In [94]:
arr = np.array([2, 3, 4], dtype=float)
print(arr)

[2. 3. 4.]


In [95]:
arr = np.array([2, 3, 4]).astype(float)
print(arr)

[2. 3. 4.]


In [96]:
print(arr.dtype)

float64


Можно сохранить и менее точно, что требует меньше оперативной памяти:

In [97]:
arr = np.array([2, 3, 4]).astype(np.float32)
print(arr)

[2. 3. 4.]


Помимо обычных чисел конечной точности с плавающей запятой, переменные этого типа могут принимать три дополнительных значения, являющихся результатом некорректных операций:
- `np.float64('inf')` &mdash; то есть плюс-бесконечность,
- `np.float64('-inf')` &mdash; минус-бесконечность,
- `np.float64('nan')` &mdash; `Not A Number`.

In [98]:
np.nan + 1, np.inf + 1, np.inf * 0, 1.0 / np.inf

(nan, inf, nan, 0.0)

Результат сравнения `Not A Number` с чем бы то ни было всегда равен `False`. Это довольно полезное свойство, которое эксплуатируется при индексации (о ней &mdash; чуть позже), и поэтому `NaN` часто используется как удобный заполнитель пропущенных значений.

In [99]:
(
    np.nan > 1,
    np.nan < 1,
    np.nan == 1,
    np.nan == np.nan,
    np.nan > np.nan,
    np.nan > np.inf,
    np.nan < np.inf,
    np.nan > -np.inf,
    np.nan < -np.inf
)

(False, False, False, False, False, False, False, False, False)

#### `bool`

In [100]:
arr = np.array([True, False, False])
print(arr)

[ True False False]


In [101]:
print(arr.dtype)

bool


In [102]:
arr = np.array([True, False, False]).astype(int)
print(arr)

[1 0 0]


In [103]:
arr = np.array([32, 64, 0]).astype(bool)
print(arr)

[ True  True False]


## Векторизованные операции

### Скорость вычислений

Векторизация означает, что операция выполняется для массива поэлементно.

Как мы уже упомянули, для `NumPy` главное &mdash; скорость.

Но правда ли это? Быстрее ли он, по сравнению с нативными инструментами `Python`?

Давайте проверим!

In [113]:
arr = list(range(10_000_000))

In [114]:
%%timeit
for i in range(10_000_000):
    arr[i] += 1

1.42 s ± 30 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [106]:
arr = np.arange(10_000_000)
print(arr)

[      0       1       2 ... 9999997 9999998 9999999]


In [107]:
print(arr.dtype)

int64


In [108]:
%%timeit
for i in range(10_000_000):
    arr[i] += 1

4.96 s ± 273 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Казалось бы, я только что соврал: время выполнения аналогичного кода для `NumPy` оказалось в 4 раза большим.

Так зачем же нужна эта библиотека? Стоит ли овчинка выделки?

Конечно же стоит! И медленный тут отнюдь не `NumPy`. Всё дело в том, что мы написали неоптимальный код.

Запомните: **избегайте многократного обращения к `ndarray` по индексу!**

Эта операция намного более тяжеловесней, чем для нативного питоновского `list`.

In [109]:
arr = list(range(10_000_000))

In [110]:
%%timeit
arr[24232]

55.5 ns ± 7.1 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [111]:
arr = np.arange(10_000_000)

In [112]:
%%timeit
arr[24232]

141 ns ± 2.5 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Вместо этого используйте **векторизованные операции**

In [None]:
arr = np.arange(10_000_000)
print(arr)

In [None]:
print(arr + 1)

In [None]:
%%timeit
arr + 1

Как видим, в этой задаче `NumPy` быстрее питоновского `list` в 50 раз!

Естественно, к `ndarray` можно не только поэлементно прибавлять числа, но и векторизованно выполнять абсолютно все возможные операции, которые можно применить хотя бы к одному элементу. 

### Унарные операции с `Ndarray`
#### Вычисление противоположного значения

In [None]:
print(
    -np.array([6, 7, -2])
)

#### Поэлементное побитовое логическое "не"

In [None]:
print(
    ~np.array([True, False, True])
)  # Поэлементное логическое "НЕ"

In [None]:
print(
    ~np.array([2, 1, 0, -1, -2])
)

### Операции `Ndarray` с числом

In [None]:
arr * 3

In [None]:
arr - 3

In [None]:
arr ** 6  # В конце происходит переполнение

In [None]:
arr << 3

In [None]:
arr >> 3

In [None]:
arr | 3

In [None]:
arr ^ 3

In [None]:
arr > 3

In [None]:
arr >= 3

In [None]:
arr == 2

In [None]:
arr % 3

In [None]:
arr // 3

Часть операций можно выполнять "на месте", если возращаемый `dtype` совпадает с исходным

In [None]:
arr += 3
arr

In [None]:
arr /= 3   # Нельзя, поскольку возвращается np.ndarray с dtype=np.float64

In [None]:
arr //= 3  # А вот это уже можно
arr

### Операции `Ndarray` с другим `Ndarray`

Вот этот вопрос уже более сложный.

Интуитивно понятно, как будет выглядеть сложение двух массивов с одинаковым атрибутом `shape`: поэлементно.

А что если это не так? Допустим, мы хотим сложить матрицу размера `(3, 1)` с матрицей размера `(1, 3)`. Как быть? Тут вступают в силу правила бродкастинга. Нужны эти правила для того, чтобы экономить память при работе с тяжёлыми массивами. Одним из примечательных следствий этих правил является тот факт, что коммутативные поэлементные операции остаются коммутативными и для массивов. Подробнее о них можно почитать [тут](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html). Примеры бродкастинга будут чуть позже.

Также для массивов со взаимокорректными атрибутами `shape` определены матричные умножения (оператор `@`) и даже эйнштейновы свёртки произвольного вида (функция `np.einsum`).

#### Векторы

In [None]:
a = np.array([2, 3, 4])
b = np.array([5, 6, 7])
print(a)
print(b)

In [None]:
a + b

In [None]:
a * b

In [None]:
a / b

In [None]:
a // b

In [None]:
a @ b

Хотя матричное умножение вектора на вектор не определено, вектор $b$ интерпретируется как $b^T$

#### Матрицы

In [None]:
a = np.array([[2, 3, 4]])
b = np.array([[5, 6, 7]])
print(a)
print(b)

In [None]:
a + b

In [None]:
a * b

In [None]:
a / b

In [None]:
a @ b

Матрицы (даже всего из 1-й строки) перемножать уже нельзя. Поэтому $b$ необходимо явно транспонировать.

In [None]:
c = b.T
print(a)
print(c)

In [None]:
a @ c  # Матричное произведение двух матриц

In [None]:
c @ a

In [None]:
a * c  # Работает одно из правил бродкастинга

In [None]:
a_broadcasted = np.array(
    [[2, 3, 4],
     [2, 3, 4],
     [2, 3, 4]]
)

c_broadcasted = np.array(
    [[5, 5, 5],
     [6, 6, 6],
     [7, 7, 7]]
)

a * c == a_broadcasted * c_broadcasted  # Результат аналогичен тому, как если бы мы явно расширили матрицы
                                        # до одинакового `shape`

Как видим, при бродкастинге массивы "расширяются" так, чтобы соответствовать друг другу по атрибуту `shape`.

Кавычки тут потому, что, на самом деле, физического расширения не происходит, и забродкастченные массивы не потребляют больше памяти.

В нашем случае матрица `a` расширяется до 3-х строчной матрицы с одинаковыми строками,

А матрица `c` &mdash; до 3-х столбчатой с одинаковыми столбцами.

In [None]:
a + c  # То же самое

In [None]:
c * a

Видим, что для ассоциативных поэлементных операций ассоциативность сохраняется и в случае работы с матрицами

In [None]:
a = np.array(
    [[2, 3, 4],
     [5, 6, 7]]
)
b = np.array(
    [[ 8,  9, 10],
     [11, 12, 13],
     [14, 15, 16]]
)

In [None]:
a @ [-1, 2, 7]

In [None]:
a @ b

In [None]:
b @ a  # Ошибка

In [None]:
np.einsum('ij,kj->jk', a, b)  # Пример нетривиальной свёртки индексов

In [None]:
a = np.array(
    [[2, 3, 4],
     [5, 6, 7]]
)
b = np.array(
    [[ 8,  9, 10],
     [11, 12, 13]]
)

In [None]:
a * b == b * a          # Проверим коммутативность

In [None]:
np.all(a * b == b * a)  # Для проверки полного, а не только поэлеметного совпадения

In [None]:
np.all(
    np.multiply(a, b) == np.multiply(b, a)  # То же самое, что и `a * b`
)

In [None]:
np.any(a * b == b * a)  # Проверка хотя бы одного совпадения

#### Внешнее произведение $u_iv_j=a_{ij}$

In [None]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

In [None]:
print(
    np.outer(u, v)
)

#### Скалярное произведение $u_iv_i = a$

In [None]:
np.inner([2, 3, 4], [3, 5, 6])

In [None]:
np.dot([2, 3, 4], [3, 5, 6])

Отличия проявляются для массивов большей размерности. В чём оно состоит &mdash; читайте документацию.

### Внутренние функции `NumPy` (так называемые `ufunc`) уже векторизованы
Например

In [None]:
np.sin(343), np.sqrt(34)

In [None]:
np.sin(arr)

In [None]:
np.sqrt(arr)

### Функции можно явно векторизовать

Хотя и не очень эффективно по скорости, по сравнению с "родными" функциями `NumPy`

In [None]:
def my_func(x):
    return hash(x) / 3

my_func(arr)

In [None]:
# Исправим эту ошибку
my_func_vectorized = np.vectorize(my_func)
my_func_vectorized(arr)

## Расчёт различных статистик `ndarray`

### Нативные возможности `NumPy`

Этот класс имеет большое число методов, позволяющих удобно и очень быстро рассчитать различные статистические параметры массива.

Полный список методов и атрибутов класса можно узнать так:

In [None]:
with open(to_data_dir('ndarray_members.txt'), 'w') as out:
    out.write(
        '\n'.join(
            sorted(
                set(dir(np.ndarray)) - set(dir(object))
            )
        )
    )

Обычно их названия говорят сами за себя.

Но если вам нужно что-то конкретное, например, `стандартное отклонение`, лучше пользоваться гуглом.

К сожалению, прогерские запросы, сформулированные на русском языке, гугл (как и Яндекс) ищет очень плохо.

Поэтому если вы хотите эффективно решать ваши задачи, то придётся **выучить английский** :(

Запросы обычно составляются подобным образом:

`How to calculate standard deviation using Numpy`

Ответом на хорошо составленный запрос обычно является обсуждение похожего вопроса на сайте **`StackOverflow`** с подробным решением проблемы (или на каком-нибудь другом ресурсе на движке `StackExchange`).

#### Одномерный случай

In [None]:
arr = np.arange(10)
print(arr)

In [None]:
arr.std()

In [None]:
arr.mean()

In [None]:
arr.argmax()

In [None]:
arr.cumsum()

In [None]:
arr.cumprod()

In [None]:
arr[1:].cumprod()

In [None]:
z_score = (arr - arr.mean()) / arr.std()
print(z_score)

In [None]:
np.mean(arr)  # Аналог метода mean

#### Двумерный случай

In [None]:
arr = np.array(
    [[1, 1, 1],
     [4, 5, 6],
     [7, 8, 9]]
)

In [None]:
arr.mean()      # Среднее по всем элементам

In [None]:
arr.std()       # Аналогично

In [None]:
np.median(arr)  # Аналогично

А что если мы хотим посчитать статистику для каждой строки или вектора?

In [None]:
print(arr.mean(axis=1))  # По строкам
print(arr.std(axis=1))

У аргумента `axis` в функциях и методах `NumPy` есть один простой смысл: он обозначает номер схлопывающегося измерения.

В случае выше `axis=1`. Это значит, что мы хотим схлопнуть столбцы:

```
[[1, 2, 3],         [a_0,
 [4, 5, 6],    ->    a_1,
 [7, 8, 9]]          a_2]
```

То есть `mean` будет считаться для каждой строки.

В случае с `axis=0` cхема будет такая:

```
[[1, 2, 3],
 [4, 5, 6],    ->    [a_0, a_1, a_2]
 [7, 8, 9]]
```

Об этом правиле хорошо помнить при работе с массивами большой размерности.

In [None]:
print(arr.mean(axis=0))  # Аналогично среднее для столбцов

#### Многомерный случай
Вынос мозга

In [None]:
arr = np.arange(16)
print(arr)

In [None]:
arr = arr.reshape(2, 2, -1, 2)
print(arr)

In [None]:
print(arr.mean(axis=2))       # Среднее по парам строка + столбец (схлопывание второго измерения)

In [None]:
print(arr.mean(axis=(0, 2)))  # Среднее по столбцам (схлопывание плоскости)

In [None]:
arr = np.arange(32).reshape(2, 2, 2, -1, 2, 2)  # 6-тензор
print(
    arr.mean(
        axis=(0, 1, 3)
    )
)
# Среднее по уникальным значениям индекса 2-го, 4-го и 5-го измерений при нумерации с нуля
# (схлопывание гиперплоскости)

## Линейная алгебра

In [None]:
import numpy.linalg as linalg


arr = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 10]]
)

In [None]:
arr.trace()  # След матрицы

In [None]:
eigvals, eigvectors = linalg.eig(arr)  # Собственные значения и соответсвтующие собственные векторы
print(f'Eigen values:   {eigvals}\n')
print(f'Eigen vectors:\n\n{eigvectors}')

Решение линейной системы уравнений $\large y=Ax$

In [None]:
y = [0.5, 2, -3]

x = linalg.solve(arr, y)
print(x)

In [None]:
diff = arr @ x - y
print(diff)

In [None]:
linalg.det(arr)          # Детерминант

In [None]:
linalg.matrix_rank(arr)  # Ранг

## Генератор случайных чисел

In [None]:
import numpy.random as rnd

rnd.seed(229)      # Фиксация состояния генератора для воспроизводимости результатов

In [None]:
rnd.rand(2, 4)     # Матрица случайных значений в [0, 1)

In [None]:
rnd.rand(2)        # Вектор

In [None]:
rnd.rand(2, 2, 5)  # Тензор

In [None]:
arr = np.arange(10000)
print(arr)

In [None]:
with_repl = rnd.choice(arr, size=3000)                 # Случайная выборка из вектора с возвращением
print(with_repl)

In [None]:
no_repl = rnd.choice(arr, size=3000, replace=False)    # Случайная выборка из вектора без возвращения
print(no_repl)

In [None]:
with_repl_unique = np.unique(with_repl)
no_repl_unique =   np.unique(no_repl)
print(no_repl_unique)

In [None]:
len(no_repl_unique) - len(with_repl_unique)

In [None]:
print(rnd.random_integers(0, 20, size=100))

In [None]:
print(rnd.normal(100, 3, size=100))
# Выборка из нормального распределения с центром в 100 и стандартным отклонением 3

[И так далее...](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html)

# Библиотека scipy (модуль scipy.stats)

Нам пригодится только модуль `scipy.stats`.
Полное описание можно [тут](http://docs.scipy.org/doc/scipy/reference/stats.html).

Описание этой части разработал Никита Волков.

In [5]:
import scipy.stats as sps

<b>Общий принцип:</b>

$X$ — некоторое распределение с параметрами `params`


* `X.rvs(size=N, params)` — генерация выборки размера $N$ (<b>R</b>andom <b>V</b>ariate<b>S</b>). Возвращает `numpy.ndarray`
* `X.cdf(x, params)` — значение функции распределения в точке $x$ (<b>C</b>umulative <b>D</b>istribution <b>F</b>unction)
* `X.logcdf(x, params)` — значение логарифма функции распределения в точке $x$
* `X.ppf(q, params)` — $q$-квантиль (<b>P</b>ercent <b>P</b>oint <b>F</b>unction)
* `X.mean(params)` — математическое ожидание
* `X.median(params)` — медиана
* `X.var(params)` — дисперсия (<b>Var</b>iance)
* `X.std(params)` — стандартное отклонение = корень из дисперсии (<b>St</b>andard <b>D</b>eviation)

Кроме того для непрерывных распределений определены функции
* `X.pdf(x, params)` — значение плотности в точке $x$ (<b>P</b>robability <b>D</b>ensity <b>F</b>unction)
* `X.logpdf(x, params)` — значение логарифма плотности в точке $x$

А для дискретных
* `X.pmf(k, params)` — значение дискретной плотности в точке $k$ (<b>P</b>robability <b>M</b>ass <b>F</b>unction)
* `X.logpdf(k, params)` — значение логарифма дискретной плотности в точке $k$


Параметры могут быть следующими:
* `loc` — параметр сдвига
* `scale` — параметр масштаба
* и другие параметры (например, $n$ и $p$ для биномиального)

Для примера сгенерируем выборку размера $N = 200$ из распределения $\mathscr{N}(1, 9)$ и посчитаем некоторые статистики.
В терминах выше описанных функций у нас $X$ = `sps.norm`, а `params` = (`loc=1, scale=3`).

In [6]:
sample = sps.norm.rvs(size=200, loc=1, scale=3)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Первые 10 значений выборки:
[-3.51886816  1.75714336  2.43044191  0.15035419 -0.65252034  1.30740647
  3.82491824 -0.23975128  3.31552705 -2.10415509]
Выборочное среднее: 0.617
Выборочная дисперсия: 8.62


In [7]:
print(
    'Плотность:\t\t', 
    sps.norm.pdf([-1, 0, 1, 2, 3], loc=1, scale=3)
)
print(
    'Функция распределения:\t', 
    sps.norm.cdf([-1, 0, 1, 2, 3], loc=1, scale=3)
)

Плотность:		 [0.10648267 0.12579441 0.13298076 0.12579441 0.10648267]
Функция распределения:	 [0.25249254 0.36944134 0.5        0.63055866 0.74750746]


In [8]:
print(
    'Квантили:', 
    sps.norm.ppf([0.05, 0.1, 0.5, 0.9, 0.95], loc=1, scale=3)
)

Квантили: [-3.93456088 -2.8446547   1.          4.8446547   5.93456088]


Cгенерируем выборку размера $N = 200$ из распределения $Bin(10, 0.6)$ и посчитаем некоторые статистики.
В терминах выше описанных функций у нас $X$ = `sps.binom`, а `params` = (`n=10, p=0.6`).

In [9]:
sample = sps.binom.rvs(size=200, n=10, p=0.6)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Первые 10 значений выборки:
[ 7  9  6  6  5  5  6 10  6  8]
Выборочное среднее: 6.03
Выборочная дисперсия: 2.41


In [10]:
print(
    'Дискретная плотность:\t', 
    sps.binom.pmf([-1, 0, 5, 5.5, 10], n=10, p=0.6)
)
print(
    'Функция распределения:\t', 
    sps.binom.cdf([-1, 0, 5, 5.5, 10], n=10, p=0.6)
)

Дискретная плотность:	 [0.00000000e+00 1.04857600e-04 2.00658125e-01 0.00000000e+00
 6.04661760e-03]
Функция распределения:	 [0.00000000e+00 1.04857600e-04 3.66896742e-01 3.66896742e-01
 1.00000000e+00]


In [11]:
print('Квантили:', sps.binom.ppf([0.05, 0.1, 0.5, 0.9, 0.95], n=10, p=0.6))

Квантили: [3. 4. 6. 8. 8.]


Отдельно есть класс для <b>многомерного нормального распределения</b>.
Для примера сгенерируем выборку размера $N=200$ из распределения $\mathscr{N} \left( \begin{pmatrix} 1 \\ 1 \end{pmatrix},  \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \right)$.

In [116]:
sample = sps.multivariate_normal.rvs(mean=[1, 1], cov=[[2, 1], [1, 2]], size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean(axis=0)}\n'
    f'Выборочная матрица ковариаций:\n{np.cov(sample.T)}'
)

Первые 10 значений выборки:
[[-1.68795544 -1.82663282]
 [-3.41927706 -1.75460574]
 [ 0.81465365  1.82617076]
 [ 1.3119804   4.2465496 ]
 [ 1.00227201  1.22947145]
 [ 0.27804298  0.61786244]
 [-0.13283891  0.28947264]
 [-1.32161936 -0.44778169]
 [ 0.17075608 -1.42923428]
 [ 0.95248044  0.5608874 ]]
Выборочное среднее: [0.94658937 0.96256125]
Выборочная матрица ковариаций:
[[2.05762629 0.99713035]
 [0.99713035 2.202846  ]]


Некоторая хитрость :)

In [117]:
sample = sps.norm.rvs(size=10, loc=range(10), scale=0.1)
print(sample)

[0.1503207  1.08849097 1.97476546 3.10189605 4.09577026 5.15264691
 5.99477096 7.0869838  8.03246376 9.04664461]


Бывает так, что <b>надо сгенерировать выборку из распределения, которого нет в `scipy.stats`</b>.
Для этого надо создать класс, который будет наследоваться от класса `rv_continuous` для непрерывных случайных величин и от класса `rv_discrete` для дискретных случайных величин.
Пример есть на [странице](http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.rv_continuous.html#scipy.stats.rv_continuous).

Для примера сгенерируем выборку из распределения с плотностью $f(x) = \frac{4}{15} x^3 I\{x \in [1, 2] = [a, b]\}$.

In [None]:
class cubic_gen(sps.rv_continuous):
    def _pdf(self, x):
        return 4 * x ** 3 / 15


cubic = cubic_gen(a=1, b=2, name='cubic')

sample = cubic.rvs(size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Если дискретная случайная величина может принимать небольшое число значений, то можно не создавать новый класс, как показано выше, а явно указать эти значения и из вероятности.

In [None]:
some_distribution = sps.rv_discrete(
    name='some_distribution', 
    values=(
        [1, 2, 3],       # Значения
        [0.6, 0.1, 0.3]  # Вероятности
    )
)

sample = some_distribution.rvs(size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    'Частота значений по выборке:',
    (sample == 1).mean(),
    (sample == 2).mean(),
    (sample == 3).mean()
)

<div style="text-align: right"><i>Подготовил <a href="https://github.com/andrewsonin">Андрей Сонин</a>