# NumPy
[Библиотека](https://numpy.org) для работы с массивами произвольной размерности (N-dimensional array или `ndarray`) и линейной алгебры над ними.

Рекомендуемое ядро для запуска кода: `Python v3.7` или выше.

In [1]:
from os import mkdir
from os.path import isdir, join as join_path
from functools import partial
from warnings import filterwarnings

import numpy as np


filterwarnings('ignore')

DATA_DIR = 'class_data/'  # Папка, куда мы будем сохранять все файлы
if not isdir(DATA_DIR):
    mkdir(DATA_DIR)

to_data_dir = partial(join_path, DATA_DIR)
print(f"Пример работы функции 'to_data_dir': {to_data_dir('test.file')}")

Пример работы функции 'to_data_dir': class_data/test.file


## Инициализация
### Одномерные массивы (векторы)
#### Можно получить из `list`

In [2]:
arr = np.array([2, 3, 4])
print(arr)

[2 3 4]


#### Можно получить из `tuple`

Результат &mdash; тот же!

In [3]:
arr = np.array((2, 3, 4))
print(arr)

[2 3 4]


#### Можно получить из `range`

In [4]:
arr = np.array(range(2, 5))
print(arr)

[2 3 4]


In [5]:
arr = np.arange(2, 5)  # То же самое, но чуточку быстрее
print(arr)

[2 3 4]


#### Да хоть из произвольного итерируемого объекта!

In [6]:
arr = np.fromiter(range(2, 5), dtype=int)
print(arr)

[2 3 4]


А зачем нужен `dtype` &mdash; поговорим потом

In [7]:
arr = np.fromiter([2, 3, 4], dtype=int)
print(arr)

[2 3 4]


In [8]:
def from_2_to_4():
    for i in range(2, 5):
        yield i ** 2   # Ленивое вычисление квадратов 2-х, 3-х и 4-х
                       # Медленный аналог map(lambda x: x ** 2, range(2, 5))


arr = np.fromiter(from_2_to_4(), dtype=int)
print(arr)

[ 4  9 16]


In [9]:
# Все чётные от 0 до 10
arr = np.fromiter((i for i in range(0, 11) if i % 2 == 0), dtype=int)
print(arr)

[ 0  2  4  6  8 10]


In [10]:
# То же самое
arr = np.fromiter(
    filter(lambda x: x % 2 == 0, range(0, 11)),
    dtype=int
)
print(arr)

[ 0  2  4  6  8 10]


In [11]:
print(
    np.linspace(0, 3, 5)
)  # 5 значений на равном удалении между 0 и 3

[0.   0.75 1.5  2.25 3.  ]


In [12]:
print(
    np.logspace(0, 3, 5)
)  # то же самое, только в логарифмическом масштабе

[   1.            5.62341325   31.6227766   177.827941   1000.        ]


In [13]:
arr = np.array([32, 332, 32, 32, -2332, 435, 3])

np.hsplit(arr, (3, 6))  # Расщепление массива в позициях 3 и 6

[array([ 32, 332,  32]), array([   32, -2332,   435]), array([3])]

#### Также можно считать из файла

In [14]:
file_content = '2 3 4'                        # 2, 3, 4 через пробел
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=int)
print(arr)

[2 3 4]


In [15]:
file_content = '\n'.join('234')               # 2, 3, 4 все на новой строке
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=int)
print(arr)                                   # То же самое!

[2 3 4]


In [16]:
file_content = '\n'.join(('First_string', 'Second_string', '3rd_string'))
with open(to_data_dir('temp_arr.txt'), 'w') as out:
    out.write(file_content)

arr = np.loadtxt(to_data_dir('temp_arr.txt'), dtype=str)
print(arr)
print(f'Тип элементов массива: {arr.dtype}')

['First_string' 'Second_string' '3rd_string']
Тип элементов массива: <U13


Этот тип означает *строку размера не более 13 символов*.

#### Можно и сохранить в файл

In [17]:
arr = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print(arr)

cur_file = to_data_dir('integer_array.tsv')

np.savetxt(cur_file, arr, fmt='%i', delimiter='\t')
print('integer_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))

[[1 2 3]
 [4 5 6]]
integer_array.tsv

1	2	3
4	5	6



In [18]:
cur_file = to_data_dir('integer_array.csv')

np.savetxt(cur_file, arr, fmt='%i', delimiter=';')
print('\ninteger_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


integer_array.csv

1;2;3
4;5;6



In [19]:
arr = np.array(
    [[1.4325,       2.435,    3.345],
     [4.435345, 5.3454352, 6.543345]]
)

cur_file = to_data_dir('integer_array.tsv')

np.savetxt(cur_file, arr, fmt='%i', delimiter='\t')
print('integer_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))

integer_array.tsv

1	2	3
4	5	6



In [20]:
cur_file = to_data_dir('integer_array.csv')

np.savetxt(cur_file, arr, fmt='%i', delimiter=';')
print('\ninteger_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


integer_array.csv

1;2;3
4;5;6



In [21]:
cur_file = to_data_dir('float_array.tsv')

np.savetxt(cur_file, arr, fmt='%.2f', delimiter='\t')  # 2 в fmt - это точность сохранения
print('\nfloat_array.tsv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


float_array.tsv

1.43	2.44	3.35
4.44	5.35	6.54



In [22]:
cur_file = to_data_dir('float_array.csv')

np.savetxt(cur_file, arr, fmt='%.5f', delimiter=';')
print('\nfloat_array.csv\n')

with open(cur_file, 'r') as out:
    print(''.join(out.readlines()))


float_array.csv

1.43250;2.43500;3.34500
4.43534;5.34544;6.54335



С описанием специфики `np.savetxt` лучше знакомиться по мере необходимости на [сайте](https://numpy.org/doc/1.18/reference/generated/numpy.savetxt.html) с документацией.

#### Инициализация вставкой или удалением элементов

<span style="color:red">**ЭТО ВАЖНО!**</span>

Основной спецификой `ndarray` является тот факт, что в него нельзя вставить/удалить элемент в произвольном месте, не переаллоциров весь массив. Это так по следующим причинам:
- Вне зависимости от размерности (будь то это вектор, матрица, 3-тензор или 4-тензор и т.д.), `ndarray` представляется одним большим протяжённым линейным куском оперативной памяти
- Операционные системы не могут расширять уже выделенные для работы программы куски оперативной памяти
- Поэтому единственная возможность при вставке элемента в произвольное место массива &mdash; это
  - Дополнительное выделение памяти большего размера в другом месте
  - Полное копирование уже имеющегося массива туда
  - И запись вставляемого значения в желаемое место в массиве

Поэтому применение следующих операций в циклах может сильно замедлить вашу программу.

In [23]:
arr = np.arange(20)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [24]:
print(
    np.delete(arr, (5, 7))
)  # Удаление элементов на позициях 5 и 7

[ 0  1  2  3  4  6  8  9 10 11 12 13 14 15 16 17 18 19]


In [25]:
print(
    np.insert(arr, 2, [0, 0])
)

[ 0  1  0  0  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [26]:
print(
    np.append(arr, [1, 2, 3])
)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19  1  2  3]


### Двумерные массивы (матрицы)
#### Из вложенных `list`

In [27]:
arr = np.array(
    [[2, 3, 4],
     [5, 6, 7]]
)
print(arr)

[[2 3 4]
 [5 6 7]]


#### Да хоть так

In [28]:
arr = np.array([range(2, 5), (5, 6, 7)])
print(arr)

[[2 3 4]
 [5 6 7]]


In [29]:
arr = np.array((range(2, 5), (5, 6, 7)))
print(arr)

[[2 3 4]
 [5 6 7]]


In [30]:
arr = np.array(
    (
        range(2, 5),
        np.fromiter((i for i in (5, 6, 7)), dtype=int)
    )
)  # Естественно, это утрированный пример
print(arr)

[[2 3 4]
 [5 6 7]]


In [31]:
print(
    np.eye(5, dtype=int)
)  # Единичная матрица

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


#### Конкатенация
##### По строкам

In [32]:
a = np.array(
    [[0, 1],
     [2, 3]]
)
b = np.array(
    [[4, 5, 6],
     [7, 8, 9]]
)
c = np.array(
    [[4, 5],
     [6, 7],
     [8, 9]]
)

In [33]:
print(
    np.hstack(
        (a, b)
    )
)  # По строкам

[[0 1 4 5 6]
 [2 3 7 8 9]]


In [34]:
print(
    np.vstack(
        (a, b)
    )
)  # По столбцам

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 2 and the array at index 1 has size 3

#### Чтение из файла

In [35]:
file_content = ('2 3 4\n'
                '5 6 7')
cur_file = to_data_dir('temp_arr.txt')
with open(cur_file, 'w') as out:
    out.write(file_content)

arr = np.loadtxt(cur_file, dtype=int)
print(arr)

[[2 3 4]
 [5 6 7]]


In [36]:
file_content = ('2_3_4\n'
                '5_6_7')
cur_file = to_data_dir('temp_arr.txt')
with open(cur_file, 'w') as out:
    out.write(file_content)

arr = np.loadtxt(cur_file, dtype=int, delimiter='_')
print(arr)  

[[2 3 4]
 [5 6 7]]


Если вы хотите узнать количество строк и столбцов, воспользуйтесь атрибутом `shape`.

Возвращает `tuple` длины размерности `ndarray`

In [37]:
arr.shape

(2, 3)

In [38]:
arr = np.array([1, 2, 3])
assert len(arr) == arr.shape[0]

In [39]:
arr.shape

(3,)

### N-мерные массивы (n-тезоры)
$\huge T_{i_1,..i_n}$
#### Из вложенных `list`, `tuple` и `range`

In [40]:
arr = np.array([[[2, 3], [4, 5]], [[6, 7], [8, 9]]])
print(arr)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


#### Или из одномерного массива путём переиндексации

In [41]:
arr = np.array(range(2, 10))
print(arr)

[2 3 4 5 6 7 8 9]


In [42]:
reshaped = arr.reshape(2, 2, 2)  # В 3-тензор
print(reshaped)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


In [43]:
reshaped.shape

(2, 2, 2)

##### Или попросить вывести размерность индекса самостоятельно
В данном случае &mdash; второго

In [44]:
reshaped = arr.reshape(2, -1, 2)
print(reshaped)

[[[2 3]
  [4 5]]

 [[6 7]
  [8 9]]]


##### Иногда сделать это невозможно

In [45]:
arr = np.array(range(2, 11))      # В массив добавили ещё один элемент - десятку
print(arr)

[ 2  3  4  5  6  7  8  9 10]


In [46]:
reshaped = arr.reshape(2, -1, 2)  # Выдаёт ошибку

ValueError: cannot reshape array of size 9 into shape (2,newaxis,2)

##### Аналогично можно проинициализировать 4-тензор

In [47]:
arr = np.array(range(2, 18))
print(arr)

[ 2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [48]:
reshaped = arr.reshape(2, 2, 2, 2)
reshaped = arr.reshape(2, 2, -1, 2)  # То же самое
print(reshaped)

[[[[ 2  3]
   [ 4  5]]

  [[ 6  7]
   [ 8  9]]]


 [[[10 11]
   [12 13]]

  [[14 15]
   [16 17]]]]


А можно и так!

In [49]:
arr = np.array(range(2, 18))
print(arr)

[ 2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


In [50]:
arr.shape = (2, 2, -1, 2)
print(arr)

[[[[ 2  3]
   [ 4  5]]

  [[ 6  7]
   [ 8  9]]]


 [[[10 11]
   [12 13]]

  [[14 15]
   [16 17]]]]


In [51]:
arr.shape

(2, 2, 2, 2)

А можно и растянуть обратно

In [52]:
arr.ravel()    # Копирует содержимое массива только, если это нужно

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17])

In [53]:
arr.flatten()  # Копирует содержимое массива в другую область памяти в любом случае, но результат - тот же

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17])

Для понимания подобных тонкостей читайте документацию!

- [Ravel](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.ravel.html)
- [Flatten](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.flatten.html)

#### Инициализация существующими массивами
##### Конкатенация

In [54]:
a = np.array(
    [[1, 2],
     [3, 4]]
)
b = np.array(
    [[5, 6]]
)

np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [55]:
np.concatenate((a, b), axis=1)   # Нельзя

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 2 and the array at index 1 has size 1

In [56]:
c = b.T
print(c)

[[5]
 [6]]


In [57]:
np.concatenate((a, c), axis=1)  # А так можно

array([[1, 2, 5],
       [3, 4, 6]])

##### Дополнительные способы

In [58]:
print(
    np.zeros((3, 2, 3))
)

[[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]


In [59]:
print(
    np.zeros_like(
        [[32, 323],
         [ 3,   4],
         [ 0,  -3]]
    )
)

[[0 0]
 [0 0]
 [0 0]]


In [60]:
print(
    np.ones((3, 6))
)

[[1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]]


## Индексация массивов
### Одномерный случай
#### Срезы
К срезу элементов `Ndarray` можно получить доступ стандартным питоновским подходом.

In [61]:
arr = np.arange(44, 126)
print(arr)

[ 44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61
  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79
  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97
  98  99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
 116 117 118 119 120 121 122 123 124 125]


In [62]:
arr[:12]

array([44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55])

In [63]:
arr[:12:2]

array([44, 46, 48, 50, 52, 54])

In [64]:
arr[20:25]

array([64, 65, 66, 67, 68])

In [65]:
arr[20:125:8]

array([ 64,  72,  80,  88,  96, 104, 112, 120])

In [66]:
arr[32:12:-1]

array([76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60,
       59, 58, 57])

In [67]:
arr[::-1]

array([125, 124, 123, 122, 121, 120, 119, 118, 117, 116, 115, 114, 113,
       112, 111, 110, 109, 108, 107, 106, 105, 104, 103, 102, 101, 100,
        99,  98,  97,  96,  95,  94,  93,  92,  91,  90,  89,  88,  87,
        86,  85,  84,  83,  82,  81,  80,  79,  78,  77,  76,  75,  74,
        73,  72,  71,  70,  69,  68,  67,  66,  65,  64,  63,  62,  61,
        60,  59,  58,  57,  56,  55,  54,  53,  52,  51,  50,  49,  48,
        47,  46,  45,  44])

#### bool-массив

In [68]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [69]:
arr[[True, False, False, True, True]]

array([0, 3, 4])

### Многомерный случай
#### Срезы

In [70]:
arr = np.array(
    [[4, 5,     4,  4,  554],
     [6, 7,    43, 43, 4343],
     [8, 9, 32435, 34,   21]]
)
print(arr)

[[    4     5     4     4   554]
 [    6     7    43    43  4343]
 [    8     9 32435    34    21]]


In [71]:
arr[1:4, 2:4:2]

array([[   43],
       [32435]])

In [72]:
arr[:, ::-1]

array([[  554,     4,     4,     5,     4],
       [ 4343,    43,    43,     7,     6],
       [   21,    34, 32435,     9,     8]])

#### bool-массив

In [73]:
arr[[True, False, True]]                  # Выделение строк

array([[    4,     5,     4,     4,   554],
       [    8,     9, 32435,    34,    21]])

In [74]:
arr[:, [True, True, True, False, False]]  # Столбцов

array([[    4,     5,     4],
       [    6,     7,    43],
       [    8,     9, 32435]])

In [75]:
arr[arr > 4]

array([    5,   554,     6,     7,    43,    43,  4343,     8,     9,
       32435,    34,    21])

## Тип данных (`dtype`)

Все массивы `NumPy` имеют фиксированный тип, в отличие от родных массивов `Python`. Это нужно для ускорения вычислений и включения процессорных оптимизаций при выполнении векторизованных операций (о них будет чуть позже).

In [76]:
arr = np.array([2, 3, 4])
print(arr)

[2 3 4]


In [77]:
print(type(arr))

<class 'numpy.ndarray'>


`dtype` массива хранится в атрибуте... `dtype`

In [78]:
print(arr.dtype)

int64


### Наиболее распространённые типы
#### `int`
Который конвертируется в `np.int64`, то есть в целочисленную переменную со знаком, занимающую 64 бита оперативной памяти.

In [79]:
arr = np.array([2, 3, 4], dtype=int)
print(arr)

[2 3 4]


In [80]:
print(arr.dtype)

int64


Может принимать значения от $-2^{63}$ до $2^{63}-1$, то есть $\in[-9223 372 036 854 775 808, 9 223 372 036 854 775 807]$. Этого хватает для подавляющего большинства задач.

У подхода с фиксированным размером численной переменной есть недостатки:

- При прибавлении к $2^{63}-1$ единицы происходит переполнение, и значение переменной становится равным $-2^{63}$.

- Аналогично происходит при вычитании из нижней границы.

In [81]:
integer = np.int64(2 ** 63 - 1)
print(integer)

9223372036854775807


In [82]:
print(integer + 1)

-9223372036854775808


In [83]:
integer = np.int64(-2 ** 63)
print(integer)

-9223372036854775808


In [84]:
print(integer - 1)

9223372036854775807


Нативный питоновский `int` такими свойствами не обладает: он **не переполняем**. Но за это приходится расплачиваться значительно более медленной арифметикой. А для `NumPy` главное &mdash; скорость.

#### `float`
Конвертируется в `np.float64`.

In [85]:
arr = np.array([2.0, 3.0, 4.0])
print(arr)

[2. 3. 4.]


In [86]:
print(arr.dtype)

float64


In [87]:
arr = np.array([2.0, 3, 4])
print(arr)

[2. 3. 4.]


In [88]:
print(arr.dtype)

float64


In [89]:
arr = np.array([2, 3, 4], dtype=float)
print(arr)

[2. 3. 4.]


In [90]:
arr = np.array([2, 3, 4]).astype(float)
print(arr)

[2. 3. 4.]


In [91]:
print(arr.dtype)

float64


Можно сохранить и менее точно, что требует меньше оперативной памяти:

In [92]:
arr = np.array([2, 3, 4.453456343535454365346354]).astype(np.float16)
print(arr)

[2.    3.    4.453]


Помимо обычных чисел конечной точности с плавающей запятой, переменные этого типа могут принимать три дополнительных значения, являющихся результатом некорректных операций:
- `np.float64('inf')` &mdash; то есть плюс-бесконечность,
- `np.float64('-inf')` &mdash; минус-бесконечность,
- `np.float64('nan')` &mdash; `Not A Number`.

In [93]:
np.nan + 1, np.inf + 1, np.inf * 0, 1.0 / np.inf

(nan, inf, nan, 0.0)

Результат сравнения `Not A Number` с чем бы то ни было всегда равен `False`. Это довольно полезное свойство, которое эксплуатируется при индексации (о ней &mdash; чуть позже), и поэтому `NaN` часто используется как удобный заполнитель пропущенных значений.

In [94]:
(
    np.nan > 1,
    np.nan < 1,
    np.nan == 1,
    np.nan == np.nan,
    np.nan > np.nan,
    np.nan > np.inf,
    np.nan < np.inf,
    np.nan > -np.inf,
    np.nan < -np.inf
)

(False, False, False, False, False, False, False, False, False)

#### `bool`

In [95]:
arr = np.array([True, False, False])
print(arr)

[ True False False]


In [96]:
print(arr.dtype)

bool


In [97]:
arr = np.array([True, False, False]).astype(int)
print(arr)

[1 0 0]


In [98]:
arr = np.array([32, 64, 0]).astype(bool)
print(arr)

[ True  True False]


## Векторизованные операции

### Скорость вычислений

Векторизация означает, что операция выполняется для массива поэлементно.

Как мы уже упомянули, для `NumPy` главное &mdash; скорость.

Но правда ли это? Быстрее ли он, по сравнению с нативными инструментами `Python`?

Давайте проверим!

In [99]:
arr = list(range(10_000_000))

In [100]:
%%timeit
for i in range(10_000_000):
    arr[i] += 1

809 ms ± 25.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [101]:
arr = np.arange(10_000_000)
print(arr)

[      0       1       2 ... 9999997 9999998 9999999]


In [102]:
print(arr.dtype)

int64


In [103]:
%%timeit
for i in range(10_000_000):
    arr[i] += 1

3.52 s ± 326 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Казалось бы, я только что соврал: время выполнения аналогичного кода для `NumPy` оказалось в 4 раза большим.

Так зачем же нужна эта библиотека? Стоит ли овчинка выделки?

Конечно же стоит! И медленный тут отнюдь не `NumPy`. Всё дело в том, что мы написали неоптимальный код.

Запомните: **избегайте многократного обращения к `ndarray` по индексу!**

Эта операция намного более тяжеловесней, чем для нативного питоновского `list`.

In [104]:
arr = list(range(10_000_000))

In [105]:
%%timeit
arr[24232]

33.6 ns ± 3.59 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [106]:
arr = np.arange(10_000_000)

In [107]:
%%timeit
arr[24232]

104 ns ± 12.4 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Вместо этого используйте **векторизованные операции**

In [108]:
arr = np.arange(10_000_000)
print(arr)

[      0       1       2 ... 9999997 9999998 9999999]


In [109]:
print(arr + 1)

[       1        2        3 ...  9999998  9999999 10000000]


In [110]:
%%timeit
arr + 1

15.6 ms ± 421 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Как видим, в этой задаче `NumPy` быстрее питоновского `list` в 50 раз!

Естественно, к `ndarray` можно не только поэлементно прибавлять числа, но и векторизованно выполнять абсолютно все возможные операции, которые можно применить хотя бы к одному элементу. 

### Унарные операции с `Ndarray`
#### Вычисление противоположного значения

In [111]:
print(
    -np.array([6, 7, -2])
)

[-6 -7  2]


#### Поэлементное побитовое логическое "не"

In [112]:
print(
    ~np.array([True, False, True])
)  # Поэлементное логическое "НЕ"

[False  True False]


In [113]:
print(
    ~np.array([2, 1, 0, -1, -2])
)

[-3 -2 -1  0  1]


### Операции `Ndarray` с числом

In [114]:
arr * 3

array([       0,        3,        6, ..., 29999991, 29999994, 29999997])

In [115]:
arr - 3

array([     -3,      -2,      -1, ..., 9999994, 9999995, 9999996])

In [116]:
arr ** 6  # В конце происходит переполнение

array([                   0,                    1,                   64,
       ..., -1865861243757355559, -8325928571806998464,
        1088579220152924417])

In [117]:
arr << 3

array([       0,        8,       16, ..., 79999976, 79999984, 79999992])

In [118]:
arr >> 3

array([      0,       0,       0, ..., 1249999, 1249999, 1249999])

In [119]:
arr | 3

array([      3,       3,       3, ..., 9999999, 9999999, 9999999])

In [120]:
arr ^ 3

array([      3,       2,       1, ..., 9999998, 9999997, 9999996])

In [121]:
arr > 3

array([False, False, False, ...,  True,  True,  True])

In [122]:
arr >= 3

array([False, False, False, ...,  True,  True,  True])

In [123]:
arr == 2

array([False, False,  True, ..., False, False, False])

In [124]:
arr % 3

array([0, 1, 2, ..., 1, 2, 0])

In [125]:
arr // 3

array([      0,       0,       0, ..., 3333332, 3333332, 3333333])

Часть операций можно выполнять "на месте", если возращаемый `dtype` совпадает с исходным

In [126]:
arr += 3
arr

array([       3,        4,        5, ..., 10000000, 10000001, 10000002])

In [127]:
arr /= 3   # Нельзя, поскольку возвращается np.ndarray с dtype=np.float64

TypeError: No loop matching the specified signature and casting was found for ufunc true_divide

In [128]:
arr //= 3  # А вот это уже можно
arr

array([      1,       1,       1, ..., 3333333, 3333333, 3333334])

### Операции `Ndarray` с другим `Ndarray`

Вот этот вопрос уже более сложный.

Интуитивно понятно, как будет выглядеть сложение двух массивов с одинаковым атрибутом `shape`: поэлементно.

А что если это не так? Допустим, мы хотим сложить матрицу размера `(3, 1)` с матрицей размера `(1, 3)`. Как быть? Тут вступают в силу правила бродкастинга. Нужны эти правила для того, чтобы экономить память при работе с тяжёлыми массивами. Одним из примечательных следствий этих правил является тот факт, что коммутативные поэлементные операции остаются коммутативными и для массивов. Подробнее о них можно почитать [тут](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html). Примеры бродкастинга будут чуть позже.

Также для массивов со взаимокорректными атрибутами `shape` определены матричные умножения (оператор `@`) и даже эйнштейновы свёртки произвольного вида (функция `np.einsum`).

#### Векторы

In [129]:
a = np.array([2, 3, 4])
b = np.array([5, 6, 7])
print(a)
print(b)

[2 3 4]
[5 6 7]


In [130]:
a + b

array([ 7,  9, 11])

In [131]:
a * b

array([10, 18, 28])

In [132]:
a / b

array([0.4       , 0.5       , 0.57142857])

In [133]:
a // b

array([0, 0, 0])

In [134]:
a @ b

56

Хотя матричное умножение вектора на вектор не определено, вектор $b$ интерпретируется как $b^T$

#### Матрицы

In [135]:
a = np.array([[2, 3, 4]])
b = np.array([[5, 6, 7]])
print(a)
print(b)

[[2 3 4]]
[[5 6 7]]


In [136]:
a + b

array([[ 7,  9, 11]])

In [137]:
a * b

array([[10, 18, 28]])

In [138]:
a / b

array([[0.4       , 0.5       , 0.57142857]])

In [139]:
a @ b

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 1 is different from 3)

Матрицы (даже всего из 1-й строки) перемножать уже нельзя. Поэтому $b$ необходимо явно транспонировать.

In [140]:
c = b.T
print(a)
print(c)

[[2 3 4]]
[[5]
 [6]
 [7]]


In [141]:
a @ c  # Матричное произведение двух матриц

array([[56]])

In [142]:
c @ a

array([[10, 15, 20],
       [12, 18, 24],
       [14, 21, 28]])

In [143]:
a * c  # Работает одно из правил бродкастинга

array([[10, 15, 20],
       [12, 18, 24],
       [14, 21, 28]])

In [144]:
a_broadcasted = np.array(
    [[2, 3, 4],
     [2, 3, 4],
     [2, 3, 4]]
)

c_broadcasted = np.array(
    [[5, 5, 5],
     [6, 6, 6],
     [7, 7, 7]]
)

a * c == a_broadcasted * c_broadcasted  # Результат аналогичен тому, как если бы мы явно расширили матрицы
                                        # до одинакового `shape`

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

Как видим, при бродкастинге массивы "расширяются" так, чтобы соответствовать друг другу по атрибуту `shape`.

Кавычки тут потому, что, на самом деле, физического расширения не происходит, и забродкастченные массивы не потребляют больше памяти.

В нашем случае матрица `a` расширяется до 3-х строчной матрицы с одинаковыми строками,

А матрица `c` &mdash; до 3-х столбчатой с одинаковыми столбцами.

In [145]:
a + c  # То же самое

array([[ 7,  8,  9],
       [ 8,  9, 10],
       [ 9, 10, 11]])

In [146]:
c * a

array([[10, 15, 20],
       [12, 18, 24],
       [14, 21, 28]])

Видим, что для ассоциативных поэлементных операций ассоциативность сохраняется и в случае работы с матрицами

In [147]:
a = np.array(
    [[2, 3, 4],
     [5, 6, 7]]
)
b = np.array(
    [[ 8,  9, 10],
     [11, 12, 13],
     [14, 15, 16]]
)

In [148]:
a @ [-1, 2, 7]

array([32, 56])

In [149]:
a @ b

array([[105, 114, 123],
       [204, 222, 240]])

In [150]:
b @ a  # Ошибка

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 3)

In [151]:
np.einsum('ij,kj->jk', a, b)  # Пример нетривиальной свёртки индексов

array([[ 56,  77,  98],
       [ 81, 108, 135],
       [110, 143, 176]])

In [152]:
a = np.array(
    [[2, 3, 4],
     [5, 6, 7]]
)
b = np.array(
    [[ 8,  9, 10],
     [11, 12, 13]]
)

In [153]:
a * b == b * a          # Проверим коммутативность

array([[ True,  True,  True],
       [ True,  True,  True]])

In [154]:
np.all(a * b == b * a)  # Для проверки полного, а не только поэлеметного совпадения

True

In [155]:
np.all(
    np.multiply(a, b) == np.multiply(b, a)  # То же самое, что и `a * b`
)

True

In [156]:
np.any(a * b == b * a)  # Проверка хотя бы одного совпадения

True

#### Внешнее произведение $u_iv_j=a_{ij}$

In [157]:
u = np.linspace(1, 2, 2)
v = np.linspace(2, 4, 3)
print(u)
print(v)

[1. 2.]
[2. 3. 4.]


In [158]:
print(
    np.outer(u, v)
)

[[2. 3. 4.]
 [4. 6. 8.]]


#### Скалярное произведение $u_iv_i = a$

In [159]:
np.inner([2, 3, 4], [3, 5, 6])

45

In [160]:
np.dot([2, 3, 4], [3, 5, 6])

45

Отличия проявляются для массивов большей размерности. В чём оно состоит &mdash; читайте документацию.

### Внутренние функции `NumPy` (так называемые `ufunc`) уже векторизованы
Например

In [161]:
np.sin(343), np.sqrt(34)

(-0.5365983551885637, 5.830951894845301)

In [162]:
np.sin(arr)

array([ 0.84147098,  0.84147098,  0.84147098, ...,  0.46001877,
        0.46001877, -0.49860062])

In [163]:
np.sqrt(arr)

array([1.00000000e+00, 1.00000000e+00, 1.00000000e+00, ...,
       1.82574177e+03, 1.82574177e+03, 1.82574204e+03])

### Функции можно явно векторизовать

Хотя и не очень эффективно по скорости, по сравнению с "родными" функциями `NumPy`

In [164]:
def my_func(x):
    return hash(x) / 3

my_func(arr)

TypeError: unhashable type: 'numpy.ndarray'

In [165]:
# Исправим эту ошибку
my_func_vectorized = np.vectorize(my_func)
my_func_vectorized(arr)

array([3.33333333e-01, 3.33333333e-01, 3.33333333e-01, ...,
       1.11111100e+06, 1.11111100e+06, 1.11111133e+06])

## Расчёт различных статистик `ndarray`

### Нативные возможности `NumPy`

Этот класс имеет большое число методов, позволяющих удобно и очень быстро рассчитать различные статистические параметры массива.

Полный список методов и атрибутов класса можно узнать так:

In [166]:
with open(to_data_dir('ndarray_members.txt'), 'w') as out:
    out.write(
        '\n'.join(
            sorted(
                set(dir(np.ndarray)) - set(dir(object))
            )
        )
    )

Обычно их названия говорят сами за себя.

Но если вам нужно что-то конкретное, например, `стандартное отклонение`, лучше пользоваться гуглом.

К сожалению, прогерские запросы, сформулированные на русском языке, гугл (как и Яндекс) ищет очень плохо.

Поэтому если вы хотите эффективно решать ваши задачи, то придётся **выучить английский** :(

Запросы обычно составляются подобным образом:

`How to calculate standard deviation using Numpy`

Ответом на хорошо составленный запрос обычно является обсуждение похожего вопроса на сайте **`StackOverflow`** с подробным решением проблемы (или на каком-нибудь другом ресурсе на движке `StackExchange`).

#### Одномерный случай

In [167]:
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


In [168]:
arr.std()

2.8722813232690143

In [169]:
arr.mean()

4.5

In [170]:
arr.argmax()

9

In [171]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [172]:
arr.cumprod()

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [173]:
arr[1:].cumprod()

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880])

In [174]:
z_score = (arr - arr.mean()) / arr.std()
print(z_score)

[-1.5666989  -1.21854359 -0.87038828 -0.52223297 -0.17407766  0.17407766
  0.52223297  0.87038828  1.21854359  1.5666989 ]


In [175]:
np.mean(arr)  # Аналог метода mean

4.5

#### Двумерный случай

In [176]:
arr = np.array(
    [[1, 1, 1],
     [4, 5, 6],
     [7, 8, 9]]
)

In [177]:
arr.mean()      # Среднее по всем элементам

4.666666666666667

In [178]:
arr.std()       # Аналогично

2.943920288775949

In [179]:
np.median(arr)  # Аналогично

5.0

А что если мы хотим посчитать статистику для каждой строки или вектора?

In [180]:
print(arr.mean(axis=1))  # По строкам
print(arr.std(axis=1))

[1. 5. 8.]
[0.         0.81649658 0.81649658]


У аргумента `axis` в функциях и методах `NumPy` есть один простой смысл: он обозначает номер схлопывающегося измерения.

В случае выше `axis=1`. Это значит, что мы хотим схлопнуть столбцы:

```
[[1, 2, 3],         [a_0,
 [4, 5, 6],    ->    a_1,
 [7, 8, 9]]          a_2]
```

То есть `mean` будет считаться для каждой строки.

В случае с `axis=0` cхема будет такая:

```
[[1, 2, 3],
 [4, 5, 6],    ->    [a_0, a_1, a_2]
 [7, 8, 9]]
```

Об этом правиле хорошо помнить при работе с массивами большой размерности.

In [181]:
print(arr.mean(axis=0))  # Аналогично среднее для столбцов

[4.         4.66666667 5.33333333]


#### Многомерный случай
Вынос мозга

In [182]:
arr = np.arange(16)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]


In [183]:
arr = arr.reshape(2, 2, -1, 2)
print(arr)

[[[[ 0  1]
   [ 2  3]]

  [[ 4  5]
   [ 6  7]]]


 [[[ 8  9]
   [10 11]]

  [[12 13]
   [14 15]]]]


In [184]:
print(arr.mean(axis=2))       # Среднее по парам строка + столбец (схлопывание второго измерения)

[[[ 1.  2.]
  [ 5.  6.]]

 [[ 9. 10.]
  [13. 14.]]]


In [185]:
print(arr.mean(axis=(0, 2)))  # Среднее по столбцам (схлопывание плоскости)

[[ 5.  6.]
 [ 9. 10.]]


In [186]:
arr = np.arange(32).reshape(2, 2, 2, -1, 2, 2)  # 6-тензор
print(
    arr.mean(
        axis=(0, 1, 3)
    )
)
# Среднее по уникальным значениям индекса 2-го, 4-го и 5-го измерений при нумерации с нуля
# (схлопывание гиперплоскости)

[[[12. 13.]
  [14. 15.]]

 [[16. 17.]
  [18. 19.]]]


## Линейная алгебра

In [187]:
import numpy.linalg as linalg


arr = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 10]]
)

In [188]:
arr.trace()  # След матрицы

16

In [189]:
eigvals, eigvectors = linalg.eig(arr)  # Собственные значения и соответсвтующие собственные векторы
print(f'Eigen values:   {eigvals}\n')
print(f'Eigen vectors:\n\n{eigvectors}')

Eigen values:   [16.70749332 -0.90574018  0.19824686]

Eigen vectors:

[[-0.22351336 -0.86584578  0.27829649]
 [-0.50394563  0.0856512  -0.8318468 ]
 [-0.83431444  0.4929249   0.48018951]]


Решение линейной системы уравнений $\large y=Ax$

In [190]:
y = [0.5, 2, -3]

x = linalg.solve(arr, y)
print(x)

[-6.  13.  -6.5]


In [191]:
diff = arr @ x - y
print(diff)

[0.00000000e+00 7.10542736e-15 0.00000000e+00]


In [192]:
linalg.det(arr)          # Детерминант

-3.000000000000001

In [193]:
linalg.matrix_rank(arr)  # Ранг

3

## Генератор случайных чисел

In [194]:
import numpy.random as rnd

rnd.seed(229)      # Фиксация состояния генератора для воспроизводимости результатов

In [195]:
rnd.rand(2, 4)     # Матрица случайных значений в [0, 1)

array([[0.097025  , 0.73855721, 0.67878381, 0.24754234],
       [0.77946174, 0.47046344, 0.37186577, 0.66959036]])

In [196]:
rnd.rand(2)        # Вектор

array([0.35416081, 0.9659991 ])

In [197]:
rnd.rand(2, 2, 5)  # Тензор

array([[[0.59945383, 0.58368018, 0.90401267, 0.29560886, 0.1963769 ],
        [0.69467223, 0.24236188, 0.64649818, 0.81101814, 0.66943528]],

       [[0.95556308, 0.31513701, 0.00319681, 0.82257831, 0.30158194],
        [0.34218125, 0.8575259 , 0.6968269 , 0.84930732, 0.93142726]]])

In [198]:
arr = np.arange(10000)
print(arr)

[   0    1    2 ... 9997 9998 9999]


In [199]:
with_repl = rnd.choice(arr, size=3000)                 # Случайная выборка из вектора с возвращением
print(with_repl)

[2657 7496 9154 ... 6977 9463 6795]


In [200]:
no_repl = rnd.choice(arr, size=3000, replace=False)    # Случайная выборка из вектора без возвращения
print(no_repl)

[9561 2561  970 ... 3615   52 9587]


In [201]:
with_repl_unique = np.unique(with_repl)
no_repl_unique =   np.unique(no_repl)
print(no_repl_unique)

[   5    9   11 ... 9994 9998 9999]


In [202]:
len(no_repl_unique) - len(with_repl_unique)

437

In [203]:
print(rnd.random_integers(0, 20, size=100))

[ 3 10 16 19 11  3 16  2  3  6 16 17  0  8  5 12  0 16 10 10 10  6  7  4
  0  9 12 13  1  3 15  2 11 20 14  5  9 12 13  1 11 14 17  3  1  9 10  2
 15  5  6  3  3 14 19 19  4 19 14 12 10  9 17  6 11 19 11 19  6  6  2  9
  6  4 15 15 17  7  8 18  5 14  4 11 18  7  1  5  8  5  9 15  2 19  9  9
 20 14 15 12]


In [204]:
print(rnd.normal(100, 3, size=100))
# Выборка из нормального распределения с центром в 100 и стандартным отклонением 3

[100.95636383 106.91442545 100.86043827 103.43296077  96.54933836
  96.52867721 102.80400431 102.79340848  98.46118657 102.25796507
 101.1466493   99.84184505 102.08995011  98.41073924  99.7302976
 102.19536809 102.53589164 105.04554864 102.09679775  97.6128636
 100.45044625 102.34517237 100.80212801  93.45589031  98.87634261
  95.77933785  98.45923473  97.44689082 104.29116192  98.08268502
 102.62723689  99.1337225  100.22275847  98.1190491   98.8124239
  99.01967612 101.39834197 101.82301816 103.41500166 103.10102626
 102.41140658  97.13847174 100.0812161   99.26577975  99.832412
  99.14682759 100.91006919 104.52425507  92.05599406 101.32352476
  99.78780501 100.44967766 100.37406468 102.63696313  99.53408935
 107.51536272 102.09613176  95.05073133  97.45235241 100.58990161
  98.76712944 102.18093194 100.76687659 100.21222797 103.06063264
 105.27423196  99.7634656   99.69173554  96.5273032   97.49950055
  98.35377133  97.89543776  98.13290592  97.55593035 103.90115541
 100.7247042   

[И так далее...](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html)

# Библиотека scipy (модуль scipy.stats)

Нам пригодится только модуль `scipy.stats`.
Полное описание можно [тут](http://docs.scipy.org/doc/scipy/reference/stats.html).

Описание этой части разработал Никита Волков.

In [205]:
import scipy.stats as sps

<b>Общий принцип:</b>

$X$ — некоторое распределение с параметрами `params`


* `X.rvs(size=N, params)` — генерация выборки размера $N$ (<b>R</b>andom <b>V</b>ariate<b>S</b>). Возвращает `numpy.ndarray`
* `X.cdf(x, params)` — значение функции распределения в точке $x$ (<b>C</b>umulative <b>D</b>istribution <b>F</b>unction)
* `X.logcdf(x, params)` — значение логарифма функции распределения в точке $x$
* `X.ppf(q, params)` — $q$-квантиль (<b>P</b>ercent <b>P</b>oint <b>F</b>unction)
* `X.mean(params)` — математическое ожидание
* `X.median(params)` — медиана
* `X.var(params)` — дисперсия (<b>Var</b>iance)
* `X.std(params)` — стандартное отклонение = корень из дисперсии (<b>St</b>andard <b>D</b>eviation)

Кроме того для непрерывных распределений определены функции
* `X.pdf(x, params)` — значение плотности в точке $x$ (<b>P</b>robability <b>D</b>ensity <b>F</b>unction)
* `X.logpdf(x, params)` — значение логарифма плотности в точке $x$

А для дискретных
* `X.pmf(k, params)` — значение дискретной плотности в точке $k$ (<b>P</b>robability <b>M</b>ass <b>F</b>unction)
* `X.logpdf(k, params)` — значение логарифма дискретной плотности в точке $k$


Параметры могут быть следующими:
* `loc` — параметр сдвига
* `scale` — параметр масштаба
* и другие параметры (например, $n$ и $p$ для биномиального)

Для примера сгенерируем выборку размера $N = 200$ из распределения $\mathscr{N}(1, 9)$ и посчитаем некоторые статистики.
В терминах выше описанных функций у нас $X$ = `sps.norm`, а `params` = (`loc=1, scale=3`).

In [206]:
sample = sps.norm.rvs(size=200, loc=1, scale=3)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Первые 10 значений выборки:
[-0.61541359 -1.79287579  2.29194953  2.13405501  1.05004176  3.6579294
 -0.92566272  1.19595716  0.34405765  3.9380064 ]
Выборочное среднее: 1.23
Выборочная дисперсия: 9.19


In [207]:
print(
    'Плотность:\t\t', 
    sps.norm.pdf([-1, 0, 1, 2, 3], loc=1, scale=3)
)
print(
    'Функция распределения:\t', 
    sps.norm.cdf([-1, 0, 1, 2, 3], loc=1, scale=3)
)

Плотность:		 [0.10648267 0.12579441 0.13298076 0.12579441 0.10648267]
Функция распределения:	 [0.25249254 0.36944134 0.5        0.63055866 0.74750746]


In [208]:
print(
    'Квантили:', 
    sps.norm.ppf([0.05, 0.1, 0.5, 0.9, 0.95], loc=1, scale=3)
)

Квантили: [-3.93456088 -2.8446547   1.          4.8446547   5.93456088]


Cгенерируем выборку размера $N = 200$ из распределения $Bin(10, 0.6)$ и посчитаем некоторые статистики.
В терминах выше описанных функций у нас $X$ = `sps.binom`, а `params` = (`n=10, p=0.6`).

In [209]:
sample = sps.binom.rvs(size=200, n=10, p=0.6)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Первые 10 значений выборки:
[6 9 7 6 5 5 8 8 6 8]
Выборочное среднее: 5.94
Выборочная дисперсия: 2.72


In [210]:
print(
    'Дискретная плотность:\t', 
    sps.binom.pmf([-1, 0, 5, 5.5, 10], n=10, p=0.6)
)
print(
    'Функция распределения:\t', 
    sps.binom.cdf([-1, 0, 5, 5.5, 10], n=10, p=0.6)
)

Дискретная плотность:	 [0.00000000e+00 1.04857600e-04 2.00658125e-01 0.00000000e+00
 6.04661760e-03]
Функция распределения:	 [0.00000000e+00 1.04857600e-04 3.66896742e-01 3.66896742e-01
 1.00000000e+00]


In [211]:
print('Квантили:', sps.binom.ppf([0.05, 0.1, 0.5, 0.9, 0.95], n=10, p=0.6))

Квантили: [3. 4. 6. 8. 8.]


Отдельно есть класс для <b>многомерного нормального распределения</b>.
Для примера сгенерируем выборку размера $N=200$ из распределения $\mathscr{N} \left( \begin{pmatrix} 1 \\ 1 \end{pmatrix},  \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \right)$.

In [212]:
sample = sps.multivariate_normal.rvs(mean=[1, 1], cov=[[2, 1], [1, 2]], size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean(axis=0)}\n'
    f'Выборочная матрица ковариаций:\n{np.cov(sample.T)}'
)

Первые 10 значений выборки:
[[ 2.4977072   1.64435856]
 [ 3.24817749  1.39699624]
 [ 0.28934112 -1.92552349]
 [ 2.15924185  3.75930753]
 [-0.76197727  0.9932569 ]
 [ 1.15892508  1.47774726]
 [ 1.38994526  2.12430261]
 [ 0.16701514 -0.11918136]
 [-0.4432428  -0.72061527]
 [ 2.38802813 -1.0830354 ]]
Выборочное среднее: [0.9960912  0.94796385]
Выборочная матрица ковариаций:
[[2.04961475 0.90857493]
 [0.90857493 1.94264242]]


Некоторая хитрость :)

In [213]:
sample = sps.norm.rvs(size=10, loc=range(10), scale=0.1)
print(sample)

[-0.08776384  1.18370382  1.92836046  3.01225254  3.83522739  4.95722863
  5.8709284   6.92114063  7.95891509  8.98683773]


Бывает так, что <b>надо сгенерировать выборку из распределения, которого нет в `scipy.stats`</b>.
Для этого надо создать класс, который будет наследоваться от класса `rv_continuous` для непрерывных случайных величин и от класса `rv_discrete` для дискретных случайных величин.
Пример есть на [странице](http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.rv_continuous.html#scipy.stats.rv_continuous).

Для примера сгенерируем выборку из распределения с плотностью $f(x) = \frac{4}{15} x^3 I\{x \in [1, 2] = [a, b]\}$.

In [214]:
class cubic_gen(sps.rv_continuous):
    def _pdf(self, x):
        return 4 * x ** 3 / 15


cubic = cubic_gen(a=1, b=2, name='cubic')

sample = cubic.rvs(size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    f'Выборочная дисперсия: {sample.var():.3}'
)

Первые 10 значений выборки:
[1.05602014 1.2823088  1.99254421 1.86718621 1.7505775  1.31641797
 1.97165106 1.89679074 1.67604761 1.30733708]
Выборочное среднее: 1.64
Выборочная дисперсия: 0.0743


Если дискретная случайная величина может принимать небольшое число значений, то можно не создавать новый класс, как показано выше, а явно указать эти значения и из вероятности.

In [215]:
some_distribution = sps.rv_discrete(
    name='some_distribution', 
    values=(
        [1, 2, 3],       # Значения
        [0.6, 0.1, 0.3]  # Вероятности
    )
)

sample = some_distribution.rvs(size=200)
print(
    f'Первые 10 значений выборки:\n{sample[:10]}\n'
    f'Выборочное среднее: {sample.mean():.3}\n'
    'Частота значений по выборке:',
    (sample == 1).mean(),
    (sample == 2).mean(),
    (sample == 3).mean()
)

Первые 10 значений выборки:
[1 1 1 3 3 3 3 3 3 1]
Выборочное среднее: 1.81
Частота значений по выборке: 0.55 0.09 0.36


<div style="text-align: right"><i>Подготовил <a href="https://github.com/andrewsonin">Андрей Сонин</a>