# Случайные числа в NumPy

Случайное число — это число, которое возникает в результате случайного процесса.

Что такое случайный процесс? Например, это подбрасывание монетки. Может выпасть или орёл, или решка. Если, например, обозначить орла за 0, а решку — за 1, то в результате процесса подбрасывания монеты мы будем получать случайное число. Если подбросить монетку несколько раз, можно получить целый набор из случайных чисел, состоящий из 0 и 1. Аналогично можно подбрасывать кубик (игральную кость) и получать числа от 1 до 6. Случайным процессом можно назвать распространение инфекции, поскольку точное число новых заболевших за сутки остаётся непредсказуемым.

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

Псевдослучайные числа — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

## Генерация float

In [1]:
# Для генерации псевдослучайных чисел в NumPy существует подмодуль random.
# Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

import numpy as np
np.random.rand()

0.8599360224457794

→ Поскольку теперь мы работаем со случайными числами, не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.

In [3]:
# Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

np.random.rand() * 100

15.536884113370986

In [4]:
# На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

np.random.rand(5)

array([0.92439452, 0.92766468, 0.63167377, 0.22898787, 0.1136417 ])

In [5]:
# Массив из двух случайных строк и трёх столбцов:

np.random.rand(2, 3)

array([[0.6801594 , 0.01936908, 0.72738052],
       [0.10256816, 0.40531747, 0.98618137]])

In [6]:
# Функция rand может принимать неограниченное число целых чисел для задания формы массива:

np.random.rand(2, 3, 4, 10, 12, 23)

array([[[[[[6.49603718e-01, 3.11073849e-01, 1.66622712e-01, ...,
            7.60639759e-01, 5.39097025e-01, 6.84715158e-01],
           [8.13547307e-01, 6.86125190e-01, 3.92503037e-01, ...,
            9.54999146e-02, 6.98909129e-01, 6.15573433e-01],
           [6.85767602e-01, 3.63668161e-01, 7.85559321e-01, ...,
            1.04817676e-01, 1.58996623e-01, 1.39788913e-01],
           ...,
           [8.25057922e-01, 1.59492973e-01, 2.65941867e-01, ...,
            8.82055242e-02, 4.51697817e-01, 3.78396884e-02],
           [3.31342630e-01, 5.00834813e-01, 5.71989547e-01, ...,
            2.57968881e-01, 7.12658539e-01, 6.41184270e-01],
           [6.97106670e-01, 6.02271801e-01, 9.92578521e-02, ...,
            9.02195992e-01, 9.54783031e-01, 3.12133726e-01]],

          [[2.21035458e-01, 4.64548263e-01, 8.96354836e-01, ...,
            1.67369628e-01, 2.54825840e-01, 3.34480586e-01],
           [9.91296256e-01, 4.80042646e-01, 5.64403389e-01, ...,
            1.23346213e-01, 2.38991

Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, а не перечисляли её в виде аргументов через запятую.

In [7]:
# Если передать в rand кортеж, возникнет ошибка:

shape = (3, 4)
np.random.rand(shape)

TypeError: 'tuple' object cannot be interpreted as an integer

In [8]:
# Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

shape = (3, 4)
np.random.rand(*shape)

array([[0.73483001, 0.12328911, 0.39904246, 0.96573595],
       [0.68333476, 0.38415339, 0.30587502, 0.02745232],
       [0.32396848, 0.43826805, 0.26001922, 0.24405179]])

In [9]:
# Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

shape = (2, 3)
np.random.sample(shape)

array([[0.88864807, 0.37021766, 0.79263193],
       [0.68064708, 0.78036364, 0.83039397]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

In [None]:
# Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

np.random.uniform(low=0.0, high=1.0, size=None)

# Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

# Давайте поэкспериментируем ↓

0.39958735577264615

In [13]:
# Запуск без аргументов эквивалентен работе функций rand или sample:

np.random.uniform()
# 0.951557685543591

# Зададим границы диапазона от -30 до 50:

np.random.uniform(-30, 50)
# 38.47365525953661

# Получим пять чисел в интервале от 0.5 до 0.75:

np.random.uniform(0.5, 0.75, size=5)
# array([0.58078945, 0.58860342, 0.73790553, 0.63448265, 0.70920297])

# Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

np.random.uniform(-1000, 500, size=(2, 3))

array([[-322.81266626,   -9.25419134,  -59.88847006],
       [-209.36446403,  153.06789126, -224.4145095 ]])

## Генерация int

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

'randint(low, high=None, size=None, dtype=int)'

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

- Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.\
- Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).\
- size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.\
- dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.\

In [14]:
# Сгенерируем таблицу 2x3 от 0 до 3 включительно:

np.random.randint(4, size=(2,3))

array([[1, 1, 3],
       [2, 1, 0]], dtype=int32)

In [None]:
# Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

np.random.randint(6, 12, size=(3,3))
# Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

array([[ 9,  7,  8],
       [ 7,  6, 11],
       [10, 11,  7]], dtype=int32)

## Генерация выборок

→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

→
Просто перемешать все числа в массиве позволяет функция random.shuffle.

Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.

In [17]:
# Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

arr = np.arange(6)
print(arr)

print(np.random.shuffle(arr))

[0 1 2 3 4 5]
None


Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

In [None]:
# Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)

print(playlist)

['Pink Floyd' 'The Beatles' 'ACDC' 'Deep Purple']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

In [19]:
# Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

np.random.permutation(10)

array([4, 2, 6, 7, 0, 1, 5, 3, 8, 9], dtype=int32)

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.
Чтобы получить случайный набор объектов из массива, используется функция random.choice:

choice(a, size=None, replace=True)

a — одномерный массив или число для генерации arange(a);\
size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);\
replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).\

In [None]:
# Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

# На выходе получили массив из двух имён без повторений. 

['Nikita' 'John']


In [21]:
# Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)

ValueError: Cannot take a larger sample than population when 'replace=False'

Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

In [None]:
# Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)

# В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.

[5 4 5 6 6 5 5 5 3 3]


## Seed генератора псевдослучайных чисел

→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

In [24]:
# Зададим seed и посмотрим, что получится:

np.random.seed(23)
np.random.randint(10, size=(3,4))

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]], dtype=int32)

In [25]:
# Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!

np.random.seed(100)
print(np.random.randint(10, size=3))

print(np.random.randint(10, size=3))

print(np.random.randint(10, size=3))

# При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

[8 8 3]
[7 7 0]
[4 2 5]
