# СЛУЧАЙНЫЕ ЧИСЛА

Случайное число — это число, которое возникает в результате случайного процесса.

ГЕНЕРАЦИЯ FLOAT

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [2]:
import numpy as np
np.random.rand()

0.8357036372182862

Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [3]:
np.random.rand() * 100

34.58279805067712

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [4]:
np.random.rand(5)

array([0.0166973 , 0.09029592, 0.33745421, 0.77821269, 0.77740159])

Массив из двух случайных строк и трёх столбцов:

In [5]:
np.random.rand(2,3)

array([[0.92358299, 0.28197739, 0.6237276 ],
       [0.43644363, 0.85596837, 0.51374093]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива:

In [7]:
#np.random.rand(2,3,4,10,12,23)

Если передать в rand кортеж, возникнет ошибка:

Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [9]:
shape = (3,4)
#np.random.rand(shape)
np.random.rand(*shape)

array([[0.03474108, 0.06359074, 0.13734878, 0.88370841],
       [0.65842179, 0.78439376, 0.7567697 , 0.12211583],
       [0.42180166, 0.44566212, 0.44975619, 0.48901173]])

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

In [10]:
shape = (2,3)
np.random.sample(shape)

array([[0.59142185, 0.8460563 , 0.07905085],
       [0.74797625, 0.64241019, 0.1612147 ]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

In [12]:
#uniform(low=0.0, high=1.0, size=None)

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Давайте поэкспериментируем ↓

Запуск без аргументов эквивалентен работе функций rand или sample:

In [13]:
np.random.uniform()

0.7187100453735158

Зададим границы диапазона от -30 до 50:

In [14]:
np.random.uniform(-30,50)

43.17786714103528

Получим пять чисел в интервале от 0.5 до 0.75:

In [16]:
np.random.uniform(0.5, 0.75, size=5)

array([0.68488897, 0.68451878, 0.55428638, 0.74575953, 0.62343841])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [17]:
np.random.uniform(-1000, 500, size=(2,3))

array([[-898.00110987,  433.63656813,  -25.23912211],
       [-530.4755229 , -621.01398924,  276.64455166]])

# ГЕНЕРАЦИЯ INT

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

In [None]:
#randit(low, high=None, size=None, dtype=int)

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

* Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
* Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
* size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
* dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [18]:
np.random.randint(4, size=(2,3))

array([[1, 0, 2],
       [1, 2, 0]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [19]:
np.random.randint(6,12, size=(3,3))

array([[10,  8,  9],
       [ 8, 10,  9],
       [ 8,  8,  8]])

Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

# ГЕНЕРАЦИЯ ВЫБОРОК

→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

Просто перемешать все числа в массиве позволяет функция random.shuffle.

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [22]:
arr = np.arange(6)
print(arr)
print(np.random.shuffle(arr))
arr

[0 1 2 3 4 5]
None


array([0, 5, 3, 2, 4, 1])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [25]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)

['The Beatles' 'ACDC' 'Deep Purple' 'Pink Floyd']


Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [26]:
np.random.permutation(10)

array([9, 6, 7, 5, 8, 3, 1, 0, 4, 2])

Чтобы получить случайный набор объектов из массива, используется функция random.choice:

In [None]:
#choice(a, size=None, replace=True)

* a - одномерный массив или число для генерации arange(a);
* size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
* replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [28]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Nikita' 'Kate']


На выходе получили массив из двух имён без повторений. 

Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

In [30]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
#print(choice)

ValueError: Cannot take a larger sample than population when 'replace=False'

#Ошибка значения: нельзя получить выборку больше, чем популяция (популяция — весь доступный набор объектов, из которого получаем выборку), если replace=False (то есть выборка без повторений).

Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [31]:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)

[3 2 1 6 4 1 1 1 4 5]


В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.

SEED ГЕНЕРАТОРА ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ

→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [37]:
np.random.seed(23)
np.random.randint(10, size=(3,4))

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!

In [39]:
np.random.seed(100)
print(np.random.randint(10, size=3))
print(np.random.randint(10, size=3))
print(np.random.randint(10, size=3))

[8 8 3]
[7 7 0]
[4 2 5]


При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.