# 9. Модуль NumPy. Случайные числа

**Случайное число** — это число, которое возникает в результате случайного процесса.

|Что такое случайный процесс? Например, это подбрасывание монетки. Может выпасть или орёл, или решка. Если, например, обозначить орла за 0, а решку — за 1, то в результате процесса подбрасывания монеты мы будем получать случайное число. Если подбросить монетку несколько раз, можно получить целый набор из случайных чисел, состоящий из 0 и 1. Аналогично можно подбрасывать кубик (игральную кость) и получать числа от 1 до 6. Случайным процессом можно назвать распространение инфекции, поскольку точное число новых заболевших за сутки остаётся непредсказуемым.|

__Псевдослучайные числа__ - это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

## Случайные числа в NumPy

### Генерация float

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [2]:
import numpy as np
np.random.rand()

0.3347307962623204

чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [2]:
np.random.rand()*100

40.802209836901056

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [3]:
np.random.rand(5)

array([0.55567792, 0.08184177, 0.740629  , 0.02720065, 0.28167695])

Массив из двух случайных строк и трёх столбцов:

In [4]:
np.random.rand(2,3)

array([[0.25856436, 0.96951971, 0.43118535],
       [0.13540737, 0.44085694, 0.93839943]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива:

In [None]:
np.random.rand(2, 3, 4, 10, 12, 23)

Если передать в rand кортеж, возникнет ошибка:

In [9]:
shape = (3,4)
np.random.rand(shape)

TypeError: 'tuple' object cannot be interpreted as an integer



Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [10]:
shape = (3,4)
np.random.rand(*shape)

array([[0.21679168, 0.57821508, 0.6869225 , 0.18874401],
       [0.66453032, 0.70279489, 0.10730252, 0.73908539],
       [0.96912793, 0.65888036, 0.54701522, 0.11018834]])

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется *sample*:

In [11]:
shape = (2,3)
np.random.sample(shape)

array([[0.37405896, 0.44220049, 0.31283696],
       [0.14378113, 0.30691889, 0.01639987]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

uniform(low=0.0, high=1.0, size=None)

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Давайте поэкспериментируем ↓

Запуск без аргументов эквивалентен работе функций rand или sample:

In [3]:
np.random.uniform()

0.06934098637437902

In [4]:
np.random.uniform(-30,50)

-27.49689394024805

In [6]:
np.random.uniform(0.5,0.75, size=5)

array([0.50421186, 0.68855677, 0.73453704, 0.6338766 , 0.55612256])

In [7]:
np.random.uniform(-1000, 500, size=(2,3))

array([[-844.73777145,  341.33368812,   26.78274847],
       [-275.82227829,  -53.46825018,  -48.30925134]])

## Генерация int

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

randint(low, high=None, size=None, dtype=int)

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

        Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
        Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
        size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
        dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [8]:
np.random.randint(4,size=(2,3))

array([[0, 0, 2],
       [3, 2, 1]])

In [9]:
np.random.randint(6.12,size=(3,3))

array([[4, 3, 2],
       [2, 0, 2],
       [4, 4, 5]])

## Генерация выборок

→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

→
Просто перемешать все числа в массиве позволяет функция random.shuffle.

Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [11]:
arr = np.arange(6)
print(arr)

[0 1 2 3 4 5]


In [12]:
print(np.random.shuffle(arr))

None


In [13]:
arr

array([4, 0, 3, 1, 2, 5])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [14]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
print()
print(playlist)

['Pink Floyd' 'ACDC' 'Deep Purple' 'The Beatles']

['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [15]:
np.random.permutation(10)

array([7, 6, 3, 0, 1, 2, 5, 4, 9, 8])

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.

→
Чтобы получить случайный набор объектов из массива, используется функция random.choice:

choice(a, size=None, replace=True)


        a — массив или число для генерации arange(a);
        size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
        replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [17]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Ivan' 'Maria']


На выходе получили массив из двух имён без повторений. 

Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

In [18]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)

ValueError: Cannot take a larger sample than population when 'replace=False'

Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [19]:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)

[6 6 4 5 5 6 5 3 6 1]


----


## Seed генератора псевдослучайных чисел

 Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [20]:
np.random.seed(23)
np.random.randint(10,size=(3,4))

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

In [21]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))

[8 8 3]
[7 7 0]
[4 2 5]


При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

In [2]:
simplelist = [19, 242, 14, 152, 142, 1000]
avg = sum(simplelist)/len(simplelist)
print(avg)

261.5
