# 9. Модуль NumPy. Случайные числа

Данный юнит посвящён случайным числам. Возможно, вам покажется несколько неожиданным, что они используются не только в казино или компьютерных играх. Специалисту в Data Science полезно уметь работать со случайными числами, чтобы проверять статистические гипотезы, формировать выборки данных для обучения и проверки моделей, да и в алгоритмах машинного обучения случайные числа находят своё применение.

В этом юните вы научитесь:

        генерировать наборы случайных чисел в NumPy;
        перемешивать элементы в массивах;
        получать одинаковые наборы случайных чисел с помощью seed.

Строгое определение случайного числа ссылается на множество понятий из теории вероятностей и математической статистики, поэтому здесь оно приведено не будет. Для целей данного юнита достаточно более простого определения.

**Случайное число** — это число, которое возникает в результате случайного процесса.

Что такое случайный процесс? Например, это подбрасывание монетки. Может выпасть или орёл, или решка. Если, например, обозначить орла за 0, а решку — за 1, то в результате процесса подбрасывания монеты мы будем получать случайное число. Если подбросить монетку несколько раз, можно получить целый набор из случайных чисел, состоящий из 0 и 1. Аналогично можно подбрасывать кубик (игральную кость) и получать числа от 1 до 6. Случайным процессом можно назвать распространение инфекции, поскольку точное число новых заболевших за сутки остаётся непредсказуемым.

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

Псевдослучайные числа — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

##Случайные числа в NumPy

###Генерация float

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [None]:
import numpy as np
np.random.rand()
# 0.06600758835806675

0.3716556459648347

Поскольку теперь мы работаем со случайными числами, не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.

Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [None]:
np.random.rand() * 100
# 69.76076924077643

61.214862891884025

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [None]:
np.random.rand(5)
# array([0.83745099, 0.58426808, 0.89206204, 0.41149807, 0.42445145])

array([27.64773058, 57.89610665, 57.50180874,  7.48501323, 89.03117633])

Массив из двух случайных строк и трёх столбцов:

In [None]:
np.random.rand(2, 3)*100
# array([[0.94931212, 0.06680018, 0.26707599],
#      [0.67908873, 0.18001743, 0.97732239]])

array([[26.51753771, 41.14291205, 90.96512035],
       [47.47798097, 85.83831743, 75.08711523]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива:

In [None]:
np.random.rand(2, 3, 4, 10, 12, 23)

Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, а не перечисляли её в виде аргументов через запятую.

Если передать в rand кортеж, возникнет ошибка:

In [None]:
shape = (3, 4)
np.random.rand(shape)
# TypeError: 'tuple' object cannot be interpreted as an integer
# Ошибка типов: кортеж не может быть интерпретирован как целое число.

Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [None]:
shape = (3, 4)
np.random.rand(*shape)
# array([[0.66169176, 0.19455777, 0.06451088, 0.31919608],
#        [0.73536951, 0.67104408, 0.4762727 , 0.88153576],
#        [0.70672971, 0.96677145, 0.09273995, 0.86356465]])

array([[0.51109929, 0.90272987, 0.40901008, 0.52298131],
       [0.32170467, 0.24324835, 0.28138194, 0.20851452],
       [0.38421642, 0.04757509, 0.83473766, 0.13238224]])

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

In [None]:
shape = (2, 3)
np.random.sample(shape)
# array([[0.39756103, 0.01995168, 0.2768951 ],
#       [0.82195372, 0.26435273, 0.00957881]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

**uniform(low=0.0, high=1.0, size=None)**

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Давайте поэкспериментируем ↓

Запуск без аргументов эквивалентен работе функций rand или sample:

In [None]:
np.random.uniform()
# 0.951557685543591

0.14136698531781178

Зададим границы диапазона от -30 до 50:

In [None]:
np.random.uniform(-30, 50)
# 38.47365525953661

5.52822815112777

Получим пять чисел в интервале от 0.5 до 0.75:

In [None]:
np.random.uniform(0.5, 0.75, size=5)
# array([0.58078945, 0.58860342, 0.73790553, 0.63448265, 0.70920297])

array([0.63276941, 0.63169835, 0.53409954, 0.62894744, 0.51444549])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [None]:
np.random.uniform(-1000, 500, size=(2, 3))
# array([[ 129.22164163,   77.69090611, -132.9656972 ],
#        [  18.65802226, -317.14793906,   85.3613547 ]])

array([[ 442.90186675, -421.51197692,  463.93323566],
       [-937.00936457, -613.78584569,  247.02852007]])

## Генерация int

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

<code>randint(low, high=None, size=None, dtype=int)</code>

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

        Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
        Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
        size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
        dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [None]:
np.random.randint(4, size=(2,3))
# array([[3, 0, 1],
#       [2, 1, 3]])

array([[3, 2, 2],
       [0, 0, 1]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [None]:
np.random.randint(6, 12, size=(3,3))
# array([[ 9,  6, 10],
#        [10, 11, 10],
#        [ 7, 10, 11]])

array([[11, 10, 10],
       [ 6,  8,  9],
       [ 7,  7,  9]])

Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

## Генерация выборок

Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

Просто перемешать все числа в массиве позволяет функция random.shuffle.

Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [33]:
arr = np.arange(6)
print(arr)
# [0 1 2 3 4 5]
print(np.random.shuffle(arr))
# None
arr
# array([0, 5, 1, 3, 2, 4])

[0 1 2 3 4 5]
None


array([3, 2, 5, 4, 1, 0])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [None]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
# ['The Beatles' 'Pink Floyd' 'Deep Purple' 'ACDC']
print(playlist)
# ['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']

['ACDC' 'The Beatles' 'Pink Floyd' 'Deep Purple']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [None]:
np.random.permutation(10)
# array([7, 8, 2, 9, 4, 3, 1, 0, 5, 6])

array([4, 2, 9, 8, 0, 1, 6, 3, 5, 7])

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.

→
Чтобы получить случайный набор объектов из массива, используется функция random.choice:

<code>
choice(a, size=None, replace=True)
</code>

        a — массив или число для генерации arange(a);
        size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
        replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Nikita' 'Kate']


На выходе получили массив из двух имён без повторений. 

Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)
# ValueError: Cannot take a larger sample than population when 'replace=False'
# Ошибка значения: нельзя получить выборку больше, чем популяция 
# (популяция — весь доступный набор объектов, из которого получаем выборку),
# если replace=False (то есть выборка без повторений).

Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [None]:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)
# [3 5 5 6 6 4 2 2 1 3]

[6 5 4 2 5 3 2 3 3 3]


В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.

In [None]:
# Как можно сгенерировать десять случайных чисел в диапазоне от 1 до 20 
# (включительно), которые гарантированно не будут повторяться?
np.random.choice(np.arange(1, 21), size=10, replace=False)

array([ 7,  6, 18, 15,  2,  9, 17, 20, 14,  0])

## Seed генератора псевдослучайных чисел

Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [None]:
np.random.seed(23)
np.random.randint(10, size=(3,4))
# array([[3, 6, 8, 9],
#        [6, 8, 7, 9],
#        [3, 6, 1, 2]])

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

In [None]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))
# [4 2 5]

[8 8 3]
[7 7 0]
[4 2 5]


При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

In [None]:
# Не забудьте импортировать numpy и сразу задать seed 2021
import numpy as np
np.random.seed(2021)

# В simple сохранте случайное число в диапазоне от 0 до 1
simple = None
simple = np.random.rand()
print(simple)

# Сгенерируйте 120 чисел в диапазоне от -150 до 2021, сохраните их
# в переменную randoms
randoms = None
randoms = np.random.uniform(-150, 2021, size = 120)

# Получите массив из случайных целых чисел от 1 до 100 (включительно)
# из 3 строк и 2 столбцов. Сохраните результат в table
table = None
table = np.random.randint(1, 101, size = (3, 2))
print(table)

# В переменную even сохраните четные числа от 2 до 16 (включительно)
even = None
even = np.arange(2, 17, 2)
print(even)

# Перемешайте числа в even так, чтобы массив even изменился
even = np.random.permutation(even)
print(even)

# Получите из even 3 числа без повторений. Сохраните их в переменную select
select = None
select = np.random.choice(even, size = 3, replace = False)
print(select)

# Получите переменную triplet, которая должна содержать перемешанные
# значения из массива select (сам select измениться не должен)
triplet = None
triplet = np.random.shuffle(select)
print(triplet)

0.6059782788074047
[[46 93]
 [35 41]
 [17 45]]
[ 2  4  6  8 10 12 14 16]
[ 6 10  2  8 14 16  4 12]
[ 4  6 10]
None


Задание 10.7

Вы разрабатываете приложение для прослушивания музыки. Конечно же, там будет доступна функция перемешивания плейлиста. Пользователю может настолько понравиться перемешанная версия плейлиста, что он захочет сохранить его копию. Однако вы не хотите хранить в памяти новую версию плейлиста, а просто хотите сохранять тот seed, с которым он был сгенерирован.

Для этого напишите функцию shuffle_seed(<array>),  которая принимает на вход массив из чисел, генерирует случайное число для seed в диапазоне от 0 до 2**32 - 1 (включительно) и возвращает кортеж: перемешанный с данным seed массив (исходный массив должен оставаться без изменений), а также seed, с которым этот массив был получен.

In [35]:
import numpy as np
def shuffle_seed(array):
    seed = np.random.randint((2**32), dtype = np.uint32)
    np.random.seed(seed)
    result = (np.random.permutation(array), seed)
    return result


array = [1, 2, 3, 4, 5]
shuffle_seed(array)
# (array([1, 3, 2, 4, 5]), 2332342819)
shuffle_seed(array)
# (array([4, 5, 2, 3, 1]), 4155165971)

(array([3, 1, 4, 2, 5]), 633275660)

Задание 10.8
Напишите функцию min_max_dist, которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает минимальное и максимальное расстояние между векторами в виде кортежа.

In [36]:
import numpy as np
def min_max_dist(*vectors):
    dist = []
    for x in range(len(vectors)):
      for y in range(x+1, len(vectors)):
        dist.append(np.linalg.norm(vectors[x] - vectors[y]))
    return min(dist), max(dist)


vec1 = np.array([1,2,3])
vec2 = np.array([4,5,6])
vec3 = np.array([7, 8, 9])
 
min_max_dist(vec1, vec2, vec3)
# (5.196152422706632, 10.392304845413264)

(5.196152422706632, 10.392304845413264)

Задание 10.9

Напишите функцию any_normal, которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает True, если есть хотя бы одна пара перпендикулярных векторов. Иначе возвращает False.

In [40]:
import numpy as np
def any_normal(*vectors):
  for x in range(len(vectors)):
      for y in range(x+1, len(vectors)):
        return np.dot(vectors[x], vectors[y]) == 0
         


vec1 = np.array([2, 1])
vec2 = np.array([-1, 2])
vec3 = np.array([3,4])
print(any_normal(vec1, vec2, vec3))
# True

True


Задание 10.10

Напишите функцию get_loto(num), генерирующую трёхмерный массив случайных целых чисел от 1 до 100 (включительно). Это поля для игры в лото.

Трёхмерный массив должен состоять из таблиц чисел формы 5х5, то есть итоговая форма — (num, 5, 5).

Функция возвращает полученный массив.

In [41]:
import numpy as np
def get_loto(num):
  return np.random.randint(1, 101, size=(num, 5, 5))

get_loto(3)

array([[[96, 50, 74, 63, 85],
        [30, 68, 26, 43, 68],
        [ 1, 93, 74, 81,  5],
        [46,  3, 80, 94, 16],
        [60, 31, 97, 24, 29]],

       [[32, 58, 44, 15, 35],
        [83, 84, 87, 63, 14],
        [ 7,  3,  9, 95, 67],
        [89, 89, 94, 21, 50],
        [56,  1, 71, 42, 23]],

       [[18, 13, 71, 73, 22],
        [48, 40, 87, 41, 13],
        [92, 50, 24, 25, 46],
        [53, 48, 76,  1, 50],
        [65, 56, 68, 46, 48]]], dtype=uint64)

Задание 10.11 

Напишите функцию get_unique_loto(num). Она так же, как и функция в задании 10.10, генерирует num полей для игры в лото, однако теперь на каждом поле 5х5 числа не могут повторяться.

Функция также должна возвращать массив формы num x 5 x 5.

In [55]:
import numpy as np
def get_unique_loto(num):
    limit = np.arange(1, 101)
    loto = list()
    for i in range(num):
      loto.append(np.random.choice(limit, size=(5, 5), replace=False))
    loto = np.array(loto)
    return loto


get_unique_loto(3)

array([[[ 7, 98, 55, 17, 49],
        [25,  1, 96, 16,  4],
        [ 6, 58, 23, 47, 56],
        [ 5, 51, 64, 65, 12],
        [76, 92, 13, 44, 14]],

       [[ 2, 60, 53,  3,  9],
        [84, 27, 90, 95, 77],
        [18, 39, 57, 97, 19],
        [22, 62, 96, 29, 70],
        [14, 45, 30, 51, 71]],

       [[91,  4,  9, 49, 75],
        [35, 34, 99, 15, 58],
        [63,  7, 27, 11, 88],
        [44, 31, 60, 30, 21],
        [14, 32, 66, 79, 94]]])