<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> В предыдущем юните вы узнали, что такое векторы в программировании, а также научились их использовать в NumPy. Теперь вы можете совершать с ними арифметические операции, а также вычислять длины векторов и расстояния между ними. Наконец, вы освоили базовые статистические функции, доступные в NumPy.

Данный юнит посвящён случайным числам. Возможно, вам покажется несколько неожиданным, что они используются не только в казино или компьютерных играх. Специалисту в Data Science полезно уметь работать со случайными числами, чтобы проверять статистические гипотезы, формировать выборки данных для обучения и проверки моделей, да и в алгоритмах машинного обучения случайные числа находят своё применение.

В этом юните вы научитесь:

        генерировать наборы случайных чисел в NumPy;
        перемешивать элементы в массивах;
        получать одинаковые наборы случайных чисел с помощью seed.
</div>

Строгое определение случайного числа ссылается на множество понятий из теории вероятностей и математической статистики, поэтому здесь оно приведено не будет. Для целей данного юнита достаточно более простого определения.

<div style="background-color: #e0fff3; padding: 15px; color: black;  width: 80%;"> <b>Случайное число</b> — это число, которое возникает в результате случайного процесса.

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Что такое <b>случайный процесс</b>? Например, это подбрасывание монетки. Может выпасть или орёл, или решка. Если, например, обозначить орла за 0, а решку — за 1, то в результате процесса подбрасывания монеты мы будем получать случайное число. Если подбросить монетку несколько раз, можно получить целый набор из случайных чисел, состоящий из 0 и 1. Аналогично можно подбрасывать кубик (игральную кость) и получать числа от 1 до 6. Случайным процессом можно назвать распространение инфекции, поскольку точное число новых заболевших за сутки остаётся непредсказуемым.</div>

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;"> <b>Псевдослучайные числа</b> — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

## Случайные числа в NumPy
### Генерация float

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [1]:
import numpy as np
np.random.rand()
# 0.06600758835806675

0.9874699731376301

<div style="border: 1px solid black; padding: 15px; background-color: ">→ Поскольку теперь мы работаем со случайными числами, не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.</div>



Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [2]:
np.random.rand() * 100
# 69.76076924077643

35.27720472817186

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [3]:
np.random.rand(5)
# array([0.83745099, 0.58426808, 0.89206204, 0.41149807, 0.42445145])

array([0.05429806, 0.17566343, 0.34902208, 0.71898786, 0.23295351])

Массив из двух случайных строк и трёх столбцов:

In [4]:
np.random.rand(2, 3)
# array([[0.94931212, 0.06680018, 0.26707599],
#      [0.67908873, 0.18001743, 0.97732239]])

array([[0.62134257, 0.02189836, 0.14213959],
       [0.15213785, 0.9289177 , 0.67858528]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива:

In [5]:
np.random.rand(2, 3, 4, 10, 12, 23)

array([[[[[[6.00880155e-01, 8.85515074e-01, 1.49704907e-01, ...,
            6.40521308e-01, 7.20262280e-01, 4.29276460e-02],
           [2.98031656e-01, 4.34318102e-01, 7.80420137e-01, ...,
            7.62434191e-01, 6.36567229e-01, 4.51988922e-01],
           [7.31427123e-01, 8.50151630e-01, 7.67430902e-01, ...,
            9.45160931e-01, 8.94617372e-01, 8.70552641e-01],
           ...,
           [1.91214445e-01, 2.18006751e-01, 9.55484755e-01, ...,
            3.98971481e-01, 9.42967930e-02, 5.92869592e-02],
           [1.42424104e-01, 7.71886710e-01, 8.67864124e-01, ...,
            9.40244238e-01, 4.20201696e-01, 2.23798257e-01],
           [7.48779793e-02, 4.85409603e-01, 4.30809027e-01, ...,
            6.27353664e-01, 4.15535321e-01, 7.27896930e-01]],

          [[7.93755985e-01, 7.34820077e-01, 5.90910695e-01, ...,
            6.67509287e-01, 7.43193696e-02, 8.08010808e-01],
           [2.14164179e-01, 6.16378314e-01, 1.59712802e-01, ...,
            2.00712939e-01, 3.20950

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, а не перечисляли её в виде аргументов через запятую.</div>

Если передать в rand кортеж, возникнет ошибка:

In [6]:
shape = (3, 4)
np.random.rand(shape)
# TypeError: 'tuple' object cannot be interpreted as an integer
# Ошибка типов: кортеж не может быть интерпретирован как целое число.

TypeError: 'tuple' object cannot be interpreted as an integer

Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [7]:
np.random.rand(*shape)
# array([[0.66169176, 0.19455777, 0.06451088, 0.31919608],
#        [0.73536951, 0.67104408, 0.4762727 , 0.88153576],
#        [0.70672971, 0.96677145, 0.09273995, 0.86356465]])

array([[0.91084589, 0.75555556, 0.25815609, 0.68996819],
       [0.71665587, 0.374941  , 0.84418314, 0.20772284],
       [0.60159799, 0.52571529, 0.83489998, 0.63369669]])

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

In [8]:
shape = (2, 3)
np.random.sample(shape)
# array([[0.39756103, 0.01995168, 0.2768951 ],
#       [0.82195372, 0.26435273, 0.00957881]])

array([[0.10272393, 0.23278143, 0.37685406],
       [0.25190368, 0.85769504, 0.63514463]])

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

In [11]:
np.random.uniform(low=0.0, high=1.0, size=None)

0.03733901901811476

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Давайте поэкспериментируем ↓

Запуск без аргументов эквивалентен работе функций rand или sample:

In [12]:
np.random.uniform()
# 0.951557685543591

0.2515662890179138

Зададим границы диапазона от -30 до 50:

In [13]:
np.random.uniform(-30, 50)
# 38.47365525953661

43.58475643290079

Получим пять чисел в интервале от 0.5 до 0.75:

In [14]:
np.random.uniform(0.5, 0.75, size=5)
# array([0.58078945, 0.58860342, 0.73790553, 0.63448265, 0.70920297])

array([0.57924155, 0.60454074, 0.50836835, 0.51381483, 0.55652754])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [15]:
np.random.uniform(-1000, 500, size=(2, 3))
# array([[ 129.22164163,   77.69090611, -132.9656972 ],
#        [  18.65802226, -317.14793906,   85.3613547 ]])

array([[ 489.05090528, -288.94126581, -380.32568256],
       [-414.0927426 , -537.52541568, -541.61887219]])

## Генерация int

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

`` randint(low, high=None, size=None, dtype=int) ``

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

*  Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
* Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
* size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
* dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [18]:
np.random.randint(4, size=(2,3))
# array([[3, 0, 1],
#       [2, 1, 3]])

array([[1, 1, 2],
       [0, 3, 1]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [19]:
np.random.randint(6, 12, size=(3,3))
# array([[ 9,  6, 10],
#        [10, 11, 10],
#        [ 7, 10, 11]])

array([[ 6,  7,  9],
       [10,  7,  7],
       [ 7,  8, 10]])

Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

### Задание 9.1 

Какая из перечисленных функций из np.random не подходит для генерации чисел float?
- uniform
- rand
- sample
- randint 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 randint
</code>
</details>

 ###  Задание 9.2
В чём отличие функции rand от sample?
- rand принимает форму массива в виде аргументов, перечисленных через запятую
- rand генерирует число в диапазоне от 0 до 1
- rand генерирует число типа float
- rand не отличается от sample


<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
- rand принимает форму массива в виде аргументов, перечисленных через запятую
</code>
</details>

## Генерация выборок

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.</div>

Просто перемешать все числа в массиве позволяет функция random.shuffle.

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.</div>

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [20]:
arr = np.arange(6)
print(arr)
# [0 1 2 3 4 5]
print(np.random.shuffle(arr))
# None
arr
# array([0, 5, 1, 3, 2, 4])

[0 1 2 3 4 5]
None


array([4, 3, 5, 1, 2, 0])

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [21]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
# ['The Beatles' 'Pink Floyd' 'Deep Purple' 'ACDC']
print(playlist)
# ['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']

['Deep Purple' 'Pink Floyd' 'The Beatles' 'ACDC']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.</div>



Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [23]:
np.random.permutation(10)
# array([7, 8, 2, 9, 4, 3, 1, 0, 5, 6])

array([3, 1, 8, 9, 7, 0, 2, 6, 5, 4])

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.



→
Чтобы получить случайный набор объектов из массива, используется функция random.choice:<br>
<b>``choice(a, size=None, replace=True)``


- a — одномерный массив или число для генерации arange(a);
- size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
- replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).


Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [24]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Nikita' 'Ivan']


На выходе получили массив из двух имён без повторений. 

Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

In [25]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)
# ValueError: Cannot take a larger sample than population when 'replace=False'
# Ошибка значения: нельзя получить выборку больше, чем популяция (популяция — весь доступный набор объектов, из которого получаем выборку), если replace=False (то есть выборка без повторений).

ValueError: Cannot take a larger sample than population when 'replace=False'

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.</div>

Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [26]:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)
# [3 5 5 6 6 4 2 2 1 3]

[4 2 3 3 5 1 2 2 5 4]


В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.

###  Задание 9.3
В какой ситуации разумно использовать выборку с повторениями?
- Выбор вещей из гардероба
- Выбор нескольких конфет из предложенных на развес в магазине
- Выбор клиентов для участия в опросе
- Выбор конкурсантов для участия в определённой номинации 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 Выбор нескольких конфет из предложенных на развес в магазине
</code>
</details>

###   Задание 9.4
Как можно сгенерировать десять случайных чисел в диапазоне от 1 до 20 (включительно), которые гарантированно не будут повторяться?

- np.random.randint(1, 20, size=10)

- np.random.randint(1, 21, size=10)

- np.random.choice(21, size=10)

- np.random.choice(np.arange(1, 21), size=10)

- np.random.choice(np.arange(1, 21), size=10, replace=False)



<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 np.random.choice(np.arange(1, 21), size=10, replace=False)
</code>
</details>

## Seed генератора псевдослучайных чисел

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).</div>

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [27]:
np.random.seed(23)
np.random.randint(10, size=(3,4))
# array([[3, 6, 8, 9],
#        [6, 8, 7, 9],
#        [3, 6, 1, 2]])

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!

In [28]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))
# [4 2 5]

[8 8 3]
[7 7 0]
[4 2 5]


При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.


---
При выполнении заданий на случайные числа в рамках данного модуля вам чаще всего потребуется задавать seed в вашем скрипте для удобства проверки.

###  Задание 9.5
Выберите значение, которое может служить для задания seed в np.seed:
- 0
- -1
- 4294967296
- "25" 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
0. 0 находится между 0 и 2**32 - 1.
</code>
</details>

### Задание 9.6
Задайте seed = 2021.

Сохраните в переменные необходимые значения.

Примечание 1. Не меняйте названия переменных и последовательность генерации случайных чисел в задании.

Примечание 2. Не забудьте импортировать numpy и сразу задать seed = 2021

1. В simple сохраните случайное число в диапазоне от 0 до 1

2. Сгенерируйте 120 чисел в диапазоне от -150 до 2021, сохраните их в переменную randoms

3. Получите массив из случайных целых чисел от 1 до 100 (включительно) из 3 строк и 2 столбцов. Сохраните результат в table

4. В переменную even сохраните четные числа от 2 до 16 (включительно)

5. Скопируйте even в переменную mix. Перемешайте числа в mix так, чтобы массив изменился

6. Получите из even 3 числа без повторений. Сохраните их в переменную select

7. Получите переменную triplet, которая должна содержать перемешанные значения из массива select (сам select измениться не должен)


In [41]:
import numpy as np


np.random.seed(2021)
simple = np.random.random()
#print(simple)
randoms = np.random.uniform(-150, 2021, size=120)
#print(randoms)
table = np.random.randint(1, 101, (3,2))
#table
even = np.arange(2,17,2)
#even
mix = even.copy()
np.random.shuffle(mix)
#mix
select = np.random.choice(even, 3, replace=False)
#select#
triplet = np.random.permutation(select)
#triplet