### NumPy


***Тип данных np.int8 (и другие аналогичные)***

Это тип данных с общим корнем int. Int может быть со следующими окончаниями: int8, int16, int32 и int64. Окончание типа данных в NumPy показывает, сколько битов памяти должно быть выделено для хранения переменной.

In [None]:
import numpy as np

np.iinfo(np.int64)

В NumPy доступны и беззнаковые целочисленные типы данных. Они имеют корень uint (unsigned int — беззнаковое целое). uint доступны также с выделением памяти в 8, 16, 32 и 64 бита. При этом максимально возможное число оказывается в два раза больше, чем для соответствующего int, поскольку отрицательные числа исключены из типа данных ***uint***.

In [None]:
b = np.uint8(124)
print(b)

print(type(b))

np.iinfo(np.uint64)



По-умолчанию числа типа int имеют тип данных int64. Поэтому, при складывании переменных с определенным типом данных (например np.int8 и без такового), то типа данных станет int64.

также, при складывании двух переменных с разными типами данных (или разных типов данных), они приводятся к бОльшему типу (например, int8 + int32 = int32)

Если число превысит объем памяти, то ответ будет выдаваться некорректный и при этом НЕ БУДЕТ вызываться ошибка! При этом при совершении математическийх операций, помимо некорректного решения, будет выдаваться ошибка типа RuntimeWarning: overflow encountered in int_scalars. Дла того, чтобы избегать этой ошибки, нужно приводить переменные к большему типу

***Типы данных с плавающей точкой***
Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых float нет.

Доступны следующие типы данных float: 
- float16, 
- float32, 
- float64 (применяется по умолчанию, если объём памяти не задан дополнительно), 
- float128.

Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info):

In [None]:
np.finfo(np.float16)

In [None]:
np.finfo(np.float16)
# finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)
np.finfo(np.float32)
# finfo(resolution=1e-06, min=-3.4028235e+38, max=3.4028235e+38, dtype=float32)
np.finfo(np.float64)
# finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)
# np.finfo(np.float128)
# finfo(resolution=1e-18, min=-1.189731495357231765e+4932, max=1.189731495357231765e+4932, dtype=float128)

# Тип данных np.float128 не работает на Windows и сервисах Microsoft

Рассмотрим вывод более детально. Если с min и max все понятно, то есть еще одно значение - ***resolution*** (от англ. «разрешение») в выводе finfo означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа float16 идёт уже с шагом 0.005:

In [None]:
print(np.float16(4.12))
# 4.12
print(np.float16(4.13))
# 4.13
print(np.float16(4.123))
# 4.12
print(np.float16(4.124))
# 4.125
print(np.float16(4.125))
# 4.125

In [None]:
# вывод всех типов данных библиотеки NumPy

print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')

Следует обратить внимание на типы данных bool_ и str_. Они аналогичны bool и str из встроенных в Python, однако записывать их необходимо именно с нижним подчёркиванием, иначе произойдёт приведение к стандартному типу данных, а не типу NumPy. В целом, существенной разницы между этими типами данных нет, однако о такой двойственности следует помнить при сравнении типов переменных: тип bool не является эквивалентным numpy.bool_, несмотря на то что оба типа данных хранят значения True или False.

**Небольшое замечание про bool**: несмотря на то что для хранения значения истина/ложь было бы достаточно только одного бита, из-за особенностей работы с памятью компьютера булевая переменная всё равно занимает в памяти целый байт.

In [None]:
a = np.int16(-456)
b = np.uint8(a)
print(b)

### NumPy Массивы

Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки

Однако массивы обладают особым свойством: **элемент по любому номеру из массива можно получить за одно и то же время**. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Обычно такое быстродействие массивов достигается за счёт того, что все элементы в массиве приведены к одному и тому же типу данных.

Традиционные массивы обладают заданной программистом длиной (числом элементов), на которую компьютер выделяет память. Для сравнения — в списке длина изначально ничем не ограничена.

**Массив это структура данных в которой:**
- Элементы хранятся в указанном порядке;
- Каждый элемент можно получить по индексу за одинаковое время;
- Все элементы приведены к одному и тому же типу данных;
- Максимальное число элементов и объем выделенной памяти заданы заранее.

**Размерностью массива** называют то число индексов, которое необходимо для однозначного получения элемента из массива.

- Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
- В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
- Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.

Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

**Форма (структура) массива** — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

***Создание массива из списка***
Создать массив из списка можно с помощью функции mp.array(<объект>).

Функция np.array возвращает объекты типа numpy.ndarray. Название ndarray - это сокращенное от n-dimeentional array, n-мерный массив.

In [None]:
import numpy as np

arr = np.array([1, 5, 2, 9, 10])
arr

print(type(arr))
# из вывода по результатам работы функции type() следует, 
# что даже при работе с одномерным массивом, на деле данные хранятся в объекте, 
# который позволяет работать с многомерными массивами

In [None]:
# Ниже приведен двумерный массив из списка списков.
nd_arr = np.array([
    [12, 45, 78],
    [34, 56, 13],
    [12, 98, 76]
])
nd_arr


In [None]:

# для того, чтобы узнать, какой тип данных хранится в массиве arr, 
# необходимо использовать функцию d.type 
# (спойлер, если не указан тип данных, то Python автомотически присваивает тип данных int64)

arr.dtype

**Задать тип данных сразу при создании массива можно с помощью параметра dtype:**

In [None]:
arr = np.array([1, 5, 2, 9, 10], dtype=np.int8)
arr

Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем уроке (например, np.int32 или np.float64):

In [None]:
print(np.__version__)

In [1]:
import numpy as np
arr = np.array([1, 5, 2, 9, 10], dtype=np.int8)
arr = np.float64(arr)
print(arr)
# array([ 1.,  5., 12.,  9., 10.], dtype=float64)

[ 1.  5.  2.  9. 10.]


При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий. ***Помним, что в этом случае при преобразовании, интерпретатор не выдает ошибку***

**Свойства NumPy массивов**

- Узнать размерность массива можно с помощью *.ndim*
- Узнать общее число элементов в массиве можно с помощью *.size*
- Форма или структура массива хранится в атрибуте *.shape* (выводится кортеж с числом элементов)
- Узнать, сколько «весит» **каждый** элемент массива в байтах позволяет *.itemsize*


In [None]:
print(arr.ndim)
print(arr.size)
print(arr.shape)
print(arr.itemsize)

**Заполнение новых массивов**

В NumPy нельзя создать пустой массив. Поэтому если нам нужно заранее подготовить массив, то данный массив должен быть чем-то заполнен.

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

Массив из нулей создаётся функцией *np.zeros.* Она принимает аргументы *shape* (обязательный) — форма массива (одно число или кортеж) и *dtype* (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
# Создание одномерного массива из пяти элементов с нулями
zeros_1d = np.zeros(5)
zeros_1d

In [None]:
# Создание трехмерного массива из пяти элементов с нулями

zeros_3d = np.zeros((5, 4, 3), dtype=np.float32)
print(zeros_3d.shape)
print(zeros_3d)

Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: 

**arange([start,] stop, [step,], dtype=None)**

Аргументы *start* (по умолчанию 0), *step* (по умолчанию 1) и *dtype* (определяется автоматически) являются необязательными:

- start (входит в диапазон возвращаемых значений) задаёт начальное число;
- stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
- step задаёт шаг, с которым в массив добавляются новые значения.

**В отличие** от range, в функции arange все перечисленные параметры могут иметь тип float.

In [None]:
a = np.arange(5)
b = np.arange(2.5, 5)
c = np.arange(2.5, 5, 0.5)
d = np.arange(2.5, 5, 0.5, dtype=np.float16)
e = np.arange(5, 1, -1)

list_var = [a, b, c, d, e]

for i in list_var:
    print(i)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию *linspace* (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

**np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)**

- start и stop являются **обязательными** параметрами, задающими начало и конец возвращаемого диапазона;
- num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
- endpoint — включён или исключён конец диапазона (по умолчанию включён);
- retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
- dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).


In [None]:
arr = np.linspace(1, 2, 10)
print(arr)

In [None]:
arr = np.linspace(1, 2, 10, endpoint=False) # создали массив и исключили последнее значение
print(arr)

In [None]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)


Функцию *linspace* очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

In [23]:
num_arr = np.linspace(-6, 21, 60, endpoint=False, retstep=True)
print(num_arr)

(array([-6.  , -5.55, -5.1 , -4.65, -4.2 , -3.75, -3.3 , -2.85, -2.4 ,
       -1.95, -1.5 , -1.05, -0.6 , -0.15,  0.3 ,  0.75,  1.2 ,  1.65,
        2.1 ,  2.55,  3.  ,  3.45,  3.9 ,  4.35,  4.8 ,  5.25,  5.7 ,
        6.15,  6.6 ,  7.05,  7.5 ,  7.95,  8.4 ,  8.85,  9.3 ,  9.75,
       10.2 , 10.65, 11.1 , 11.55, 12.  , 12.45, 12.9 , 13.35, 13.8 ,
       14.25, 14.7 , 15.15, 15.6 , 16.05, 16.5 , 16.95, 17.4 , 17.85,
       18.3 , 18.75, 19.2 , 19.65, 20.1 , 20.55]), np.float64(0.45))


### NumPy Действия с массивами

С помощью функции *arange* можно получать одномерные массивы из чисел. 
В NumPy существуют функции, которые позволяют менять форму массива.

Так, с помощью атрибута *shape* кортеха с желаемой формой, можно изменить форму созданного массива.

In [None]:
import numpy as np
arr = np.arange(8)
print(arr)
print()
arr.shape = (2,4) # первое число - строки, второе число - столбцы
print(arr)

Функция *shape* изменяет исходный массив. Для того, чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, надо использовать функцию *reshape*, которая принимает в качестве арогумент кортеж из чисел для формы, но возвращает новый массив.

Также функция *reshape* имеет необязательный аргумент *order*, который задает принцип, по которому элементы заполняют массив новой формы. Если *order='C'* (по умолчанию), массив заполняется по строкам, как в первом случае.
Если *order='F'*, массив заполняется числами по столбцам.

Транспонировать массивы можно с помощью функции *transpose* (при транспонировании одномерного массива его форма не меняется)

In [None]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='C')
print(arr)
print()
print(f"печатаем первый случай \n {arr_new}\n")
arr_new = arr.reshape((2, 4), order='F')
print(f"печатаем второй случай \n {arr_new}\n")
arr_trans = arr_new.transpose()
print(arr_trans)


**Индексы и срезы в массивах**

Ниже простые примеры работы с одномерными массивами:

К элементу массива можно обратиться по индеку так же, как и к списку (через квадратные скобки **[]**).

Стандартная запись срезов работает и для одномерных массивов (***[нач.элем : конеч.элем. : шаг]***)

Чтобы напечатать массив в обратном порядке используется конструкция среза с отрицательным шагом (**[::-1]**)

In [None]:
arr = np.linspace(1, 2, 6)
print(arr)
print()
# Обращегние по индексу
print(arr[2])
# Использование стандартного среза
print(arr[2:4]) # Последний элемент не включается
# Отображение в обратном порядке
print(arr[::-1])

Рассмотрим работу с многомерными массивами:

В библиотеке NumPy в одних квадратных скобках указывается обращение к интересующим индексам многомерного массива.

Общий принцип срезов с многомерным массивом схож с одномерным, за тем лишь исключением, что в квадратных скобках указываются через запятую индексы измерений, которые предполагается использовать.

In [None]:
nd_array = np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
print(nd_array)
print()
print(nd_array[1,2]) # сначала строки, потом столбцы

Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [None]:
print(nd_array[:2, 2])

Можно применять срезы сразу и к строкам, и к столбцам:

In [None]:
nd_array[1:, 2:4]

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [None]:
nd_array[:, 2:4]

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [None]:
nd_array[:2]

**Сортировка одномерных массивов**

Для её решения существуют встроенная в NumPy функция *sort*. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов. Применять функцию можно двумя способами:

Способ 1:  Функция np.sort(<массив>) возвращает новый отсортированный
Способ 2: Функция <массив>.sort() сортирует исходный массив и возвращает None

In [None]:
# Способ 1
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print('Способ 1')
print(arr)
print(arr_new) 
# Способ 2
arr = np.array([23,12,45,12,23,4,15,3])
print('Способ 2')
print(arr.sort())
print(arr)

**Работа с пропущенными данными**

Начнём с примера — создадим массив:

*data = np.array([4, 9, -4, 3])*

Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

*roots = np.sqrt(data)*

*roots*

*RuntimeWarning: invalid value encountered in sqrt*

*array([2.        , 3.        ,        nan, 1.73205081])*

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, **теперь присутствует объект nan**. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

**Отличие 1**

None является отдельным объектом типа NoneType. 

np.nan — это отдельный представитель класса float

**Отличие 2**

None могут быть равны друг другу, а np.nan — нет

Чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

**Алгоритм работы с пропущенными данными.** Для того, чтобы выявить прропущенные значения и заменить их нулями, для начала нужно воспользоваться функцией *np.isnan()* и узнать на каких местах находятся нули. 

Вопследствии, по индексу можно присвоить значениям типа nan значение нуля и работать с массивом без этих значений.

In [None]:
data = np.array([4, 9, -4, 3])
roots = np.sqrt(data)
print(roots)
print(sum(roots))
print()
np.isnan(roots)
roots[np.isnan(roots)]
print(roots)
print()
roots[(np.isnan(roots))] = 0
print(roots)
print(sum(roots))

### Операции с векторами

В программировании вектором называют одномерный проиндексированный набор данных, другими словами — одномерный массив.

С векторами в NumPy можно проводить **арифметические операции**, а именно складывать, вычитать, умножать друг на друга, возводить один ветор в степень другого и т.д.

Операция, применённая к двум векторам, на самом **деле применяется поэлементно**. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.



In [None]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
print(vec1 + vec2)
print(vec2 * vec1)

**Для совершения арифметических операций с векторами они должны быть одинаковой длины**. Исключением является умножение на скаляр.

Векторы можно сравнивать друг с другом поэлементно

In [None]:
print(vec1 > vec2)

**Продвинутые операции с векторами**

- Для вычисления длины вектора используется специализированный подмодуль NumPy - *linalg*, который позволяет производить операции из линейной алгебры. Так для вычисления длины вектора потребуется функция *norm()*. Также вышеуказанная функция может легкой найти расстояние между двумя векторами. Достаточно в качестве аргумента функции *norm()* указать разность между переменными, задающими векторы.

- Для вычисления скалярного произдведения векторов используется функция *dot()*

In [None]:
# нормирование вектора (вычисление длины вектора)
vec = np.array([3, 4])
length = np.linalg.norm(vec)
print(length)

# расстрояние между векторами
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
print(distance)

# скалярное произведение
scalar_product = np.dot(vec1, vec2)
print(scalar_product)

**Базовые статистические функции для векторов**

- Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min()
- Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [None]:
vec = np.array([2,7,18,28,18,1,8,4])

vec.min()
np.max(vec)
vec.mean()


### Случайные числа Numpy

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

**Псевдослучайные числа** — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

**ГЕНЕРАЦИЯ FLOAT**

Для генерации псевдослучайных чисел в NumPy существует подмодуль *random*.

Самой «базовой» функцией в нём можно считать функцию *rand()*. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно)

Чтобы получить случайное число в диапазоне (например от 0 до 100), достаточно просто умножить генерируемое число на 100

In [None]:
import numpy as np
print(np.random.rand()) # выводит число от 0 до 1 (невключительно)

print(np.random.rand() * 100)

На самом деле *rand* умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. 

**Синтаксис: np.random.rand(<количество элементов по оси а>, <количество элементов по оси b>, и т.д.)**

Например, получим массив из пяти случайных чисел, а также создадим массив из двух случайных строк и трех столбцов, ну и далее сделаем шестимерный массив из случайных чисел

In [None]:
a = np.random.rand(5)
print(a, '\n')
b = np.random.rand(2, 3)
print(b, '\n')
c = np.random.rand(2, 3, 4, 10, 12, 23)
print(c)


Важно отметить, что если в *rand()* передать в качестве аргумента кортеж, то будет выведена ошибка (однако, если кортеж в аргументе распаковать с помощью *, то ошибки не будет).

In [None]:
shape = (3, 4)
np.random.rand(*shape) # если кортеж распаковать, то все заработает

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется *sample*:

In [None]:
shape = (2, 3)
np.random.sample(shape)

Возможно, именно функция *sample* покажется вам удобнее, поскольку **информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке.** В остальном функция *sample* не отличается от *rand*.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция *uniform*:

**uniform(low=0.0, high=1.0, size=None)**

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

In [None]:
a = np.random.uniform()
b = np.random.uniform(-30, 50)
c = np.random.uniform(0.5, 0.75, size=5) # Пять случайных чисел в диапазоне 0.5 - 0.75
d = np.random.uniform(-1000, 500, size=(2,3)) # Массив из двх строк и трех столбцов в заданном диапазоне

list_random = [a, b, c, d]

for i in list_random:
    print(i)
    print()


**ГЕНЕРАЦИЯ INT**

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

**randint(low, high=None, size=None, dtype=int)**

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

- Если указан только аргумент *low*, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.

- Если задать *low* и *high*, числа будут генерироваться от low (включительно) до high (не включительно).

- *size* задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.

- *dtype* позволяет задать конкретный тип данных, который должен быть использован в массиве.

In [None]:
# например, сгенерирует таблицу 2х3 от 0 до 3 включительно

print(np.random.randint(4, size=(2,3)))
print()
# теперь зададм нижнюю и верхнюю границу

print(np.random.randint(6, 12, size=(3,3)))

**ГЕНЕРАЦИЯ ВЫБОРОК**

Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

- чтобы перемешать все числа в массиве используется функция *random.shuffle()*. Данная функция перемешивает тот массив, к которому применяется и возвращает None
- чтобы получить новый массив, а исходный остаивть без изменений, можно использовать функцию *random.permitation()*
- чтобы получить случайный набор объектом из массива используется функция *random.choice(a, size=None, replace=True)*, где а - одномерный массив или число для генерации arrange(a), size - желаемая форма массива, параметр, задающий, могут ли элементы повторяться (по-умолчанию могут)

In [None]:
# Вот так работает функция shuffle. Она перемешивает исходный массив
arr = np.arange(6)
print(arr)
print(np.random.shuffle(arr))
print(arr)
# рассмотрим функцию permutation. Она в отличие от shuffle не меныет исходный массив. 
# Также, в качестве аргумента функции permutation может передаваться либо переменная - массив, который будет перемешан, 
# либо передается число, в результате чего будет создан массив, который будет перемешан
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffeled = np.random.permutation(playlist)
print(shuffeled)
print(playlist)
print(np.random.permutation(10))

Чтобы получить случайный набор объектов из массива, используется функция *random.choice*

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).


In [None]:
np.random.seed(23)
np.random.randint(10, size=(3,4))

In [None]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))
# [4 2 5]

При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.