# ЦЕЛОЧИСЛЕННЫЕ ТИПЫ ДАННЫХ В NUMPY

Это тип данных с общим корнем int. Int может быть со следующими окончаниями: int8, int16, int32 и int64. Окончание типа данных в NumPy показывает, сколько битов памяти должно быть выделено для хранения переменной.

Преобразуем обычное целое число в NumPy-тип, например в int8. Для этого напишем выражение np.int8 и круглые скобки. В круглых скобках в качестве аргумента передадим тот объект, который должен быть преобразован:

In [4]:
import numpy as np

a = np.int8(25)
print(a)

25


Как видите, при печати нет никакой разницы между встроенным int и np.int8. Как же понять, что в a теперь действительно NumPy-тип данных? Воспользуемся функцией type:

In [5]:
print(type(a))

<class 'numpy.int8'>


В самом деле, переменная a теперь принадлежит к типу int8. 

Ранее вы изучили, как по заданному числу бит узнать, в каких границах может находиться целое число в памяти. На самом деле с NumPy вам не потребуется считать это вручную!

Чтобы узнать границы int, можно воспользоваться функцией np.iinfo (int info):

In [7]:
#можно применить к самому названию типа данных
np.iinfo(np.int8)

iinfo(min=-128, max=127, dtype=int8)

In [8]:
#можно применить к существующему конкретному объекту
np.iinfo(a)

iinfo(min=-128, max=127, dtype=int8)

In [9]:
np.iinfo(np.int16)

iinfo(min=-32768, max=32767, dtype=int16)

In [10]:
np.iinfo(np.int32)

iinfo(min=-2147483648, max=2147483647, dtype=int32)

In [11]:
np.iinfo(np.int64)

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

В NumPy доступны и беззнаковые целочисленные типы данных. Они имеют корень uint (unsigned int — беззнаковое целое). uint доступны также с выделением памяти в 8, 16, 32 и 64 бита. При этом максимально возможное число оказывается в два раза больше, чем для соответствующего int, поскольку отрицательные числа исключены из типа данных uint.

Преобразуем число 124 в uint8, а также узнаем пограничные значения полученной переменной:

In [12]:
b = np.uint8(124)
print(b)
print(type(b))
np.iinfo(b)

124
<class 'numpy.uint8'>


iinfo(min=0, max=255, dtype=uint8)

# НЕСКОЛЬКО ЗАМЕЧАНИЙ О ПРИВЕДЕНИИ ТИПОВ

Как вы могли заметить на примере целочисленных типов, преобразовывать числа довольно просто: главное, не забыть написать np, указать новый тип данных, а в скобках передать то число или ту переменную, которую необходимо преобразовать. Однако следует учитывать несколько моментов.

1. Тип данных не сохранится, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

In [13]:
a = np.int32(1000)
print(a)
print(type(a))
a = 2056
print(a)
print(type(a))

1000
<class 'numpy.int32'>
2056
<class 'int'>


Вместо этого следует снова указать нужный NumPy-тип данных:

In [14]:
a = np.int32(1000)
print(a)
print(type(a))
a = np.int32(2056)
print(a)
print(type(a))

1000
<class 'numpy.int32'>
2056
<class 'numpy.int32'>


А вот арифметические операции сохраняют NumPy-тип данных:

In [15]:
a = np.int32(1000)
b = a + 25
print(b)
print(type(b))

1025
<class 'numpy.int32'>


**Примечание.** В некоторых более старых версиях NumPy тип данных может измениться на int64 вместо ожидаемого int32. Это связано с тем, что число 25 может быть сначала преобразовано в NumPy-тип данных int (по умолчанию int64) перед сложением. Скорее всего, на практике вам не особо помешает такая особенность, однако о ней следует помнить, когда требуется хранить числа максимально оптимальным способом.

Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:

In [16]:
a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)
print(type(c))

1025
<class 'numpy.int32'>


2. Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

In [17]:
a = np.int8(260)
print(a)

4


В переменной a теперь оказалось число 4, а не 260. По сути в переменную записался остаток от деления 260 на 256, а не само число. Ошибка при этом не возникла.

Если же при арифметических операциях происходит переполнение максимально выделенной памяти для типа, возникает предупреждение.

Например, выполним сложение двух очень больших чисел типа int32 (максимум для этого типа — 2147483647):

In [18]:
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
print(a + b)

2147483610 2147483605
-81


  print(a + b)


# ТИПЫ ДАННЫХ С ПЛАВАЮЩЕЙ ТОЧКОЙ В NUMPY

Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых float нет.

Доступны следующие типы данных float: float16, float32, float64 (применяется по умолчанию, если объём памяти не задан дополнительно), float128.

Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info):

In [22]:
np.finfo(np.float16)
np.finfo(np.float32)
np.finfo(np.float64)
np.finfo(np.float128)

AttributeError: module 'numpy' has no attribute 'float128'

Рассмотрим вывод finfo для float16 внимательнее.

Для начала посмотрим на значения min и max. Они указаны в стандартном виде x * 10 ** n числа. Это такой формат записи числа, при котором число записывается в виде , где n — целое число, а для x верно: 1 <= x < 10.

Например, 2021 можно записать в виде 2.021 * 10 ** 3. При выводе числа в стандартном виде вместо умножения на 10 в степени n пишется буква e, знак степени (+ или -) и сама степень. Следовательно, число 2021 может быть представлено как 2.021e + 3.

Таким образом, минимальным значением float16 является -6.55040e+04, или -65504.0. Максимальное значение — 6.55040e+04, или 65504.0.

Resolution (от англ. «разрешение») в выводе finfo означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа float16 идёт уже с шагом 0.005:

In [23]:
print(np.float16(4.12))
print(np.float16(4.13))
print(np.float16(4.123))
print(np.float16(4.124))
print(np.float16(4.125))

4.12
4.13
4.12
4.125
4.125


# ДОПОЛНИТЕЛЬНЫЕ ТИПЫ ДАННЫХ В NUMPY

Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута sctypeDict. Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться в зависимости от версии NumPy)! Однако основные названия типов данных в NumPy не меняются от версии к версии.

print(np.sctypeDict)
print(len(np.sctypeDict))

На самом деле реальных типов данных гораздо меньше, просто одни и те же типы данных могут иметь разные ярлыки. Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, что делают все функции, которые в нём использованы:

In [25]:
print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')

<class 'numpy.bool_'>
<class 'numpy.bytes_'>
<class 'numpy.clongdouble'>
<class 'numpy.complex128'>
<class 'numpy.complex64'>
<class 'numpy.datetime64'>
<class 'numpy.float16'>
<class 'numpy.float32'>
<class 'numpy.float64'>
<class 'numpy.int16'>
<class 'numpy.int32'>
<class 'numpy.int64'>
<class 'numpy.int8'>
<class 'numpy.intc'>
<class 'numpy.longdouble'>
<class 'numpy.object_'>
<class 'numpy.str_'>
<class 'numpy.timedelta64'>
<class 'numpy.uint16'>
<class 'numpy.uint32'>
<class 'numpy.uint64'>
<class 'numpy.uint8'>
<class 'numpy.uintc'>
<class 'numpy.void'>


Всего в выдаче будет 24 строки. Int, uint и float мы уже изучили. Datetime и timedelta используются для хранения времени, complex используется для работы с комплéксными числами.

Следует обратить внимание на типы данных bool_ и str_. Они аналогичны bool и str из встроенных в Python, однако записывать их необходимо именно с нижним подчёркиванием, иначе произойдёт приведение к стандартному типу данных, а не типу NumPy. В целом, существенной разницы между этими типами данных нет, однако о такой двойственности следует помнить при сравнении типов переменных: тип bool не является эквивалентным numpy.bool_, несмотря на то что оба типа данных хранят значения True или False.

Примечание: в версиях NumPy 1.20 и выше появится предупреждение, если попытаться привести типы с помощью np.bool или np.str, а не np.bool_ или np.str_. Однако в более ранних версиях данное предупреждение не появляется.

Пример с bool:

In [26]:
a = True
print(type(a))
a = np.bool(a)
print(type(a))
a = np.bool_(a)
print(type(a))

<class 'bool'>
<class 'bool'>
<class 'numpy.bool_'>


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  a = np.bool(a)


In [28]:
print(np.bool(True) == np.bool_(True))
print(type(np.bool(True)) == type(np.bool_(True)))

True
False


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  print(np.bool(True) == np.bool_(True))
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  print(type(np.bool(True)) == type(np.bool_(True)))


Небольшое замечание про bool: несмотря на то что для хранения значения истина/ложь было бы достаточно только одного бита, из-за особенностей работы с памятью компьютера булевая переменная всё равно занимает в памяти целый байт.



In [29]:
print(np.uint8(-456))

56


# МАССИВЫ

![jupyter](https://lms.skillfactory.ru/assets/courseware/v1/67a714cee769f0e01d1f8ac250dbdf02/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md9_6_1.png)

→ Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки. 

Однако массивы обладают особым свойством: элемент по любому номеру из массива можно получить за одно и то же время. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Обычно такое быстродействие массивов достигается за счёт того, что все элементы в массиве приведены к одному и тому же типу данных. Как именно это позволяет ускорить работу с данными, будет показано немного позднее.

Наконец, традиционные массивы обладают заданной программистом длиной (числом элементов), на которую компьютер выделяет память. Для сравнения — в списке длина изначально ничем не ограничена.

Итак, массив — это структура данных, в которой:

1. Элементы хранятся в указанном порядке.

2. Каждый элемент можно получить по индексу за одинаковое время.

3. Все элементы приведены к одному и тому же типу данных.

4. Максимальное число элементов и объём выделенной памяти заданы заранее.

→ Обсудим подробнее, как достигается одинаковое время доступа к элементам.

Представьте, что вы умеете телепортироваться. Вам необходимо переместиться на 10 кварталов вперёд. Проблема в том, что каждый квартал обладает разной длиной, и поэтому вы не сможете сразу попасть в нужное место. Вам придётся каждый раз проверять, в каком квартале вы находитесь и сколько кварталов осталось до нужного. А теперь допустим, что каждый квартал имеет длину 200 метров. Тогда, чтобы переместиться на 10 кварталов вперёд, достаточно телепортироваться на 2 000 метров.

Именно это происходит при работе компьютера с массивами: чтобы получить десятый элемент массива, если известно, например, что каждый элемент занимает 64 бита, достаточно прочитать элемент в памяти длиной 64 бита, который находится через 640 бит от начала массива. Компьютер умеет выполнять эту операцию очень быстро.

Также, поскольку элементы в массиве располагаются в памяти последовательно, рядом друг с другом, это позволяет быстрее выполнять операции сразу с совокупностью элементов.

Представьте себе класс, который едет на экскурсию в другой город на поезде. Конечно, чаще всего билеты приобретают в один вагон, чтобы школьников было проще контролировать. Только представьте себе, каково бы пришлось учителям, если бы все школьники ехали по разным вагонам!

Введём ещё два термина.

**Размерностью массива** называют то число индексов, которое необходимо для однозначного получения элемента из массива.

* Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
* В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
* Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.

Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

**Форма (структура) массива** — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

Чем же всё это отличается от списка?

* В списке не гарантируется получение любого элемента по индексу за одинаковое время (обычно чем больше индекс, тем дольше занимает время получения элемента).
* Также с совокупностью элементов списка работать дольше, чем с элементами массива. На самом деле Python list является чем-то средним между классическим списком из теории структур данных и массивом, но по скорости он тоже проигрывает массивам.

Зато к преимуществам списка можно отнести легко изменяющуюся длину, а также возможность хранения данных разных типов в одной структуре данных. С другой стороны, последнее может быть и недостатком: при работе с массивами одинаковых данных можно быть уверенным, что там не окажется «сюрпризов» в виде данных неподходящего типа.

# МАССИВЫ В NUMPY

В большинстве языков программирования, таких как Java или Pascal, массивы реализуются «из коробки», а вот для списков требуется подключение дополнительных библиотек. В Python всё наоборот, поэтому мы будем пользоваться массивами из модуля NumPy.

## СОЗДАНИЕ МАССИВА ИЗ СПИСКА

Создать массив из списка можно с помощью функции np.array(<объект>):

In [36]:
import numpy as np

arr = np.array([1,5,2,9,10])
arr

array([ 1,  5,  2,  9, 10])

Функция np.array возвращает объекты типа numpy.ndarray:

In [37]:
print(type(arr))

<class 'numpy.ndarray'>


Название ndarray — это сокращение от n-dimensional array, n-мерный массив.

Таким образом, массивы в NumPy, даже одномерные, на самом деле хранятся в объекте, который позволяет работать с многомерными массивами.

Давайте теперь создадим двумерный массив из списка списков. Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции np.array():

In [38]:
nd_arr = np.array([
                 [12, 45, 78],
                 [34, 56, 13],
                 [12, 98, 76]
                 ])
nd_arr

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

## ТИПЫ ДАННЫХ В МАССИВЕ

Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

In [39]:
arr = np.array([1,5,2,9,10])
arr.dtype

dtype('int32')

Примечание: данный код выполнялся в Google Colab, где по умолчанию используется NumPy 1.19.5. В более новых версиях int-типом по умолчанию является int32. Не удивляйтесь, если в последней версии NumPy вы увидите отличающийся результат выполнения ячейки.

NumPy автоматически определил наш набор чисел как числа типа int64. Если мы, например, не планируем хранить в этом массиве целые числа более 127, можно было сразу при создании массива задать тип данных int8.

Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, даже если разработчик этого явно не указал.

 Задать тип данных сразу при создании массива можно с помощью параметра dtype:

In [40]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr

array([ 1,  5,  2,  9, 10], dtype=int8)

При этом тип данных теперь выводится на экран при отображении массива средствами Jupyter Notebook. 

Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:

In [41]:
arr[2] = 2000
arr

array([  1,   5, -48,   9,  10], dtype=int8)

Если добавить float в массив int, пропадёт десятичная часть:

In [42]:
arr[2] = 125.5
arr

array([  1,   5, 125,   9,  10], dtype=int8)

Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

In [43]:
arr[2] = '12'
arr

array([ 1,  5, 12,  9, 10], dtype=int8)

А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

In [44]:
arr[2] = 'test'

ValueError: invalid literal for int() with base 10: 'test'

Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, np.int32 или np.float128):

In [46]:
arr = np.float64(arr)
arr

array([ 1.,  5., 12.,  9., 10.])

При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

In [49]:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr

array([12321, -1234,  3435,  -214,   100])

In [50]:
arr = np.uint8(arr)
arr

array([ 33,  46, 107,  42, 100], dtype=uint8)

Все числа, кроме 100, не могли быть корректно представлены в формате uint8, поэтому они отличаются от того, что ожидалось.

## Задание 6.3

Выберите все типы данных, которые подходят для хранения в одном массиве без потери точности всех следующих чисел: 345234, 876362.12, 0, -1000, 99999999.

Создайте массив из этих чисел с предложенными типами данных и посмотрите на результаты.

In [58]:
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float16)
arr

array([   inf,    inf,     0., -1000.,    inf], dtype=float16)

In [57]:
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float32)
arr

array([ 3.452340e+05,  8.763621e+05,  0.000000e+00, -1.000000e+03,
        1.000000e+08], dtype=float32)

In [55]:
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float64)
arr

array([ 3.4523400e+05,  8.7636212e+05,  0.0000000e+00, -1.0000000e+03,
        9.9999999e+07])

## СВОЙСТВА NUMPY-МАССИВОВ

Вы уже узнали, как получить тип данных, который хранится в массиве. Сделать это можно с помощью атрибута dtype. Есть и другие свойства массивов, которые будет полезно узнать.

Будем тренироваться на массивах arr и nd_arr:

In [59]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([[12, 45, 78],
                  [34, 56, 13],
                  [12, 98, 76]
                  ], dtype=np.int16)

1. Узнать размерность массива можно с помощью .ndim:

In [61]:
arr.ndim

1

In [62]:
nd_arr.ndim

2

В самом деле, мы создали arr одномерным, а nd_arr — двумерным.

2. Узнать общее число элементов в массиве можно с помощью .size:

In [63]:
arr.size

5

In [64]:
nd_arr.size

9

3. Форма или структура массива хранится в атрибуте .shape:

In [65]:
arr.shape

(5,)

In [66]:
nd_arr.shape

(3, 3)

Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

4. Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

In [67]:
arr.itemsize

1

In [68]:
nd_arr.itemsize

2

Действительно, в arr хранятся числа в виде int8 (8 бит => 1 байт), а в nd_arr — в виде int16 (16 бит => 2 байта).

## ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ

→ Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

Создадим одномерный массив из пяти элементов:

In [69]:
zeros_1d = np.zeros(5)
zeros_1d

array([0., 0., 0., 0., 0.])

Создадим трёхмерный массив с формой 5x4x3 и типом float32:

In [70]:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)

(5, 4, 3)


Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

* start (входит в диапазон возвращаемых значений) задаёт начальное число;
* stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
* step задаёт шаг, с которым в массив добавляются новые значения.

В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

In [71]:
np.arange(5)

array([0, 1, 2, 3, 4])

Создадим массив от 2.5 до 5:

In [72]:
np.arange(2.5, 5)

array([2.5, 3.5, 4.5])

Создадим массив от 2.5 до 5 с шагом 0.5:

In [73]:
np.arange(2.5, 5, 0.5)

array([2.5, 3. , 3.5, 4. , 4.5])

Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:

In [74]:
np.arange(2.5, 5, 0.5, dtype=np.float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

* start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
* num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
* endpoint — включён или исключён конец диапазона (по умолчанию включён);
* retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
* dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

In [75]:
arr = np.linspace(1, 2, 10)
arr

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

Создадим массив из десяти чисел между 1 и 2, не включая 2:

In [76]:
arr = np.linspace(1, 2, 10, endpoint=False)
arr

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

In [77]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)

0.1111111111111111


In [78]:
arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

0.1


→ Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

## Задание 6.6

С каким шагом сгенерируется массив из 60 чисел от -6 до 21 включительно? Ответ округлите до двух знаков после точки.

In [81]:
mass, step = np.linspace(-6, 21, 60, endpoint=True, retstep=True)
print(step)

0.4576271186440678


## Задание 6.7

С каким шагом сгенерируется массив из 60 чисел от -6 (включительно) до 21 (не включительно)? Ответ округлите до 2 знаков после точки.

In [82]:
mass, step = np.linspace(-6, 21, 60, endpoint=False, retstep=True)
print(step)

0.45


## Задание 6.8

Узнайте размерность массива mystery.

# ДЕЙСТВИЯ С МАССИВАМИ

## ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива.

Создадим массив из восьми чисел:

In [85]:
import numpy as np

arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

In [86]:
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [87]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

In [88]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

Будем работать с двумерным массивом:

In [90]:
arr = np.arange(8)
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Транспонируем его:

In [91]:
arr_trans = arr.transpose()
arr_trans

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

При транспонировании одномерного массива его форма не меняется:

In [92]:
arr = np.arange(3)
print(arr.shape)
arr_trans = arr.transpose()
print(arr_trans.shape)

(3,)
(3,)


## ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

Создадим массив из шести чисел:

In [93]:
arr = np.linspace(1, 2, 6)
arr

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

Обратиться к его элементу по индексу можно так же, как и к списку:

In [94]:
print(arr[2])

1.4


Привычная запись для срезов работает и для одномерных массивов:

In [95]:
print(arr[2:4])

[1.4 1.6]


Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

In [96]:
print(arr[::-1])

[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [97]:
nd_array = np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

In [98]:
nd_array[1][2]

3.0

Мы получили число из второй строки и третьего столбца массива.

Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:

In [100]:
nd_array[1, 2]

3.0

Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [101]:
nd_array[:2, 2]

array([1., 3.])

Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

Можно применять срезы сразу и к строкам, и к столбцам:

In [103]:
nd_array[1:, 2:4] #[строка, столбец]

array([[3. , 3.5],
       [5. , 5.5]])

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [161]:
nd_array[:, 2:4]

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [105]:
nd_array[:2]

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

## Задание 7.2

Выполните все действия, указанные в комментариях в файле main.py.

Нумерация в заданиях начинается с нуля.

Пожалуйста, не меняйте названия переменных, в которых должны появиться ответы.

In [145]:
nd_array[1]

array([2. , 2.5, 3. , 3.5])

## СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.

**Способ 1**. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [146]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)

[23 12 45 12 23  4 15  3]


In [147]:
print(arr_new)

[ 3  4 12 12 15 23 23 45]


**Способ 2**. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [148]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
print(arr)

None
[ 3  4 12 12 15 23 23 45]


## РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

Начнём с примера — создадим массив:

In [149]:
data = np.array([4, 9, -4, 3])


Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

In [150]:
roots = np.sqrt(data)
roots

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

**Отличие 1**. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

In [151]:
print(type(None))
print(type(np.nan))

<class 'NoneType'>
<class 'float'>


**Отличие 2**. None могут быть равны друг другу, а np.nan — нет:

Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

In [152]:
print(None == None)
print(np.nan == np.nan)

True
False


In [153]:
print(None is None)
print(np.nan is np.nan)
print(np.nan is None)

True
True
False


Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [154]:
sum(roots)

nan

Что же делать?

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [155]:
np.isnan(roots)

array([False, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [156]:
roots[np.isnan(roots)]

array([nan])

Этим элементам можно присвоить новые значения, например 0:

In [157]:
roots[np.isnan(roots)] = 0
roots

array([2.        , 3.        , 0.        , 1.73205081])

После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива

In [158]:
sum(roots)

6.732050807568877

Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, например, на 0, чтобы подсчитать сумму элементов массива.

# ВЕКТОРЫ В NUMPY И АРИФМЕТИКА

С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, возводить один вектор в степень другого и т. д.

Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.

Рассмотрим примеры ↓

Произведём сложение двух векторов:

In [163]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2

array([14. , 10. , 10.6, 15.5])

Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

In [164]:
list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2

[2, 4, 7, 2.5, 12, 6, 3.6, 13]

Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

In [165]:
[x + y for x, y in zip(list1, list2)]

[14, 10, 10.6, 15.5]

Для совершения арифметических операций с векторами они должны быть одинаковой длины.

Поэлементно умножим два вектора одинаковой длины:

In [166]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2

array([24. , 24. , 25.2, 32.5])

А теперь создадим vec2, который будет на один элемент короче, чем vec1:

In [167]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
vec1 * vec2

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа:

In [171]:
vec = np.arange(5)
print(vec * 10)
vec ** 2

[ 0 10 20 30 40]


array([ 0,  1,  4,  9, 16])

Также векторы можно сравнивать друг с другом поэлементно:

In [172]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])

vec1 > vec2

array([False, False,  True, False])

В результате получаем вектор исходной длины из булевых переменных, которые соответствуют результату поэлементного сравнения чисел из двух векторов.

Аналогично можно сравнивать вектор с числом:

In [173]:
vec = np.array([14, 15, 9, 26, 53, 5, 89])
vec <= 26

array([ True,  True,  True,  True, False,  True, False])

# ПРОДВИНУТЫЕ ОПЕРАЦИИ С ВЕКТОРАМИ

 курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, нахождение расстояния между векторами, вычисление скалярного произведения. Некоторые из них очень часто используются в машинном обучении, алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, что у нас есть база данных всех существующих лиц, представленных в виде векторов. Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных, расстояние до которого минимально, чтобы определить человека по лицу.

**Длина вектора**, то есть расстояние между его началом и концом, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов всех его координат. Для вектора из n чисел x1, x2 … xn верна формула:

length = sqrt(x1 ** 2 + x2 ** 2 + ... + xn ** 2)

Посчитаем длину следующего вектора:

In [174]:
vec = np.array([3, 4])

Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

In [175]:
length = np.sqrt(np.sum(vec ** 2))
print(length)

5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

Для вычисления длины вектора нам потребуется функция norm:

In [176]:
length = np.linalg.norm(vec)
print(length)

5.0


**Расстояние** между двумя векторами, то есть расстояние между их концами, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов разностей соответствующих координат. Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами x и y):

distance = sqrt((x1 - y1) ** 2 + (x2 - y2) ** 2 + ... + (xn - yn) ** 2)

→ По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

In [178]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance

12.206555615733702

А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

In [180]:
distance = np.linalg.norm(vec1 - vec2)
distance

12.206555615733702

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. Вот формула для скалярного произведения векторов x и y из n координат:

x * y = x1 * y1 + x2 * y2 + ... + xn * yn 
Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [181]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product

250.0

Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, поэтому возник резонный вопрос: можно ли проще и вообще без формул?

Да! Для этого используют функцию np.dot(x, y):

In [182]:
scalar_product = np.dot(vec1, vec2)
scalar_product

250.0

Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:

In [183]:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)

0

Здесь были специально заданы векторы, параллельные осям x и y (так как одна из координат в них равна нулю). Они перпендикулярны, как перпендикулярны соответствующие оси, а скалярное произведение действительно равно нулю.

В целом, скалярное произведение часто используется для определения угла между векторами.

Зачем это может пригодиться специалисту в Data Science?

→ Вам ещё обязательно предстоит работать с векторами не только при изучении теории линейной алгебры, но и при освоении машинного обучения на практике. Например, есть специальные преобразования, которые позволяют превратить слова в тексте в числовые векторы. Затем с помощью определения направлений полученных векторов можно находить слова-синонимы и антонимы, а также оценивать общую эмоциональную окраску текста. Такие алгоритмы для анализа данных используются, чтобы автоматически по отзывам определять степень удовлетворённости клиентов продуктом.

## Задание 8.4

найдите пару сонаправленных векторов.

 сумма длин сонаправленных векторов должна быть равной длине суммы двух векторов.

In [191]:
a = np.array([23, 34, 27])
b = np.array([-54, 1,  46])
c = np.array([46, 68, 54])

len_a = np.linalg.norm(a)
len_b = np.linalg.norm(b)
len_c = np.linalg.norm(c)

x = np.linalg.norm(a + b)
y =  np.linalg.norm(b + c)
z = np.linalg.norm(c + a)

print(len_a + len_b == x)
print(len_b + len_c == y)
print(len_c + len_a == z)

False
False
True


## Задание 8.5

Найдите пару векторов, расстояние между которыми больше 100.

In [193]:
dis1 = np.linalg.norm(a - b)
dis2 = np.linalg.norm(a - c)
dis3 = np.linalg.norm(b - c)

print(dis1, dis2, dis3)

85.901105930017 49.13247398615299 120.6358155772986


## Задание 8.6

Найдите пару перпендикулярных векторов с помощью скалярного произведения (оно должно быть равно нулю).

In [195]:
scal1 = np.dot(a, b)
scal2 = np.dot(a, c)
scal3 = np.dot(b, c)

print(scal1, scal2, scal3)

34 4828 68


# БАЗОВЫЕ СТАТИСТИЧЕСКИЕ ФУНКЦИИ ДЛЯ ВЕКТОРОВ

После теоретического экскурса в линейную алгебру давайте изучим несколько удобных функций, которые позволяют быстро получать статистику о векторе.

→ Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [199]:
vec = np.array([2, 7, 18, 28, 18, 1, 8, 4])
print(vec.min())

np.max(vec)

1


28

→
Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [200]:
vec.mean()

10.75

Существует множество дополнительных функций для получения статистических данных о векторе. Уделять им всем внимание сейчас не требуется, к тому же у вас пока не было модуля по статистике.

Однако если вам вдруг потребуется какая-либо базовая статистическая функция, она, скорее всего, уже реализована в NumPy.

### ДОПОЛНИТЕЛЬНО

На данном русскоязычном сайте (https://pyprog.pro/statistics_functions/statistics_function.html) представлены доступные в NumPy статистические функции. Все функции, перечисленные там, снабжены ссылками, по которым приведены подробные описания и примеры. А ещё в верхнем меню есть пункт «Справочное руководство», который позволяет узнать и о других функциях для работы с массивами. Их гораздо больше, чем тот минимум, который изучен в данном модуле и необходим чаще всего.

# СЛУЧАЙНЫЕ ЧИСЛА В NUMPY

## ГЕНЕРАЦИЯ FLOAT

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [201]:
import numpy as np

np.random.rand()

0.3511584780557322

→ Поскольку теперь мы работаем со случайными числами, не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.

Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [203]:
np.random.rand() * 100

20.235998468361792

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [204]:
np.random.rand(5)

array([0.86946858, 0.74453961, 0.46369774, 0.24409792, 0.28143632])

Массив из двух случайных строк и трёх столбцов:

In [205]:
np.random.rand(2, 3)

array([[0.10815136, 0.90618767, 0.0376077 ],
       [0.19948043, 0.07181903, 0.35907884]])

Функция rand может принимать неограниченное число целых чисел для задания формы массива:

In [206]:
np.random.rand(2, 3, 4, 10, 12, 23)

array([[[[[[4.44500454e-01, 2.49111062e-01, 2.89836157e-01, ...,
            5.42740261e-01, 5.98302607e-01, 8.29520199e-01],
           [1.01337274e-01, 5.21554496e-02, 7.33138078e-01, ...,
            3.71338245e-02, 7.97917093e-01, 1.38781504e-01],
           [2.06900556e-01, 8.73937020e-01, 9.92048204e-02, ...,
            6.22784444e-01, 1.77837544e-01, 7.57142628e-01],
           ...,
           [1.57982288e-01, 5.56646324e-02, 5.17058512e-01, ...,
            1.83709285e-01, 5.79885317e-02, 7.12024751e-01],
           [7.82456230e-01, 4.58070329e-01, 8.27248921e-01, ...,
            5.64257256e-01, 6.61710369e-02, 6.28992885e-01],
           [2.11480501e-01, 6.34454763e-01, 7.53212171e-01, ...,
            1.05402353e-01, 6.27822867e-01, 8.58718512e-01]],

          [[7.30868328e-01, 7.26858191e-01, 5.52689224e-01, ...,
            4.30748080e-01, 7.16136306e-01, 2.04336703e-01],
           [7.96281740e-01, 3.03858882e-01, 5.86312139e-01, ...,
            6.22276702e-01, 1.36404

Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, а не перечисляли её в виде аргументов через запятую.

Если передать в rand кортеж, возникнет ошибка:

In [207]:
shape = (3, 4)
np.random.rand(shape)

TypeError: 'tuple' object cannot be interpreted as an integer

Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [208]:
shape = (3, 4)
np.random.rand(*shape)

array([[0.21614766, 0.9465136 , 0.43335541, 0.34455736],
       [0.96130132, 0.19808667, 0.72387066, 0.58357964],
       [0.11105929, 0.19812978, 0.08348042, 0.52780101]])

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

In [209]:
shape = (3, 4)
np.random.sample(shape)

array([[0.18613667, 0.95765042, 0.14354298, 0.87414489],
       [0.6584242 , 0.87476081, 0.66069411, 0.03416029],
       [0.39639191, 0.49484752, 0.69922959, 0.97055333]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

In [210]:
uniform(low=0.0, high=1.0, size=None)

NameError: name 'uniform' is not defined

Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

Давайте поэкспериментируем ↓

Запуск без аргументов эквивалентен работе функций rand или sample:

In [211]:
np.random.uniform()

0.7438482679657261

Зададим границы диапазона от -30 до 50:

In [212]:
np.random.uniform(-30, 50)

20.44072730573336

Получим пять чисел в интервале от 0.5 до 0.75:

In [213]:
np.random.uniform(0.5, 0.75, size=5)

array([0.709329  , 0.59116397, 0.67352699, 0.54448237, 0.63640088])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [214]:
np.random.uniform(-1000, 500, size=(2, 3))

array([[-657.60065051, -200.96688727,  185.44370659],
       [-790.06632198, -309.68825077, -377.7825965 ]])

## ГЕНЕРАЦИЯ INT

Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

In [None]:
randint(low, high=None, size=None, dtype=int)

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

* Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
* Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
* size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
* dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [215]:
np.random.randint(4, size=(2, 3))

array([[3, 3, 3],
       [3, 2, 2]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [219]:
np.random.randint(6, 12, size=(3, 3))

array([[ 8,  8,  8],
       [ 6,  8, 11],
       [ 7,  9,  9]])

Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

## ГЕНЕРАЦИЯ ВЫБОРОК

→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

→
Просто перемешать все числа в массиве позволяет функция random.shuffle.

Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [221]:
arr = np.arange(6)
print(arr)
print(np.random.shuffle(arr))
arr

[0 1 2 3 4 5]
None


array([4, 5, 3, 2, 0, 1])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

→
Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [222]:
playlist = ['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']
shuffled = np.random.permutation(playlist)
print(shuffled)
print(playlist)

['The Beatles' 'Pink Floyd' 'Deep Purple' 'ACDC']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

array([4, 2, 1, 7, 3, 9, 6, 0, 5, 8])

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.

→
Чтобы получить случайный набор объектов из массива, используется функция random.choice:

In [None]:
choice(a, size=None, replace=True)

* a — одномерный массив или число для генерации arange(a);
* size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
* replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [226]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Kate' 'Nikita']


На выходе получили массив из двух имён без повторений. 

Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

In [227]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)

ValueError: Cannot take a larger sample than population when 'replace=False'

Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [228]:
choice = np.random.choice([1, 2, 3, 4, 5, 6], size=10)
print(choice)

[5 2 2 6 6 1 3 6 2 5]


## SEED ГЕНЕРАТОРА ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ

→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2 ** 32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [244]:
#np.random.seed(23)
np.random.randint(10, size=(3,4))

array([[4, 0, 9, 6],
       [2, 4, 1, 5],
       [3, 4, 4, 3]])

In [245]:
#np.random.seed(100)
print(np.random.randint(10, size=3))
print(np.random.randint(10, size=3))
print(np.random.randint(10, size=3))

[7 1 1]
[7 7 0]
[2 9 9]


При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

## ЗАДАНИЕ 10.6

Напишите функцию get_chess, которая принимает на вход длину стороны квадрата a и возвращает двумерный массив формы (a, a), заполненный 0 и 1 в шахматном порядке. В левом верхнем углу всегда должен быть ноль.

Примечание: воспользуйтесь функцией zeros из библиотеки numpy, а затем с помощью срезов без циклов задайте необходимым элементам значение 1.

Напоминание: в Python для получения каждого второго элемента используется срез [::2]. Подумайте, как грамотно применить этот принцип к двумерному массиву.

In [251]:
import numpy as np
def get_chess(a):
    mass = np.zeros((a, a))
    mass[1::2, ::2] = 1
    mass[::2, 1::2] = 1
    return mass

get_chess(4)
    

array([[0., 1., 0., 1.],
       [1., 0., 1., 0.],
       [0., 1., 0., 1.],
       [1., 0., 1., 0.]])

## ЗАДАНИЕ 10.7

Вы разрабатываете приложение для прослушивания музыки. Конечно же, там будет доступна функция перемешивания плейлиста. Пользователю может настолько понравиться перемешанная версия плейлиста, что он захочет сохранить его копию. Однако вы не хотите хранить в памяти новую версию плейлиста, а просто хотите сохранять тот seed, с которым он был сгенерирован.

Для этого напишите функцию shuffle_seed(<array>),  которая принимает на вход массив из чисел, генерирует случайное число для seed в диапазоне от 0 до 2**32 - 1 (включительно) и возвращает кортеж: перемешанный с данным seed массив (исходный массив должен оставаться без изменений), а также seed, с которым этот массив был получен.

In [263]:
import numpy as np
def shuffle_seed(array):
    seed = np.random.randint(2 ** 32)
    np.random.seed(seed)
    result = np.random.permutation(array)
    return result, seed

array = [1, 2, 3, 4, 5]
shuffle_seed(array)

ValueError: high is out of bounds for int32

## ЗАДАНИЕ 10.8

Напишите функцию min_max_dist, которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает минимальное и максимальное расстояние между векторами в виде кортежа.

In [265]:
import numpy as np

def min_max_dist(*vectors):
    dists = list()
    for i in range(len(vectors)):
        for j in range (i + 1, len(vectors)):
            dists.append(np.linalg.norm(vectors[i] - vectors[j]))
    return min(dists), max(dists)

vec1 = np.array([1,2,3])
vec2 = np.array([4,5,6])
vec3 = np.array([7, 8, 9])
 
min_max_dist(vec1, vec2, vec3)

(5.196152422706632, 10.392304845413264)

## ЗАДАНИЕ 10.9

Напишите функцию any_normal, которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает True, если есть хотя бы одна пара перпендикулярных векторов. Иначе возвращает False.

In [267]:
import numpy as np

def any_normal(*vectors):
    for i in range(len(vectors)):
        for j in range(i + 1, len(vectors)):
            if np.dot(vectors[i], vectors[j]) == 0:
                return True
            else:
                return False
            
vec1 = np.array([2, 1])
vec2 = np.array([-1, 2])
vec3 = np.array([3,4])
print(any_normal(vec1, vec2, vec3))

True


## ЗАДАНИЕ 10.10

Напишите функцию get_loto(num), генерирующую трёхмерный массив случайных целых чисел от 1 до 100 (включительно). Это поля для игры в лото.

Трёхмерный массив должен состоять из таблиц чисел формы 5х5, то есть итоговая форма — (num, 5, 5).

Функция возвращает полученный массив.

In [268]:
import numpy as np

def get_loto(num):
    arr = np.random.randint(1, 101, size=(num, 5, 5))
    return arr

get_loto(3)

array([[[39, 65, 67, 72, 18],
        [73, 63, 45, 29, 20],
        [36, 83, 13, 11, 13],
        [ 5, 50, 27, 43, 36],
        [80,  5, 24, 59, 21]],

       [[26, 83, 29,  5, 95],
        [63, 69, 33, 68, 13],
        [73, 27, 70, 60, 49],
        [42, 97, 96, 52, 23],
        [30, 34, 53, 56, 19]],

       [[ 8, 91,  3,  8, 14],
        [94, 85, 93,  1, 35],
        [48, 41, 13, 76, 31],
        [10, 41, 48, 21, 85],
        [58,  7, 55, 52, 48]]])

## ЗАДАНИЕ 10.11

Напишите функцию get_unique_loto(num). Она так же, как и функция в задании 10.10, генерирует num полей для игры в лото, однако теперь на каждом поле 5х5 числа не могут повторяться.

Функция также должна возвращать массив формы num x 5 x 5.

In [270]:
import numpy as np

def get_unique_loto(num):
    sample = np.arange(1, 101)
    res = list()
    for i in range(num):
        res.append(np.random.choice(sample, replace=False, size=(5, 5)))              
    res = np.array(res)
    return res

