# Типы данных

## Целочисленные типы данных в NumPy

In [2]:
-(2**128)*2 

-680564733841876926926749214863536422912

In [None]:
import numpy as np
a = np.int8(25)
print(a)
# 25

print(type(a))
# <class 'numpy.int8'>

# Можно применить к самому
# названию типа данных
np.iinfo(np.int8)
# iinfo(min=-128, max=127, dtype=int8)

# Можно применить к существующему
# конкретному объекту
np.iinfo(a)
# iinfo(min=-128, max=127, dtype=int8)

b = np.int64(36)
print(np.iinfo(b))


b = np.uint8(124) #беззнаковые целочисленные типы данных
print(b)
# 124
print(type(b))
# <class 'numpy.uint8'>
np.iinfo(b)
# iinfo(min=0, max=255, dtype=uint8)

#Тип данных не сохранится, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = 2056
print(a)
# 2056
print(type(a))
# <class 'int'>

#Вместо этого следует снова указать нужный NumPy-тип данных:

a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = np.int32(2056)
print(a)
# 2056
print(type(a))
# <class 'numpy.int32'>
#А вот арифметические операции сохраняют NumPy-тип данных:

a = np.int32(1000)
b = a + 25
print(b)
# 1025
print(type(b))
# <class 'numpy.int64'>

#Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:

a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)
# 1025
print(type(c))
# <class 'numpy.int32'>

#Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

#Например, попробуем преобразовать число 260 в тип данных np.int8. Вспомните, какое максимальное число может храниться в этом типе данных.

a = np.int8(260)
print(a)
# 4
#В переменной a теперь оказалось число 4, а не 260. По сути в переменную записался остаток от деления 260 на 256, а не само число. Ошибка при этом не возникла.

#Если же при арифметических операциях происходит переполнение максимально выделенной памяти для типа, возникает предупреждение.

#Например, выполним сложение двух очень больших чисел типа int32 (максимум для этого типа — 2147483647):

a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(a + b)
# -81
# RuntimeWarning: overflow encountered in int_scalars
# Переполнено int'овое значение
#Значение было посчитано, но при этом оно явно отличается от той суммы, которую мы хотели получить.

#Чтобы избежать этой ошибки, вначале следовало преобразовать переменные к большему типу:

a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(np.int64(a) + np.int64(b))
# 4294967215




25
<class 'numpy.int8'>
Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



## Типы данных с плавающей точкой в NumPy

In [None]:
#Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых float нет.

#Доступны следующие типы данных float: float16, float32, float64 (применяется по умолчанию, если объём памяти не задан дополнительно), float128.

#Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info):

np.finfo(np.float16)
# finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)
np.finfo(np.float32)
# finfo(resolution=1e-06, min=-3.4028235e+38, max=3.4028235e+38, dtype=float32)
np.finfo(np.float64)
# finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)
np.finfo(np.float128)
# finfo(resolution=1e-18, min=-1.189731495357231765e+4932, max=1.189731495357231765e+4932, dtype=float128)
#Примечание. Если ввести в VS Code команду np.finfo(np.float128), ответом будет AttributeError: module 'numpy' has no attribute 'float128'. Всё потому, что numpy.float128 не поддерживается в Windows с использованием компилятора MS. Если вам всё же нужно поработать с numpy.float128, воспользуйтесь онлайн-IDE.

R#esolution (от англ. «разрешение») в выводе finfo означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа float16 идёт уже с шагом 0.005:

print(np.float16(4.12))
# 4.12
print(np.float16(4.13))
# 4.13
print(np.float16(4.123))
# 4.12
print(np.float16(4.124))
# 4.125
print(np.float16(4.125))
# 4.125



## Дополнительные типы данных в NumPy

In [None]:
#Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута sctypeDict. Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться в зависимости от версии NumPy)! Однако основные названия типов данных в NumPy не меняются от версии к версии.

print(np.sctypeDict)
print(len(np.sctypeDict))
# 158, но может быть 135 или 139
#Н#а самом деле реальных типов данных гораздо меньше, просто одни и те же типы данных могут иметь разные ярлыки. Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, что делают все функции, которые в нём использованы:

print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')
#Всего в выдаче будет 24 строки. Int, uint и float мы уже изучили. Datetime и timedelta используются для хранения времени, complex используется для работы с комплéксными числами.

#Пример с bool:

a = True
print(type(a))
# <class 'bool'>
a = np.bool(a)
print(type(a))
# <class 'bool'>
a = np.bool_(a)
print(type(a))
# <class 'numpy.bool_'>
 
# Значения равны
print(np.bool(True) == np.bool_(True))
# True
# А типы — нет:
print(type(np.bool(True)) == type(np.bool_(True)))
# False
#Пример со str:

a = "Hello world!"
print(type(a))
# <class 'str'>
a = np.str(a)
print(type(a))
# <class 'str'>
a = np.str_(a)
print(type(a))
# <class 'numpy.str_'>



# Модуль NumPy. Массивы

Итак, массив — это структура данных, в которой:

1
Элементы хранятся в указанном порядке.

2
Каждый элемент можно получить по индексу за одинаковое время.

3
Все элементы приведены к одному и тому же типу данных.

4
Максимальное число элементов и объём выделенной памяти заданы заранее.
Именно это происходит при работе компьютера с массивами: чтобы получить десятый элемент массива, если известно, например, что каждый элемент занимает 64 бита, достаточно прочитать элемент в памяти длиной 64 бита, который находится через 640 бит от начала массива. Компьютер умеет выполнять эту операцию очень быстро.

Также, поскольку элементы в массиве располагаются в памяти последовательно, рядом друг с другом, это позволяет быстрее выполнять операции сразу с совокупностью элементов.
азмерностью массива называют то число индексов, которое необходимо для однозначного получения элемента из массива.

Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.
Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

Форма (структура) массива — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

## Создание массивов

In [None]:
#Создать массив из списка можно с помощью функции np.array(<объект>):

import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])
#Функция np.array возвращает объекты типа numpy.ndarray:

print(type(arr))
# <class 'numpy.ndarray'>
#Название ndarray — это сокращение от n-dimensional array, n-мерный массив.
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

## Типы данных в массиве

In [None]:
arr = np.array([1,5,2,9,10])
arr.dtype
# dtype('int64')

#Задать тип данных сразу при создании массива можно с помощью параметра dtype:

arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

#Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем уроке (например, np.int32 или np.float128):

arr = np.float128(arr)
arr
# array([ 1.,  5., 12.,  9., 10.], dtype=float128)

#При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)



In [9]:
import numpy as np
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float64)
print(arr)

[ 3.4523400e+05  8.7636212e+05  0.0000000e+00 -1.0000000e+03
  9.9999999e+07]


## Свойства NumPy-массивов

In [None]:
import numpy as np
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

#Узнать размерность массива можно с помощью .ndim:

arr.ndim
# 1
nd_arr.ndim
# 2

#Узнать общее число элементов в массиве можно с помощью .size:

arr.size
# 5
nd_arr.size
# 9

#Форма или структура массива хранится в атрибуте .shape:

arr.shape
# (5,)
nd_arr.shape
# (3, 3)




Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

In [None]:
import numpy as np
#Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

arr.itemsize
# 1
nd_arr.itemsize
# 2

## Заполнение новых массивов

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
import numpy as np
#Создадим одномерный массив из пяти элементов:

zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])
#Создадим трёхмерный массив с формой 5x4x3 и типом float32:

zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)



Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

start (входит в диапазон возвращаемых значений) задаёт начальное число;
stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [None]:
#Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

np.arange(5)
# array([0, 1, 2, 3, 4])
#Создадим массив от 2.5 до 5:

np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])
#Создадим массив от 2.5 до 5 с шагом 0.5:

np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])
#Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:

np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
endpoint — включён или исключён конец диапазона (по умолчанию включён);
retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

In [None]:
#Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])
#Создадим массив из десяти чисел между 1 и 2, не включая 2:

arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])
#Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1
#→ Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

In [12]:
import numpy as np
arr, step = np.linspace(-6,21,60, endpoint = False, retstep = True)
print(round(step, 2))

0.45


# Модуль NumPy. Действия с массивами

## Изменение формы массива

В предыдущем уроке вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива.

Создадим массив из восьми чисел:

In [None]:
import numpy as np
arr = np.arange(8)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7])
#Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [None]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new
# array([[0, 1, 2, 3],
#       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

In [None]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new
# array([[0, 2, 4, 6],
#       [1, 3, 5, 7]])

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

In [None]:
#Будем работать с двумерным массивом:

arr = np.arange(8)
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])
#Транспонируем его:

arr_trans = arr.transpose()
arr_trans
# array([[0, 4],
#        [1, 5],
#        [2, 6],
#        [3, 7]])
#При транспонировании одномерного массива его форма не меняется:

arr = np.arange(3)
print(arr.shape)
# (3,)
arr_trans = arr.transpose()
print(arr_trans.shape)
# (3,)

##  Индексы и срезы в массивах

В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?

Создадим массив из шести чисел:

In [None]:
arr = np.linspace(1, 2, 6)
arr
# array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])
#Обратиться к его элементу по индексу можно так же, как и к списку:

print(arr[2])
# 1.4
#Привычная запись для срезов работает и для одномерных массивов:

print(arr[2:4])
# [1.4 1.6]
#Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:

print(arr[::-1])
# [2.  1.8 1.6 1.4 1.2 1. ]
#С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
# array([[0. , 0.5, 1. , 1.5],
#        [2. , 2.5, 3. , 3.5],
#        [4. , 4.5, 5. , 5.5]])
#Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

nd_array[1][2]
# 3.0
#Мы получили число из второй строки и третьего столбца массива.

#Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:

nd_array[1, 2]
# 3.0
#Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

nd_array[:2, 2]
# array([1., 3.])
#Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.

#Можно применять срезы сразу и к строкам, и к столбцам:

nd_array[1:, 2:4]
# array([[3. , 3.5],
#       [5. , 5.5]])
#Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

nd_array[:, 2:4]
# array([[1. , 1.5],
#       [3. , 3.5],
#       [5. , 5.5]])
#Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

nd_array[:2]
# array([[0. , 0.5, 1. , 1.5],
#       [2. , 2.5, 3. , 3.5]])

In [None]:
import numpy as np
mystery = np.array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)
elem_5_3 = mystery[4,2]
last = mystery[-1,-1]
line_4 = mystery[3,]
col_2 = mystery[:,-2]
part = mystery[1:4,2:5]
rev = mystery[:,-1][::-1]
trans = mystery.transpose()
print(trans)

## Сортировка одномерных массивов
Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.
Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [None]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [None]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

## Работа с пропущенными данными

In [None]:
#Начнём с примера — создадим массив:

data = np.array([4, 9, -4, 3])
#Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.

roots = np.sqrt(data)
roots
# RuntimeWarning: invalid value encountered in sqrt
# array([2.        , 3.        ,        nan, 1.73205081])

NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:
print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

Отличие 2. None могут быть равны друг другу, а np.nan — нет:

print(None == None)
# True
print(np.nan == np.nan)
# False
Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:

print(None is None)
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, в итоге получится nan:

In [None]:
sum(roots)
# nan
?
#Что же делать?

#Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

np.isnan(roots)
# array([False, False,  True, False])
#Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

roots[np.isnan(roots)]
# array([nan])

#Этим элементам можно присвоить новые значения, например 0:

roots[np.isnan(roots)] = 0
roots
# array([2.        , 3.        , 0.        , 1.73205081])
#После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:

sum(roots)
# 6.732050807568877

Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, например, на 0, чтобы подсчитать сумму элементов массива.

In [None]:
mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)

nans_index = np.isnan(mystery)
n_nan = len(mystery[np.isnan(mystery)])
mystery_new = np.array(mystery)
mystery_new[np.isnan(mystery_new)]=0

mystery_int = mystery.astype(np.int32)
array = np.sort(mystery)
table = array.reshape((5, 3), order='F')
col = table[:,1]
print(col)

## Модуль NumPy. Операции с векторами
Вероятно, из школьного курса математики вы помните, что вектор — это направленный отрезок. На самом деле это только одно из возможных значений этого слова.

В программировании вектором называют одномерный проиндексированный набор данных, другими словами — одномерный массив.

→ На самом деле, между вектором из геометрии и вектором из программирования есть логическая связь. Вектор — это не просто какой-то абстрактный отрезок. По определению, вектор должен обладать длиной и направлением. Задать эти параметры можно с помощью набора координат, который сам по себе также называется вектором. В какой-то момент развития линейной алгебры связь между набором чисел в строке и вектором на чертеже стала практически исторической. Отсюда и пошло второе определение вектора как упорядоченного набора чисел.

В вашем курсе ещё будет целый блок, посвящённый линейной алгебре и теории операций с векторами. Эти знания обязательно пригодятся вам для построения математических моделей и машинного обучения.

Примеры операций с векторами в данном уроке являются практическими и будут даны без строгих определений или доказательств.

## Векторы в NumPy и арифметика
С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, возводить один вектор в степень другого и т. д.

Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.

Рассмотрим примеры ↓

Произведём сложение двух векторов:

In [None]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2
# array([14. , 10. , 10.6, 15.5])
#Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2
# [2, 4, 7, 2.5, 12, 6, 3.6, 13]
#Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

[x + y for x, y in zip(list1, list2)]
# [14, 10, 10.6, 15.5]
#Для совершения арифметических операций с векторами они должны быть одинаковой длины.

#Поэлементно умножим два вектора одинаковой длины:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2
# array([24. , 24. , 25.2, 32.5])
#А теперь создадим vec2, который будет на один элемент короче, чем vec1:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
 
vec1 * vec2
# ValueError: operands could not be broadcast together with shapes (4,) (3,)
# Ошибка значения: операнд не может быть распространён одновременно на структуры с формами (4,) и (3,).
#Возникла ValueError.

#Исключением является случай, когда операция происходит с вектором и одним числом. Например, вектор целиком можно умножить на число или возвести в степень этого числа:

vec = np.arange(5)
vec * 10
# array([ 0, 10, 20, 30, 40])
vec ** 2
# array([ 0,  1,  4,  9, 16])
#Также векторы можно сравнивать друг с другом поэлементно:

vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2
# array([False, False,  True, False])
#В результате получаем вектор исходной длины из булевых переменных, которые соответствуют результату поэлементного сравнения чисел из двух векторов.

#Аналогично можно сравнивать вектор с числом:

vec = np.array([14,15,9,26,53,5,89])
vec <= 26
# array([ True,  True,  True,  True, False,  True, False])

## Продвинутые операции с векторами
В курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, нахождение расстояния между векторами, вычисление скалярного произведения. Некоторые из них очень часто используются в машинном обучении, алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, что у нас есть база данных всех существующих лиц, представленных в виде векторов. Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных, расстояние до которого минимально, чтобы определить человека по лицу.

Длина вектора, то есть расстояние между его началом и концом, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов всех его координат. Для вектора из  чисел ,  …  верна формула:


Посчитаем длину следующего вектора:

In [None]:
vec = np.array([3, 4])
#Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

length = np.sqrt(np.sum(vec ** 2))
print(length)
# 5.0
#Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

#Для вычисления длины вектора нам потребуется функция norm:

length = np.linalg.norm(vec)
print(length)
# 5.0
#Мы получили то же самое расстояние с помощью одного действия!

#Расстояние между двумя векторами, то есть расстояние между их концами, [в евклидовом пространстве] вычисляется как квадратный корень из суммы квадратов разностей соответствующих координат. Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами  и ):


#→ По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.

#Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:

vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance
# 12.206555615733702
#А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:

vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
distance
# 12.206555615733702

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. Вот формула для скалярного произведения векторов  и  из  координат:


Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [None]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product
# 250.0
?
#Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, поэтому возник резонный вопрос: можно ли проще и вообще без формул?

#Да! Для этого используют функцию np.dot(x, y):

scalar_product = np.dot(vec1, vec2)
scalar_product
# 250.0
#Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:

x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)
# 0

Здесь были специально заданы векторы, параллельные осям  и  (так как одна из координат в них равна нулю). Они перпендикулярны, как перпендикулярны соответствующие оси, а скалярное произведение действительно равно нулю.

В целом, скалярное произведение часто используется для определения угла между векторами.

?
Зачем это может пригодиться специалисту в Data Science?

→ Вам ещё обязательно предстоит работать с векторами не только при изучении теории линейной алгебры, но и при освоении машинного обучения на практике. Например, есть специальные преобразования, которые позволяют превратить слова в тексте в числовые векторы. Затем с помощью определения направлений полученных векторов можно находить слова-синонимы и антонимы, а также оценивать общую эмоциональную окраску текста. Такие алгоритмы для анализа данных используются, чтобы автоматически по отзывам определять степень удовлетворённости клиентов продуктом.

## Базовые статистические функции для векторов
После теоретического экскурса в линейную алгебру давайте изучим несколько удобных функций, которые позволяют быстро получать статистику о векторе.

→
Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [None]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()
# 1
np.max(vec)
# 28
→
#Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

vec.mean()
# 10.75

Существует множество дополнительных функций для получения статистических данных о векторе. Уделять им всем внимание сейчас не требуется, к тому же у вас пока не было модуля по статистике.

Однако если вам вдруг потребуется какая-либо базовая статистическая функция, она, скорее всего, уже реализована в NumPy.

ДОПОЛНИТЕЛЬНО

На данном сайте вы можете ознакомиться с наиболее часто используемыми статистическими функциями, доступными в NumPy, а также посмотреть на примеры их работы.

# Модуль NumPy. Случайные числа
В предыдущем уроке вы узнали, что такое векторы в программировании, а также научились их использовать в NumPy. Теперь вы можете совершать с ними арифметические операции, а также вычислять длины векторов и расстояния между ними. Наконец, вы освоили базовые статистические функции, доступные в NumPy.

Данный урок посвящён случайным числам. Возможно, вам покажется несколько неожиданным, что они используются не только в казино или компьютерных играх. Специалисту в Data Science полезно уметь работать со случайными числами, чтобы проверять статистические гипотезы, формировать выборки данных для обучения и проверки моделей, да и в алгоритмах машинного обучения случайные числа находят своё применение.

В этом уроке вы научитесь:

генерировать наборы случайных чисел в NumPy;
перемешивать элементы в массивах;
получать одинаковые наборы случайных чисел с помощью seed.
Строгое определение случайного числа ссылается на множество понятий из теории вероятностей и математической статистики, поэтому здесь оно приведено не будет. Для целей данного урока достаточно более простого определения.

Случайное число — это число, которое возникает в результате случайного процесса.

Что такое случайный процесс? Например, это подбрасывание монетки. Может выпасть или орёл, или решка. Если, например, обозначить орла за 0, а решку — за 1, то в результате процесса подбрасывания монеты мы будем получать случайное число. Если подбросить монетку несколько раз, можно получить целый набор из случайных чисел, состоящий из 0 и 1. Аналогично можно подбрасывать кубик (игральную кость) и получать числа от 1 до 6. Случайным процессом можно назвать распространение инфекции, поскольку точное число новых заболевших за сутки остаётся непредсказуемым.

Большинство компьютеров не имеет оборудования для генерации случайных чисел за счёт случайных процессов, хотя подобные приборы существуют. Вместо случайных чисел обычный компьютер (или даже большой мощный сервер) генерирует псевдослучайные числа.

Псевдослучайные числа — это такая последовательность чисел, которая возникает с помощью применения математических формул к какому-то исходному числу (например, текущему времени в микросекундах). Элементы, получаемые таким образом, почти не зависят друг от друга: например, при генерации следующего 0 или 1 не имеет значения, что выпало ранее — 0 или 1.

## Случайные числа в NumPy
### Генерация float

Для генерации псевдослучайных чисел в NumPy существует подмодуль random.

Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [None]:
import numpy as np
np.random.rand()
# 0.06600758835806675
#→ Поскольку теперь мы работаем со случайными числами, не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.

#Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

np.random.rand() * 100
# 69.76076924077643
##На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

np.random.rand(5)
# array([0.83745099, 0.58426808, 0.89206204, 0.41149807, 0.42445145])
#Массив из двух случайных строк и трёх столбцов:

np.random.rand(2, 3)
# array([[0.94931212, 0.06680018, 0.26707599],
#      [0.67908873, 0.18001743, 0.97732239]])
#Функция rand может принимать неограниченное число целых чисел для задания формы массива:

np.random.rand(2, 3, 4, 10, 12, 23)

Результата вывода порождаемого шестимерного массива мы не приводим для экономии места, но вы можете ради интереса запустить этот код у себя в ноутбуке и увидеть результат.

Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, а не перечисляли её в виде аргументов через запятую.

Если передать в rand кортеж, возникнет ошибка:

In [None]:
shape = (3, 4)
np.random.rand(shape)
# TypeError: 'tuple' object cannot be interpreted as an integer
# Ошибка типов: кортеж не может быть интерпретирован как целое число.
#Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

shape = (3, 4)
np.random.rand(*shape)
# array([[0.66169176, 0.19455777, 0.06451088, 0.31919608],
#        [0.73536951, 0.67104408, 0.4762727 , 0.88153576],
#        [0.70672971, 0.96677145, 0.09273995, 0.86356465]])
#Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

shape = (2, 3)
np.random.sample(shape)
# array([[0.39756103, 0.01995168, 0.2768951 ],
#       [0.82195372, 0.26435273, 0.00957881]])

Возможно, именно функция sample покажется вам удобнее, поскольку информацию о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. В остальном функция sample не отличается от rand.

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

In [None]:
uniform(low=0.0, high=1.0, size=None)
#Первые два аргумента — нижняя и верхняя границы диапазона в формате float, третий опциональный аргумент — форма массива (если не задан, возвращается одно число). Форма массива задаётся кортежем или одним числом.

#Давайте поэкспериментируем ↓

#Запуск без аргументов эквивалентен работе функций rand или sample:

np.random.uniform()
# 0.951557685543591
#Зададим границы диапазона от -30 до 50:

np.random.uniform(-30, 50)
# 38.47365525953661
#Получим пять чисел в интервале от 0.5 до 0.75:

np.random.uniform(0.5, 0.75, size=5)
# array([0.58078945, 0.58860342, 0.73790553, 0.63448265, 0.70920297])
#Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

np.random.uniform(-1000, 500, size=(2, 3))
# array([[ 129.22164163,   77.69090611, -132.9656972 ],
#        [  18.65802226, -317.14793906,   85.3613547 ]])

## Генерация int
Не всегда требуется генерировать числа с плавающей точкой. Иногда бывает удобно получить целые числа int (например, для поля игры в лото). Для генерации целых чисел используется функция random.randint:

In [None]:
randint(low, high=None, size=None, dtype=int)

Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.
Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [None]:
np.random.randint(4, size=(2,3))
# array([[3, 0, 1],
#       [2, 1, 3]])
#Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

np.random.randint(6, 12, size=(3,3))
# array([[ 9,  6, 10],
#        [10, 11, 10],
#        [ 7, 10, 11]])

Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, так как верхняя граница диапазона не включена в генерацию.

## Генерация выборок
→ Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.

→
Просто перемешать все числа в массиве позволяет функция random.shuffle.

Вспомните, во многих сервисах для прослушивания музыки есть функция shuffle для перемешивания композиций в плейлисте.

Возьмём массив из целых чисел от 0 до 5 и перемешаем его:

In [None]:
arr = np.arange(6)
print(arr)
# [0 1 2 3 4 5]
print(np.random.shuffle(arr))
# None
arr
# array([0, 5, 1, 3, 2, 4])

Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.

→
Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [None]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
# ['The Beatles' 'Pink Floyd' 'Deep Purple' 'ACDC']
print(playlist)
# ['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']

Обратите внимание, что необязательно передавать в функцию сразу массив: в этот раз мы передали в качестве аргумента список и ошибки не возникло. При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). Сам список playlist при этом остался без изменений.

Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [None]:
np.random.permutation(10)
# array([7, 8, 2, 9, 4, 3, 1, 0, 5, 6])

По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. С помощью permutation можно избежать совершения этого дополнительного действия.

→
Чтобы получить случайный набор объектов из массива, используется функция random.choice:

In [None]:
choice(a, size=None, replace=True)

a — одномерный массив или число для генерации arange(a);
size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).
Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)
#На выходе получили массив из двух имён без повторений. 

#Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:

workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
choice = np.random.choice(workers, size=10, replace=False)
print(choice)
# ValueError: Cannot take a larger sample than population when 'replace=False'
# Ошибка значения: нельзя получить выборку больше, чем популяция (популяция — весь доступный набор объектов, из которого получаем выборку), если replace=False (то есть выборка без повторений).
#Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.

#Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)
# [3 5 5 6 6 4 2 2 1 3]
#В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.

## Seed генератора псевдослучайных чисел
→ Как уже было сказано ранее, NumPy генерирует не истинные случайные числа (такие числа получаются в результате случайных процессов), а псевдослучайные, которые получаются с помощью особых преобразований какого-либо исходного числа. Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

Зададим seed и посмотрим, что получится:

In [None]:
np.random.seed(23)
np.random.randint(10, size=(3,4))
# array([[3, 6, 8, 9],
#        [6, 8, 7, 9],
#        [3, 6, 1, 2]])

#Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!

np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))
# [4 2 5]

При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

При выполнении заданий на случайные числа в рамках данного модуля вам чаще всего потребуется задавать seed в вашем скрипте для удобства проверки.

In [58]:
import numpy as np

np.random.seed(2021)

simple = np.random.rand()
randoms = np.random.uniform(-150, 2022, size=120)
table = np.random.randint(1, 101, size=(3,2))
even = np.array([2,4,6,8,10,12,14,16])
mix = np.random.permutation(even)
select = np.random.choice(even, size=3, replace=False)
triplet = np.random.permutation(select)
print(select, triplet)


[14  2  4] [ 2  4 14]


In [None]:
def get_chess(a):
    arr = np.zeros([a,a])
    arr[::2, 1::2] = 1
    arr[1::2, ::2] = 1
    return arr



In [None]:
import numpy as np
def shuffle_seed(array):
    x = np.random.randint(0, high=(2**32-1), size=None, dtype=np.uint32)
    np.random.seed(x)
    mix = np.random.permutation(array)
    return mix, x
#randint(low, high=None, size=None, dtype=int)
shuffle_seed(np.random.randint(1, 10, size=10, dtype=int))

(array([6, 3, 2, 5, 2, 7, 3, 6, 4, 9], dtype=int32), np.uint32(1847254840))

In [None]:
import numpy as np
import math
from itertools import combinations
def min_max_dist(*vectors):
    vector_pairs = combinations(vectors, 2)
    distances = []
    for v1, v2 in vector_pairs:
        squared_sum = np.linalg.norm(v1 - v2)
        
        distances.append(squared_sum)
    return (min(distances), max(distances))

min_max_dist(np.array([1,2,3]), np.array([4,5,6]), np.array([7, 8, 9]))



(np.float64(5.196152422706632), np.float64(10.392304845413264))

In [150]:
import numpy as np
def any_normal(*vectors):
    mult = []
    for i in range(len(vectors)):
        for j in range(i+1, len(vectors)):
            norm = np.dot(vectors[i], vectors[j])
            mult.append(norm)
            
    if 0 in mult:
        return True
    else:
        return False
    
    
any_normal(np.array([1,2,3]), np.array([4,5,6]), np.array([7, 8, 9]))

False

In [None]:
import numpy as np
def get_loto(num):
    arr = np.random.randint(1, 101, size=(num,5,5), dtype=int)
    return arr
get_loto(5)

In [None]:
import numpy as np
def get_loto(num):
    arr = np.random.randint(1, 101, size=(num,5,5), dtype=int)
    return arr
get_loto(1)

In [None]:
import numpy as np
def get_unique_loto(num):

    result = np.array([])
    for i in range(num):
        arr = np.arange(1,102)
        choice = np.random.choice(arr, size=(5,5), replace=False)
        
        result = np.append(result, choice)
    result = result.reshape(num, 5, 5)
    return result
    
get_unique_loto(6)

array([[[ 99.,  48.,  11.,   7.,  12.],
        [ 84.,  71.,  29.,  91.,  72.],
        [ 25.,  13.,  35.,  93.,  27.],
        [ 69.,  68.,   4.,  57.,  95.],
        [ 24.,  74.,   9.,  15.,  92.]],

       [[  7.,  43.,   8.,  98.,  80.],
        [ 94.,  27.,  83.,  10.,  50.],
        [ 21.,  77.,   5.,  33.,  54.],
        [ 46.,  56.,  14.,  53.,  19.],
        [ 12.,  95.,  63.,  45.,  69.]],

       [[ 10.,  13.,  70.,  37.,  80.],
        [ 79.,  21.,  60.,  41.,  27.],
        [ 87.,  81.,  11.,  55.,  17.],
        [ 57.,  26.,  24., 101.,  62.],
        [ 44.,  34.,  84.,  29.,  92.]],

       [[  8.,  34.,  59.,  82.,  68.],
        [ 63.,   4.,  56.,  19.,  99.],
        [ 69.,  15.,  45.,   1.,  84.],
        [ 62.,  23.,  48.,  30.,  53.],
        [ 78.,   7.,  81.,   5.,  93.]],

       [[ 87.,  58.,  44.,  23.,  32.],
        [ 55.,  19.,  15.,  24.,  66.],
        [ 48.,  33.,  92.,  43.,  71.],
        [ 65.,  83.,  61.,  78.,  41.],
        [ 47.,   4.,  82.,  94.,

In [None]:


choice = np.random.choice(workers, size=10, replace=False)