In [None]:
# COUNTER

# Как уже было сказано ранее, объект Counter (от англ. «счётчик») предназначен для решения 
# часто возникающей задачи по подсчёту различных элементов.

# Например, может возникнуть следующая задача: необходимо выявить наиболее частых покупателей магазина. 
# Входные данные — список покупателей за последний месяц в хронологическом порядке, 
# а точнее, список номеров карт постоянного покупателя (номера повторяются столько раз, 
# сколько было посещений магазина). Понятно, что необходимо посчитать, 
# сколько раз встретились различные номера карт и выбрать несколько наиболее частых клиентов. 
# Для решения подобных задачи и предназначен Counter.

# Давайте посмотрим, как используется счётчик. Вначале необходимо импортировать Counter из модуля collections, 
# а затем создать пустой экземпляр этого объекта:

# Импортируем объект Counter из модуля collections
from collections import Counter
# Создаём пустой объект Counter
c = Counter()

In [None]:
# Теперь в переменной c хранится объект с возможностями Counter.

# Рассмотрим базовый синтаксис этого инструмента. Например, будем считать цвета проезжающих машин: если встретили красную машину, 
# посчитаем её. Для этого прибавим к ключу 'red' единицу. Синтаксис очень похож на работу со словарём:

c['red'] += 1
print(c)

In [None]:
# Мы посчитали слово 'red' один раз.
# Допустим, у нас есть список цветов проехавших машин:

cars = ['red', 'blue', 'black', 'black', 'black', 'red', 'blue', 'red', 'white']

# Посчитать значения, конечно, можно и в цикле, используя синтаксис из предыдущего примера:
c = Counter()
for car in cars:
    c[car] += 1
 
print(c)

In [None]:
# Однако гораздо проще при создании Counter сразу передать в круглых скобках итерируемый объект, в котором необходимо посчитать значения:
c = Counter(cars)
print(c)

# Результат получился точно такой же. Обратите внимание, насколько простым был подсчёт элементов на этот раз!
# Узнать, сколько раз встретился конкретный элемент, можно, обратившись к счётчику по ключу как к обычному словарю:
print('balck:', c['black'])
print('purpul:',c['purple'])

# Мы просто узнали, что такой элемент ни разу не встретился.
# Узнать сумму всех значений в объекте Counter можно, воспользовавшись следующей конструкцией:

print('sum:',sum(c.values()))

# В этой конструкции мы сначала получаем элементы (число раз, когда встретился ключ) 
# с помощью функции values (такая же функция есть и у словаря):

print(c.values())
# dict_values([3, 2, 3, 1])
# Затем суммируем полученные значения итерируемого объекта dict_values, который выглядит почти как список, 
# с помощью встроенной функции sum.

In [None]:
# ОПЕРАЦИИ С COUNTER

# Возможности Counter не ограничиваются только подсчётом элементов. 
# Этот объект обладает и дополнительным функционалом — например, счётчики можно складывать и вычитать.
# Допустим, вы с другом из другого города решили посчитать количество цветов встреченных на дороге машин. 
# У вас получились такие списки цветов:
cars_moscow = ['black', 'black', 'white', 'black', 'black', 'white', 'yellow', 'yellow', 'yellow']
cars_spb = ['red', 'black', 'black', 'white', 'white', 'yellow', 'yellow', 'red', 'white']

# Получим для них счётчики:
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb) 
print(counter_moscow)
print(counter_spb)
 
# Чтобы узнать, сколько машин разных цветов встретилось в двух городах, можно сложить два исходных счётчика и получить новый счётчик:
print(counter_moscow + counter_spb)

# Чтобы узнать разницу между объектами Counter, необходимо воспользоваться функцией subtract, которая меняет тот объект, 
# к которому применяется. В примере выше из значений, посчитанных для Москвы, вычитаются значения, посчитанные для Санкт-Петербурга:
print(counter_moscow)
print(counter_spb)
counter_moscow.subtract(counter_spb)
print(counter_moscow)

In [None]:
# Заметьте, что белых машин в counter_spb оказалось больше, чем в counter_moscow, поэтому разность отрицательная. 
# Красных машин в moscow вообще не было, а в spb их оказалось сразу две, поэтому разница равна -2. 
# Значения для black и yellow остались положительными, потому что их было больше.
# Вычитание с учётом отрицательных чисел удобно использовать для сравнения значений в счётчиках: таким образом можно сразу узнать, 
# каких элементов оказалось больше, а каких — меньше.
# К сожалению, функцию subtract не всегда бывает удобно использовать для вычитания, так как модифицируется исходный счётчик. 
# Однако аналога у этой функции нет, поскольку вычитание с помощью оператора "-" приводит к другому результату:
# Пересоздаём счётчики, потому что объект counter_moscow поменял свои значения
# после функции subtract.
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
print(counter_moscow - counter_spb)

# В данном случае нет значений меньше 1, поэтому нет данных о разнице в числе белых и красных машин. 
# Иногда важно получить именно полные данные, а не только положительные значения разности.
# Функция subtract может пригодиться, чтобы сравнить активность продаж различных позиций 
# в двух торговых точках: здесь важно узнать не только те позиции, которые продавались активнее, 
# но и те позиции, которые, наоборот, оказались менее популярными в первой точке по сравнению со второй.

In [None]:
# ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ

# Чтобы получить список всех элементов, которые содержатся в Counter, используется функция elements(). 
# Она возвращает итератор, поэтому, чтобы напечатать все элементы, распакуем их с помощью *:
print(*counter_moscow.elements())

# Обратите внимание, что элементы возвращаются в алфавитном порядке, а не в том порядке, в котором их вносили в счётчик.
# Чтобы получить список уникальных элементов, достаточно воспользоваться функцией list():
print(list(counter_moscow))

# С помощью функции dict() можно превратить Counter в обычный словарь:
print(dict(counter_moscow))


# Функция most_common() позволяет получить список из кортежей элементов в порядке убывания их встречаемости:
print(counter_moscow.most_common())

# В неё также можно передать значение, которое задаёт желаемое число первых наиболее частых элементов, например, 2:
print(counter_moscow.most_common(2))

# Наконец, функция clear() позволяет полностью обнулить счётчик:
counter_moscow.clear()
print(counter_moscow)


In [None]:
# ORDEREDDICT

# В далёкие времена (а точнее, до 2018 года) словари в Python не сохраняли порядок ключей, 
# которые в них добавляли. Попробуйте в Codeboard создать несколько раз словарь с одними и теми же ключами и значениями и напечатать его:

# Напоминаем способ создания словаря через список кортежей
# (ключ, значение)
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
client_ages = dict(data)

In [None]:
# Как видите, каждый раз при повторном запуске кода порядок элементов меняется. 
# Изначально объект dict не гарантировал выдачу ключей и значений в порядке их добавления.

# Сохранение ключей в словаре в порядке добавления не всегда является существенным, 
# но при необходимости словарь с таким функционалом можно получить из модуля collections.

# Специальный словарь, который гарантирует сохранение ключей в порядке их добавления, называется OrderedDict:

from collections import OrderedDict
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
ordered_client_ages = OrderedDict(data)
print(ordered_client_ages)

In [None]:
# Как видите, порядок добавленных ключей сохраняется. Также при выводе словаря на экран печатается тип данных (OrderedDict), 
# к которому он относится.
# Можно, например, отсортировать с помощью функции sorted список кортежей при создании из него OrderedDict, 
# и объекты будут добавлены в порядке сортировки:
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]

# Сортируем по второму значению из кортежа, то есть по возрасту
ordered_client_ages = OrderedDict(sorted(data, key=lambda x: x[1]))
print(ordered_client_ages)

# Если теперь добавить нового человека в словарь, новая запись окажется в конце:
ordered_client_ages['Nikita'] = 18
print(ordered_client_ages)

# Если удалить элемент, а затем добавить его снова, он также окажется в конце:
del ordered_client_ages['Andrey']
print(ordered_client_ages)
ordered_client_ages['Andrey'] = 23
print(ordered_client_ages)

In [None]:
# Узнать версию Python в коде можно из переменной version из модуля sys.
import sys
print(sys.version)

In [None]:
# ИСПОЛЬЗОВАНИЕ DEQUE

# Структура данных deque реализована в модуле collections, поэтому вы сразу получаете доступ к возможностям и стека, и очереди.

# Создадим пустой дек (deque). Для этого сначала импортируем эту структуру данных из модуля collections, 
# а затем создадим её пустой экземпляр:
from collections import deque
dq = deque()
print(dq)

# У deque есть четыре ключевые функции:
# append (добавить элемент в конец дека);
# appendleft (добавить элемент в начало дека);
# pop (удалить и вернуть элемент из конца дека);
# popleft (удалить и вернуть элемент из начала дека).

# Рассмотрим их на примере.
# Начался рабочий день, и в службу поддержки оператора связи стали поступать звонки от клиентов. 
# В какой-то момент свободные операторы закончились и начала образовываться очередь в ожидании. 
# Добавим несколько человек в очередь с помощью append:
clients = deque()
clients.append('Ivanov')
clients.append('Petrov')
clients.append('Smirnov')
clients.append('Tikhonova')
print(clients)

# Объект deque поддерживает индексацию по элементам:
print(clients[2])

# Освободилось два оператора — заберём двоих человек из начала очереди с помощью popleft:
first_client = clients.popleft()
second_client = clients.popleft() 
print("First client:", first_client)
print("Second client:", second_client)
print(clients)

# First client: Ivanov
# Second client: Petrov
# deque(['Smirnov', 'Tikhonova'])
# Как видите, первые элементы исчезли из очереди. Функции pop и popleft возвращают тот элемент, 
# который они удаляют (последний или первый соответственно).
# Вдруг появился VIP-клиент. Для него тоже нет свободного оператора, но добавить его нужно в начало очереди с помощью appendleft:
clients.appendleft('Vip-client') 
print(clients)

# VIP-клиент теперь оказался самым первым в очереди.
# Последний клиент в очереди устал ждать и отменил вызов. Удалим его с помощью pop:
tired_client = clients.pop()
print(tired_client, "left the queue")
print(clients)

# С помощью pop всегда удаляется последний элемент из дэка. Чтобы удалить конкретный элемент по индексу, 
# необходимо воспользоваться встроенной конструкцией del:
clients = deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])
print(clients)
del clients[2]
print(clients)

# Также в очередь возможно добавить сразу несколько элементов из итерируемого объекта в дек. 
# Для этого используют функции extend (добавить в конец дека) и extendleft (добавить в начало дека).
# Создадим очередь из клиентов магазинчика на заправке и добавим в неё сразу всех туристов,
# приехавших на экскурсионном автобусе, с помощью extend:
# В скобках передаём список при создании deque,
# чтобы сразу добавить все его элементы в очередь
shop = deque([1, 2, 3, 4, 5])
print(shop)
shop.extend([11, 12, 13, 14, 15, 16, 17])
print(shop)

# Если вдруг у турфирмы имеется договорённость с магазином, 
# что клиенты турфирмы обслуживаются вне очереди, добавим их в начало той же очереди с помощью extendleft:
shop = deque([1, 2, 3, 4, 5])
print(shop)
shop.extendleft([11, 12, 13, 14, 15, 16, 17])
print(shop)

# Обратите внимание, что «клиенты из автобуса» оказались в очереди не в том порядке, в каком они «выходили из автобуса». 
# То есть добавленные номера не только приписаны перед записанными в очереди номерами, 
# но также порядок добавленных элементов поменялся на обратный. 
# Это связано с тем, что действие функции extendleft аналогично многократному применению функции appendleft, 
# поэтому самый последний клиент из автобуса оказался в итоге первым в очереди.

# ОЧЕРЕДЬ С ОГРАНИЧЕННОЙ МАКСИМАЛЬНОЙ ДЛИНОЙ
# При создании очереди можно также указать её максимальную длину с помощью параметра maxlen. 
# Сделать это можно как при создании пустой очереди, так и при создании очереди от заданного итерируемого объекта:
limited = deque(maxlen=3)
print(limited)
limited_from_list = deque([1,3,4,5,6,7], maxlen=3)
print(limited_from_list)

# Обратите внимание, что теперь дополнительно печатается максимальная длина очереди.
# Также заметьте, что в очереди с ограниченной длиной сохраняются только последние элементы, а первые исчезают из памяти:
limited.extend([1,2,3])
print(limited) 
print(limited.append(8))
print(limited)
# При этом, как видно из результата операции limited.append(8), удаляемый элемент не возвращается, а просто исчезает.

# Для чего может пригодиться такая возможность?
# Например, необходимость в таком инструменте возникает, когда за один раз необходимо обрабатывать строго фиксированное число элементов. 
# Особенно это актуально для анализа динамики какого-то значения во времени.
# Ниже приведены средние дневные температуры в Москве за июль:
temps = [20.6, 19.4, 19.0, 19.0, 22.1,
        22.5, 22.8, 24.1, 25.6, 27.0,
        27.0, 25.6, 26.8, 27.3, 22.5,
        25.4, 24.4, 23.7, 23.6, 22.6,
        20.4, 17.9, 17.3, 17.3, 18.1,
        20.1, 22.2, 19.8, 21.3, 21.3,
        21.9]
# Посчитаем динамику средней температуры с усреднением за каждые последние 7 дней для каждого рассматриваемого дня. 
# Для этого воспользуемся очередью с параметром maxlen=7:

days = deque(maxlen=7)
 
for temp in temps:
    # Добавляем температуру в очередь
    days.append(temp)
    # Если длина очереди оказалась равной максимальной длине очереди (7),
    # печатаем среднюю температуру за последние 7 дней
    if len(days) == days.maxlen:
        print(round(sum(days) / len(days), 2), end='; ')
# Напечатаем пустую строку, чтобы завершить действие параметра
# end. Иначе следующая строка окажется напечатанной на предыдущей
print("")
# Как видите, для решения этой задачи очень подошла очередь с ограниченной длиной, 
# поскольку нам не приходилось самостоятельно контролировать число элементов. 
# Структура данных сама контролировала все технические детали.

# ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ

# Вы уже узнали основные функции append, pop и extend (а также их собратьев для аналогичных действий с левого конца дека). 
# Теперь рассмотрим дополнительные функции, которые позволяют совершать действия с очередью.
# reverse позволяет поменять порядок элементов в очереди на обратный:
dq = deque([1,2,3,4,5])
print(dq)
dq.reverse()
print(dq)

# rotate переносит  заданных элементов из конца очереди в начало:
dq = deque([1,2,3,4,5])
print(dq)
dq.rotate(2)
print(dq)

# Элементы можно переносить и из начала в конец:
dq = deque([1,2,3,4,5])
print(dq)

# Отрицательное значение аргумента переносит
# n элементов из начала в конец
dq.rotate(-2)
print(dq)

# Обратите внимание, что порядок внутри перенесённых элементов остался тем же, каким был изначально. 
# Вспомните, в каком порядке добавляются элементы в начало очереди функцией extend, и сопоставьте с действием rotate.
# Функция index позволяет найти первый индекс искомого элемента, а count позволяет подсчитать, 
# сколько раз элемент встретился в очереди (функции аналогичны одноимённым функциям для списков):
dq = [1,2,4,2,3,1,5,4,4,4,4,4,3]
print(dq.index(4))
print(dq.count(4))

# Обратите внимание, что при попытке узнать индекс несуществующего элемента возникнет ValueError:
dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
try:
    print(dq.index(25))
except ValueError:
    print('ValueError: not index 25 in list')

# А вот посчитать несуществующий элемент можно (получится просто 0):
dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
print(dq.count(25))

# Наконец, функция clear позволяет очистить очередь:

dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
print(dq)
dq.clear()
print(dq)

In [None]:
# ТИПЫ ДАННЫХ

# Когда вы только начали изучать Python, вы узнали, что существуют различные типы данных: строковые (str), 
# целочисленные (int), числа с плавающей точкой (float), булевы (bool). 
# Также вы научились преобразовывать одни типы данных в другие, используя встроенные в Python возможности.
# Сейчас вам предстоит изучить типы данных, которые используются в NumPy. 
# К счастью, они основываются на уже знакомых вам типах данных, однако обладают некоторыми особенностями.

# Чтобы лучше понимать суть встроенных в NumPy типов данных, сначала вспомним, как данные хранятся в компьютере.
# По сути, данные в памяти компьютера представлены последовательностью из 0 и 1.
# Такая одна позиция в памяти, в которой может храниться 0 или 1, называется битом.
# В памяти компьютера принято объединять биты в группы по 8 штук. Группа из 8 битов называется байтом.
# На самом деле, минимальная ячейка памяти, с которой обычно работают программы, — это всё же байт.

# Сколько различных чисел можно записать в 1 бит? Два числа: 0 или 1. А в 2 бита? 
# Уже четыре: 00 -> 0, 01 -> 1, 10 -> 2, 11 -> 3. 
# В три бита войдёт уже восемь чисел: 000 -> 0, 001 -> 1, 010 -> 2, 011 -> 3, 100 -> 4, 101 -> 5, 110 -> 6, 111 -> 7.
# Заметьте, что каждый раз число возможных вариантов увеличивается в два раза. Таким образом, существует формула, 
# позволяющая узнать максимальное число последовательностей из  0 и 1:
# где  — число выделенных битов,  — максимально возможное при данном  число последовательностей,  — оператор возведения в степень.

# Сколько же чисел войдёт в 1 байт? 2 ** 8 = 256. Если мы захотим записать в байт целые неотрицательные числа, 
# мы сможем записать числа от 0 до 255 включительно.
# Обратите внимание, число 256 вписать уже не получится, поскольку считать начали не с 1, а с 0.

# А в каком диапазоне могут оказаться в байте просто целые числа (включаем теперь и отрицательные)? От -128 до +127.
# Проверим это: в самом деле, от -128 до -1 содержится 128 целых чисел. От 1 до 127 ещё 127 чисел. 
# Наконец, остаётся ноль — это ещё одно число. Итого получаем 128 + 127 + 1 = 256. Т
# ак что мы действительно получили все возможные варианты.

# Итак, обобщим. Чтобы узнать максимальное целое положительное число, которое можно уместить в  бит, 
# необходимо воспользоваться следующей формулой:

# Например, в 16 бит поместится максимальное число 2 ** 16 - 1 = 65535, если считать минимальным числом 0.
# Чтобы узнать минимальное и максимальное целое число существует две формулы:

In [None]:
# ЦЕЛОЧИСЛЕННЫЕ ТИПЫ ДАННЫХ В NUMPY

# Вся предыдущая теория была необходима для лучшего понимания того, как строятся названия типов данных в NumPy.
# Начнём с целочисленных типов данных в NumPy.
# Это тип данных с общим корнем int. Int может быть со следующими окончаниями: int8, int16, int32 и int64. 
# Окончание типа данных в NumPy показывает, сколько битов памяти должно быть выделено для хранения переменной.
# Преобразуем обычное целое число в NumPy-тип, например в int8. Для этого напишем выражение np.int8 и круглые скобки. 
# В круглых скобках в качестве аргумента передадим тот объект, который должен быть преобразован:
import numpy as np
a = np.int8(25)
print(a)

# Как видите, при печати нет никакой разницы между встроенным int и np.int8. 
# Как же понять, что в a теперь действительно NumPy-тип данных? Воспользуемся функцией type:
print(type(a))

In [None]:
# В самом деле, переменная a теперь принадлежит к типу int8. 
# Ранее вы изучили, как по заданному числу бит узнать, в каких границах может находиться целое число в памяти. 
# На самом деле с NumPy вам не потребуется считать это вручную!
# Чтобы узнать границы int, можно воспользоваться функцией np.iinfo (int info):
# Можно применить к самому
# названию типа данных
np.iinfo(np.int8)

# Можно применить к существующему
# конкретному объекту
np.iinfo(a)

In [None]:
# Преобразуем число 124 в uint8, а также узнаем пограничные значения полученной переменной:

b = np.uint8(124)
print(b)
print(type(b))
np.iinfo(b)

In [None]:
# НЕСКОЛЬКО ЗАМЕЧАНИЙ О ПРИВЕДЕНИИ ТИПОВ
# Как вы могли заметить на примере целочисленных типов, преобразовывать числа довольно просто: главное, 
# не забыть написать np, указать новый тип данных, а в скобках передать то число или ту переменную, которую необходимо преобразовать. 
# Однако следует учитывать несколько моментов.
# Тип данных не сохранится, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

a = np.int32(1000)
print(a)

print(type(a))

a = 2056
print(a)

print(type(a))

# Вместо этого следует снова указать нужный NumPy-тип данных:
a = np.int32(1000)
print(a)

print(type(a))

a = np.int32(2056)
print(a)

print(type(a))

# А вот арифметические операции сохраняют NumPy-тип данных:
a = np.int32(1000)
b = a + 25
print(b)

print(type(b))

# Примечание. В некоторых более старых версиях NumPy тип данных может измениться на int64 вместо ожидаемого int32. 
# Это связано с тем, что число 25 может быть сначала преобразовано в NumPy-тип данных int (по умолчанию int64) перед сложением. 
# Скорее всего, на практике вам не особо помешает такая особенность, однако о ней следует помнить, 
# когда требуется хранить числа максимально оптимальным способом.

# Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:
a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)

print(type(c))

# Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.
# Например, попробуем преобразовать число 260 в тип данных np.int8. Вспомните, 
# какое максимальное число может храниться в этом типе данных.

a = np.int8(260)
print(a)

# В переменной a теперь оказалось число 4, а не 260. По сути в переменную записался остаток от деления 260 на 256,
# а не само число. Ошибка при этом не возникла.
# Если же при арифметических операциях происходит переполнение максимально выделенной памяти для типа, возникает предупреждение.
# Например, выполним сложение двух очень больших чисел типа int32 (максимум для этого типа — 2147483647):
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)

print(a + b)

# Переполнено int'овое значение
# Значение было посчитано, но при этом оно явно отличается от той суммы, которую мы хотели получить.
# Чтобы избежать этой ошибки, вначале следовало преобразовать переменные к большему типу:

a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)

print(np.int64(a) + np.int64(b))

In [None]:
# ТИПЫ ДАННЫХ С ПЛАВАЮЩЕЙ ТОЧКОЙ В NUMPY

# Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: 
# корень + объём памяти в битах. Беззнаковых float нет.
# Доступны следующие типы данных float: float16, float32, float64 
# (применяется по умолчанию, если объём памяти не задан дополнительно), float128.
# Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info):
np.finfo(np.float16)
np.finfo(np.float32)
np.finfo(np.float64)
np.finfo(np.float128)

# Рассмотрим вывод finfo для float16 внимательнее.
# Для начала посмотрим на значения min и max. Они указаны в стандартном виде числа. 
# Это такой формат записи числа, при котором число записывается в виде , где  — целое число, а для  верно: .
# Например, 2021 можно записать в виде . 
# При выводе числа в стандартном виде вместо умножения на 10 в степени  пишется буква , знак степени (+ или -) и сама степень. 
# Следовательно, число 2021 может быть представлено как .
# Таким образом, минимальным значением float16 является -6.55040e+04, или -65504.0. Максимальное значение — 6.55040e+04, или 65504.0.

# Resolution (от англ. «разрешение») в выводе finfo означает точность, 
# с которой сохраняется десятичная часть числа в стандартном виде. 
# Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. 
# Третий знак числа float16 идёт уже с шагом 0.005:
print(np.float16(4.12))
print(np.float16(4.13))
print(np.float16(4.123))
print(np.float16(4.124))
print(np.float16(4.125))

In [None]:
# ДОПОЛНИТЕЛЬНЫЕ ТИПЫ ДАННЫХ В NUMPY

# Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута sctypeDict. 
# Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться 
# в зависимости от версии NumPy)! 
# Однако основные названия типов данных в NumPy не меняются от версии к версии.
print(np.sctypeDict)
print(len(np.sctypeDict))

# На самом деле реальных типов данных гораздо меньше, просто одни и те же типы данных могут иметь разные ярлыки. 
# Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, 
# что делают все функции, которые в нём использованы:
print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')

# Всего в выдаче будет 24 строки. Int, uint и float мы уже изучили. 
# Datetime и timedelta используются для хранения времени, complex используется для работы с комплéксными числами.
# Следует обратить внимание на типы данных bool_ и str_. 
# Они аналогичны bool и str из встроенных в Python, однако записывать их необходимо именно с нижним подчёркиванием, 
# иначе произойдёт приведение к стандартному типу данных, а не типу NumPy. 
# В целом, существенной разницы между этими типами данных нет, 
# однако о такой двойственности следует помнить при сравнении типов переменных: тип bool не является эквивалентным numpy.bool_, 
# несмотря на то что оба типа данных хранят значения True или False.

# Примечание: в версиях NumPy 1.20 и выше появится предупреждение, 
# если попытаться привести типы с помощью np.bool или np.str, а не np.bool_ или np.str_. 
# Однако в более ранних версиях данное предупреждение не появляется.

# Пример с bool:

a = True
print(type(a))

a = np.bool(a)
print(type(a))

a = np.bool_(a)
print(type(a))
 
# Значения равны
print(np.bool(True) == np.bool_(True))

# А типы — нет:
print(type(np.bool(True)) == type(np.bool_(True)))

# Пример со str:
a = "Hello world!"
print(type(a))

a = np.str(a)
print(type(a))

a = np.str_(a)
print(type(a))

# Небольшое замечание про bool: несмотря на то что для хранения значения истина/ложь было бы достаточно только одного бита, 
# из-за особенностей работы с памятью компьютера булевая переменная всё равно занимает в памяти целый байт.

In [None]:
# МАССИВЫ В NUMPY

# В большинстве языков программирования, таких как Java или Pascal, массивы реализуются «из коробки», 
# а вот для списков требуется подключение дополнительных библиотек. 
# В Python всё наоборот, поэтому мы будем пользоваться массивами из модуля NumPy.

# СОЗДАНИЕ МАССИВА ИЗ СПИСКА
# Создать массив из списка можно с помощью функции np.array(<объект>):

import numpy as np
arr = np.array([1,5,2,9,10])
arr

# Функция np.array возвращает объекты типа numpy.ndarray:

print(type(arr))

In [None]:
# Давайте теперь создадим двумерный массив из списка списков. 
# Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции np.array():

# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr

In [None]:
# ТИПЫ ДАННЫХ В МАССИВЕ

# Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. 
# Какого типа данные хранятся теперь в массиве arr? Узнать это можно, напечатав свойство dtype:

arr = np.array([1,5,2,9,10])
arr.dtype

# Примечание: данный код выполнялся в Google Colab, где по умолчанию используется NumPy 1.19.5. 
# В более новых версиях int-типом по умолчанию является int32. 
# Не удивляйтесь, если в последней версии NumPy вы увидите отличающийся результат выполнения ячейки.

# NumPy автоматически определил наш набор чисел как числа типа int64. Если мы, например, 
# не планируем хранить в этом массиве целые числа более 127, можно было сразу при создании массива задать тип данных int8.
# Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, 
# недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, 
# даже если разработчик этого явно не указал.

# Задать тип данных сразу при создании массива можно с помощью параметра dtype:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr

# При этом тип данных теперь выводится на экран при отображении массива средствами Jupyter Notebook. 
# Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, 
# как и при преобразовании к меньшему типу:
arr[2] = 2000
arr

# Если добавить float в массив int, пропадёт десятичная часть:
arr[2] = 125.5
arr

# Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:
arr[2] = '12'
arr

# А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:
try:
    arr[2] = 'test'
except ValueError:
    print('invalid literal for int(): test')

# Поменять тип данных во всём массиве можно с помощью тех же функций, 
# которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, np.int32 или np.float128):
arr = np.float128(arr)
arr

# При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, 
# если менять тип данных с более ёмкого на менее ёмкий:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
 
arr = np.uint8(arr)
arr

In [None]:
# СВОЙСТВА NUMPY-МАССИВОВ

# Вы уже узнали, как получить тип данных, который хранится в массиве. 
# Сделать это можно с помощью атрибута dtype. Есть и другие свойства массивов, которые будет полезно узнать.

# Будем тренироваться на массивах arr и nd_arr:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

# Узнать размерность массива можно с помощью .ndim:
print(arr.ndim)
print(nd_arr.ndim)

# В самом деле, мы создали arr одномерным, а nd_arr — двумерным.
# Узнать общее число элементов в массиве можно с помощью .size:
print(arr.size)
print(nd_arr.size)

# Форма или структура массива хранится в атрибуте .shape:
print(arr.shape)
print(nd_arr.shape)

# Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. 
# Соответственно, для одномерного массива напечатан кортеж длины 
# 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», 
# а затем число «столбцов». Это так только отчасти. 
# На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, 
# что мы передавали список, состоящий из четырёх списков, длина каждого из которых равнялась трём. 
# Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

# Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:
print(arr.itemsize)
print(nd_arr.itemsize)

In [None]:
# ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ

# Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.
# Можно заранее подготовить массив заданной размерности, заполненный нулями, 
# а потом загружать в него реальные данные по мере необходимости.

# Массив из нулей создаётся функцией np.zeros. 
# Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) 
# и dtype (необязательный) — тип данных, который будет храниться в массиве.
# Создадим одномерный массив из пяти элементов:
zeros_1d = np.zeros(5)
print(zeros_1d)

# Создадим трёхмерный массив с формой 5x4x3 и типом float32:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)

# Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, 
# но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).
# Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

# start (входит в диапазон возвращаемых значений) задаёт начальное число;
# stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
# step задаёт шаг, с которым в массив добавляются новые значения.
# В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

# Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:
np.arange(5)

# Создадим массив от 2.5 до 5:
np.arange(2.5, 5)

# Создадим массив от 2.5 до 5 с шагом 0.5:
np.arange(2.5, 5, 0.5)

# Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:
np.arange(2.5, 5, 0.5, dtype=np.float16)

In [None]:
# На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения 
# таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step 
# лучше использовать функцию linspace (англ. linear space — линейное пространство). 
# Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении 
# друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:
np.linspace(1, 50, num=50, endpoint=True, retstep=False, dtype=None)

# start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
# num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
# endpoint — включён или исключён конец диапазона (по умолчанию включён);
# retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
# dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).
# Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:
arr = np.linspace(1, 2, 10)
print(arr)

# Создадим массив из десяти чисел между 1 и 2, не включая 2:
arr = np.linspace(1, 2, 10, endpoint=False)
print(arr)

# Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

In [None]:
# ДЕЙСТВИЯ С МАССИВАМИ

# ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

# В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange.
# В NumPy существуют функции, которые позволяют менять форму массива.

# Создадим массив из восьми чисел:

import numpy as np
arr = np.arange(8)
print(arr)

# Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

arr.shape = (2, 4)
print(arr)

# Как и принято в NumPy, первое число задало число строк, а второе — число столбцов.
# Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.
# Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, 
# нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, 
# но возвращает новый массив, а не изменяет исходный:

arr = np.arange(8)
arr_new = arr.reshape((2, 4))
print(arr_new)

# У функции reshape есть дополнительный именованный аргумент order. 
# Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), 
# массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
print(arr_new)

# Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. 
# Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.
# Будем работать с двумерным массивом:
arr = np.arange(8)
arr.shape = (2, 4)
print(arr)

# Транспонируем его:
arr_trans = arr.transpose()
print(arr_trans)

# При транспонировании одномерного массива его форма не меняется:
arr = np.arange(3)
print(arr.shape)
arr_trans = arr.transpose()
print(arr_trans.shape)

In [35]:
# ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

# В определении массива указано, что он позволяет быстро получать элементы по индексу. Как же это происходит?
# Создадим массив из шести чисел:
arr = np.linspace(1, 2, 6)
arr

# Обратиться к его элементу по индексу можно так же, как и к списку:
print(arr[2])

# Привычная запись для срезов работает и для одномерных массивов:
print(arr[2:4])

# Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:
print(arr[::-1])

# С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
print(nd_array)

# Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:
nd_array[1][2]

# Мы получили число из второй строки и третьего столбца массива.
# Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить индексацию 
# по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:
nd_array[1, 2]

# Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. 
# Например, получим все элементы из колонки 3 для первых двух строк:
nd_array[:2, 2]

# Несмотря на то что в массиве этот срез является столбцом, вместо него мы получили одномерный массив в виде строки.
# Можно применять срезы сразу и к строкам, и к столбцам:
nd_array[1:, 2:4]

# Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. 
# Например, из всех строк получим срез с третьего по четвёртый столбцы:
nd_array[:, 2:4]

# Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. 
# Строки будут получены целиком по умолчанию:
nd_array[:2]

1.4
[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]
[[0.  0.5 1.  1.5]
 [2.  2.5 3.  3.5]
 [4.  4.5 5.  5.5]]


array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

In [None]:
# СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

# Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. 
# Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, 
# однако пока что это нам не потребуется. Применять функцию можно двумя способами.

# Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
print(arr_new)

# Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
print(arr)

In [37]:
# РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

# Начнём с примера — создадим массив:
data = np.array([4, 9, -4, 3])

# Воспользуемся встроенной в NumPy функцией sqrt, чтобы посчитать квадратные корни из элементов.
roots = np.sqrt(data)
print(roots)

# NumPy выдал предупреждение о том, что в функцию sqrt попало некорректное значение. Это было число -4, 
# а как вы помните, корень из отрицательного числа в действительных числах не берётся. Однако программа не сломалась окончательно, 
# а продолжила работу. На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. 
# Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий:

# Отличие 1. None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:
print(type(None))
print(type(np.nan))
type(np.nan)

# Отличие 2. None могут быть равны друг другу, а np.nan — нет:
print(None == None)
print(np.nan == np.nan)

# Как вы помните, чтобы грамотно сравнить что-либо с None, необходимо использовать оператор is. 
# Это ещё более актуально для np.nan. Однако None даже через is не является эквивалентным np.nan:
print(None is None)
print(np.nan is np.nan)
print(np.nan is None)

[2.         3.                nan 1.73205081]
<class 'NoneType'>
<class 'float'>
True
False
True
True
False


  roots = np.sqrt(data)


In [38]:
# Иногда работать с отсутствующими данными всё же нужно. Они могут возникнуть не только потому, 
# что мы применили функцию к некорректному аргументу. Например, при анализе вакансий на сайте 
# для некоторых из них может быть не указана зарплата, но при этом нам необходимо проанализировать 
# статистику по зарплатам на сайте. Если попробовать посчитать сумму массива, который содержит np.nan, 
# в итоге получится nan:
sum(roots)

# Что же делать?
# Можно заполнить пропущенные значения, например, нулями. 
# Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:
np.isnan(roots)

# Можно использовать полученный массив из True и False для извлечения элементов из массива roots, 
# на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:
roots[np.isnan(roots)]

# Этим элементам можно присвоить новые значения, например 0:
roots[np.isnan(roots)] = 0
print(roots)

# После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:
sum(roots)
# 6.732050807568877
# Ранее проблема при подсчёте суммы элементов в массиве roots возникала из-за того, 
# что отсутствовало значение для квадратного корня из -4 — вместо него было указано np.nan. 
# Сумма элементов массива, содержащего nan, также является nan. Поэтому приходится заменить nan, 
# например, на 0, чтобы подсчитать сумму элементов массива.

[2.         3.         0.         1.73205081]


6.732050807568877

In [40]:
# ВЕКТОРЫ В NUMPY И АРИФМЕТИКА

# С векторами в NumPy можно производить арифметические операции: складывать, вычитать, умножать друг на друга, 
# возводить один вектор в степень другого и т. д.

# Операция, применённая к двум векторам, на самом деле применяется поэлементно. 
# То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, 
# вторым — сумма вторых элементов и т. д.

# Рассмотрим примеры

# Произведём сложение двух векторов:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2

# Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:
list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2

# Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():
[x + y for x, y in zip(list1, list2)]

# Для совершения арифметических операций с векторами они должны быть одинаковой длины.
# Поэлементно умножим два вектора одинаковой длины:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2

# А теперь создадим vec2, который будет на один элемент короче, чем vec1:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
try:
    vec1 * vec2
except ValueError: 
    print('ValueError: Operands could not be broadcast together with shapes (4,) (3,)')
# ValueError: operands could not be broadcast together with shapes (4,) (3,)
# Ошибка значения: операнд не может быть распространён одновременно на структуры с формами (4,) и (3,).
# Возникла ValueError.

# Исключением является случай, когда операция происходит с вектором и одним числом. Например, 
# вектор целиком можно умножить на число или возвести в степень этого числа:
vec = np.arange(5)
vec * 10
vec ** 2

# Также векторы можно сравнивать друг с другом поэлементно:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2
# В результате получаем вектор исходной длины из булевых переменных, 
# которые соответствуют результату поэлементного сравнения чисел из двух векторов.
# Аналогично можно сравнивать вектор с числом:
vec = np.array([14,15,9,26,53,5,89])
vec <= 26

ValueError: Operands could not be broadcast together with shapes (4,) (3,)


array([ True,  True,  True,  True, False,  True, False])

In [41]:
# ПРОДВИНУТЫЕ ОПЕРАЦИИ С ВЕКТОРАМИ

# В курсе алгебры проходят в том числе следующие действия с векторами: вычисление длины (нормы) вектора, 
# нахождение расстояния между векторами, вычисление скалярного произведения. 
# Некоторые из них очень часто используются в машинном обучении, 
# алгоритмах кластеризации и построении математических моделей. Как специалистам в Data Science вам предстоит с этим работать.

# Например, ключевые черты лица человека можно представить в виде вектора из чисел. Допустим, 
# что у нас есть база данных всех существующих лиц, представленных в виде векторов. 
# Тогда в идеальном случае, когда мы получим новый вектор с чертами лица, нам будет достаточно найти тот вектор из базы данных,
# расстояние до которого минимально, чтобы определить человека по лицу.
# Длиной вектора называют корень из суммы квадратов всех его координат. Для вектора из  чисел ,  …  верна формула:

# Посчитаем длину следующего вектора:
vec = np.array([3, 4])

# Для начала воспользуемся формулой: возведём все элементы в квадрат, 
# посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:
length = np.sqrt(np.sum(vec ** 2))
print(length)

# Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.
# Для вычисления длины вектора нам потребуется функция norm:
length = np.linalg.norm(vec)
print(length)

# Мы получили то же самое расстояние с помощью одного действия!
# Расстоянием между двумя векторами называют квадратный корень из суммы квадратов разностей соответствующих координат. 
# Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами  и ):
# По сути, расстояние между векторами — это длина такого вектора, который является разностью этих векторов. 
# В самом деле, при вычитании двух векторов вычитаются их соответствующие координаты.
# Реализуем вычисление расстояния в коде. Сначала — «сложным» способом напрямую из формулы:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
print(distance)

# А теперь применим более простой способ — используем уже известную нам функцию np.linalg.norm:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
print(distance)

# Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. 
# Вот формула для скалярного произведения векторов  и  из  координат:
# Откуда такое странное название? Слово «скаляр» — синоним слова «число». Т
# о есть результатом вычисления скалярного произведения векторов является число — скаляр. 
# Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

# Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, 
# отсюда и такое название переменной):
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
print(scalar_product)

# Наверное, вы уже догадались, что в NumPy есть множество встроенных функций, 
# поэтому возник резонный вопрос: можно ли проще и вообще без формул?
# Да! Для этого используют функцию np.dot(x, y):
scalar_product = np.dot(vec1, vec2)
print(scalar_product)

# Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. 
# В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)

5.0
5.0
12.206555615733702
12.206555615733702
250.0
250.0


0

In [42]:
# СЛУЧАЙНЫЕ ЧИСЛА В NUMPY

# ГЕНЕРАЦИЯ FLOAT

# Для генерации псевдослучайных чисел в NumPy существует подмодуль random.
# Самой «базовой» функцией в нём можно считать функцию rand. 
# По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):
import numpy as np
np.random.rand()

# Поскольку теперь мы работаем со случайными числами, 
# не удивляйтесь, что вывод кода в примерах и на вашем компьютере может не совпадать.
# Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:
np.random.rand() * 100

# На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов ч
# ерез запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:
np.random.rand(5)

# Массив из двух случайных строк и трёх столбцов:
np.random.rand(2, 3)

# Функция rand может принимать неограниченное число целых чисел для задания формы массива:
np.random.rand(2, 3, 4, 10, 12, 23)

# Результата вывода порождаемого шестимерного массива мы не приводим для экономии места, 
# но вы можете ради интереса запустить этот код у себя в ноутбуке и увидеть результат.
# Обратите внимание, что обычно форму массивов мы задавали в функциях NumPy одним числом или кортежем, 
# а не перечисляли её в виде аргументов через запятую.

# Если передать в rand кортеж, возникнет ошибка:
try:    
    shape = (3, 4)
    np.random.rand(shape)
except TypeError:
    print('Ошибка типов: кортеж не может быть интерпретирован как целое число.')
# TypeError: 'tuple' object cannot be interpreted as an integer
# Ошибка типов: кортеж не может быть интерпретирован как целое число.
# Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:
shape = (3, 4)
np.random.rand(*shape)

# Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, 
# которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:
shape = (2, 3)
np.random.sample(shape)

# Возможно, именно функция sample покажется вам удобнее, поскольку информацию 
# о форме массива обычно удобнее хранить в коде в виде кортежа и не задумываться потом о его распаковке. 
# В остальном функция sample не отличается от rand.

# Не всегда требуются числа в диапазоне именно от 0 до 1. 
# На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, 
# однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:
# uniform(low=20.0, high=50.0, size=None)

# Первые два аргумента — нижняя и верхняя границы диапазона в формате float, 
# третий опциональный аргумент — форма массива (если не задан, возвращается одно число). 
# Форма массива задаётся кортежем или одним числом.
# Давайте поэкспериментируем ↓

# Запуск без аргументов эквивалентен работе функций rand или sample:
np.random.uniform()

# Зададим границы диапазона от -30 до 50:
np.random.uniform(-30, 50)

# Получим пять чисел в интервале от 0.5 до 0.75:
np.random.uniform(0.5, 0.75, size=5)

# Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:
np.random.uniform(-1000, 500, size=(2, 3))

Ошибка типов: кортеж не может быть интерпретирован как целое число.


array([[-474.18664163,   24.54224456,  150.57586956],
       [ 483.57901945, -325.97320025,  465.42451881]])

In [44]:
# ГЕНЕРАЦИЯ INT

# Не всегда требуется генерировать числа с плавающей точкой. 
# Иногда бывает удобно получить целые числа int (например, для поля игры в лото). 
# Для генерации целых чисел используется функция random.randint:

# randint(low, high=None, size=None, dtype=int)
# Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

# Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
# Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
# size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
# dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.
# Сгенерируем таблицу 2x3 от 0 до 3 включительно:
print(np.random.randint(4, size=(2,3)))

# Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:
print(np.random.randint(6, 12, size=(3,3)))

# Как и ожидалось, мы получили случайные числа от 6 до 11. Число 12 при этом никогда не было бы сгенерировано, т
# ак как верхняя граница диапазона не включена в генерацию.

[[0 1 1]
 [2 3 2]]
[[ 6  7 10]
 [ 9  7  8]
 [10  6 10]]


In [45]:
# Возьмём массив из целых чисел от 0 до 5 и перемешаем его:
arr = np.arange(6)
print(arr)
print(np.random.shuffle(arr))
arr

# Функция random.shuffle перемешивает тот массив, к которому применяется, и возвращает None.
# Чтобы получить новый перемешанный массив, а исходный оставить без изменений, 
# можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
print(playlist)

# Обратите внимание, что необязательно передавать в функцию сразу массив: 
# в этот раз мы передали в качестве аргумента список и ошибки не возникло. 
# При этом на выходе получился уже NumPy-массив (это заметно по отсутствию запятых при печати массива). 
# Сам список playlist при этом остался без изменений.

# Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), 
# где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.
np.random.permutation(10)

# По сути, вначале создаётся массив из чисел с помощью arange, а затем он перемешивается. 
# С помощью permutation можно избежать совершения этого дополнительного действия.
# Чтобы получить случайный набор объектов из массива, используется функция random.choice:
# choice(a, size=None, replace=True)
# a — массив или число для генерации arange(a);
# size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; 
# если параметр не задан, возвращается один объект);
# replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).
# Выберем случайным образом из списка двоих человек, которые должны будут выступить с отчётом на этой неделе. 
# Для этого из списка имён (опять же, можно передавать в функцию choice не NumPy-массив, а список) 
# получим два случайных объекта без повторений (логично, что нужно выбрать двух разных людей). Сделать это можно вот так:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate'] 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

# На выходе получили массив из двух имён без повторений. 
# Если попытаться получить без повторений массив большего размера, чем имеется объектов в исходном, возникнет ошибка:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
try:
    choice = np.random.choice(workers, size=10, replace=False)
except ValueError:
    print(choice)
# ValueError: Cannot take a larger sample than population when 'replace=False'
# Ошибка значения: нельзя получить выборку больше, чем популяция 
# (популяция — весь доступный набор объектов, из которого получаем выборку), если replace=False (то есть выборка без повторений).

# Выборка с повторениями используется по умолчанию. Она применяется в том случае, когда мы допускаем, что объекты могут повторяться.
# Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)

# В данном случае ошибка не возникает за счёт того, что объекты могут повторяться.# 

[0 1 2 3 4 5]
None
['ACDC' 'Deep Purple' 'The Beatles' 'Pink Floyd']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']
['Ivan' 'Kate']
['Ivan' 'Kate']
[2 6 6 2 5 4 5 2 5 2]


In [49]:
# SEED ГЕНЕРАТОРА ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ

# Как уже было сказано ранее, NumPy генерирует не истинные случайные числа 
# (такие числа получаются в результате случайных процессов), а псевдослучайные, 
# которые получаются с помощью особых преобразований какого-либо исходного числа. 
# Обычно компьютер берёт это число автоматически, например, из текущего времени в микросекундах 
# (на самом деле используются другие ещё менее предсказуемые числа). Такое число называют seed (от англ. — «зерно»).

# Иногда бывает необходимо получать одинаковые воспроизводимые последовательности случайных чисел, 
# например чтобы проверить результаты вычислений, для которых использовались случайные числа, на предмет ошибок.

# Самостоятельно задать seed в NumPy можно с помощью функции np.random.seed(<np.uint32>). 
# # Число в скобках должно быть в пределах от 0 до 2**32 - 1 (=4294967295).

# Зададим seed и посмотрим, что получится:

np.random.seed(23)
np.random.randint(10, size=(3,4))

# Если вы запустите этот код на своём компьютере, то, скорее всего, увидите тот же самый набор чисел!

np.random.seed(100)
print(np.random.randint(10, size=3))

print(np.random.randint(10, size=3))

print(np.random.randint(10, size=3))

# При этом запуск одной и той же функции генерации случайных чисел несколько 
# раз после задания seed не приводит к генерации одних и тех же чисел. 
# Однако итоговый результат работы всегда будет одинаковый в совокупности.

[8 8 3]
[7 7 0]
[4 2 5]
