## Содержание <a class="anchor" id="0"></a>

- [1. Введение](#1)
- [2. Collections. Counter и defaultdict](#2)
- [2.1 Collections. Операции с Counter](#2-1)
- [2.2 Collections. Дополнительные функции Counter](#2-2)
- [2.3 Collections. defaultdict](#2-3)
- [3. Collections. Deque и OrderedDict](#3)
- [3. Collections. OrderedDict](#3)
- [3. Collections. Deque](#3-2)
- [4. Collections. Примеры](#4)
- [5. NumPy. Типы данных](#5)
- [5.1 NumPy. Целочисленные данные](#5-1)
- [5.2 NumPy. Float](#5-2)
- [6. NumPy. Массивы](#6)
- [6. NumPy. Свойства массивов](#6-1)
- [6. NumPy. Заполнение новых массивов](#6-2)
- [7. NumPy. Действия с массивами](#7)
- [8. NumPy. Операции с векторами](#8)
- [9. NumPy. Случайные числа](#9)
- [10. NumPy. Документация](#10)

### 1. Введение <a class="anchor" id="1"></a>

[к содержанию](#0)

При работе с данными очень часто возникают однотипные задачи: посчитать число различных элементов в списке, быстро произвести вычисления сразу для всех элементов в списке, обработать поступающие данные по очереди и т. д. Как специалисты в Data Science, вы обязательно будете с ними сталкиваться. Отличные новости! Помимо вас, с такими задачами сталкиваются миллионы программистов по всему миру, поэтому очень часто подобный функционал либо уже реализован в Python, либо доступен для установки в виде дополнительных модулей.

Вам же необходимо научиться использовать эти инструменты для решения собственных задач.

### 2. Collections. Counter и defaultdict <a class="anchor" id="2"></a>

[к содержанию](#0)

### COUNTER

Как уже было сказано ранее, объект Counter (от англ. «счётчик») предназначен для решения часто возникающей задачи по подсчёту различных элементов.

In [1]:
# Импортируем объект Counter из модуля collections
from collections import Counter
# Создаём пустой объект Counter
c = Counter()

Теперь в переменной c хранится объект с возможностями Counter.

Рассмотрим базовый синтаксис этого инструмента. Например, будем считать цвета проезжающих машин: если встретили красную машину, посчитаем её. Для этого прибавим к ключу 'red' единицу. Синтаксис очень похож на работу со словарём:

In [8]:
c['red'] += 1
print(c)
# Будет напечатано:
# Counter({'red': 1})

Counter({'red': 1})


Допустим, у нас есть список цветов проехавших машин:

In [9]:
cars = ['red', 'blue', 'black', 'black', 'black', 'red', 'blue', 'red', 'white']

Посчитать значения, конечно, можно и в цикле, используя синтаксис из предыдущего примера:

In [10]:
c = Counter()
for car in cars:
    c[car] += 1
 
print(c)
# Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Однако гораздо проще при создании Counter сразу передать в круглых скобках итерируемый объект, в котором необходимо посчитать значения:

In [11]:
c = Counter(cars)
print(c)
# Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Узнать, сколько раз встретился конкретный элемент, можно, обратившись к счётчику по ключу как к обычному словарю:

In [12]:
print(c['black'])

3


Если обратиться к счётчику по несуществующему ключу, то, в отличие от словаря, ошибка `KeyError` не возникнет:

In [13]:
print(c['purple'])

0


Узнать сумму всех значений в объекте Counter можно, воспользовавшись следующей конструкцией:

In [14]:
print(sum(c.values()))

9


В этой конструкции мы сначала получаем элементы (число раз, когда встретился ключ) с помощью функции values (такая же функция есть и у словаря):

In [15]:
print(c.values())
# dict_values([3, 2, 3, 1])

dict_values([3, 2, 3, 1])


### Операции с Counter <a class="anchor" id="2-1"></a>

[к содержанию](#0)

Возможности Counter не ограничиваются только подсчётом элементов. Этот объект обладает и дополнительным функционалом — например, счётчики можно складывать и вычитать.

Допустим, вы с другом из другого города решили посчитать количество цветов встреченных на дороге машин. У вас получились такие списки цветов:

In [10]:
cars_moscow = ['black', 'black', 'white', 'black', 'black', 'white', 'yellow', 'yellow', 'yellow']
cars_spb = ['red', 'black', 'black', 'white', 'white', 'yellow', 'yellow', 'red', 'white']

Получим для них счётчики:

In [11]:
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
 
print(counter_moscow)
print(counter_spb)

Counter({'black': 4, 'abc': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})


Чтобы узнать, сколько машин разных цветов встретилось в двух городах, можно сложить два исходных счётчика и получить новый счётчик:

In [18]:
print(counter_moscow + counter_spb)

Counter({'black': 6, 'white': 5, 'yellow': 5, 'red': 2})


Чтобы узнать **разницу** между объектами Counter, необходимо воспользоваться функцией `subtract`, которая меняет тот объект, к которому применяется. В примере выше из значений, посчитанных для Москвы, вычитаются значения, посчитанные для Санкт-Петербурга:

In [19]:
print(counter_moscow)
print(counter_spb)
# Counter({'black': 4, 'yellow': 3, 'white': 2})
# Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
 
counter_moscow.subtract(counter_spb)
print(counter_moscow)

Counter({'black': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
Counter({'black': 2, 'yellow': 1, 'white': -1, 'red': -2})


Заметьте, что белых машин в counter_spb оказалось больше, чем в counter_moscow, поэтому разность отрицательная. Красных машин в moscow вообще не было, а в spb их оказалось сразу две, поэтому разница равна -2. Значения для black и yellow остались положительными, потому что их было больше.

In [20]:
# Пересоздаём счётчики, потому что объект counter_moscow поменял свои значения
# после функции subtract.
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
 
print(counter_moscow - counter_spb)
# Counter({'black': 2, 'yellow': 1})

Counter({'black': 2, 'yellow': 1})


### ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ  <a class="anchor" id="2-2"></a>

[к содержанию](#0)

Чтобы получить список всех элементов, которые содержатся в Counter, используется функция `elements()`. Она возвращает итератор, поэтому, чтобы напечатать все элементы, распакуем их с помощью *:

In [20]:
print(*counter_moscow.elements())

black black black black abc abc abc abc white white yellow yellow yellow


>Обратите внимание, что элементы возвращаются в алфавитном порядке, а не в том порядке, в котором их вносили в счётчик.

Чтобы получить список уникальных элементов, достаточно воспользоваться функцией `list()`:

In [22]:
print(list(counter_moscow))

['black', 'white', 'yellow']


С помощью функции `dict()` можно превратить Counter в обычный словарь:

In [23]:
print(dict(counter_moscow))

{'black': 4, 'white': 2, 'yellow': 3}


Функция `most_common()` позволяет получить список из кортежей элементов в порядке убывания их встречаемости:

In [24]:
print(counter_moscow.most_common())

[('black', 4), ('yellow', 3), ('white', 2)]


В неё также можно передать значение, которое задаёт желаемое число первых наиболее частых элементов, например, 2:

In [25]:
print(counter_moscow.most_common(2))

[('black', 4), ('yellow', 3)]


Наконец, функция `clear()` позволяет полностью обнулить счётчик:

In [26]:
counter_moscow.clear()
print(counter_moscow)

Counter()


### DEFAULTDICT <a class="anchor" id="7"></a>

[к содержанию](#0)

Возможно, вы уже сталкивались с задачей, когда необходимо было создать словарь, в котором по ключам расположены списки. Например, у нас есть список из кортежей с фамилиями студентов и их учебными группами:

In [28]:
students = [('Ivanov',1),('Smirnov',4),('Petrov',3),('Kuznetsova',1),
            ('Nikitina',2),('Markov',3),('Pavlov',2)]

Сохраним эти данные в словаре, в котором ключами будут номера групп, а элементами — списки студентов. Сделать это можно следующим образом:

In [29]:
groups = dict()
 
for student, group in students:
    # Проверяем, есть ли уже эта группа в словаре
    if group not in groups:
        # Если группы ещё нет в словаре, создаём для неё пустой список
        groups[group] = list()
    groups[group].append(student)
 
print(groups)

{1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']}


В данном коде в цикле for происходит распаковка кортежа: в переменные цикла student и group попадают первый и второй элементы кортежей из списка students. То есть на первой итерации цикла в переменной student содержится строка 'Ivanov', а в переменной group — целое число 1. На второй итерации цикла в переменной student содержится строка 'Smirnov', а в переменной group — целое число 4. И так далее.

Обратите внимание, что для решения этой задачи нам потребовался шаг с проверкой наличия номера группы в словаре. Если номера группы не было, для этой группы мы создавали новый список в словаре. Без шага проверки мы бы натолкнулись на `KeyError`:

In [30]:
groups = dict()
 
for student, group in students:
    groups[group].append(student)
 
print(groups)

KeyError: 1

Данная ошибка означает, что ключа 1 нет в словаре.

**? Можно ли было сделать проще? Да!**

>Для этого существует объект `defaultdict` из модуля `collections`. Он позволяет задавать тот тип данных, который хранится в словаре по умолчанию (в нашем случае это должен быть список). Это бывает удобно в том случае, если приходится заполнять одну и ту же структуру данных, экземпляр которой должен храниться по каждому ключу в словаре.

Например, чтобы сохранить информацию о колебании курсов валют за последний месяц, можно создать словарь из валютных пар (USD/RUB, EUR/RUB и т. д.), а по ключам разместить списки из стоимости валюты по курсу ЦБ за последние 30 дней. В таком словаре по каждому ключу должен быть доступен список.

Создадим `defaultdict`, в котором при обращении по несуществующему ключу будет автоматически создаваться новый список. Для этого при создании объекта `defaultdict` в круглых скобках передадим параметр list:

In [31]:
from collections import defaultdict
groups = defaultdict(list)

Обратите внимание, что в скобках мы передаём именно указатель на класс объекта (например `list`; также можно было бы применить `set`, `dict`) без круглых скобок, которые используются для создания нового экземпляра объекта.

Теперь тот же код, который вызывал ошибку при работе с обычным словарём, сработает так, как ожидается:

In [32]:
for student, group in students:
    groups[group].append(student)
 
print(groups)

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']})


В выводе есть небольшое отличие от обычного словаря: печатаются не только элементы словаря, но и само название объекта `defaultdict`, а также класс объекта, который задан по умолчанию. В данном случае это `<class 'list'>`. 

Получить элемент из `defaultdict` по ключу можно так же, как и из обычного словаря:

In [33]:
print(groups[3])

['Petrov', 'Markov']


Если запрашиваемого ключа нет в словаре, `KeyError` не возникнет. Вместо этого будет напечатан пустой элемент, который создаётся в словаре по умолчанию:

In [34]:
print(groups[2021])

[]


Теперь в словаре `groups` автоматически появился элемент 2021 с пустым списком внутри, несмотря на то что мы его не создавали:

In [35]:
print(groups)

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov'], 2021: []})


Итак, вы обратили внимание, что поведение `defaultdict` в коде отличается от обычного словаря `dict`. Узнать, с каким именно словарём мы имеем дело в коде, можно с помощью встроенной функции type:

In [36]:
dict_object = dict()
defaultdict_object = defaultdict()
 
print(type(dict_object))
# <class 'dict'>
print(type(defaultdict_object))
# <class 'collections.defaultdict'>

<class 'dict'>
<class 'collections.defaultdict'>


Видно, что типы переменных `dict_object` и `defaultdict_object` отличаются.

In [37]:
print(dict_object)
# {}
print(defaultdict_object)
# defaultdict(None, {})

{}
defaultdict(None, {})


## Collections. Deque и OrderedDict <a class="anchor" id="3"></a>

[к содержанию](#0)

### ORDEREDDICT

В далёкие времена (а точнее, до 2018 года) словари в Python не сохраняли порядок ключей, которые в них добавляли. Попробуйте в Codeboard создать несколько раз словарь с одними и теми же ключами и значениями и напечатать его:

In [38]:
# Напоминаем способ создания словаря через список кортежей
# (ключ, значение)
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
client_ages = dict(data)
print(client_ages)
# По результатам 3 повторов получились вот такие результаты:
# {'Maria': 20, 'Mark': 25, 'Ivan': 19, 'Andrey': 23}
# {'Ivan': 19, 'Andrey': 23, 'Mark': 25, 'Maria': 20}
# {'Andrey': 23, 'Mark': 25, 'Maria': 20, 'Ivan': 19}

{'Ivan': 19, 'Mark': 25, 'Andrey': 23, 'Maria': 20}


Как видите, каждый раз при повторном запуске кода порядок элементов меняется. Изначально объект `dict` не гарантировал выдачу ключей и значений в порядке их добавления.

Сохранение ключей в словаре в порядке добавления не всегда является существенным, но при необходимости словарь с таким функционалом можно получить из модуля `collections`.

In [39]:
from collections import OrderedDict
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
ordered_client_ages = OrderedDict(data)
print(ordered_client_ages)
# По результатам 3 повторов получились вот такие результаты:
# OrderedDict([('Ivan', 19), ('Mark', 25), ('Andrey', 23), ('Maria', 20)])
# OrderedDict([('Ivan', 19), ('Mark', 25), ('Andrey', 23), ('Maria', 20)])
# OrderedDict([('Ivan', 19), ('Mark', 25), ('Andrey', 23), ('Maria', 20)])

OrderedDict([('Ivan', 19), ('Mark', 25), ('Andrey', 23), ('Maria', 20)])


Как видите, порядок добавленных ключей сохраняется. Также при выводе словаря на экран печатается тип данных (`OrderedDict`), к которому он относится.

Можно, например, отсортировать с помощью функции `sorted` список кортежей при создании из него `OrderedDict`, и объекты будут добавлены в порядке сортировки:

In [40]:
data = [('Ivan', 19),('Mark', 25),('Andrey', 23),('Maria', 20)]
# Сортируем по второму значению из кортежа, то есть по возрасту
ordered_client_ages = OrderedDict(sorted(data, key=lambda x: x[1]))
print(ordered_client_ages)
# OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25)])

OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25)])


Если теперь добавить нового человека в словарь, новая запись окажется в конце:

In [41]:
ordered_client_ages['Nikita'] = 18
print(ordered_client_ages)
# OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25), ('Nikita', 18)])

OrderedDict([('Ivan', 19), ('Maria', 20), ('Andrey', 23), ('Mark', 25), ('Nikita', 18)])


Если удалить элемент, а затем добавить его снова, он также окажется в конце:

In [42]:
del ordered_client_ages['Andrey']
print(ordered_client_ages)
# OrderedDict([('Ivan', 19), ('Mark', 25), ('Maria', 20), ('Nikita', 18)])
ordered_client_ages['Andrey'] = 23
print(ordered_client_ages)
# OrderedDict([('Ivan', 19), ('Mark', 25), ('Maria', 20), ('Nikita', 18), ('Andrey', 23)])

OrderedDict([('Ivan', 19), ('Maria', 20), ('Mark', 25), ('Nikita', 18)])
OrderedDict([('Ivan', 19), ('Maria', 20), ('Mark', 25), ('Nikita', 18), ('Andrey', 23)])


⭐ Хорошие новости! Начиная с версии Python 3.7, гарантируется сохранение ключей в том порядке, в котором они добавлялись в словарь. Однако вам следует помнить о том, что в более старых версиях Python порядок ключей не сохраняется. Это важно для обратной совместимости, то есть для корректной работы программы со старыми версиями интерпретатора. Например, если требуется, чтобы код работал и с версиями Python старше 3.7, и в нём используется очерёдность ключей в словаре, необходимо создавать `OrderedDict` вместо `dict`.

## DEQUE <a class="anchor" id="3-2"></a>

[к содержанию](#0)

Вы уже умеете использовать такую упорядоченную структуру данных, как список. Существуют и другие упорядоченные структуры данных. В данном случае речь пойдёт про **очереди** и **рюкзаки** (**стеки**). Они применяются при решении некоторых задач (в том числе довольно сложных), поэтому иметь представление об этих объектах очень важно. Также про стеки и очереди вас могут спросить на собеседовании, поскольку знание этих объектов показывает общую IT-грамотность специалиста.

>Очередь — это упорядоченный тип данных, который обладает двумя ключевыми функциями: добавление элемента в конец очереди и извлечение самого первого элемента из очереди. То есть очередь подразумевает, что тот элемент, который первым добавлен в очередь, будет первым потом и обработан. Всё как в обычной очереди! Этот принцип сокращённо также называется FIFO (от англ. First In — First Out, «первым пришёл — первым ушёл»).

Очереди часто используются на серверах для обработки поступающих на них задач. Например, программист запускает для вычисления задачу, которая занимает все вычислительные возможности сервера. Новые задачи не могут быть запущены в обработку сразу, поэтому вынуждены находиться в очереди: когда на сервер поступает новая задача, с помощью обязательной для очереди функции «добавить в очередь» задача добавляется в конец очереди.

Когда сервер освободится от задачи, будет запущена функция «извлечь из очереди», и сервер запустит в обработку следующую по очереди задачу. При этом та задача, которая была добавлена в очередь самой первой, будет и обработана самой первой, то есть «в порядке очереди».

>Стек (от англ. stack — стопка) — это упорядоченный тип данных, который обладает двумя основными функциями: добавление элемента в конец стека и извлечение элемента из конца стека. Эта структура данных также называется рюкзаком. Действительно, представьте себе, что вы набили вещами рюкзак. Теперь, когда вы решите достать из него самую верхнюю вещь, что это будет за вещь? Верно — та самая, которую вы убрали в рюкзак последней. Поэтому принцип стека (рюкзака) также сокращённо называется LIFO (Last In — First Out, «последним пришёл — первым ушёл»).

Наконец, существует структура данных `deque` (читается как «дек», англ. `double-ended queue` — двухконцевая очередь). Она объединяет в себе возможности и стека, и очереди: содержит функции, которые позволяют добавлять элементы в начало или в конец очереди, а также извлекать первый или последний элемент из неё. 

В Python `deque` уже реализован, и им можно пользоваться для решения задач, для которых требуется как стек, так и очередь. При этом вы как разработчик уже самостоятельно решаете, каким именно функционалом из `deque` вы будете пользоваться для решения вашей задачи: либо вы будете обрабатывать элементы в порядке очереди, либо будете добавлять и извлекать элементы с помощью функций для стека. Также можно добавлять и извлекать данные с обеих доступных сторон: нельзя указать, что вы собираетесь использовать `deque`  только как стек или очередь.

Создадим пустой дек (`deque`). Для этого сначала импортируем эту структуру данных из модуля `collections`, а затем создадим её пустой экземпляр:

In [43]:
from collections import deque
dq = deque()
print(dq)
# deque([])

deque([])


У `deque` есть четыре ключевые функции:

* `append` (добавить элемент в конец дека);
* `appendleft` (добавить элемент в начало дека);
* `pop` (удалить и вернуть элемент из конца дека);
* `popleft` (удалить и вернуть элемент из начала дека).


Рассмотрим их на примере.

Начался рабочий день, и в службу поддержки оператора связи стали поступать звонки от клиентов. В какой-то момент свободные операторы закончились и начала образовываться очередь в ожидании. Добавим несколько человек в очередь с помощью append:

In [44]:
clients = deque()
clients.append('Ivanov')
clients.append('Petrov')
clients.append('Smirnov')
clients.append('Tikhonova')
print(clients)
# deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])

deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])


Объект deque поддерживает индексацию по элементам:

In [45]:
print(clients[2])
# Smirnov

Smirnov


Освободилось два оператора — заберём двоих человек из начала очереди с помощью `popleft`:

In [46]:
first_client = clients.popleft()
second_client = clients.popleft()
 
print("First client:", first_client)
print("Second client:", second_client)
print(clients)
# First client: Ivanov
# Second client: Petrov
# deque(['Smirnov', 'Tikhonova'])

First client: Ivanov
Second client: Petrov
deque(['Smirnov', 'Tikhonova'])


Как видите, первые элементы исчезли из очереди. Функции `pop` и `popleft` возвращают тот элемент, который они удаляют (последний или первый соответственно).

Вдруг появился VIP-клиент. Для него тоже нет свободного оператора, но добавить его нужно в начало очереди с помощью `appendleft`:

In [47]:
clients.appendleft('Vip-client')
 
print(clients)
# deque(['Vip-client', 'Smirnov', 'Tikhonova'])

deque(['Vip-client', 'Smirnov', 'Tikhonova'])


VIP-клиент теперь оказался самым первым в очереди.

Последний клиент в очереди устал ждать и отменил вызов. Удалим его с помощью `pop`:

In [48]:
tired_client = clients.pop()
print(tired_client, "left the queue")
print(clients)
# Tikhonova left the queue
# deque(['Vip-client', 'Smirnov'])

Tikhonova left the queue
deque(['Vip-client', 'Smirnov'])


С помощью pop всегда удаляется последний элемент из дэка. Чтобы удалить конкретный элемент по индексу, необходимо воспользоваться встроенной конструкцией `del`:

In [49]:
clients = deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])
print(clients)
# deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])
del clients[2]
print(clients)
# deque(['Ivanov', 'Petrov', 'Tikhonova'])

deque(['Ivanov', 'Petrov', 'Smirnov', 'Tikhonova'])
deque(['Ivanov', 'Petrov', 'Tikhonova'])


Также в очередь возможно добавить сразу несколько элементов из итерируемого объекта в дек. Для этого используют функции `extend` (добавить в конец дека) и `extendleft` (добавить в начало дека).

In [50]:
# В скобках передаём список при создании deque,
# чтобы сразу добавить все его элементы в очередь
shop = deque([1, 2, 3, 4, 5])
print(shop)
# deque([1, 2, 3, 4, 5])
shop.extend([11, 12, 13, 14, 15, 16, 17])
print(shop)
# deque([1, 2, 3, 4, 5, 11, 12, 13, 14, 15, 16, 17])

deque([1, 2, 3, 4, 5])
deque([1, 2, 3, 4, 5, 11, 12, 13, 14, 15, 16, 17])


Если вдруг у турфирмы имеется договорённость с магазином, что клиенты турфирмы обслуживаются вне очереди, добавим их в начало той же очереди с помощью `extendleft`:

In [51]:
shop = deque([1, 2, 3, 4, 5])
print(shop)
# deque([1, 2, 3, 4, 5])
shop.extendleft([11, 12, 13, 14, 15, 16, 17])
print(shop)
# deque([17, 16, 15, 14, 13, 12, 11, 1, 2, 3, 4, 5])

deque([1, 2, 3, 4, 5])
deque([17, 16, 15, 14, 13, 12, 11, 1, 2, 3, 4, 5])


Обратите внимание, что «клиенты из автобуса» оказались в очереди не в том порядке, в каком они «выходили из автобуса». То есть добавленные номера не только приписаны перед записанными в очереди номерами, но также порядок добавленных элементов поменялся на обратный. Это связано с тем, что действие функции `extendleft` аналогично многократному применению функции `appendleft`, поэтому самый последний клиент из автобуса оказался в итоге первым в очереди.

### ОЧЕРЕДЬ С ОГРАНИЧЕННОЙ МАКСИМАЛЬНОЙ ДЛИНОЙ

При создании очереди можно также указать её максимальную длину с помощью параметра `maxlen`. Сделать это можно как при создании пустой очереди, так и при создании очереди от заданного итерируемого объекта:

In [52]:
limited = deque(maxlen=3)
print(limited)
# deque([], maxlen=3)
 
limited_from_list = deque([1,3,4,5,6,7], maxlen=3)
print(limited_from_list)
# deque([5, 6, 7], maxlen=3)

deque([], maxlen=3)
deque([5, 6, 7], maxlen=3)


Обратите внимание, что теперь дополнительно печатается максимальная длина очереди.

Также заметьте, что в очереди с ограниченной длиной сохраняются только последние элементы, а первые исчезают из памяти:

In [53]:
limited.extend([1,2,3])
print(limited)
# deque([1, 2, 3], maxlen=3)
 
print(limited.append(8))
# None
print(limited)
# deque([2, 3, 8], maxlen=3)

deque([1, 2, 3], maxlen=3)
None
deque([2, 3, 8], maxlen=3)


При этом, как видно из результата операции `limited.append(8)`, удаляемый элемент не возвращается, а просто исчезает.

?Для чего может пригодиться такая возможность?

Например, необходимость в таком инструменте возникает, когда за один раз необходимо обрабатывать строго фиксированное число элементов. Особенно это актуально для анализа динамики какого-то значения во времени.

Ниже приведены средние дневные температуры в Москве за июль:

In [54]:
temps = [20.6, 19.4, 19.0, 19.0, 22.1,
        22.5, 22.8, 24.1, 25.6, 27.0,
        27.0, 25.6, 26.8, 27.3, 22.5,
        25.4, 24.4, 23.7, 23.6, 22.6,
        20.4, 17.9, 17.3, 17.3, 18.1,
        20.1, 22.2, 19.8, 21.3, 21.3,
        21.9]

Посчитаем динамику средней температуры с **усреднением**(Такое преобразование называется **скользящим средним**. Оно позволяет сгладить колебания в данных и чётче увидеть тренд.) за каждые последние 7 дней для каждого рассматриваемого дня. Для этого воспользуемся очередью с параметром `maxlen=7`:

In [55]:
days = deque(maxlen=7)
 
for temp in temps:
    # Добавляем температуру в очередь
    days.append(temp)
    # Если длина очереди оказалась равной максимальной длине очереди (7),
    # печатаем среднюю температуру за последние 7 дней
    if len(days) == days.maxlen:
        print(round(sum(days) / len(days), 2), end='; ')
# Напечатаем пустую строку, чтобы завершить действие параметра
# end. Иначе следующая строка окажется напечатанной на предыдущей
print("")
# Результат:
# 20.77; 21.27; 22.16; 23.3; 24.44; 24.94; 25.56; 26.2; 25.97;
# 25.94; 25.57; 25.1; 24.81; 24.21; 23.23; 22.57; 21.41; 20.4;
# 19.6; 19.1; 19.04; 18.96; 19.44; 20.01; 20.67;

20.77; 21.27; 22.16; 23.3; 24.44; 24.94; 25.56; 26.2; 25.97; 25.94; 25.57; 25.1; 24.81; 24.21; 23.23; 22.57; 21.41; 20.4; 19.6; 19.1; 19.04; 18.96; 19.44; 20.01; 20.67; 


Как видите, для решения этой задачи очень подошла очередь с ограниченной длиной, поскольку нам не приходилось самостоятельно контролировать число элементов. Структура данных сама контролировала все технические детали.

### ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ

Вы уже узнали основные функции `append`, `pop` и `extend` (а также их собратьев для аналогичных действий с левого конца дека). Теперь рассмотрим дополнительные функции, которые позволяют совершать действия с очередью.

`reverse` позволяет поменять порядок элементов в очереди на обратный:

In [56]:
dq = deque([1,2,3,4,5])
print(dq)
# deque([1, 2, 3, 4, 5])
 
dq.reverse()
print(dq)
# deque([5, 4, 3, 2, 1])

deque([1, 2, 3, 4, 5])
deque([5, 4, 3, 2, 1])


`rotate` переносит `n` заданных элементов из конца очереди в начало:

In [57]:
dq = deque([1,2,3,4,5])
print(dq)
# deque([1, 2, 3, 4, 5])
 
dq.rotate(2)
print(dq)
# deque([4, 5, 1, 2, 3])

deque([1, 2, 3, 4, 5])
deque([4, 5, 1, 2, 3])


Элементы можно переносить и из начала в конец:

In [58]:
dq = deque([1,2,3,4,5])
print(dq)
# deque([1, 2, 3, 4, 5])
 
# Отрицательное значение аргумента переносит
# n элементов из начала в конец
dq.rotate(-2)
print(dq)
# deque([3, 4, 5, 1, 2])

deque([1, 2, 3, 4, 5])
deque([3, 4, 5, 1, 2])


Обратите внимание, что порядок внутри перенесённых элементов остался тем же, каким был изначально. Вспомните, в каком порядке добавляются элементы в начало очереди функцией `extend`, и сопоставьте с действием `rotate`.

Функция `index` позволяет найти первый индекс искомого элемента, а `count` позволяет подсчитать, сколько раз элемент встретился в очереди (функции аналогичны одноимённым функциям для списков):

In [59]:
dq = [1,2,4,2,3,1,5,4,4,4,4,4,3]
print(dq.index(4))
# 2
print(dq.count(4))
# 6

2
6


Обратите внимание, что при попытке узнать индекс несуществующего элемента возникнет ValueError:

In [60]:
dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
print(dq.index(25))
# ValueError: 25 is not in deque

ValueError: 25 is not in deque

А вот посчитать несуществующий элемент можно (получится просто 0):

In [61]:
dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
print(dq.count(25))
# 0

0


Наконец, функция `clear` позволяет очистить очередь:


In [62]:
dq = deque([1,2,4,2,3,1,5,4,4,4,4,4,3])
print(dq)
# deque([1, 2, 4, 2, 3, 1, 5, 4, 4, 4, 4, 4, 3])
dq.clear()
print(dq)
# deque([])

deque([1, 2, 4, 2, 3, 1, 5, 4, 4, 4, 4, 4, 3])
deque([])


## NumPy. Типы данных <a class="anchor" id="5"></a>

[к содержанию](#0)

ТИПЫ ДАННЫХ

Когда вы только начали изучать Python, вы узнали, что существуют различные типы данных: строковые (str), целочисленные (int), числа с плавающей точкой (float), булевы (bool). Также вы научились преобразовывать одни типы данных в другие, используя встроенные в Python возможности.

Сейчас вам предстоит изучить типы данных, которые используются в NumPy. К счастью, они основываются на уже знакомых вам типах данных, однако обладают некоторыми особенностями.

>Чтобы лучше понимать суть встроенных в NumPy типов данных, сначала вспомним, как данные хранятся в компьютере.

По сути, данные в памяти компьютера представлены последовательностью из 0 и 1.

>Такая одна позиция в памяти, в которой может храниться 0 или 1, называется битом.

>В памяти компьютера принято объединять биты в группы по 8 штук. Группа из 8 битов называется байтом.

На самом деле, минимальная ячейка памяти, с которой обычно работают программы, — это всё же байт.

Сколько различных чисел можно записать в 1 бит? Два числа: 0 или 1. А в 2 бита? Уже четыре: 00 -> 0, 01 -> 1, 10 -> 2, 11 -> 3. В три бита войдёт уже восемь чисел: 000 -> 0, 001 -> 1, 010 -> 2, 011 -> 3, 100 -> 4, 101 -> 5, 110 -> 6, 111 -> 7.

Заметьте, что каждый раз число возможных вариантов увеличивается в два раза. Таким образом, существует формула, позволяющая узнать максимальное число последовательностей из n 0 и 1:

Сколько же чисел войдёт в 1 байт? 2 ** 8 = 256. Если мы захотим записать в байт целые неотрицательные числа, мы сможем записать числа от 0 до 255 включительно.

>Обратите внимание, число 256 вписать уже не получится, поскольку считать начали не с 1, а с 0.

### ЦЕЛОЧИСЛЕННЫЕ ТИПЫ ДАННЫХ В NUMPY <a class="anchor" id="5-1"></a>

[к содержанию](#0)

Вся предыдущая теория была необходима для лучшего понимания того, как строятся названия типов данных в NumPy.

Начнём с целочисленных типов данных в NumPy.

>Это тип данных с общим корнем `int`. Int может быть со следующими окончаниями: `int8`, `int16`, `int32` и `int64`. Окончание типа данных в NumPy показывает, сколько битов памяти должно быть выделено для хранения переменной.

Преобразуем обычное целое число в NumPy-тип, например в `int8`. Для этого напишем выражение `np.int8` и круглые скобки. В круглых скобках в качестве аргумента передадим тот объект, который должен быть преобразован:

In [63]:
import numpy as np
a = np.int8(25)
print(a)
# 25

25


Как видите, при печати нет никакой разницы между встроенным `int` и `np.int8`. Как же понять, что в a теперь действительно NumPy-тип данных? Воспользуемся функцией `type`:

In [64]:
print(type(a))
# <class 'numpy.int8'>

<class 'numpy.int8'>


В самом деле, переменная a теперь принадлежит к типу `int8`. 

Ранее вы изучили, как по заданному числу бит узнать, в каких границах может находиться целое число в памяти. На самом деле с NumPy вам не потребуется считать это вручную!

Чтобы узнать границы `int`, можно воспользоваться функцией `np.iinfo` (`int info`):

In [65]:
# Можно применить к самому
# названию типа данных
np.iinfo(np.int8)
# iinfo(min=-128, max=127, dtype=int8)

# Можно применить к существующему
# конкретному объекту
np.iinfo(a)
# iinfo(min=-128, max=127, dtype=int8)

iinfo(min=-128, max=127, dtype=int8)

В NumPy доступны и беззнаковые целочисленные типы данных. Они имеют корень `uint` (`unsigned int` — беззнаковое целое). `uint` доступны также с выделением памяти в 8, 16, 32 и 64 бита. При этом максимально возможное число оказывается в два раза больше, чем для соответствующего `int`, поскольку отрицательные числа исключены из типа данных `uint`.

In [66]:
b = np.uint8(124)
print(b)
# 124
print(type(b))
# <class 'numpy.uint8'>
np.iinfo(b)
# iinfo(min=0, max=255, dtype=uint8)

124
<class 'numpy.uint8'>


iinfo(min=0, max=255, dtype=uint8)

Сравните вывод `iinfo` с аналогичным выводом для `int8`. Обратите внимание на минимальное и максимальное значения.

Как вы могли заметить на примере целочисленных типов, преобразовывать числа довольно просто: главное, не забыть написать np, указать новый тип данных, а в скобках передать то число или ту переменную, которую необходимо преобразовать. Однако следует учитывать несколько моментов.

Тип данных **не сохранится**, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

In [67]:
a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = 2056
print(a)
# 2056
print(type(a))
# <class 'int'>

1000
<class 'numpy.int32'>
2056
<class 'int'>


Вместо этого следует снова указать нужный NumPy-тип данных:

In [68]:
a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = np.int32(2056)
print(a)
# 2056
print(type(a))
# <class 'numpy.int32'>

1000
<class 'numpy.int32'>
2056
<class 'numpy.int32'>


А вот арифметические операции сохраняют NumPy-тип данных:

In [69]:
a = np.int32(1000)
b = a + 25
print(b)
# 1025
print(type(b))
# <class 'numpy.int64'>

1025
<class 'numpy.int32'>


Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:

In [None]:
a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)
# 1025
print(type(c))
# <class 'numpy.int32'>

Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

Например, попробуем преобразовать число 260 в тип данных `np.int8`. Вспомните, какое максимальное число может храниться в этом типе данных.

In [70]:
a = np.int8(260)
print(a)
# 4

4


Например, выполним сложение двух очень больших чисел типа `int32` (максимум для этого типа — 2147483647):

In [71]:
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(a + b)
# -81
# RuntimeWarning: overflow encountered in int_scalars
# Переполнено int'овое значение

2147483610 2147483605
-81


  print(a + b)


Значение было посчитано, но при этом оно явно отличается от той суммы, которую мы хотели получить.

Чтобы избежать этой ошибки, вначале следовало преобразовать переменные к большему типу:

In [72]:
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(np.int64(a) + np.int64(b))
# 4294967215

2147483610 2147483605
4294967215


### ТИПЫ ДАННЫХ С ПЛАВАЮЩЕЙ ТОЧКОЙ В NUMPY  <a class="anchor" id="5-2"></a>

[к содержанию](#0)

Помимо целых чисел, в NumPy, конечно, есть и дробные — `float`. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых `float` нет.

>Доступны следующие типы данных `float`: `float16`, `float32`, `float64` (применяется по умолчанию, если объём памяти не задан дополнительно), `float128`.

Чтобы узнать границы `float` и его точность, можно воспользоваться функцией `np.finfo(<float тип данных>)` (от англ. float info):

In [74]:
np.finfo(np.float16)
# finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)
np.finfo(np.float32)
# finfo(resolution=1e-06, min=-3.4028235e+38, max=3.4028235e+38, dtype=float32)
np.finfo(np.float64)
# finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)


finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

`Resolution` (от англ. «разрешение») в выводе `finfo` означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для `float16` это `0.001`, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа `float16` идёт уже с шагом `0.005`:

In [75]:
print(np.float16(4.12))
# 4.12
print(np.float16(4.13))
# 4.13
print(np.float16(4.123))
# 4.12
print(np.float16(4.124))
# 4.125
print(np.float16(4.125))
# 4.125

4.12
4.13
4.12
4.125
4.125


### ДОПОЛНИТЕЛЬНЫЕ ТИПЫ ДАННЫХ В NUMPY

Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута `sctypeDict`. Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться в зависимости от версии NumPy)! Однако основные названия типов данных в NumPy не меняются от версии к версии.

In [76]:
print(np.sctypeDict)
print(len(np.sctypeDict))
# 158, но может быть 135 или 139

{'?': <class 'numpy.bool_'>, 0: <class 'numpy.bool_'>, 'byte': <class 'numpy.int8'>, 'b': <class 'numpy.int8'>, 1: <class 'numpy.int8'>, 'ubyte': <class 'numpy.uint8'>, 'B': <class 'numpy.uint8'>, 2: <class 'numpy.uint8'>, 'short': <class 'numpy.int16'>, 'h': <class 'numpy.int16'>, 3: <class 'numpy.int16'>, 'ushort': <class 'numpy.uint16'>, 'H': <class 'numpy.uint16'>, 4: <class 'numpy.uint16'>, 'i': <class 'numpy.intc'>, 5: <class 'numpy.intc'>, 'uint': <class 'numpy.uint32'>, 'I': <class 'numpy.uintc'>, 6: <class 'numpy.uintc'>, 'intp': <class 'numpy.int64'>, 'p': <class 'numpy.int64'>, 9: <class 'numpy.int64'>, 'uintp': <class 'numpy.uint64'>, 'P': <class 'numpy.uint64'>, 10: <class 'numpy.uint64'>, 'long': <class 'numpy.int32'>, 'l': <class 'numpy.int32'>, 7: <class 'numpy.int32'>, 'L': <class 'numpy.uint32'>, 8: <class 'numpy.uint32'>, 'longlong': <class 'numpy.int64'>, 'q': <class 'numpy.int64'>, 'ulonglong': <class 'numpy.uint64'>, 'Q': <class 'numpy.uint64'>, 'half': <class 'nu

На самом деле реальных типов данных **гораздо меньше**, просто одни и те же типы данных могут иметь разные ярлыки. Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, что делают все функции, которые в нём использованы:

In [77]:
print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')

<class 'numpy.bool_'>
<class 'numpy.bytes_'>
<class 'numpy.clongdouble'>
<class 'numpy.complex128'>
<class 'numpy.complex64'>
<class 'numpy.datetime64'>
<class 'numpy.float16'>
<class 'numpy.float32'>
<class 'numpy.float64'>
<class 'numpy.int16'>
<class 'numpy.int32'>
<class 'numpy.int64'>
<class 'numpy.int8'>
<class 'numpy.intc'>
<class 'numpy.longdouble'>
<class 'numpy.object_'>
<class 'numpy.str_'>
<class 'numpy.timedelta64'>
<class 'numpy.uint16'>
<class 'numpy.uint32'>
<class 'numpy.uint64'>
<class 'numpy.uint8'>
<class 'numpy.uintc'>
<class 'numpy.void'>


>Следует обратить внимание на типы данных `bool_` и `str_`. Они аналогичны bool и str из встроенных в Python, однако записывать их необходимо именно с нижним подчёркиванием, иначе произойдёт приведение к стандартному типу данных, а не типу NumPy. В целом, существенной разницы между этими типами данных нет, однако о такой двойственности следует помнить при сравнении типов переменных: тип `bool` не является эквивалентным `numpy.bool_`, несмотря на то что оба типа данных хранят значения `True` или `False`.

**Примечание**: в версиях NumPy 1.20 и выше появится предупреждение, если попытаться привести типы с помощью `np.bool` или `np.str`, а не `np.bool_` или `np.str_`. Однако в более ранних версиях данное предупреждение не появляется.

In [78]:
a = True
print(type(a))
# <class 'bool'>
a = np.bool(a)
print(type(a))
# <class 'bool'>
a = np.bool_(a)
print(type(a))
# <class 'numpy.bool_'>
 
# Значения равны
print(np.bool(True) == np.bool_(True))
# True
# А типы — нет:
print(type(np.bool(True)) == type(np.bool_(True)))
# False

<class 'bool'>
<class 'bool'>
<class 'numpy.bool_'>
True
False


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  a = np.bool(a)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  print(np.bool(True) == np.bool_(True))
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  print(type(np.bool(True)) == type(np.bool_(True)))


In [79]:
a = "Hello world!"
print(type(a))
# <class 'str'>
a = np.str(a)
print(type(a))
# <class 'str'>
a = np.str_(a)
print(type(a))
# <class 'numpy.str_'>

<class 'str'>
<class 'str'>
<class 'numpy.str_'>


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  a = np.str(a)


Небольшое замечание про `bool`: несмотря на то что для хранения значения истина/ложь было бы достаточно только одного бита, из-за особенностей работы с памятью компьютера булевая переменная всё равно занимает в памяти целый байт.

### NUMPY. Array. Массивы  <a class="anchor" id="6"></a>

[к содержанию](#0)

Массив в программировании — это ещё одна структура данных. Она позволяет хранить элементы в заданном порядке точно так же, как это делают списки. 
<img src=p_9_img1.png>

>Однако массивы обладают особым свойством: **элемент по любому номеру из массива можно получить за одно и то же время**. Другими словами, неважно, находится элемент в начале, в середине или в конце списка — на времени получения элемента из массива по индексу (номеру) это никак не скажется.

Обычно такое быстродействие массивов достигается за счёт того, что все элементы в массиве приведены к одному и тому же типу данных. Как именно это позволяет ускорить работу с данными, будет показано немного позднее.

Наконец, традиционные массивы обладают заданной программистом длиной (числом элементов), на которую компьютер выделяет память. Для сравнения — в списке длина изначально ничем не ограничена.

Итак, массив — это структура данных, в которой:

1. Элементы хранятся в указанном порядке.

2. Каждый элемент можно получить по индексу за одинаковое время.

3. Все элементы приведены к одному и тому же типу данных.

4. Максимальное число элементов и объём выделенной памяти заданы заранее.

**Размерностью массива** называют то число индексов, которое необходимо для однозначного получения элемента из массива.

* Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
* В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
* Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.

Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

**Чем же всё это отличается от списка?**

* В списке не гарантируется получение любого элемента по индексу за одинаковое время (обычно чем больше индекс, тем дольше занимает время получения элемента).

* Также с совокупностью элементов списка работать дольше, чем с элементами массива. На самом деле Python list является чем-то средним между классическим списком из теории структур данных и массивом, но по скорости он тоже проигрывает массивам.

### СОЗДАНИЕ МАССИВА ИЗ СПИСКА

Создать массив из списка можно с помощью функции `np.array(<объект>)`:

In [80]:
import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

array([ 1,  5,  2,  9, 10])

Давайте теперь создадим двумерный массив из списка списков. Его также можно назвать таблицей чисел или матрицей. Сделаем это с помощью той же функции `np.array()`:

In [81]:
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

### ТИПЫ ДАННЫХ В МАССИВЕ

Мы только что узнали, что массив — это набор однотипных данных, но не указали никакой тип. Какого типа данные хранятся теперь в массиве `arr`? Узнать это можно, напечатав свойство `dtype`:

In [82]:
arr = np.array([1,5,2,9,10])
arr.dtype
# dtype('int64')

dtype('int32')

NumPy автоматически определил наш набор чисел как числа типа `int64`. Если мы, например, не планируем хранить в этом массиве целые числа более 127, можно было сразу при создании массива задать тип данных int8.

>Также тип данных можно будет указать или изменить позднее, если окажется, что текущий тип избыточен или, наоборот, недостаточен для хранения чисел с требуемой точностью. Однако числа в массиве всё равно будут одного и того же типа данных, даже если разработчик этого явно не указал.

Задать тип данных сразу при создании массива можно с помощью параметра `dtype`:

In [None]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:

In [83]:
arr[2] = 2000
arr
# array([  1,   5, -48,   9,  10], dtype=int8)

array([   1,    5, 2000,    9,   10])

Если добавить `float` в массив `int`, пропадёт десятичная часть:

In [84]:
arr[2] = 125.5
arr
# array([  1,   5, 125,   9,  10], dtype=int8)

array([  1,   5, 125,   9,  10])

Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

In [85]:
arr[2] = '12'
arr
# array([ 1,  5, 12,  9, 10], dtype=int8)

array([ 1,  5, 12,  9, 10])

А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

In [86]:
arr[2] = 'test'
# ValueError: invalid literal for int() with base 10: 'test'

ValueError: invalid literal for int() with base 10: 'test'

Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем юните (например, `np.int32` или `np.float128`):

In [88]:
arr = np.float64(arr)
arr
# array([ 1.,  5., 12.,  9., 10.], dtype=float64)

array([ 1.,  5., 12.,  9., 10.])

При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

In [89]:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)

array([ 33,  46, 107,  42, 100], dtype=uint8)

### СВОЙСТВА NUMPY-МАССИВОВ <a class="anchor" id="6-1"></a>

[к содержанию](#0)

Вы уже узнали, как получить тип данных, который хранится в массиве. Сделать это можно с помощью атрибута `dtype`. Есть и другие свойства массивов, которые будет полезно узнать.

Будем тренироваться на массивах `arr` и `nd_arr`:

In [90]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

Узнать размерность массива можно с помощью `.ndim`:

In [91]:
arr.ndim
# 1
nd_arr.ndim
# 2

2

Узнать общее число элементов в массиве можно с помощью `.size`:

In [92]:
arr.size
# 5
nd_arr.size
# 9

9

Форма или структура массива хранится в атрибуте `.shape`:

In [93]:
arr.shape
# (5,)
nd_arr.shape
# (3, 3)

(3, 3)

>Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет `.itemsize`:

In [94]:
arr.itemsize
# 1
nd_arr.itemsize
# 2

2

### ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ <a class="anchor" id="6-2"></a>

[к содержанию](#0)

→ Не всегда значения, которые будут храниться в массиве, уже доступны, а иметь для них массив уже хочется.

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

>Массив из нулей создаётся функцией `np.zeros`. Она принимает аргументы `shape` (обязательный) — форма массива (одно число или кортеж) и `dtype` (необязательный) — тип данных, который будет храниться в массиве.

Создадим одномерный массив из пяти элементов:

In [95]:
zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0.])

Создадим трёхмерный массив с формой 5x4x3 и типом `float32`:

In [96]:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)

(5, 4, 3)


Ещё одной удобной функцией для создания одномерных массивов является `arange`. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: `arange([start,] stop, [step,], dtype=None)`.

Аргументы `start` (по умолчанию 0), `step` (по умолчанию 1) и `dtype` (определяется автоматически) являются необязательными:

* `start` (входит в диапазон возвращаемых значений) задаёт начальное число;
* `stop` (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
* `step` задаёт шаг, с которым в массив добавляются новые значения.

В отличие от `range`, в функции `arange` все перечисленные параметры могут иметь тип `float`.

Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

In [97]:
np.arange(5)
# array([0, 1, 2, 3, 4])

array([0, 1, 2, 3, 4])

Создадим массив от 2.5 до 5 с шагом 0.5:

In [98]:
np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])

array([2.5, 3. , 3.5, 4. , 4.5])

Создадим массив от 2.5 до 5 с шагом 0.5 и с типом `float16`:

In [99]:
np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами `start`, `stop` и `step` лучше использовать функцию `linspace` (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

`np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)`

* `start` и `stop` являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
* `num` — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
* `endpoint` — включён или исключён конец диапазона (по умолчанию включён);
* `retstep` (по умолчанию `False`) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
* `dtype` — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).


Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

In [100]:
arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

Создадим массив из десяти чисел между 1 и 2, не включая 2:

In [101]:
arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

In [102]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1

0.1111111111111111
0.1


>Функцию `linspace` очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

### NumPy. Действия с массивами <a class="anchor" id="7"></a>

[к содержанию](#0)


В предыдущем юните вы научились получать одномерные массивы из чисел с помощью функции arange. В NumPy существуют функции, которые позволяют менять форму массива.

Cоздаём массив из 8ми чисел

In [1]:
import numpy as np
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой: ('строк', 'столбцов')

In [2]:
arr.shape = (2, 4)
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [3]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
print(arr)
print(arr_new)
#Можно поменять заполняемость массива с построчного на постолбцовый параметром order=
arr_new_f = arr.reshape((2, 4), order='F')
arr_new_f

[0 1 2 3 4 5 6 7]
[[0 1 2 3]
 [4 5 6 7]]


array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

Транспонирование (особенно актуально для двумерных массивов). При транспонировании 1мерного массиива нихуя не изменится.

In [4]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_trans = arr_new.transpose()
arr_new,arr_trans

(array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[0, 4],
        [1, 5],
        [2, 6],
        [3, 7]]))

Заполнение новых массивов

In [5]:
z_arr = np.zeros((5,6),np.int16)
z_arr

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]], dtype=int16)

### Индесы и срезы в массивах
Создадим массив из шести чисел:

In [6]:
arr = np.linspace(1, 2, 6)
print(arr)
print(arr[2]) #Элемент по индексу
print(arr[2:4]) #Диапазон
print(arr[::-1]) #Разворот

[1.  1.2 1.4 1.6 1.8 2. ]
1.4
[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]


С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [30]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
print(nd_array)
print(nd_array[2][3]) #Обратимся как к списку списков
print(nd_array[2,3]) #В numpy можно передать координаты в [] через запятую.

[[0.  0.5 1.  1.5]
 [2.  2.5 3.  3.5]
 [4.  4.5 5.  5.5]]
5.5
5.5


In [9]:
print(nd_array[0,2],nd_array[0,1:3])
print(nd_array[1,2],nd_array[1,1:])
print(nd_array[2,2],nd_array[2,1::2])
nd_array[:,-1] #-1 всегда последний элемент (или строка, или столбец)
nd_array[:,-1][::-1]
nd_array[:4,1]

1.0 [0.5 1. ]
3.0 [2.5 3.  3.5]
5.0 [4.5 5.5]


array([0.5, 2.5, 4.5])

In [10]:
#7.2
mystery = np.linspace(1,25,25,endpoint=True,dtype=np.int8)
mystery.shape = (5,5)
# В переменную elem_5_3 сохраните элемент из 5 строки и 3 столбца:
elem_5_3 = mystery[4, 2]

# В переменную last сохраните элемент из последней строки последнего столбца
last = mystery[-1,-1]

# В переменную line_4 сохраните строку 4
line_4 = mystery[3,:]

# В переменную col_2 сохраните предпоследний столбец
col_2 = mystery[:,-2]

# Из строк 2-4 (включительно) получите столбцы 3-5 (включительно)
# Результат сохраните в переменную part
part = mystery[1:4,2:6]

#  Сохраните в переменную rev последний столбец в обратном порядке
rev = mystery[:,-1][::-1]

# Сохраните в переменную trans транспонированный массив
trans = mystery.transpose()

Сортировка одномерных массивов


In [11]:
# Способ 1 
# Функция np.sort(<массив>) возвращает новый отсортированный массив:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


In [12]:
# Способ 2
# Функция <массив>.sort() сортирует исходный массив и возвращает None:
arr = np.array([23,12,45,12,23,4,15,3])
arr.sort()
# None
print(arr)


[ 3  4 12 12 15 23 23 45]


### Работа с пропущенными данными

In [13]:
data = np.array([4, 9, -4, 3], np.float16)
roots = np.sqrt(data)
print(roots.dtype)
print(roots)


float16
[2.    3.      nan 1.732]


  roots = np.sqrt(data)


nan - *not a number* (не число). nan похож на None но есть отличия:
- None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float
- None могут быть равны друг другу, а np.nan — нет

In [14]:
print(None == None)
# True
print(np.nan == np.nan)
# False
print(None is None) #оператор is это сравнение с None
# True
print(np.nan is np.nan)
# True
print(np.nan is None)
# False

True
False
True
True
False


In [15]:
# Сумма массива содержащего nan равна nan, это печально
sum(roots)
# Можно заполнить пропущенные значения, например, нулями. 
# Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:
ind = np.isnan(roots)
# Можно использовать полученный массив из True и False для извлечения элементов из массива roots, 
# на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:
roots[np.isnan(roots)]
roots[np.isnan(roots)] = 0
print(roots)
sum(roots)
ind

[2.    3.    0.    1.732]


array([False, False,  True, False])

In [16]:
# 7.что-то
mystery = np.array([1, 2, np.nan, 3, np.nan])
mystery[np.isnan(mystery)] = 0
mystery = np.int32(mystery)
arr = np.sort(mystery)
arr

array([0, 0, 1, 2, 3])

## Операции с векторами <a class="anchor" id="8"></a>

[к содержанию](#0)


**Вектор** - одномерный проиндексированный набор данных (массив).
Операция, применённая к двум векторам, на самом деле применяется поэлементно. То есть при сложении двух векторов первым элементом нового вектора будет сумма первых элементов исходных векторов, вторым — сумма вторых элементов и т. д.


In [17]:
# При сложении списков элементы объединяются в новый список.
# При сложении векторов поэлементно сумируются значения.
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2

array([14. , 10. , 10.6, 15.5])

Для совершения арифметических операций с векторами они должны быть одинаковой длины.
При попытке провести арифметические операции над разномерными массивами возникнет */ValueError/*
*Исключение:* Операции с вектором и одним числом

In [18]:
vec = np.arange(1,6)
vec * 10
# array([ 0, 10, 20, 30, 40])
vec ** 2

array([ 1,  4,  9, 16, 25], dtype=int32)

In [19]:
# Поэлементное сравнение:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
print(vec1 > vec2)
# array([False, False,  True, False])
print(vec1 <= 2.5)

[False False  True False]
[ True False False  True]


Длиной вектора называют корень из суммы квадратов всех его координат. Для вектора из \(n\) чисел \(x_{1}\), \(x_{2}\) … \(x_{n}\) верна формула:

\[length = \sqrt{x_{1}^{2} + x_{2}^{2} + ... + x_{n}^{2}}\]

In [20]:
vec = np.array([3, 4])
length_vec = np.sqrt(np.sum(vec**2))
print(f'Длина вектора vec: {length_vec}')

Длина вектора vec: 5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры. Для вычисления длины вектора нам потребуется функция **norm:**

In [21]:
length = np.linalg.norm(vec)
print(f'Длина вектора vec: {length}')

Длина вектора vec: 5.0


Расстоянием между двумя векторами называют квадратный корень из суммы квадратов разностей соответствующих координат. Звучит сложно, поэтому лучше посмотрите на формулу (считаем расстояние между векторами \(X\) и \(Y\)):

\[distance = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (x_n - y_n)^2}\]

In [24]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
distance_1 = np.sqrt(np.sum((vec2 - vec1) ** 2))
print(distance)
distance_1

12.206555615733702


12.206555615733702

Наконец, скалярным произведением двух векторов называют сумму произведений их соответствующих координат. Вот формула для скалярного произведения векторов \(X\) и \(Y\) из \(n\) координат:

\[X * Y = x_1 * y_1 + x_2 * y_2 + ... + x_n * y_n\]
Откуда такое странное название? Слово «скаляр» — синоним слова «число». То есть результатом вычисления скалярного произведения векторов является число — скаляр. Дело в том, что существуют и другие произведения векторов, не все из которых дают на выходе число.

In [None]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product

[10.  12.5 15.  17.5 20. ]


250.0

Функция *np.dot(x, y):* скалярное произведение

In [None]:
scalar_product = np.dot(vec1, vec2)
scalar_product

250.0

Скалярное произведение также имеет широкое применение в математике и других операциях с векторами. В частности, равенство скалярного произведения нулю означает перпендикулярность рассматриваемых векторов:

In [None]:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)

0

In [None]:
# Определим сонаправленность векторов (сумма длин сонаправленных векторов должна быть равной длине суммы двух векторов).
import numpy as np
a = np.array([23, 34, 27])
b = np.array([-54, 1,  46])
c = np.array([46, 68, 54])

len_a = np.linalg.norm(a)
len_b = np.linalg.norm(b)
len_c = np.linalg.norm(c)

len_a_b = np.linalg.norm(a+b)
len_a_c = np.linalg.norm(a+c)
len_c_b = np.linalg.norm(c+b)

print(f'Сонаправленость a и b: {len_a_b == len_a+len_b}')
print(f'Сонаправленость a и c: {len_a_c == len_a+len_c}')
print(f'Сонаправленость b и c: {len_c_b == len_c+len_b}')

# Определим расстояние между векторами (корень из суммы квадратов разностей координат)

print(f'Расстояние между a и b: {np.sqrt(np.sum((a - b)**2))}')
print(f'Расстояние между a и c: {np.sqrt(np.sum((a - c)**2))}')
print(f'Расстояние между b и c: {np.sqrt(np.sum((b - c)**2))}')

# Определим перпендикулярность векторов (скалярное произведение равно 0)

print(f'Перпендикулярность a и b: {np.dot(a, b) == 0}')
print(f'Перпендикулярность a и c: {np.dot(a, c) == 0}')
print(f'Перпендикулярность b и c: {np.dot(b, c) == 0}')

Сонаправленость a и b: False
Сонаправленость a и c: True
Сонаправленость b и c: False
Расстояние между a и b: 85.901105930017
Расстояние между a и c: 49.13247398615299
Расстояние между b и c: 120.6358155772986
Перпендикулярность a и b: False
Перпендикулярность a и c: False
Перпендикулярность b и c: False


### БАЗОВЫЕ СТАТИСТИЧЕСКИЕ ФУНКЦИИ ДЛЯ ВЕКТОРОВ
Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [None]:
vec = np.array([2,7,18,28,18,1,8,4])
print(vec.min(), np.min(vec))
# 1 Минимальное значение
print(vec.max(), np.max(vec))
# 28 Максимальное значение
print(vec.mean(), np.mean(vec))
# 10.75 Среднее арифметическое
print(np.median(vec))
# 7.5 Медиана
print(np.std(vec))
# 8.95 Стандартное отклонение

1 1
28 28
10.75 10.75
7.5
8.954747344286158


Больше статистики для Python:
<https://pyprog.pro/statistics_functions/statistics_function.html>

# СЛУЧАЙНЫЕ ЧИСЛА В NUMPY <a class="anchor" id=8></a>

[к содержанию](#0)


#### ГЕНЕРАЦИЯ FLOAT
Самой «базовой» функцией в нём можно считать функцию rand. По умолчанию она генерирует число с плавающей точкой между 0 (включительно) и 1 (не включительно):

In [None]:
# Случайное число [0, 1)
print(np.random.rand())
# Принимает арифметические операции
print(np.random.rand() * 100)
print(np.random.rand() - 10)
print(np.random.rand() + 20)
# функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива 
print(np.random.rand(2, 3))
# при передаче в функцию кортежа используй распаковку через *
tpl = (3,4)
print(np.random.rand(*tpl))

0.26197409813055783
99.28628053144614
-9.052637921863257
20.761767925287213
[[0.70181365 0.90537166 0.08110775]
 [0.49469609 0.12092078 0.72871434]]
[[0.87957774 0.91999035 0.43338087 0.87804477]
 [0.81735911 0.17500626 0.81386164 0.02265447]
 [0.76091453 0.08300117 0.01941384 0.6659044 ]]
[[0.38864422 0.85329238 0.5897765  0.42224993]
 [0.25317172 0.87805217 0.06122445 0.9024489 ]
 [0.57687116 0.93595423 0.51764562 0.17248031]]


Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:


In [None]:
print(np.random.sample(tpl))

[[0.43123232 0.47694027 0.93557823 0.44910269]
 [0.31531212 0.337404   0.66507746 0.62734606]
 [0.50341882 0.62395081 0.96216118 0.79071912]]


Функция **uniform** принимает аргументы - нижняя граница, верхняя граница, форма массива (если не задав вернёт одно число)

In [None]:
print(np.random.uniform()) #без аргумента float от 0 до 1
print(np.random.uniform(0, 100)) #без 3го аргумента одно число из заданных границ
print(np.random.uniform(0, 100, 5)) #заполнит одномерный массив
print(np.random.uniform(0, 100, (2, 5))) #заполнит n-мерный массив

0.1956900161374846
40.18664715320245
[ 6.84711448 34.11197971 79.95118129 34.57016022 58.66649904]
[[25.44718111 12.02135808 10.15144117 26.75009209  1.0293677 ]
 [25.77811521 42.23239816 45.75828787 94.65947314  1.45558493]]


### Генерация int
### randint(low, high=None, size=None, dtype=int)
Функцию randint нельзя запустить совсем без параметров, необходимо указать хотя бы одно число.

- Если указан только аргумент low, числа будут генерироваться от 0 до low-1, то есть верхняя граница не включается.
- Если задать low и high, числа будут генерироваться от low (включительно) до high (не включительно).
- size задаёт форму массива уже привычным для вас образом: одним числом — для одномерного или кортежем — для многомерного.
- dtype позволяет задать конкретный тип данных, который должен быть использован в массиве.

In [None]:
a = np.random.randint(6, 12, size=(3,3))
a, a.dtype

(array([[ 6, 10, 11],
        [10, 10, 10],
        [10, 10, 11]]),
 dtype('int32'))

### Генерация выборок
#####  Случайные числа можно использовать и для работы с уже существующими данными. Иногда для проверки гипотез о данных бывает удобно перемешать значения, чтобы проверить, является ли наблюдаемая закономерность случайной.
Просто перемешать все числа в массиве позволяет функция random.shuffle

In [None]:
arr = np.arange(6)
print(arr)
# [0 1 2 3 4 5]
print(np.random.shuffle(arr))
# None
arr

[0 1 2 3 4 5]
None


array([2, 4, 1, 3, 5, 0])

#### Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. 
Она принимает на вход один аргумент — или массив целиком, или одно число:

In [None]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(playlist, '- это список')
print(shuffled, '- это массив')

['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple'] - это список
['Pink Floyd' 'Deep Purple' 'The Beatles' 'ACDC'] - это массив


Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [None]:
np.random.permutation(11)


array([ 5,  0,  9,  7,  8,  4,  2,  1,  3, 10,  6])

#### Чтобы получить случайный набор объектов из массива, используется функция random.choice:
choice(a, size=None, replace=True)
- a — массив или число для генерации arange(a);
- size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
- replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Ivan' 'Kate']


Если в агументах функции .choise указать replase=False, припопытке вывода большего количества элементов выборки, чем есть в массиве возникнет ошибка
#### если разрешить повторы (replace=True) ошибки не будет

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=7, replace=False)
print(choice)

ValueError: Cannot take a larger sample than population when 'replace=False'

In [None]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=7, replace=True)
print(choice)

['John' 'Nikita' 'Nikita' 'Maria' 'Ivan' 'John' 'John']


In [None]:
# 10 случайных чисел от 1 до 20, без повторов
np.random.choice(np.arange(1, 21), size=10, replace=False)

array([ 1,  8, 18,  7, 11, 20, 14, 12,  9,  2])

### ДОПОЛНИТЕЛЬНО <a class="anchor" id="10"></a>

NumPy не ограничивается набором функций, который был рассмотрен в этом модуле. Для получения дополнительной справки на русском языке по данной библиотеке рекомендуется использовать [этот сайт](https://pyprog.pro/short_guide.html).

[к содержанию](#0)

