<a href="https://colab.research.google.com/github/Vlasovasona/Python-Towards-the-Heights-of-Mastery-Concise-and-Effective-Programming/blob/main/Chapter_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Глава 2: Массив последовательностей


---

**Типы последовательностей:**


*   *контейнерные*

Позволяют хранить элементы разных типов, в т.ч. вложенные контейнеры. Примеры: list, tuple, collections.deque.

*   *плоские*

Позволяют хранить элементы только одного типа. Примерами могут служить str, bytes и array.array.

В контейнерных последовательностях хранятся ссылки на объекты любого типа, тогда как в плоских последовательностях - сами значения прямо в памяти, занятой последовательностью, а не как отдельные объекты в Python.

Также нужно разделять *изменяемые* (list, bytearray, array.array, collections.deque) и *неизменяемые* (tuple, str, bytes) последовательности.



## Список (list)

In [3]:
# списковые включения
colors = ["black", 'white']
sizes = ["S", "M", "L"]
tishirts = [(color, size) for color in colors for size in sizes] # можно поменять местами for чтобы упорядочивание было сначала по размеру, ошибки не будет
tishirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

Списковые включения умеют делать всего одну вещь: строить списки. Для порождения последовательностей других типов придется обратиться к генераторным вырадениям.

Инициализацию кортежей, массивов и других последовательностей тоже можно начать с использования спискового включения, но genexp экономит память, т.к. отдает элементы по одному, применяя протокол итератора, вместо того чтобы сразу строить целиком список для передачи другому конструктору.

Ситаксически генераторное выражедние выглядит так же, как списковое включение, только заключается не в квадратные скобки, а в круглые.

In [4]:
# генераторные выражения
colors = ["black", 'white']
sizes = ["S", "M", "L"]
for tishirt in ((color, size) for color in colors for size in sizes):
  print(tishirt)

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


В отличие от спискового включения этот список футболок ни в какой момент не находится в памяти: генераторное выражение отдает циклу for по одному элементу. Если бы списки содержали по 1000 элементов, то применение генераторного выражения позволило бы сэкономить память за счет отказа от построения списка из миллиона элементов с единственной целью его обхода в цикле for.

## Кортеж (tuple)

**У кортежей две функции:**


*   использование в качестве неизменяемых списков
*   использование в качестве записей с неименованными полями

**Кортежи как неизменяемые списки:**

Кортеж потребляет меньше памяти, чем список той же длины, и позволяет интерпретатору Python выполнить некторые оптимизации.

Однако! Не забываем, что неизменность кортежаотносится только к хранящимся в нем ссылкам - их нельзя ни удалить, ни изменить. Но если какая-то ссылка указывает на изменяемый объект и этот объект будет изменен, то значение кортежа изменится.

In [5]:
a = (10, 'alpha', [1, 2])
b = (10, 'alpha', [1, 2])
print(a == b)

b[-1].append(99)

print(a == b)
print(b)

True
False
(10, 'alpha', [1, 2, 99])


Кортежи с изменяемыми элементами могут быть источником ошибок. Объект допускает хеширование только тогда, когда его значение никогда не изменяется. Нехешируемый кортеж не может быть ни ключом словаря dict, ни элементом множества set.

In [6]:
def fixed(o):
  try:
    hash(o)
  except TypeError:
    return False
  return True

a = (10, 'alpha', [1, 2]) # изменяемый кортеж
b = (10, 'alpha', (1, 2))

print(fixed(a))
print(fixed(b))

False
True


*Правда ли, что в Python кортежи эффективнее списков?*



*   чтобы вычислить кортежный литерал, компилятор Python генерирует байт-код константы типа кортежа, состоящий из одной операции, а для спискового литерала сгенерированый байт-код сначала помещает каждый элемент в стек данных в виде отдельной константы, а затем строит список.
*   имея кортеж t, вызов tuple(t) просто возвращает ссылку на тот же t. Никакого копирования не производится. Напротив, если дан список l, то конструктор list(l) должен создать новую копию l.
*   благодаря фиксированной длине экземпляра tuple выделяется ровно столько памяти, сколько необходимо. С другой стороны, для экземпляров list память выделяется с запасом, чтобы амортизировать стоимость последуюзих добавлений в список.
*   ссылки на элементы кортежа хранятся в массиве, находящемся в самой структуре кортежа, тогда как в случае списка хранится указатель на массив ссылок, размещенный где-то в другом месте. Косвенность необходима, потому что когда список перестает помещаться в выделенной памяти, Python должен перераспределить память для массива ссылок, добавив места. Дополительный уровень косвенности снижает эффективность процессорных кешей.





In [9]:
# использование * для выборк лишних элементов

a, b, *rest = range(5)
print(a, b, rest)

a, b, *rest = range(3)
print(a, b, rest)

a, b, *rest = range(2)
print(a, b, rest)

a, b, *rest, c = range(5)
print(a, b, rest, c)

0 1 [2, 3, 4]
0 1 [2]
0 1 []
0 1 [2, 3] 4


In [10]:
# распаковка с помощью * в вызовах функций и литеральных последовательностях
def func(a, b, c, d, *rest):
  return a, b, c, d, rest

func(*[1, 2], 3, *range(4, 7))

(1, 2, 3, 4, (5, 6))

In [11]:
*range(4), 4

(0, 1, 2, 3, 4)

In [12]:
[*range(4), 4]

[0, 1, 2, 3, 4]

In [13]:
{*range(4), 4, *(5, 6, 7)}

{0, 1, 2, 3, 4, 5, 6, 7}

In [None]:
# сопоставление с последовательностями-образцами

def handle_command(self, message):
  match message: # выражение после match называется субъектом. Это данные, которые Python попытается сопоставить с образцами в ветвях case
    case ['BEPER', frequency, times]:
      self.beep(times, frequency)
    case ['NECK', angle]:
      self.rotate_neck(angle)
    case _: # ветвь case по умолчанию. С ней сопоставляется любой субъект, для которого не нашлось подходящего оразца.
      raise Exception(message)

На первый взгляд, контрукция match/case похожа на предложение switch/case в языке C - но это только на первый взгляд. Основное улучшение - деструктуризация.

In [14]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (53, 139)),
    ('Mexico', 'MX', 20.42, (19, -99)),
    ('New York', 'US', 20.104, (40, -74)),
]

def main():
  print(f'{"":15} | {"lattitude":>9} | {"longitude":>9}')
  for record in metro_areas:
    match record:
      case [name, _, _, (lat, lon)] if lon <= 0: # последовательность-образец
        print(f'{name:15} | {lat: 9.4f} | {lon: 9.4f}')

Последовательность-образец может сопоставляться с большинством реальных или виртуальных подклассов класса collections.abc.Sequence, за исключением лишь классов str, bytes и bytearray.

In [15]:
# присваивание срезу
l = list(range(10))
print(l)

l[2:5] = [20, 30]
print(l)

del l[5:7]
print(l)

# l[2:5] = 100 # ERROR! когда в левой части присваивания стоит срез, в правой должен находится итерируемый объект
l[2:5] = [100]
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 100, 8, 9]


In [None]:
# использование * и + для последовательностей


Необходимо остерегаться выражений вида a*n, где а - последовательность, содержащая изменяемые элементы, потому что рещультат может оказаться неожиданным. Например, при попытке иницииализировать список списков

`my_list = [[]] * 3 `

получится список, содержащий три ссылки на один и тот же внутренний список.

In [16]:
l = [['_'] * 3 for i in range(3)]
print(l)

l[1][2] = 'X'
print(l)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [17]:
l = [['_'] * 3] * 3
print(l)

l[1][2] = 'X'
print(l)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]


**Составное присваивание последовательностей**

Поведение операторов присваивания += и *= существенно зависит от типа первого операнда (рассмотрим на примере +=).

За оператором += стоит специальный метод __iadd__ (inplace addition - сложение на месте). Но если метод __iadd__ не реализован, то Python вызывает метод __add__. В случае изменяемых последовательностей объект, реализующий метод __iadd__ будет изменен на месте. Если объект не реализует этот метод, то



```
a += b -> a = a + b
```

Сначала будет вычисляться a + b, а затем получившийся новый объект будет связываться с переменной a. Иными словами, идентификатор объекта a будет изменяться в случае отсутствия реализации метода __iadd__.

In [18]:
l = [1, 2, 3]
print(id(l))

l *= 2
print(id(l))

t = (1, 2, 3)
print(id(t))

t *= 2
print(id(t)) # id changed

137477638922816
137477638922816
137477639020288
137477635670560


### Метод list.sort и встроенная функция sorted

Метод list.sort сортирует список на месте, т.е. не создавая копию. Он возвращает None, напоминая, что изменяет объект-приемник, а не создает новый список.

С другой стороны, встроенная функция sorted создает и возвращает новый список. На самом деле она принимает любой итерируемый объект в качестве аргумента, в том числе неизменяемые последовательности и генераторы. Но независимо от типа исходного итерируемого объекта sorted всегда возвращает новый список.

И метод list.sort и функция sorted принимают два необязательных именованных аргумента:



*   *reverse* - если True, то элементы возвращаются в порядке убывания
*   *key* - функция с одним аргументом, которая вызывается для каждого элемента и возвращает его ключ сортировки.



**Когда список не походит?**



*   когда нужно сохранить много чисел с плавающей точкой, то тип array будет эффективнее, поскольку в нем хранятся не полные объекты float, а только упакованные байты, представляющие их машинные значения, - как в массиве Си.
*   если требуется часто добавлять и удалять элементы из того или иного конца списка, то стоит вспомнить о типе deque (двусторонняя очередь).
*   если в программе много проверок на вхождение, то, возможно, нужно использовать set. Множества оптимизированы для быстрой проверки взождения. Однако они не упорядочены и поэтому не являются последовательностями.





## Массивы array.array

Если список содержит только числа, то тип array.array эффективнее, чем list.

In [19]:
from array import array
from random import random

floats = array('d', (random() for i in range(10**7)))
print(floats[-1])

0.02370435312992314


## Двусторонние и другие очереди

Методы .append и .pop позволяют использовать список list как стекили очередь. Однако вставка и удаление элемента из левого конца списка (с индексом 0) обходится дорого, потому что приходится сдвигать весь список.

Класс collection.deque - это потокобезопасная двусторонняя очередь, предназначенная для быстрой вставки и удаления из любого конца. Эта структура полезна и для хранения "последних виденных элементов", потому что deque можно сделать ограниченной (задать максимальное кол-во элементов при помощи атрибута maxlen). Тогда по заполнении deque добавление новых элементов приводит к удалению элементов с другого конца.

In [22]:
from re import DEBUG
from collections import deque

dq = deque(range(10), maxlen=10)
print(dq)

dq.rotate(3) # циклический сдвиг с с>0 - элементы удаляются с правого конца и добавляются с левого
print(dq)

dq.rotate(-4) # циклический сдвиг с с<0 - удаление производится с левого конца, а добавление - с правого
print(dq)

dq.appendleft(-1) # т.к. достигнут предел длины, ноль справа будет удален
print(dq)

dq.extend([11, 22, 33])
print(dq)

dq.extendleft([10])
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([10, 3, 4, 5, 6, 7, 8, 9, 11, 22], maxlen=10)
