# Коллекции

В этой лекции мы познакомимся с **коллекциями** (также называемыми **контейнерами**) - специальными классами, предназначенными для хранения множества объектов и предоставляющими доступ к ним. В Python существует несколько разновидностей коллекций - часть из них относится к встроенным типам данных, другие реализованы в отдельных модулях. Это многообразие связано с тем, что невозможно создать один тип, оптимально подходящий для всех возможных классов задач. Кроме того, многие коллекции относятся к [неизменяемым](04_Data_Types.ipynb#Изменяемость-типов-данных) типам данных и запрещают модификацию своих элементов. Это делает их непригодными для задач, где нужно часто изменять значения элементов, но позволяет эффективнее реализовать некоторые другие операции. В данной лекции мы стараемся обращаем внимание читателя на то, когда применять тот или иной тип коллекции.

## Содержание лекции

* [Общая информация](#Общая-информация)
* [Последовательности](#Последовательности)
  * [Кортеж](#Кортеж)
  * [Именованный кортеж](#Именованный-кортеж)
  * [Список](#Список)
  * [Строка](#Строка)
  * [Распаковка последовательностей](#Распаковка-последовательностей)
  * [Общие функции](#Общие-функции)
* [Вопросы для самоконтроля](#Вопросы-для-самоконтроля)
* [Задание](#Задание)

## Общая информация

Все коллекции относятся к итерируемым типам данных, то есть предоставляют доступ к отдельным элементам в некотором порядке. Для этого у каждого типа коллекции реализован специальный метод `__iter__`, который возвращает специфичный для нее **итератор** - специальный объект, имеющий метод `__next__`, который используется интерпретатором Python в цикле `for ... in` для получения следующего элемента. Когда метод `__next__` итератора генерирует исключение `StopIteration`, интерпретатор сам перехватывает его и завершает выполнения цикла, переходя к следующей за ним инструкции. Еще одна часто применяемая к коллекциям любого типа операция - определение количества элементов в ней - представлена функцией `len`.

Типы коллекций объединены в иерархию наследования. Следствием этого является тот факт, что один и тот же код зачастую способен работать с разными типами, ведь все они реализуют общие интерфейсы, наследуемые от базовых классов. Помимо этого, каждый отдельно взятый тип коллекции может добавлять специфичные для него методы.

В примерах в этой лекции мы будем использовать простой класс для демонстрации тех или иных возможностей различных коллекций. Ниже представлена его реализация.

In [80]:
class CollectionItem:
    def __init__(self, value):
        self.value = value
    
    # переопределяем метод для того, чтобы объекты класса `CollectionItem`
    # нормально выводились на экран при печати коллекции, содержащей их
    def __repr__(self):
        return 'CollectionItem({})'.format(self.value)
    
    # методы, которые потребуются при сравнении коллекций и при
    # поиске элементов в них

    def __eq__(self, other):
        if isinstance(other, CollectionItem):
            return self.value == other.value
        return NotImplemented

    def __lt__(self, other):
        if isinstance(other,CollectionItem):
            return self.value < other.value
        return NotImplemented

    def __le__(self, other):
        if isinstance(other,CollectionItem):
            return self.value <= other.value
        return NotImplemented

## Последовательности

**Последовательностью** (англ. *sequence*) в Python называют коллекцию, представляющую собой набор пронумерованных элементов. Номер элемента определяет его позицию в последовательности и по другому еще называется **индексом**. Нумерация начинается с нуля, то есть в последовательности размера $N$ содержатся элементы с индексами $0$, $1$, ... ,  $N-1$.

Один из типов коллекций, относящийся к последовательностям, нам уже известен - это `str` (элементами, которые он хранит, являются символы). Последовательности поддерживают операции конкатенации `+` и дублирования `*`, про которые мы рассказывали в контексте типа `str` [здесь](05_Operations.ipynb#Строковые-операции). Еще для них можно выполнять операцию взятия среза `[]`, рассмотренную там же, и операцию проверки на вхождение `in`, которая определяет, содержится ли определенный элемент в последовательности.

Также последовательности могу сравниваться друг с другом с помощью стандартных операций `<`, `<=`, `==`, `!=`, `>=`, `>`. Сравнение при этом производится поэлементно.

Кроме уже перечисленных операций, стоит упомянуть о двух методах, также реализованных всеми последовательностями. Заметим, что необязательные параметры методов или функции здесь и далее выделяются курсивом, а с помощью символов "..." мы иногда указываем, что в описании были перечислены не все параметры (за дополнительной информацией можно обратиться к справочному руководству Python).

| <p align="left">Метод</p> | Описание |
|---------------------------|----------|
| <p align="left"><samp>seq.count(item)</samp></p>                                                                              | Возвращает количество элементов, равных <samp>item</samp>, в последовательности                                              |
| <p align="left"><samp>seq.index(item, <i>start</i>=0, <i>end</i>=len(seq))</samp></p>                                          | Возвращает индекс первого элемента, равного <samp>item</samp>, из среза <samp>\[start, end)</samp>                           |

Важно отметить, что любые операции, связанные с поиском элементов в последовательности (`in`, методы `count` и `index`)  в общем случае выполняются **неэффективно**, потому что требуют прохода по всем ее элементам. Если такие операции планируется использовать часто, лучше применить другой тип коллекции (забегая вперед, скажем, что речь идет о словаре, который рассматривается далее). Последовательности в основном предназначены для хранения элементов в определенном порядке и извлечении их по индексу.

### Кортеж

**Кортеж** (англ. *tuple*) - это последовательность из нуля или более ссылок на объекты произвольных типов. Типом кортежа является класс `tuple`.

В следующем примере показывается, как создавать кортежи с помощью круглых скобок `()` или путем явного вызова конструктора класса `tuple`:

In [185]:
# создание пустого кортежа
t1 = () 
t2 = tuple()

# создание кортежа с несколькими элементами
t3 = (1,)              # если элемент один, то запятая в конце обязательна (иначе создастся int)
t4 = (1, True, 'test') # кортеж, содержащий 3 элемента
t5 = 'hello', 'world'  # скобки можно и не указывать

# создании копии кортежа
t6 = tuple(t5)

# пример использования

print(type(t1))
print(len(t3))
print(t4)
print(t6)

<class 'tuple'>
1
(1, True, 'test')
('hello', 'world')


Так как кортеж, как и любая последовательность, является итерируемым типом, для прохода по его элементам можно использовать цикл `for ... in`:

In [186]:
t = (1, 2, 3, 4, 5)
t_sum = 0

for item in t:
    t_sum += item

print(t_sum)

15


В Python существует встроенная функция `range`, принимающая до трех аргументов (для обозначения начала, конца и шага) и возвращающая итератор на соответствующую последовательность целых чисел. Эта функция зачастую используется в еще одном способе обхода коллекций:

In [187]:
t = ('aaa', 'bbb', 'ccc')

# range с одним аргументом arg возвращает итератор на
# последовательность 0, 1, ... , arg
for idx in range(len(t)): 
    print(idx, t[idx])

0 aaa
1 bbb
2 ccc


На элементы кортежа не накладывается никаких ограничений, т.е. он может хранить ссылки на объекты любого типа, в том числе на другие кортежи или экземпляры собственных классов:

In [188]:
some_tuple = ('aaa', 'bbb', 'ccc')
some_item = CollectionItem(5)
some_string = 'hello'

t = (some_string, some_item, some_tuple, 3.0, 'hello', 1)
print(t)

('hello', CollectionItem(5), ('aaa', 'bbb', 'ccc'), 3.0, 'hello', 1)


Продемонстрируем, как могут применяются основные операции, доступные для всех последовательностей, к кортежам:

In [189]:
print(t[2:4])   # выводим срез [2:4] кортежа
print(t[2][0])  # выводим первый элемент вложенного кортежа
print(t[2][1:]) # выводим срез [1:] вложенного кортежа

if CollectionItem(5) in t:
    print('{} is found'.format(CollectionItem(5)))

print(t.count('hello'))

# метод index генерирует исключение ValueError, если элемент не найден,
# поэтому используем try ... except
try:
    print(t.index(1))
except ValueError:
    print('item is not found')

(('aaa', 'bbb', 'ccc'), 3.0)
aaa
('bbb', 'ccc')
CollectionItem(5) is found
2
5


In [190]:
t1 = (1, 2, ('a', CollectionItem(3)))
t2 = (1, 2, ('a', CollectionItem(3)))
t3 = (1, 2, ('a', CollectionItem(333)))

# сравнение выполняется поэлементно, вложенные кортежи (и другие
# последовательности) обрабатываются рекурсивно

print(t1 == t2)
print(t1 == t3)
print(t1 >= t3)

True
False
False


Кортежи, как и строки, относятся к неизменяемым типам данных. Это значит, что нельзя заменить их элементы на другие (будет сгенерировано исключение `TypeError`):

In [191]:
t = (1, 2, 3)
t[0] = 100

TypeError: 'tuple' object does not support item assignment

Для решения этой задачи можно использовать прием, основанный на применении операций взятия среза `[]` и конкатенации `+`:

In [192]:
t = ('a', 'b', 'd', 'd', 'e')
t = t[0:2] + ('c',) + t[3:] # обратите внимание, что символ 'c' нужно
                            # добавлять как кортеж, а не как строку!
print(t)

('a', 'b', 'c', 'd', 'e')


Этот способ однако очень неэффективен, и им не стоит злоупотреблять. Если нужно часто модифицировать элементы последовательности, вместо кортежа стоит использовать список, который будет рассмотрен далее.

В заключение скажем, что кортежи в основном используются для хранения небольшого количества связанных значений, а также для распаковки последовательностей. Например, кортеж хорошо подойдет для хранения координат точки на плоскости, при этом на не потребуется создавать специальный класс для этого:

In [193]:
point1 = (1, 1)
point2 = (3, 3)
point3 = (5, 1)
triangle = (point1, point2, point3)

print(triangle)

((1, 1), (3, 3), (5, 1))


Используя такое представление треугольника на плоскости, мы можем так реализовать функцию, выполняющую его перемещение вдоль координатных осей:

In [194]:
def move_triangle(triangle, shift_x, shift_y):
    new_triangle = ()
    
    for x, y in triangle: # распаковываем координаты каждой точки треугольника в переменные x и y
        new_point = (x + shift_x, y + shift_y)
        new_triangle += (new_point,) # запятая в конце обязательна, потому что без нее в 
                                     # кортеж будет добавлено два значения, а не вложенный кортеж
    return new_triangle


# пример использования

print(move_triangle(triangle, -1, -1))

((0, 0), (2, 2), (4, 0))


### Именованный кортеж

**Именованный кортеж** - это кортеж, к элементам которого можно обращаться не только по индексу, но и по некоторому имени. В остальном именнованный кортеж идентичен обычному и имеет те же ограничения: он является неизменяемым типом и плохо подходит для операция поиска элемента.

Лучше всего именованные кортежи подходят для представления данных, состоящих из нескольких значений. Они лучше обычных кортежей справляются с этой задачей, потому что позволяют дать осмысленное имя каждому значению.

Чтобы создать именованный кортеж, потребуется подключить модуль `collections` и использовать функцию `namedtuple`. С помощью нее мы можем создать класс для наших именованных кортежей, в котором будут определены атрибуты, которые мы укажем при вызове функции:

In [195]:
from collections import namedtuple
Address = namedtuple('Address', 'city street number apartment zip')

В примере выше, с помощью функции `namedtuple` мы создаем класс `Address`, имеющий атрибуты `city`, `street`, `number`, `apartment` и `zip`. Этот класс мы сохраняем в переменную, чтобы потом можно было создавать его объекты, которые и будут нашими именованными кортежами. Делается это так:

In [196]:
a = Address('Tomsk', 'Lenina', 36, 1, '634050')
print(a.street, a.number) # обращаемся к элементам по имени
print(a[1], a[2])         # обращаемся к элементам по индексу

Lenina 36
Lenina 36


На этом мы закончим рассмотрение именованных кортежей, потому что остальные операции выполняются для них так же, как и для обычных. Предлагаем вам самостоятельно в этом убедиться.

### Список

**Список** (англ. *list*), так же, как и кортеж, представляет собой последовательность из нуля или более ссылок на объекты произвольных типов. Ключевое различие между ними заключается в том, что список является изменяемым типом данных, в отличие от кортежа, а это значит, что его значения его элементов можно модифицировать. Типом списка является `list`. 

Список можно создавать либо с помощью квадратных скобок `[]`, либо путем явного вызова конструктора `list`. Все операции, которые можно выполнять с кортежом, можно выполнять и со списком, поэтому мы не будем подробно рассматривать их здесь.

In [173]:
# создаем пустой список
l1 = []
l2 = list()

# создаем список из нескольких элементов
l3 = [1]
l4 = [0.5, CollectionItem(13), ('hello', 'world')]

# создаем копию списка
l5 = list(l4)

# пример использования

print(type(l5))
print(l5)

     # поиск элемента

if CollectionItem(13) in l5:
    print(CollectionItem(13), 'is found')

    # обращение к элементу или срезу

print(l5[1].value)
print(l5[2][0][0])
print(l5[::-1]) # получаем элементы в обратном порядке

    # конкатенация и дублирование

l3 += [2, 3] # добавляем к списку еще два элемента
l3 *= 2      # дублируем список
print(l3)

    # обход в цикле

result = 0
for item in l3:
    result += item

print(result)

<class 'list'>
[0.5, CollectionItem(13), ('hello', 'world')]
CollectionItem(13) is found
13
h
[('hello', 'world'), CollectionItem(13), 0.5]
[1, 2, 3, 1, 2, 3]
12


Как уже было упомянуто, главной особенностью списка является то, что его элементы можно изменять:

In [180]:
l = [1, 2, 3]

for idx in range(len(l)):
    l[idx] *= 2 # удваиваем элементы

print(l)

[2, 4, 6]


С помощью присваивания итерируемых объектов можно изменять целые срезы в списке, причем срез и итерируемый объект не обязаны иметь одинаковое количество элементов:

In [210]:
l = [1, 0, 0, 5]
l[1:3] = [2, 3, 4] # размер среза - 2; размер итерируемого объекта - 3
print(l)

[1, 2, 3, 4, 5]


Наконец, элементы и целые срезы можно удалять из списка с помощью операции `del`:

In [213]:
l = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

del l[0]    # удаляем первый элемент (0)
print(l)

del l[1::2] # удаляем элементы на нечетных позициях (2, 4, 6, 8)
print(l)

l[0:2] = [] # еще один способ удалить элементы (удаляются 1 и 3)
print(l)

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[1, 3, 5, 7, 9]
[5, 7, 9]


Класс `list` дополнительно представляет еще несколько методов, которые могут использоваться для списков. Мы перечислим лишь наиболее полезные из них:

| <p align="left">Метод</p> | Описание |
|---------------------------|----------|
| <p align="left"><samp>l.append(item)</samp></p>                                                                               | Вставляет элемент <samp>item</samp> в конец списка                                                                           |
| <p align="left"><samp>l.insert(idx, item)</samp></p>                                                                            | Вставляет элемент <samp>item</samp> в позицию <samp>idx</samp> в списке (медленнее, чем <samp>append</samp>)                 |
| <p align="left"><samp>l.pop()</samp></p>                                                                                       | Удаляет из списка последний элемент и возвращает его в качестве результата                                                   |
| <p align="left"><samp>l.remove(item)</samp></p>                                                                               | Удаляет первый слева элемент из списка, равный <samp>item</samp>                                                             |
| <p align="left"><samp>l.clear()</samp></p>                                                                                    | Очищает список, удаляя все элементы из него                                                                                  |
| <p align="left"><samp>l.reverse()</samp></p>                                                                                  | Переставляет элементы списка в обратном порядке                                                                              |
| <p align="left"><samp>l.sort(...)</samp></p>                                                                                   | Сортирует список                                                                                                             |

In [225]:
l = ['per', 'aspera', 'astra']

l.insert(2, 'ad')
print(l)

l.reverse()
print(l)

l.sort()
print(l)

['per', 'aspera', 'astra', '5']
['per', 'aspera', 'ad', 'astra', '5']
['5', 'astra', 'ad', 'aspera', 'per']
['5', 'ad', 'aspera', 'astra', 'per']


### Строка

Некоторые операции со строками, представляемыми типом `str`, мы уже рассматривали в [лекции 5](#05_Operations.ipynb), поэтому будет нелишним освежить их в памяти перед тем, как продолжать изучение материала данного раздела.

Операция `in`, а также методы `count` и `index`, доступные всем типам последовательностей, для строк могут работать не только с отдельными символами, но и с целыми подстроками:

In [232]:
s = 'abcdefabc'

print('def' in s)
print(s.index('def'))
print(s.count('abc'))

True
3
2


Поскольку тип `str` является классом, он предоставляет различные полезные методы. Мы перечислим лишь наиболее часто используемые:

| <p align="left">Метод</p> | Описание |
|---------------------------|----------|
| <p align="left"><samp>s.format(...)</samp></p>                                                                                | Возвращает копию строки, отформатированную в соответствии с переданными аргументами                                          |
| <p align="left"><samp>s.isalnum()</samp></p>                                                                                  | Возвращает <samp>True</samp>, если строка не пустая и содержит только алфавитно-цифровые символы                             |
| <p align="left"><samp>s.isalpha()</samp></p>                                                                                  | Возвращает <samp>True</samp>, если строка не пустая и содержит только алфавитные символы                                     |
| <p align="left"><samp>s.isdigit()</samp></p>                                                                                  | Возвращает <samp>True</samp>, если строка не пустая и содержит только цифровые символы                                       |
| <p align="left"><samp>s.isspace()</samp></p>                                                                                  | Возвращает <samp>True</samp>, если строка не пустая и содержит только пробельные символы                                     |
| <p align="left"><samp>s.lower()</samp></p>                                                                                    | Возвращает копию строки, в которой все символы приведены к нижнему регистру                                                  |
| <p align="left"><samp>s.upper()</samp></p>                                                                                    | Возвращает копию строки, в которой все символы приведены к верхнему регистру                                                 |
| <p align="left"><samp>s.join(seq)</samp></p>                                                                                  | Объединяет все элементы последовательности <samp>seq</samp>, вставляя между ними строку <samp>s</samp>                       |
| <p align="left"><samp>s.split(<i>substr</i>, <i>n</i>)</samp></p>                                                             | Возвращает список строк, выполняя разбиение исходной строки по подстроке <samp>substr</samp> не более <samp>n</samp> раз     |

### Распаковка последовательностей

Когда кортеж состоит из переменных, его можно указывать в левой части операции `=`, при этом справа должна стоять последовательность (например, кортеж). В этом случае интерпретатор выполняет **распаковку** - присваивает переменным из левого кортежа соответствующее значение из правой последовательности:

In [109]:
(a, b, c) = (1, 0.5, True)
print(a)
print(b)
print(c)

1
0.5
True


Зная это, можно хитрым способом обменивать значения переменных:

In [110]:
a = 0
b = 1
a, b = b, a # напомним, что скобки не обязательно указывать для создания кортежей

print(a)
print(b)

1
0


### Общие функции

## Вопросы для самоконтроля

1. Что такое коллекция? Что такое итерируемый тип? Как интерпретатор выполняет цикл `for ... in`?
2. Что такое последовательность? Когда их стоит использовать, а когда нет? Какие типичные операции они предоставляют?
3. Что такое распаковка последовательностей?
3. Для каких целей стоит использовать кортеж?

## Задание

1. Пусть `l` - это список, состоящий из последовательных целых чисел от 0 до 20. Объясните, ч

In [100]:
%%time
l = list()
for i in range(10000000):
    l.append(i)

Wall time: 3.44 s


In [80]:
%%time
d = dict()
for i in range(10000000):
    d[i] = i

Wall time: 3.52 s


In [81]:
%%time
result = 0
for i in l:
    result += i
print(result)

49999995000000
Wall time: 2 s


In [82]:
%%time
result = 0
for key, value in d.items():
    result += value
print(result)

49999995000000
Wall time: 2.77 s


In [102]:
%%time
find = 5000000
l.index(find)
#if find in l:
#    print('ok')

Wall time: 135 ms


In [96]:
%%time
find = 5000000000
d.index(find)

AttributeError: 'dict' object has no attribute 'index'

- - -
[Предыдущая: Классы и исключения](08_Classes_And_Exceptions.ipynb) |
[Содержание](00_Overview.ipynb#Содержание) |
[Следующая: Коллекции](09_Collections.ipynb)