# Работа с итерируемыми коллекциями

Коллекция в Python — программный объект (переменная-контейнер), хранящая набор значений одного или различных типов, позволяющий обращаться к этим значениям, а также применять специальные функции и методы, зависящие от типа коллекции.

## Классификация коллекций

Классифицировать коллекции в питоне можно по нескольким признакам.

**Индексированность**. В любой коллекции каким-то образом должен осуществляться доступ до конкретного элемента. Самый простой способ понять, какой элемент из коллекции нужен - это пронумеровать все элементы и получить нужный по номеру. Этот номер называется индексом. Однако в питоне, кроме индексации, есть еще один способ, как определить соответствие между запросом и элементом: доступ по ключу. Ключом может быть любой неизменяемый объект, уникальный для данной коллекции. Между ключом и значением коллекции в этом случае определяется однозначное соответствие. Также может быть случай, когда у коллекции нет ни индексов, ни ключей.

**Уникальность**. Часть коллекций допускает, что каждый элемент коллекции может встречаться в ней только один раз, а другая часть никак не ограничивает это. Если такое свойство у коллекции есть, это порождает требование неизменности используемых типов данных для каждого элемента. Например, таким элементом не может быть список.

**Изменяемость коллекции** — позволяет добавлять в коллекцию новых членов или удалять их после создания коллекции.

В таблице ниже показано, какие коллекции обладают этими свойствами.

![Классификация коллекций](04/04-00.png)

Варианты задания коллекций приведены ниже. Убедимся с помощью функции type в том, что созданные коллекции действительно соответствуют заявленным типам.

In [3]:
# Список (list) - задается квадратными скобками либо конструктором list()
a = [1, 2, 3]
print(type(a))

# Кортеж (tuple) - задается круглыми скобками либо конструктором tuple()
a = (1, 2, 3)
print(type(a))

# Множество (set) - задается фигурными скобками с перечисленными через запятую значениями либо конструктором set()
a = {1, 2, 3}
print(type(a))

# Неизменное множество (frozenset) - задается конструктором frozenset
a = frozenset(1, 2, 3)
print(type(a))

# Словарь (dict) - коллекция "ключ-значение". Задается фигурными скобками, где ключи и значения разделены двоеточием
a = {1: 'a', 2: 'b', 3: 'c'}
print(type(a))

<class 'list'>
<class 'tuple'>
<class 'set'>
<class 'frozenset'>
<class 'dict'>


В зависимости от стоящих задач, один тип коллекции можно конвертировать в другой тип коллекции. Для этого, как правило достаточно передать одну коллекцию в функцию создания другой.

При преобразовании одной коллекции в другую возможна потеря данных:

- При преобразовании в множество теряются дублирующие элементы, так как множество содержит только уникальные элементы. Проверка на уникальность элементов во входной коллекции обычно и является причиной использовать множество на практике.
- При конвертации индексированной коллекции в неиндексированную теряется информация о порядке элементов.

In [4]:
my_tuple = ('a', 'b', 'a')

my_list = list(my_tuple)
my_set = set(my_tuple)                  # теряем индексы и дубликаты элементов
my_frozenset = frozenset(my_tuple)      # теряем индексы и дубликаты элементов

print(my_list, my_set, my_frozenset)

['a', 'b', 'a'] {'a', 'b'} frozenset({'a', 'b'})


## Общие действия для всех коллекций

Ниже приведем возможности python, реализованные для всех коллекций.

- Печать элементов: `print()`

In [5]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']
print(my_list)

['a', 'b', 'c', 'd', 'e', 'f']


- Подсчет количества элементов: `len()`

In [6]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']
print(len(my_list))

6


- Проверка принадлежности элемента данной коллекции: операторы `in`, `not in`

In [7]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']

print('a' in my_list)
print('q' in my_list)
print('a' not in my_list)
print('q' not in my_list)

True
False
False
True


- Обход всех элементов в цикле: `for in`

В цикле будут последовательно перебираться элементы коллекции, пока не будут перебраны все из них.

Для индексированных коллекций порядок следования элементов определен изначально - по возрастанию индекса. Порядок обработки элементов для не индексированных коллекций регламентирован не во всех версиях питона.

**Не меняйте количество элементов коллекции в теле цикла во время итерации по этой же коллекции!** — Это порождает не всегда очевидные на первый взгляд ошибки.

In [1]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']

for elem in my_list:
    print(elem)

a
b
c
d
e
f


- Функция `enumerate()`

Встроенная функция `enumerate()` создает объект, который генерирует кортежи, состоящие из двух элементов - индекса элемента и самого элемента.

Функция `enumerate()` используется для упрощения прохода по коллекциям в цикле, когда кроме самих элементов требуется их индекс.

In [2]:
a = ['a', 'b', 'c', 'd']

for i in enumerate(a):  # каждый элемент i в цикле - это кортеж из индекса и значения в списке
    print(i)

(0, 'a')
(1, 'b')
(2, 'c')
(3, 'd')


In [3]:
for i, item in enumerate(a):  # сразу же в цикле эти кортежи можно "распаковать" на две переменные i, item
    print("Индекс:", i, "значение:", item)

Индекс: 0 значение: a
Индекс: 1 значение: b
Индекс: 2 значение: c
Индекс: 3 значение: d


- Функции `min()`, `max()`, `sum()`

Функции `min()`, `max()` — поиск минимального и максимального элемента соответственно — работают не только для числовых, но и для строковых значений.

`sum()` — суммирование всех элементов списка. Однако эта функция работает только если все элементы списка - числовые, поскольку внутри нее зашита логика `0 + ...`, что при сложении со строкой выдаст ошибку типов.

In [11]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']
min(my_list)

a


In [5]:
min([3, 6, 2])

2

In [4]:
sum([1, 2, 3])

6

In [13]:
sum(['1', '2', '3'])

TypeError: unsupported operand type(s) for +: 'int' and 'str'

- Функция `sorted()` возвращает список, в котором все элементы исходного списка отсортированы.

Мы может использовать функцию `sorted()` для вывода списка сортированных элементов любой коллекции для последующее обработки или вывода.

1. функция не меняет исходную коллекцию, а возвращает новый список из ее элементов;
2. независимо от типа исходной коллекции, вернётся список (list) ее элементов;
3. поскольку она не меняет исходную коллекцию, ее можно применять к неизменяемым коллекциям;
4. поскольку при сортировке возвращаемых элементов нам не важно, был ли у элемента некий индекс в исходной коллекции, можно применять к неиндексированным коллекциям;
5. Имеет дополнительные не обязательные аргументы:
    - `reverse = True` - сортировка в обратном порядке
    - `key = funcname` (начиная с Python 2.4) - сортировка с помощью специальной функции funcname

In [14]:
my_list = [2, 5, 1, 7, 3]
my_list_sorted = sorted(my_list)
print(my_list_sorted)

my_set = {2, 5, 1, 7, 3}
my_set_sorted = sorted(my_set, reverse=True)
print(my_set_sorted)

# сортировка списка строк по длине len() каждого элемента
my_files = ['somecat.jpg', 'pc.png', 'apple.bmp', 'mydog.gif']
my_files_sorted = sorted(my_files, key=len)
print(my_files_sorted)

[1, 2, 3, 5, 7]
[7, 5, 3, 2, 1]
['pc.png', 'apple.bmp', 'mydog.gif', 'somecat.jpg']


- `.count()` - подсчет определенных элементов для неуникальных коллекций, возвращает сколько раз элемент встречается в коллекции.

In [15]:
my_list = [1, 2, 2, 2, 2, 3]

print(my_list.count(2))
print(my_list.count(5))

4
0


- `.index()` - минимальный индекс переданного элемента для индексированных коллекций. Если такого элемента не найдено - ошибка ValueError.

In [16]:
my_list = [1, 2, 2, 2, 2, 3]

print(my_list.index(2))
print(my_list.index(5)) # ValueError: 5 is not in list - такого элемента нет в списке

1


ValueError: 5 is not in list

- `.copy()` — неглубокая (не рекурсивная) копия коллекции

In [17]:
my_set = {1, 2, 3}
my_set_2 = my_set.copy()

print(my_set_2 == my_set)  # коллекции равны - содержат одинаковые значения
print(my_set_2 is my_set)  # коллекции не идентичны - это разные объекты с разными id

True
False


- `.clear()` — метод изменяемых коллекций, удаляющий из коллекции все элементы и превращающий её в пустую коллекцию.

In [18]:
my_set = {1, 2, 3}
print(my_set)

my_set.clear()
print(my_set)

{1, 2, 3}
set()


## Списки

**Список** - это изменяемая коллекция, элементы в которой доступны по индексам. Со списками, помимо описанных выше, возможны следующие действия:

- Обращение к элементу

Можно обратиться к элементу по индексу в квадратных скобках (отрицательный индекс означает отсчет с конца).

In [19]:
my_list = ['a', 'b', 'c', 'd', 'e', 'f']

print(my_list[0])
print(my_list[3])
print(my_list[-1])

a
d
f


Коллекции могут иметь несколько уровней вложенности, к примеру, список списков. Для перехода на уровень глубже ставится вторая пара квадратных скобок.

In [20]:
my_2lvl_list = [[1, 2, 3], ['a', 'b', 'c']]

print(my_2lvl_list[0])
print(my_2lvl_list[0][0])
print(my_2lvl_list[1][-1])

[1, 2, 3]
1
c


Так как **списки** - изменяемые коллекции, в них можно изменять элементы, обращаясь к ним через индекс.\
*Прим.: Для этого элемент уже должен существовать в списке, нельзя таким образом добавить элемент на несуществующий индекс.*

In [21]:
my_list = [1, 2, 3, [4, 5]]
my_list[0] = 10
my_list[-1][0] = 40
print(my_list)

[10, 2, 3, [40, 5]]


- Добавление и удаление элементов 

In [22]:
my_list = [13, 27, 8]
print(my_list)
my_list.append(41)
print(my_list)
# Удаление по значению
my_list.remove(27)
print(my_list)
# Удаление по индексу
my_list.pop(1)
print(my_list)

[13, 27, 8]
[13, 27, 8, 41]
[13, 8, 41]
[13, 41]


Добавление элементов из другого списка

In [24]:
my_list = [1, 2, 3]
another_list = [4, 5]

my_list.extend(another_list)
print(my_list)

[1, 2, 3, 4, 5]


Для объединения списков (list) возможны три варианта без изменения исходного списка:

In [25]:
# Добавляем все элементы второго списка к элементам первого
# (аналог метод .extend() но без изменения исходного списка):
a = [1, 2, 3]
b = [4, 5]
c = a + b           
print(a, b, c)

# Добавляем второй список как один элемент без изменения исходного списка
# (аналог метода.append() но без изменения исходного списка):
a = [1, 2, 3]
b = [4, 5]
c = a + [b]
print(a, b, c)

# работает на версии питона 3.5 и выше:
a, b = [1, 2, 3], [4, 5]
c = [*a, *b]
print(c)

[1, 2, 3] [4, 5] [1, 2, 3, 4, 5]
[1, 2, 3] [4, 5] [1, 2, 3, [4, 5]]
[1, 2, 3, 4, 5]


Добавление и удаление элементов может использовать в любой изменяемой коллекции, поэтому приведем таблицу, где описано, как это происходит для разных коллекций.

![Добавление и удаление элементов](04/04-03.png)

## Задание

С клавиатуры подается 5 чисел, разделенных концом строки. Нужно вывести их на экран от большего к меньшему, также разделяя их концом строки. Оценить правильность решения вы можете в контесте в задаче Коллекции. Списки

In [6]:
A = [0] * 5
for i in range(5):
    ch = input()
    A[i] = int(ch)
list = sorted(A, reverse=True)
for el in list:
    print(el)

5
4
3
2
1


## Кортежи и строки

Кортежи и строки во многом похожи на списки, за одним исключением: они неизменяемые. Соответственно, для них работает всё то же самое, что и для списков, кроме функций, изменяющих коллекцию.

Кортежи работают быстрее, чем списки, поэтому если не нужно менять коллекцию, лучше использовать кортеж или строку.

In [26]:
my_tuple = (3, 2, 4, 1, 5)
my_string = 'lndskb'

print(my_tuple)
print(my_tuple[2])

print(my_string[-1])

print(sorted(my_tuple))
print(sorted(my_string))

for each in my_string:
    print(each)

(3, 2, 4, 1, 5)
4
b
[1, 2, 3, 4, 5]
['b', 'd', 'k', 'l', 'n', 's']
l
n
d
s
k
b


Объединение строк (string) и кортежей (tuple) возможна с использованием оператора сложения «+». При этом возвращается новый объект, а старые не изменяются.

In [27]:
str1 = 'abc'
str2 = 'de'
str3 = str1 + str2
print(str3)

tuple1 = (1, 2, 3)
tuple2 = (4, 5)
tuple3 = tuple1 + tuple2
print(tuple3)

abcde
(1, 2, 3, 4, 5)


## Словари и множества

Множество (set) – неупорядоченная коллекция из уникальных (неповторяющихся) элементов. Элементы множества в Python должны быть немутабельны (неизменяемы), хотя само содержимое множества может меняться: можно добавлять и удалять элементы из множества.

Словарь (dictionary) — это ассоциативный массив или хеш-таблица. Это неупорядоченное множество пар `ключ: значение` с требованием уникальности ключей. 

Внутри множества тоже реализованы как хэш-таблицы, в которых есть только ключи без значений и добавлены некоторые оптимизации, которые используют отсутствие значений.

In [28]:
# Создание множества
my_set = set() # пустое множество
my_set = {1, 2, 3, 4}

my_hetero_set = {"abc", 3.14, (10, 20)}  # можно с кортежем

my_invalid_set = {"abc", 3.14, [10, 20]}  # нельзя со списком, так как он нехешируемый

TypeError: unhashable type: 'list'

Словарь создается так же с использованием фигурных скобок, но важное отличие от множества: в нем прописаны ключи и значения через двоеточие, и уже эти пары разделены запятыми. Пустые фигурные скобки - это всегда пустой словарь.

In [29]:
# Создание словаря

my_dict1 = {} # Пустой словарь
print(my_dict1)
my_dict2 = {'one': 10, 'two': 20, 'three': 30}
print(my_dict2)

{}
{'one': 10, 'two': 20, 'three': 30}


In [30]:
# Доступ к значениям или к ключам выполняется при помощи .keys() или .values()
# .items() возвращает пару "ключ: значение" в кортеже

my_dict = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6}

print('Проход по ключам')
for elem in my_dict:                   # равносильно my_dict.keys()
    print(elem) 
    
print('Проход по значениям')
for elem in my_dict.values():          # .values() возвращает значения
    print(elem)

print('Проход по парам - ключ: значение')
for key, value in my_dict.items():     # Проход по .items() возвращает кортеж (ключ, значение), 
    print(key, value)          

Проход по ключам
a
b
c
d
e
f
Проход по значениям
1
2
3
4
5
6
Проход по парам - ключ: значение
a 1
b 2
c 3
d 4
e 5
f 6


Операции, непосредственно изменяющие множество

|Функция|Пояснение 
|---|:---|
|`set.update(other, ...)`; `set \|= other \| ...`|объединение|
|`set.intersection_update(other, ...)`; `set &= other & ...`|пересечение|
|`set.difference_update(other, ...)`; `set -= other \| ...`|вычитание|
|`set.symmetric_difference_update(other)`; `set ^= other`|множество из элементов, встречающихся в одном множестве, но не встречающиеся в обоих|
|`set.add(elem)`|добавляет элемент в множество|
|`set.remove(elem)`|удаляет элемент из множества. KeyError, если такого элемента не существует|
|`set.discard(elem)`|удаляет элемент, если он находится в множестве|
|`set.pop()`|удаляет первый элемент из множества. Так как множества не упорядочены, нельзя точно сказать, какой элемент будет первым|
|`set.clear()`|очистка множества|

С множествами можно выполнять множество операций: находить объединение, пересечение и т.п.:

|Функция|Пояснение 
|---|:---|
|`len(s)`|число элементов в множестве (размер множества)|
|`x in s`|принадлежит ли x множеству s|
|`set.isdisjoint(other)`|истина, если set и other не имеют общих элементов|
|`set == other`|все элементы set принадлежат other, все элементы other принадлежат set|
|`set.issubset(other)` или `set <= other`|все элементы set принадлежат other|
|`set.issuperset(other)` или `set >= other`|аналогично|
|`set.union(other, ...)` или `set \| other \| ...`|объединение нескольких множеств|
|`set.intersection(other, ...)` или `set & other & ...`|пересечение|
|`set.difference(other, ...)` или `set - other - ...`|множество из всех элементов set, не принадлежащие ни одному из other|
|`set.symmetric_difference(other)`; `set ^ other`|множество из элементов, встречающихся в одном множестве, но не встречающиеся в обоих|
|`set.copy()`|копия множества|

Объединить словари можно, комбинируя методы .copy() и .update():

In [31]:
dict1 = {'a': 1, 'b': 2}
dict2 = {'c': 3, 'd': 4}
dict3 = dict1.copy()
dict3.update(dict2)
print(dict3)

# Для версии Python 3.5 и выше:
dict1 = {'a': 1, 'b': 2}
dict2 = {'c': 3, 'd': 4}
dict3 = {**dict1, **dict2}
print(dict3)

{'a': 1, 'b': 2, 'c': 3, 'd': 4}
{'a': 1, 'b': 2, 'c': 3, 'd': 4}
1
1
None


In [35]:
# Доступ к значениям словаря
# print(dict1['qweqwe'])
print(dict1.get('a'))
print(dict1.get('qweqwe', "default"))

1
default


In [36]:
l = [1, 2, 2, 2, 2, 3, 4, 5, 5, 5, 6]

d = {}
for el in l:
    d[el] = d.get(el, 0) + 1
    
print(d)

{1: 1, 2: 4, 3: 1, 4: 1, 5: 3, 6: 1}


## Задание

С клавиатуры строка, содержащая произвольное количество слов через запятую и пробел. Слова могут повторяться. Нужно вывести на экран все уникальные слова в алфавитном порядке, также через пробел и запятую. Оценить правильность решения вы можете в контесте в задаче Коллекции. Множества

In [1]:
s = input().replace(',', ' ').split()
my_set = set()
for word in s:
    my_set.add(word.lower())
my_set = sorted(my_set)
for sets in my_set:
    if sets != my_set[-1]: print(sets, end=', ')
    else: print(sets, end='')

['gfhfhgfh?hfgh', 'fghfh', 'fghfgh', 'fgh', 'fgh', 'fgh', 'fgh', 'fgh', 'f']
{'fghfh', 'gfhfhgfh?hfgh', 'fgh', 'fghfgh', 'f'}
['f', 'fgh', 'fghfgh', 'fghfh', 'gfhfhgfh?hfgh']


### Срезы

В индексируемых коллекциях также применимы срезы, как при работе со строками: `[Start:Stop:Step]`

Start задает начало среза;\
Stop задает конец среза (не включая элемент с индексом Stop);\
Step задает шаг.

Срезы на примере строки:

![Примеры срезов](04/04-02.png)

С помощью среза можно не только получать копию коллекции, но в случае **списка** можно также менять значения элементов, удалять и добавлять новые. Для этого необходимо передавать также итерируемый объект.

Обращение к несуществующему индексу коллекции вызывает ошибку, а в случае выхода границ среза за границы коллекции никакой ошибки не происходит.

In [37]:
my_list = [1, 1, 3, 4, 5]

# my_list[1:2] = 2     # Неправильно - TypeError: can only assign an iterable
my_list[1:2] = [2]     # Правильно
print(my_list)

my_list[1:3] = [20, 30]
print(my_list)          # [1, 20, 30, 4, 5]

my_list[1:3] = [0]      # можно заменить два элемента на один
print(my_list)
my_list[2:] = [40, 50, 60]   # или два элемента на три
print(my_list)

[1, 2, 3, 4, 5]
[1, 20, 30, 4, 5]
[1, 0, 4, 5]
[1, 0, 40, 50, 60]


Можно также создать объект среза (slice) или использовать его на лету:
slice(start,stop,step)

In [38]:
my_list = [5, 6, 7, 8, 9]

my_slice = slice(2, 4)
print(my_slice.start)
print(my_slice.stop)
print(my_slice.step)

print(my_list[my_slice]) # эквивалент [2:4]

print(my_list[slice(1, None)]) # эквивалент [1:]

print(my_list[slice(None, -1)]) # эквивалент [:-1]

print(my_list[slice(None, None, 2)]) # эквивалент [::2]

print(my_list[slice(None)]) # эквивалент [::]

2
4
None
[7, 8]
[6, 7, 8, 9]
[5, 6, 7, 8]
[5, 7, 9]
[5, 6, 7, 8, 9]


## Задание

С клавиатуры вводятся слова через запятую с пробелом. Выведите на экран три наиболее часто встречаемых слова, вместе с количеством этих слов. Количество должно быть отделено от слова двоеточием и пробелом. Каждая пара слово-количество должна быть выведена на отдельной строчке. Для простоты гарантируется, что в строке нет слов с одинаковой встречаемостью. Проверить свое решение вы можете в контесте в задаче Коллекции. Словари

In [None]:
str = input().split(', ')
d = {}
for word in str:
    d[word] = d.get(word, 0) + 1

sortd = {}
sort_keys = sorted(d, key=d.get, reverse=True)
for w in sort_keys:
    sortd[w] = d[w]

new = list(sortd.items())[:3]
myDict = {new[i][0]: new[i][1] for i in range(0, len(new), 1)} 
for key in myDict:
    print(f"{key}: {myDict[key]}")