# Модуль collections

Модуль collections - предоставляет специализированные типы данных, на основе словарей, кортежей, множеств, списков.

# Collections.Counter
collections.Counter - вид словаря, который позволяет нам считать количество неизменяемых объектов (в большинстве случаев, строк). Пример:

In [6]:
#Строки
from collections import Counter
c = Counter('abcacdabcacd')
print(c)
    

Counter({'a': 4, 'c': 4, 'b': 2, 'd': 2})


In [9]:
#Списки
lst = [5,6,7,1,3,9,9,1,2,5,5,7,7]
c = Counter(lst)
print(c)

Counter({5: 3, 7: 3, 1: 2, 9: 2, 6: 1, 3: 1, 2: 1})


In [12]:
#Предложения
s = 'the lazy dog jumped over another lazy dog'
words = s.split()
Counter(words)

Counter({'the': 1, 'lazy': 2, 'dog': 2, 'jumped': 1, 'over': 1, 'another': 1})

## Помимо доступных для всех словарей методов, объекты Counter поддерживают еще дополнительные:
## elements()
Возвращает количество каждого элемента. В случае, если количество элемента меньше одного, метод не выполняется.

In [10]:
c = Counter(a=3, b=2, c=1, d=-2)
sorted(c.elements())

['a', 'a', 'a', 'b', 'b', 'c']

## most_common([n])
Возвращает список наиболее повторяемых элементов и количество каждого из них. Количество элементов указывается в значении n. Если ни одно из значений не указано, возвращается количество всех элементов.

In [11]:
s = 'the lazy dog jumped over another lazy dog'
words = s.split()
Counter(words).most_common(3)

[('lazy', 2), ('dog', 2), ('the', 1)]

## Распространенные шаблоны использования объекта Counter()
sum(c.values())                 # общее количество. 
c.clear()                       # очистить счётчик. 
list(c)                         # список уникальных элементов. 
set(c)                          # преобразовать в множество. 
dict(c)                         # преобразовать в словарь.                       
c.most_common()[:-n-1:-1]       # наименее часто встречающихся элементов. 
c += Counter()                  # удалить элементы, встречающиеся менее одного раза.

# defaultdict
Словари — это эффективный способ хранения данных для дальнейшего извлечения, в котором данные представлены в виде неупорядоченного множества пар key:value. Ключи — это уникальные и неизменяемые объекты.

In [24]:
fruits = {'apple':300, 'guava': 200}
fruits['guava']

200

Все очень просто, когда значения представлены целыми числами или строками. Однако если они представлены в форме списков и словарей, значение (пустой список или словарь) нужно инициализировать при первом использовании ключа. defaultdict автоматизирует и упрощает этот процесс. Для лучшего понимания рассмотрим пример ниже:

In [26]:
d = {}
print(d['A'])

KeyError: 'A'

Словарь Python выдает ошибку, поскольку ‘A’ на данный момент не находится в словаре. Рассмотрим тот же самый пример с использованием defaultdict.

In [25]:
from collections import defaultdict
d = defaultdict(object)
print(d['A'])

<object object at 0x00000159C7A234A0>


defaultdict создает элементы, для которых нужно получить доступ (если они еще не существуют). defaultdict также является объектом-словарем и содержит те же методы, что и словарь. Разница заключается в том, что он устанавливает первый аргумент (default_factory) в качестве типа данных по умолчанию для словаря.

# OrderedDict
OrderedDict — это подкласс словаря, в котором хранится порядок добавления ключей. При итерации упорядоченного словаря элементы возвращаются в порядке добавления их ключей. Поскольку упорядоченный словарь запоминает порядок добавления, его можно использовать в сочетании с сортировкой для создания отсортированного словаря:

In [44]:
# словарь, отсортированный по ключу
import collections
OrderedDict = collections.OrderedDict
d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2}
OrderedDict(sorted(d.items(), key=lambda t: t[0]))

OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])

In [43]:
# словарь, отсортированный по значению
OrderedDict(sorted(d.items(), key=lambda t: t[1]))

OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])

In [42]:
# словарь, отсортированный по длине строки
OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))

OrderedDict([('pear', 1), ('apple', 4), ('banana', 3), ('orange', 2)])

# namedtuple
Это функция для кортежей с именованными полями (Named Fields), которую можно рассматривать как расширение встроенного типа данных tuple. Именованные кортежи задают значение для каждой позиции в кортеже, делая код более читаемым и самодокументируемым. Доступ к объектам, хранящимся в кортеже, можно получить с помощью уникального (удобного для чтения) идентификатора. Это избавляет от необходимости запоминать целочисленные индексы. Рассмотрим его реализацию. Построение namedtuple начинается с передачи названия объекта type (fruit). Затем передается строка с пробелами между названиям каждого поля. Теперь можно обращаться к различным параметрам:

In [48]:
from collections import namedtuple
fruit = namedtuple('fruit','number variety color')
guava = fruit(number=2,variety='HoneyCrisp',color='green')
apple = fruit(number=5,variety='Granny Smith',color='red')
apple.variety

'Granny Smith'

In [49]:
guava.color

'green'

Задание:
1. Посчитать сколько раз каждое слово встречается в предложении "Я люблю спать и я люблю есть"
2. Создать словарь и отсортировать его по длине строки.