# Библиотека collections

In [171]:
import collections

## Класс namedtuple: именованный кортеж

namedtuple позволяет создавать объекты, которые ведут себя как кортежи, но при этом имеют именованные поля. Это делает код самодокументированным.

In [172]:
from collections import namedtuple

In [173]:
# Создаем шаблон для пользователя
User = namedtuple("User", ["name", "surname", "age", "position"], rename=False, defaults=["Ivan", "Ivanov", 25, "Jobless"])
user1 = User(name="Dunkan", surname="MacLeod", age=30, position="Python Developer")

print(user1)
print(user1.age)

User(name='Dunkan', surname='MacLeod', age=30, position='Python Developer')
30


Некоторые методы

In [174]:
prince = ["Gamlet", "Prince", 23, "Esilnor"]
user2 = User._make(prince)
print(user2)

User(name='Gamlet', surname='Prince', age=23, position='Esilnor')


In [175]:
user2_dict = user2._asdict()
print(user2_dict)

{'name': 'Gamlet', 'surname': 'Prince', 'age': 23, 'position': 'Esilnor'}


In [176]:
user3 = user2._replace(age=24)
print(user3)

User(name='Gamlet', surname='Prince', age=24, position='Esilnor')


In [177]:
fields = User._fields
fields_def = User._field_defaults
print(fields)
print(fields_def)

('name', 'surname', 'age', 'position')
{'name': 'Ivan', 'surname': 'Ivanov', 'age': 25, 'position': 'Jobless'}


Перевод словаря в namedtuple

In [178]:
man = {"name": "John", "surname": "Doe", "age": 40, "position": "Manager"}
user4 = User(**man)
print(user4)

User(name='John', surname='Doe', age=40, position='Manager')


Особенности namedtuple

1. Память: namedtuple потребляет ровно столько же памяти, сколько обычный кортеж. Он не создает словарь __dict__ для каждого экземпляра, в отличие от обычных классов.

2. Неизменяемость (Immutability): Как и обычный кортеж, namedtuple нельзя изменить после создания. Это делает его идеальным для передачи данных между слоями приложения — вы уверены, что никто случайно не поменяет user.age внутри какой-нибудь функции.

3. Обратная совместимость: Его можно использовать везде, где ожидается обычный tuple (например, распаковка name, *rest = user).

Modern Python: typing.NamedTuple

Начиная с Python 3.6, у нас есть еще более элегантный способ записи через аннотации типов. Это выглядит как класс, но под капотом остается всё тем же эффективным кортежем:

In [179]:
from typing import NamedTuple

class User(NamedTuple):
    name: str
    surname: str
    age: int
    position: str

user = User('Анна', 'Петрова', 25, 'Data Scientist')

## Класс defaultdict: Забываем про KeyError

In [180]:
from collections import defaultdict

Работа со словарями часто превращается в бесконечную борьбу с отсутствующими ключами. Мы пишем проверки, используем .get() или .setdefault(), что раздувает код и делает его менее читаемым. Класс defaultdict позволяет решить эту проблему


Представьте задачу: сгруппировать список городов по странам. Обычный словарь заставит вас проверять, создана ли уже корзина для этой страны:


In [181]:
data = [('Russia', 'Moscow'),
        ('USA', 'Washington'),
        ('Russia', 'Saint Petersburg'),
        ('USA', 'Los Angeles'),
        ('France', 'Paris')]

groups = defaultdict(list)

for country, city in data:
    groups[country].append(city)

print(groups)

defaultdict(<class 'list'>, {'Russia': ['Moscow', 'Saint Petersburg'], 'USA': ['Washington', 'Los Angeles'], 'France': ['Paris']})


Другая задача: посчитать количество каждой буквы в слове

In [182]:
word = "mississippi"
letter_freq = defaultdict(int)
for letter in word:
    letter_freq[letter] += 1

print(letter_freq)

defaultdict(<class 'int'>, {'m': 1, 'i': 4, 's': 4, 'p': 2})


## Класс Counter: Считаем всё за одну строку

In [183]:
from collections import Counter

Подсчет частоты элементов — задача настолько частая, что для нее выделили отдельный класс. Counter — это фактически словарь, где ключи — это объекты, а значения — их количество.

Задача: найти количество каждого слова в тесте

In [184]:
data = "apple banana apple orange apple banana"
words = data.split()

words_count = Counter(words)
print(words_count)
print(sorted(words_count.elements()))
print(words_count.most_common(2))

Counter({'apple': 3, 'banana': 2, 'orange': 1})
['apple', 'apple', 'apple', 'banana', 'banana', 'orange']
[('apple', 3), ('banana', 2)]


Объекты типа Counter можно складывать и вычитать

In [185]:
counter_1 = Counter(apples=3, banana=5)
counter_2 = Counter(apples=1, banana=6)

print(counter_1+counter_2)
print(counter_1-counter_2)
counter_1.subtract(counter_2)
print(counter_1)
print(counter_2.total())

Counter({'banana': 11, 'apples': 4})
Counter({'apples': 2})
Counter({'apples': 2, 'banana': -1})
7


Еще шаблоны работы с Counter

In [186]:
c = Counter(a=5, b=7, c=-1)
list_of_pairs = [('a', 5), ('b', 7), ('c', -1)]
n = 5

print(c.total())                       # сумма всех счётов
print(list(c))                         # список уникальных элементов
print(set(c))                          # преобразовать в множество
print(dict(c))                         # преобразовать в обычный словарь
print(c.items())                       # доступ к парам (элемент, количество)
print(Counter(dict(list_of_pairs)))    # преобразовать из списка пар (элемент, количество)
print(c.most_common()[:-n-1:-1])       # n наименее частых элементов
print(c.clear())                       # сбросить все счётчики

11
['a', 'b', 'c']
{'b', 'c', 'a'}
{'a': 5, 'b': 7, 'c': -1}
dict_items([('a', 5), ('b', 7), ('c', -1)])
Counter({'b': 7, 'a': 5, 'c': -1})
[('c', -1), ('a', 5), ('b', 7)]
None


In [187]:
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)

print(c + d)                       # складываем два Counter: c[x] + d[x]
print(c - d)                       # вычитаем (оставляя только положительные значения)
print(c & d)                       # пересечение: min(c[x], d[x])
print(c | d)                       # объединение: max(c[x], d[x])
print(c == d)                      # равенство: c[x] == d[x]
print(c <= d)                      # включение: c[x] <= d[x]

Counter({'a': 4, 'b': 3})
Counter({'a': 2})
Counter({'a': 1, 'b': 1})
Counter({'a': 3, 'b': 2})
False
False


## Класс deque: Оптимизируем очереди

In [188]:
from collections import deque

Многие разработчики используют обычный список (list) там, где нужна очередь. Это классическая ловушка производительности. Если добавление в конец списка (append) работает быстро, то удаление первого элемента (pop(0)) или вставка в начало (insert(0, x)) — это катастрофа для больших данных

deque реализована как двусвязный список блоков. Это позволяет добавлять и удалять элементы с обоих концов за константное время O(1).

In [189]:
queue = deque(["one", "two", "three"])

queue.appendleft("zero")
queue.append("four")
print(queue)
print(queue.pop())

deque(['zero', 'one', 'two', 'three', 'four'])
four


У deque есть параметр maxlen. Если его задать, очередь превращается в «кольцевой буфер». Когда очередь заполняется, при добавлении нового элемента старый удаляется автоматически с противоположной стороны.

Пример: Хранение последних 5 строк лога или истории действий:

In [190]:
history = deque(maxlen=5)

for i in range(10):
    history.append(i)

print(history)

deque([5, 6, 7, 8, 9], maxlen=5)


## Класс ChainMap

In [191]:
from collections import ChainMap

Иногда стандартного поведения словаря недостаточно, и нам нужно либо объединить несколько источников данных в один, либо полностью переопределить правила работы контейнера.

In [192]:
defaut = {"theme": "light", "language": "EN", "show_index": True}
env = {"theme": "dark", "language": "RU"}
user = {"show_hints": False}

settings = ChainMap(user, env, defaut)

print(settings['theme'])      
print(settings['show_hints']) 
print(settings['language'])   

dark
False
RU


В чем преимущества ChainMap?

1) Производительность: ChainMap не копирует данные, а просто хранит ссылки на оригинальные словари.

2) Динамичность: если вы измените значение в исходном словаре env_vars, оно тут же «отразится» в config.

3) Область видимости: Новые ключи (запись) всегда добавляются только в первый словарь в цепочке, что позволяет легко реализовывать вложенные области видимости (scopes)

## Класс UserDict: Когда нужно создать свой словарь

In [193]:
from collections import UserDict

Частая ошибка — наследоваться напрямую от встроенного dict, если вы хотите создать свою версию словаря (например, который всегда переводит ключи в нижний регистр).

Проблема прямого наследования от dict:
Методы встроенного dict написаны на C и оптимизированы. Они часто игнорируют ваши переопределенные методы в подклассах. Например, ваш __setitem__ может сработать при d['key'] = value, но будет проигнорирован при вызове update().

Решение: UserDict
Это обертка вокруг обычного словаря, специально созданная для наследования. Все операции в ней проходят через стандартные методы Python, которые вы можете безопасно переопределять.

In [194]:
class LowCaseDict(UserDict):
    def __setitem__(self, key, item):
        key = key.lower() if isinstance(key, str) else key
        return super().__setitem__(key, item)
    
d = LowCaseDict()
d['Russia'] = 'Moscow'

print(d['russia'])

d['Russia'] = 'Barnaul'

print(d['russia'])

Moscow
Barnaul
