# Counter

    Например, может возникнуть следующая задача: необходимо выявить наиболее частых покупателей магазина. Входные данные — список покупателей за последний месяц в хронологическом порядке, а точнее, список номеров карт постоянного покупателя (номера повторяются столько раз, сколько было посещений магазина). Понятно, что необходимо посчитать, сколько раз встретились различные номера карт и выбрать несколько наиболее частых клиентов. Для решения подобных задачи и предназначен Counter.

Давайте посмотрим, как используется счётчик. Вначале необходимо импортировать Counter из модуля collections, а затем создать пустой экземпляр этого объекта:

In [24]:
# Импортируем объект Counter из модуля collections
from collections import Counter
# Создаём пустой объект Counter
c = Counter()

Рассмотрим базовый синтаксис этого инструмента. Например, будем считать цвета проезжающих машин: если встретили красную машину, посчитаем её. Для этого прибавим к ключу 'red' единицу. Синтаксис очень похож на работу со словарём:

In [25]:
c['red'] += 1
print(c)
# Будет напечатано:
# Counter({'red': 1})

Counter({'red': 1})


Допустим, у нас есть список цветов проехавших машин:

In [26]:
cars = ['red', 'blue', 'black', 'black', 'black', 'red', 'blue', 'red', 'white']

Посчитать значения, конечно, можно и в цикле, используя синтаксис из предыдущего примера:

In [27]:
c = Counter()
for car in cars:
    c[car] += 1
 
print(c)
# Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Однако гораздо проще при создании Counter сразу передать в круглых скобках итерируемый объект, в котором необходимо посчитать значения:

In [28]:
c = Counter(cars)
print(c)
# Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Узнать, сколько раз встретился конкретный элемент, можно, обратившись к счётчику по ключу как к обычному словарю:

In [29]:
print(c['black'])
# 3

3


Если обратиться к счётчику по несуществующему ключу, то, в отличие от словаря, ошибка KeyError не возникнет:

In [30]:
print(c['purple'])
# 0

0


Узнать сумму всех значений в объекте Counter можно, воспользовавшись следующей конструкцией:

In [31]:
print(sum(c.values()))
# 9

9


В этой конструкции мы сначала получаем элементы (число раз, когда встретился ключ) с помощью функции values (такая же функция есть и у словаря):

In [32]:
print(c.values())
# dict_values([3, 2, 3, 1])

dict_values([3, 2, 3, 1])


## Операции с Counter

    → Возможности Counter не ограничиваются только подсчётом элементов. Этот объект обладает и дополнительным функционалом — например, счётчики можно складывать и вычитать.

1. Допустим, вы с другом из другого города решили посчитать количество цветов встреченных на дороге машин. У вас получились такие списки цветов:

In [33]:
cars_moscow = ['black', 'black', 'white', 'black', 'black', 'white', 'yellow', 'yellow', 'yellow']
cars_spb = ['red', 'black', 'black', 'white', 'white', 'yellow', 'yellow', 'red', 'white']

Получим для них счётчики:

In [34]:
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
 
print(counter_moscow)
print(counter_spb)
 
# Counter({'black': 4, 'yellow': 3, 'white': 2})
# Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})

Counter({'black': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})


2. Чтобы узнать, сколько машин разных цветов встретилось в двух городах, можно сложить два исходных счётчика и получить новый счётчик:

In [35]:
print(counter_moscow + counter_spb)
# Counter({'black': 6, 'white': 5, 'yellow': 5, 'red': 2})

Counter({'black': 6, 'white': 5, 'yellow': 5, 'red': 2})


3. Чтобы узнать разницу между объектами Counter, необходимо воспользоваться функцией subtract, которая меняет тот объект, к которому применяется. В примере выше из значений, посчитанных для Москвы, вычитаются значения, посчитанные для Санкт-Петербурга:

In [36]:
print(counter_moscow)
print(counter_spb)
# Counter({'black': 4, 'yellow': 3, 'white': 2})
# Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
 
counter_moscow.subtract(counter_spb)
print(counter_moscow)
# Counter({'black': 2, 'yellow': 1, 'white': -1, 'red': -2})

Counter({'black': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
Counter({'black': 2, 'yellow': 1, 'white': -1, 'red': -2})


    → Вычитание с учётом отрицательных чисел удобно использовать для сравнения значений в счётчиках: таким образом можно сразу узнать, каких элементов оказалось больше, а каких — меньше.

К сожалению, функцию subtract не всегда бывает удобно использовать для вычитания, так как модифицируется исходный счётчик. Однако аналога у этой функции нет, поскольку вычитание с помощью оператора "-" приводит к другому результату:

In [37]:
# Пересоздаём счётчики, потому что объект counter_moscow поменял свои значения
# после функции subtract.
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
 
print(counter_moscow - counter_spb)
# Counter({'black': 2, 'yellow': 1})

Counter({'black': 2, 'yellow': 1})


## Дополнительные функции

1. Чтобы получить список всех элементов, которые содержатся в Counter, используется функция elements(). Она возвращает итератор, поэтому, чтобы напечатать все элементы, распакуем их с помощью *:

In [38]:
print(*counter_moscow.elements())
# black black black black white white yellow yellow yellow

black black black black white white yellow yellow yellow


    Обратите внимание, что элементы возвращаются в алфавитном порядке, а не в том порядке, в котором их вносили в счётчик.

2. Чтобы получить список уникальных элементов, достаточно воспользоваться функцией list():

In [39]:
print(list(counter_moscow))
# ['black', 'white', 'yellow']

['black', 'white', 'yellow']


3. С помощью функции dict() можно превратить Counter в обычный словарь:

In [40]:
print(dict(counter_moscow))
# {'black': 4, 'white': 2, 'yellow': 3}

{'black': 4, 'white': 2, 'yellow': 3}


4. Функция most_common() позволяет получить список из кортежей элементов в порядке убывания их встречаемости:

In [41]:
print(counter_moscow.most_common())
# [('black', 4), ('yellow', 3), ('white', 2)]

[('black', 4), ('yellow', 3), ('white', 2)]


В неё также можно передать значение, которое задаёт желаемое число первых наиболее частых элементов, например, 2:

In [42]:
print(counter_moscow.most_common(2))
# [('black', 4), ('yellow', 3)]

[('black', 4), ('yellow', 3)]


5. Наконец, функция clear() позволяет полностью обнулить счётчик:

In [43]:
counter_moscow.clear()
print(counter_moscow)

# Counter()

Counter()


# Defaultdict

Возможно, вы уже сталкивались с задачей, когда необходимо было создать словарь, в котором по ключам расположены списки. Например, у нас есть список из кортежей с фамилиями студентов и их учебными группами:

In [44]:
students = [('Ivanov',1),('Smirnov',4),('Petrov',3),('Kuznetsova',1),
            ('Nikitina',2),('Markov',3),('Pavlov',2)]

Сохраним эти данные в словаре, в котором ключами будут номера групп, а элементами — списки студентов. Сделать это можно следующим образом:

In [45]:
groups = dict()
 
for student, group in students:
    # Проверяем, есть ли уже эта группа в словаре
    if group not in groups:
        # Если группы ещё нет в словаре, создаём для неё пустой список
        groups[group] = list()
    groups[group].append(student)
 
print(groups)
# {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']}

{1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']}


Обратите внимание, что для решения этой задачи нам потребовался шаг с проверкой наличия номера группы в словаре. Если номера группы не было, для этой группы мы создавали новый список в словаре. Без шага проверки мы бы натолкнулись на KeyError:

In [46]:
groups = dict()
 
for student, group in students:
    groups[group].append(student)
 
print(groups)
# KeyError: 1

KeyError: 1

Можно ли было сделать проще? Да!

    Для этого существует объект defaultdict из модуля collections. Он позволяет задавать тот тип данных, который хранится в словаре по умолчанию (в нашем случае это должен быть список). Это бывает удобно в том случае, если приходится заполнять одну и ту же структуру данных, экземпляр которой должен храниться по каждому ключу в словаре.

Создадим defaultdict, в котором при обращении по несуществующему ключу будет автоматически создаваться новый список. Для этого при создании объекта defaultdict в круглых скобках передадим параметр list:

In [47]:
from collections import defaultdict
groups = defaultdict(list)

    Обратите внимание, что в скобках мы передаём именно указатель на класс объекта (например list; также можно было бы применить set, dict) без круглых скобок, которые используются для создания нового экземпляра объекта.

Теперь тот же код, который вызывал ошибку при работе с обычным словарём, сработает так, как ожидается:

In [48]:
for student, group in students:
    groups[group].append(student)
 
print(groups)
# defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'],
# 2: ['Nikitina', 'Pavlov']})

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']})


Обратите внимание, что в скобках мы передаём именно указатель на класс объекта (например list; также можно было бы применить set, dict) без круглых скобок, которые используются для создания нового экземпляра объекта.

Теперь тот же код, который вызывал ошибку при работе с обычным словарём, сработает так, как ожидается:

In [49]:
groups = defaultdict(list)

for student, group in students:
    groups[group].append(student)
 
print(groups)
# defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'],
# 2: ['Nikitina', 'Pavlov']})

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']})


Получить элемент из defaultdict по ключу можно так же, как и из обычного словаря:

In [50]:
print(groups[3])
# ['Petrov', 'Markov']

['Petrov', 'Markov']


Если запрашиваемого ключа нет в словаре, KeyError не возникнет. Вместо этого будет напечатан пустой элемент, который создаётся в словаре по умолчанию:

In [51]:
print(groups[2021])
# []

[]


Теперь в словаре groups автоматически появился элемент 2021 с пустым списком внутри, несмотря на то что мы его не создавали:

In [52]:
print(groups)
# defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'],
# 2: ['Nikitina', 'Pavlov'], 2021: []})

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov'], 2021: []})


Итак, вы обратили внимание, что поведение defaultdict в коде отличается от обычного словаря dict. Узнать, с каким именно словарём мы имеем дело в коде, можно с помощью встроенной функции type:

In [53]:
dict_object = dict()
defaultdict_object = defaultdict()
 
print(type(dict_object))
# <class 'dict'>
print(type(defaultdict_object))
# <class 'collections.defaultdict'>

<class 'dict'>
<class 'collections.defaultdict'>


Видно, что типы переменных dict_object и defaultdict_object отличаются.

In [54]:
print(dict_object)
# {}
print(defaultdict_object)
# defaultdict(None, {})

{}
defaultdict(None, {})
