                                  COUNTER

Как уже было сказано ранее, объект Counter (от англ. «счётчик») предназначен для решения часто возникающей задачи по подсчёту различных элементов.

In [1]:
# Импортируем объект Counter из модуля collections
from collections import Counter
#создаем пустой объект Counter
c = Counter()

Теперь в переменной c хранится объект с возможностями Counter.

Рассмотрим базовый синтаксис этого инструмента. Например, будем считать цвета проезжающих машин: если встретили красную машину, посчитаем её. Для этого прибавим к ключу 'red' единицу. Синтаксис очень похож на работу со словарём:

In [2]:
c['red'] += 1
print(c)
# Будет напечатано:
# Counter({'red':})

Counter({'red': 1})


Мы посчитали слово 'red' один раз.

Допустим, у нас есть список цветов проехавших машин:

In [3]:
cars = ['red', 'blue', 'black', 'black', 'black', 'red', 'blue', 'red', 'white']

Посчитать значения, конечно, можно и в цикле, используя синтаксис из предыдущего примера:

In [4]:
c = Counter()

for car in cars:
    c[car] +=1
    
print(c)
#Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Однако гораздо проще при создании Counter сразу передать в круглых скобках итерируемый объект, в котором необходимо посчитать значения:

In [5]:
c = Counter(cars)
print(c)
#Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})

Counter({'red': 3, 'black': 3, 'blue': 2, 'white': 1})


Результат получился точно такой же. Обратите внимание, насколько простым был подсчёт элементов на этот раз!

Узнать, сколько раз встретился конкретный элемент, можно, обратившись к счётчику по ключу как к обычному словарю:

In [6]:
print(c['black'])
#3

3


Если обратиться к счётчику по несуществующему ключу, то, в отличие от словаря, ошибка KeyError не возникнет:

In [7]:
print(c['purple'])

0


Мы просто узнали, что такой элемент ни разу не встретился.

Узнать сумму всех значений в объекте Counter можно, воспользовавшись следующей конструкцией:

In [8]:
print(sum(c.values()))
#9

9


В этой конструкции мы сначала получаем элементы (число раз, когда встретился ключ) с помощью функции values (такая же функция есть и у словаря):

In [9]:
print(c.values())
#dict_values([3, 2, 3, 1])

dict_values([3, 2, 3, 1])


Затем суммируем полученные значения итерируемого объекта dict_values, который выглядит почти как список, с помощью встроенной функции sum.

                               ОПЕРАЦИИ С COUNTER

Возможности Counter не ограничиваются только подсчётом элементов. Этот объект обладает и дополнительным функционалом — например, счётчики можно складывать и вычитать.

1. Допустим, вы с другом из другого города решили посчитать количество цветов встреченных на дороге машин. У вас получились такие списки цветов:

In [10]:
cars_moscow = ['black', 'black', 'white', 'black', 'black', 'white', 'yellow', 'yellow', 'yellow']
cars_spb = ['red', 'black', 'black', 'white', 'white', 'yellow', 'yellow', 'red', 'white']

Получим для них счётчики:

In [11]:
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)

print(counter_moscow)
print(counter_spb)

#Counter({'black': 4, 'yellow': 3, 'white': 2})
#Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})

Counter({'black': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})


2. Чтобы узнать, сколько машин разных цветов встретилось в двух городах, можно сложить два исходных счётчика и получить новый счётчик:

In [12]:
print(counter_moscow + counter_spb)
#Counter({'black': 6, 'white': 5, 'yellow': 5, 'red': 2})

Counter({'black': 6, 'white': 5, 'yellow': 5, 'red': 2})


3. Чтобы узнать разницу между объектами Counter, необходимо воспользоваться функцией subtract, которая меняет тот объект, к которому применяется. В примере выше из значений, посчитанных для Москвы, вычитаются значения, посчитанные для Санкт-Петербурга:

In [13]:
print(counter_moscow)
print(counter_spb)
# Counter({'black': 4, 'yellow': 3, 'white': 2})
# Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
 
counter_moscow.subtract(counter_spb)
print(counter_moscow)
# Counter({'black': 2, 'yellow': 1, 'white': -1, 'red': -2})

Counter({'black': 4, 'yellow': 3, 'white': 2})
Counter({'white': 3, 'red': 2, 'black': 2, 'yellow': 2})
Counter({'black': 2, 'yellow': 1, 'white': -1, 'red': -2})


→ Вычитание с учётом отрицательных чисел удобно использовать для сравнения значений в счётчиках: таким образом можно сразу узнать, каких элементов оказалось больше, а каких — меньше.

In [14]:
# Пересоздаём счётчики, потому что объект counter_moscow поменял свои значения
# после функции subtract.
counter_moscow = Counter(cars_moscow)
counter_spb = Counter(cars_spb)
 
print(counter_moscow - counter_spb)
# Counter({'black': 2, 'yellow': 1})

Counter({'black': 2, 'yellow': 1})


      ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ

1. Функция most_common() позволяет получить список из кортежей элементов в порядке убывания их встречаемости:

In [15]:
print(*counter_moscow.elements())
# black black black black white white yellow yellow yellow


black black black black white white yellow yellow yellow


2. Чтобы получить список уникальных элементов, достаточно воспользоваться функцией list():

In [16]:
print(list(counter_moscow))
#['black', 'white', 'yellow']

['black', 'white', 'yellow']


3. С помощью функции dict() можно превратить Counter в обычный словарь:

In [17]:
print(dict(counter_moscow))
#{'black': 4, 'white': 2, 'yellow': 3}

{'black': 4, 'white': 2, 'yellow': 3}


4. Функция most_common() позволяет получить список из кортежей элементов в порядке убывания их встречаемости:

In [18]:
print(counter_moscow.most_common())
#[('black', 4), ('yellow', 3), ('white', 2)]

[('black', 4), ('yellow', 3), ('white', 2)]


В неё также можно передать значение, которое задаёт желаемое число первых наиболее частых элементов, например, 2:

In [19]:
print(counter_moscow.most_common(2))
# [('black', 4), ('yellow', 3)]

[('black', 4), ('yellow', 3)]


5. Наконец, функция clear() позволяет полностью обнулить счётчик:

In [20]:
counter_moscow.clear()
print(counter_moscow)
# Counter()

Counter()


                        DEFAULTDICT

Возможно, вы уже сталкивались с задачей, когда необходимо было создать словарь, в котором по ключам расположены списки. Например, у нас есть список из кортежей с фамилиями студентов и их учебными группами:

In [21]:
students = [('Ivanov',1),('Smirnov',4),('Petrov',3),('Kuznetsova',1),
            ('Nikitina',2),('Markov',3),('Pavlov',2)]

In [22]:
groups = dict()

for student, group in students:
    #Проверяем, есть ли уже эта группа в словаре
    if group not in groups:
        #Если группы еще нет в словаре, создаем для нее пустой список
        groups[group] = list()
    groups[group].append(student)
    
print(groups)
#{1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']}

{1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']}


Обратите внимание, что для решения этой задачи нам потребовался шаг с проверкой наличия номера группы в словаре. Если номера группы не было, для этой группы мы создавали новый список в словаре. Без шага проверки мы бы натолкнулись на KeyError:

In [23]:
#groups = dict()
 
#for student, group in students:
#    groups[group].append(student)
 
#print(groups)
# KeyError: 1

Данная ошибка означает, что ключа 1 нет в словаре.

* Можно ли было сделать проще? Да!

Для этого существует объект defaultdict из модуля collections. Он позволяет задавать тот тип данных, который хранится в словаре по умолчанию (в нашем случае это должен быть список). Это бывает удобно в том случае, если приходится заполнять одну и ту же структуру данных, экземпляр которой должен храниться по каждому ключу в словаре.

Например, чтобы сохранить информацию о колебании курсов валют за последний месяц, можно создать словарь из валютных пар (USD/RUB, EUR/RUB и т. д.), а по ключам разместить списки из стоимости валюты по курсу ЦБ за последние 30 дней. В таком словаре по каждому ключу должен быть доступен список.

Создадим defaultdict, в котором при обращении по несуществующему ключу будет автоматически создаваться новый список. Для этого при создании объекта defaultdict в круглых скобках передадим параметр list:

In [24]:
from collections import defaultdict
groups = defaultdict(list)

Теперь тот же код, который вызывал ошибку при работе с обычным словарём, сработает так, как ожидается:

In [25]:
for student, group in students:
    groups[group].append(student)
    
print(groups)


defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov']})


Получить элемент из defaultdict по ключу можно так же, как и из обычного словаря:

In [26]:
print(groups[3])
# ['Petrov', 'Markov']

['Petrov', 'Markov']


Если запрашиваемого ключа нет в словаре, KeyError не возникнет. Вместо этого будет напечатан пустой элемент, который создаётся в словаре по умолчанию:

In [27]:
print(groups[2021])
#[]

[]


Теперь в словаре groups автоматически появился элемент 2021 с пустым списком внутри, несмотря на то что мы его не создавали:

In [28]:
print(groups)

defaultdict(<class 'list'>, {1: ['Ivanov', 'Kuznetsova'], 4: ['Smirnov'], 3: ['Petrov', 'Markov'], 2: ['Nikitina', 'Pavlov'], 2021: []})


Итак, вы обратили внимание, что поведение defaultdict в коде отличается от обычного словаря dict. Узнать, с каким именно словарём мы имеем дело в коде, можно с помощью встроенной функции type:

In [29]:
dict_object = dict()
defaultdict_object = defaultdict()
 
print(type(dict_object))
# <class 'dict'>
print(type(defaultdict_object))
# <class 'collections.defaultdict'>

<class 'dict'>
<class 'collections.defaultdict'>


Видно, что типы переменных dict_object и defaultdict_object отличаются.

In [30]:
print(dict_object)
# {}
print(defaultdict_object)
# defaultdict(None, {})

{}
defaultdict(None, {})
