Тема урока: тип данных Counter
Модуль collections
Подсчет объектов
Тип данных Counter
Аннотация. Урок посвящен типу данных Counter.

Подсчет объектов

Иногда нам нужно узнать, как часто некоторый объект встречается в каком-либо источнике данных (список, кортеж, строка и т.д). Другими словами, нам нужно посчитать количество вхождений объекта. Обычно для таких целей используется переменная-счетчик, значение которой увеличивается на единицу при каждом обнаружении нужного объекта.

In [1]:
data = 'mississippi'
counter = 0

for letter in data:
    if letter == 's':
        counter += 1

print(counter)

4


Если нам нужно посчитать количество нескольких объектов, то нам нужно создать большое количество счетчиков. Однако вместо этого куда удобнее воспользоваться одним словарем. В ключах такого словаря будут храниться объекты, которые мы считаем, а значения по этим ключам будут содержать количество повторений данного объекта.

In [1]:
data = 'mississippi'
counter = {}

for letter in data:
     if letter not in counter:
         counter[letter] = 0
     counter[letter] += 1

print(counter)

{'m': 1, 'i': 4, 's': 4, 'p': 2}


Использования словаря для решения задачи подсчета накладывает некоторые ограничения на ключи. Ключами словаря должны быть хешируемые значения. В Python неизменяемые объекты являются хешируемыми.

Для упрощения предыдущего кода мы можем использовать словарный метод get().

In [2]:
data = 'mississippi'
counter = {}

for letter in data:
     counter[letter] = counter.get(letter, 0) + 1

print(counter)

{'m': 1, 'i': 4, 's': 4, 'p': 2}


In [6]:
data = 'mississippi'
counter = {}

for letter in data:
     counter[letter] = counter.setdefault(letter, 0) + 1

print(counter)

{'m': 1, 'i': 4, 's': 4, 'p': 2}


Мы также можем использовать уже изученный ранее тип словаря defaultdict.

In [4]:
from collections import defaultdict

data = 'mississippi'
counter = defaultdict(int)

for letter in data:
     counter[letter] += 1

print(dict(counter))

{'m': 1, 'i': 4, 's': 4, 'p': 2}


Из приведенных трех решений последнее, пожалуй, является наиболее читабельным, коротким и лаконичным. Тем не менее, учитывая, что задача подсчета объектов является достаточно распространенной в программировании, язык Python предлагает лучший способ ее решения. Для подсчета объектов в модуле collections есть специальный тип данных под названием Counter, о котором пойдет речь далее.

Тип данных Counter

Тип Counter является подтипом типа dict, специально разработанный для подсчета хешируемых объектов в Python. Counter хранит объекты в качестве ключей, а их количество — в качестве значений.

Создание Counter

Существует несколько способов создания объектов типа Counter. Самый простой и распространенный способ основан на передаче коллекции с данными (список, строка, кортеж и т.д.) в конструктор типа.

In [11]:
from collections import Counter

counter = Counter('mississippi')     # создаем счетчик на основе строки
print(counter)
print(counter['i'])
print(counter.keys())
print(len(counter.keys()))

Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
4
dict_keys(['m', 'i', 's', 'p'])
4


Мы можем преобразовать объект типа Counter в обычный словарь с помощью функции dict()

Мы можем создавать объекты типа Counter, явно указывая начальные значения количества объектов.

In [8]:
from collections import Counter

counter1 = Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
counter2 = Counter(i=4, s=4, p=2, m=1)

print(counter1)
print(counter2)

Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})


Тип Counter, будучи подтипом типа dict, наследует все методы, предоставляемые обычным словарем. При этом вызов метода fromkeys() всегда будет приводить к возникновению ошибки:
NotImplementedError: Counter.fromkeys() is undefined.  Use Counter(iterable) instead.

Такое поведение не случайно, оно позволяет избежать ошибок неоднозначности при создании объектов типа Counter.

Например, код:

In [12]:
from collections import Counter

counter = Counter.fromkeys('mississippi', 2)

NotImplementedError: Counter.fromkeys() is undefined.  Use Counter(iterable) instead.

мог бы создать объект типа Counter на основе строки mississippi со значением по умолчанию равным 2 для всех символов строки, несмотря на реальное количество вхождений символов в строке mississippi.

Тип данных Counter накладывает такие же ограничения на ключи, как и обычные словари (тип dict): ключи должны быть хешируемыми. При этом нет никаких ограничений на объекты, которые мы будем хранить в качестве значений.

In [13]:
from collections import Counter

inventory = Counter(apple=5, orange=7, banana=0, tomato=-2, watermelon='N/A')

print(inventory)

Counter({'apple': 5, 'orange': 7, 'banana': 0, 'tomato': -2, 'watermelon': 'N/A'})


Тип Counter позволяет нам писать такой код, однако нужно понимать, что для правильной работы в качестве подсчета объектов значения должны быть целыми неотрицательными числами, представляющими количество.

Обновление данных

Для изменения объектов типа Counter мы можем использовать метод update(). Реализация данного метода не заменяет значения как у обычных словарей (тип dict), а суммирует существующие значения. При этом для новых объектов метод update() создает новые пары ключ: количество.

In [14]:
from collections import Counter

letters = Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
print(letters)

letters.update('missouri')
print(letters)

Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
Counter({'i': 6, 's': 6, 'p': 2, 'm': 2, 'o': 1, 'u': 1, 'r': 1})


Метод update() принимает любой итерируемый объект: список, строку, кортеж и т.д.

Мы также можем передавать методу update() другой объект типа Counter, либо обычный словарь (тип dict).

In [15]:
from collections import Counter

sales = Counter(apple=20, orange=5, banana=10)
monday_sales = Counter(apple=3, orange=12, banana=7)
tuesday_sales = {'apple': 4, 'orange': 5, 'tomato': 6}

print(sales)

sales.update(monday_sales)
print(sales)

sales.update(tuesday_sales)
print(sales)

Counter({'apple': 20, 'banana': 10, 'orange': 5})
Counter({'apple': 23, 'orange': 17, 'banana': 17})
Counter({'apple': 27, 'orange': 22, 'banana': 17, 'tomato': 6})


Мы также можем использовать метод update() с именованными аргументами. К примеру, вызов метода sales.update(apple=3, orange=12, banana=7) равнозначен вызову метода sales.update(monday_sales).

Доступ к элементам и итерирование

Доступ к элементам и итерирование по Counter словарям работает так же, как и у обычных словарей. Мы можем перебирать ключи напрямую или можем использовать словарные методы items(), keys() и values()

In [16]:
from collections import Counter

letters = Counter('mississippi')

# обращение по ключу
print(letters['p'])
print(letters['i'])

print()

# перебор ключей напрямую
for letter in letters:
    print(letter, '->', letters[letter])

print()

# перебор ключей через метод
for letter in letters.keys():
    print(letter, '->', letters[letter])

print()

# перебор значений через метод
for count in letters.values():
    print(count)

print()

# перебор пар (ключ, значение) через метод
for letter, count in letters.items():
    print(letter, '->', count)

2
4

m -> 1
i -> 4
s -> 4
p -> 2

m -> 1
i -> 4
s -> 4
p -> 2

1
4
4
2

m -> 1
i -> 4
s -> 4
p -> 2


Если обратиться по ключу, которого нет в Counter словаре, то ошибка KeyError возникать не будет. Будет возвращено нулевое значение. При этом ключ создан не будет.

Примечания

Примечание 1. Для подсчета объектов тип Counter использует высокооптимизированную функцию, написанную на языке C. Поэтому беспокоиться об эффективности использования данного типа не стоит.

Примечание 2. Для удаления всех элементов из Counter словаря используется уже знакомый нам метод clear().

In [17]:
from collections import Counter

counter = Counter(i=4, s=40, a=1, p=20, b=98, z=69)

counter.clear()

print(counter)

Counter()


Примечание 3. Объекты типа Counter можно сравнивать между собой. Равные объекты имеют одинаковое количество элементов и содержат равные элементы (ключ: количество). Для сравнения используются операторы == и !=.

In [18]:
from collections import Counter

counter1 = Counter({'i': 4, 's': 4, 'p': 2, 'm': 1})
counter2 = Counter(m=1, s=4, i=4, p=2)
counter3 = Counter('iiiisspm')

print(counter1 == counter2)
print(counter1 == counter3)

True
False


До версии Python 3.10 словари Counter(i=4) и Counter(i=4, s=0) считались разными. Начиная с Python 3.10 сравнение рассматривает отсутствующие элементы как имеющие нулевое значение

In [19]:
from collections import Counter

counter1 = Counter(i=4)
counter2 = Counter(i=4, s=0)

print(counter1 == counter2)

True


Примечание 4. Обратите внимание на то, что если значения по ключам будут иметь тип, отличный от числового, но при этом допускающий сложение (например, строки), то ошибок при вызове метода update() возникать не будет.

In [33]:
from collections import Counter

browsers = Counter(['Firefox', 'Chrome', 'Edge', 'Edge' 'Chrome', 'Firefox', 'Opera', 'Yandex', 'Chrome'])

print(browsers['Firefox'])

2


In [36]:
from collections import Counter

counter = Counter({1: 11, 2: 22, 3: 33})

print(max(counter.keys()))
print(min(counter.values()))
print(max(counter.keys()) + min(counter.values()))

3
11
14


In [37]:
from collections import Counter

letters1 = Counter('earth')
letters2 = Counter('heart')

print(letters1 == letters2)

True


In [38]:
from collections import Counter

vegetables1 = Counter({'cabbage': 'ten', 'pepper': 'seven', 'pumpkin': 'four'})
vegetables2 = Counter({'cabbage': 3, 'pepper': 2})

vegetables1.update(vegetables2)

print(vegetables1['pepper'])

TypeError: unsupported operand type(s) for +: 'int' and 'str'

Вам доступен список files, содержащий названия различных файлов. Дополните приведенный ниже код, чтобы он вывел все расширения файлов, присутствующие в списке files, указав для каждого количество файлов с данным расширением. Расширения должны быть расположены в лексикографическом порядке, каждый на отдельной строке, в следующем формате:

<расширение>: <количество файлов>

In [56]:
from collections import Counter

files = ['emoji_smile.jpeg', 'city-of-the-sun.mp3', 'dhook_hw.json', 'sample.xml',
         'teamspeak3.exe', 'project_module3.py', 'math_lesson3.mp4', 'old_memories.mp4',
         'spiritfarer.exe', 'backups.json', 'python_for_beg1.mp4', 'emoji_angry.jpeg',
         'exam_results.csv', 'project_main.py', 'classes.csv', 'plants.xml',
         'cant-help-myself.mp3', 'microsoft_edge.exe', 'steam.exe', 'math_lesson4.mp4',
         'city.jpeg', 'bad-disease.mp3', 'beauty.jpeg', 'hollow_knight_silksong.exe',
         'whatsapp.exe', 'photoshop.exe', 'telegram.exe', 'yandex_browser.exe',
         'math_lesson7.mp4', 'students.csv', 'emojis.zip', '7z.zip',
         'bones.mp3', 'python3.zip', 'dhook_lsns.json', 'carl_backups.json',
         'forest.jpeg', 'python_for_pro8.mp4', 'yandexdisc.exe', 'but-you.mp3',
         'project_module1.py', 'nothing.xml', 'flowers.jpeg', 'grades.csv',
         'nvidia_gf.exe', 'small_txt.zip', 'project_module2.py', 'tab.csv',
         'note.xml', 'sony_vegas11.exe', 'friends.jpeg', 'data.pkl']
files = [i.split('.')[1] for i in files]
# print(files)
counter = Counter(files)
# print(counter)
for k, v in sorted(counter.items()):
    print(f'{k}: {v}')

csv: 5
exe: 12
jpeg: 7
json: 4
mp3: 5
mp4: 6
pkl: 1
py: 4
xml: 4
zip: 4


Функция count_occurences()
Реализуйте функцию count_occurences(), которая принимает два аргумента в следующем порядке:

word — слово
words — последовательность слов, разделенных пробелом
Функция должна определять, сколько раз слово word встречается в последовательности words, и возвращать полученный результат.

Примечание 1. Функция должна игнорировать регистр. То есть, например, слова Python и python считаются одинаковыми.

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию count_occurences(), но не код, вызывающий ее.

In [73]:
from collections import Counter

def count_occurences(word: str, words: str) -> int:
    word_list = words.lower().split()
    # print(word_list)
    # print(word.lower())
    result = Counter([i for i in word_list if i == word.lower()])
    # print(result)
    return result[word.lower()]

word = 'python'
words = 'Python Conferences python training python events'

print(count_occurences(word, words))

word = 'Se'
words = 'se sdsf sds SE sdfsdg Se dhgf gfd asd se'

print(count_occurences(word, words))

3
4


Не поленимся и запишем
Тимур составляет список покупок, но так как на его клавиатуре перестал работать блок с цифрами, то вместо указания количества товара числом, он добавляет его в список столько раз, сколько планирует купить. Все товары Тимур записывает в нижнем регистре через запятую.

Напишите программу, которая выводит все товары из данного списка покупок, указывая для каждого его количество.

Формат входных данных
На вход программе подается последовательность товаров, разделенных запятой без пробелов.

Формат выходных данных
Программа должны вывести все введенные товары, указывая для каждого, сколько раз он встречается в данной последовательности. Товары должны быть расположены в лексикографическом порядке, каждый на отдельной строке, в следующем формате:

<товар>: <количество>

In [None]:
from collections import Counter

result = Counter(input().split(','))
print(result)
for i, j in sorted(result.items()):
    print(f'{i}: {j}', end='\n')

А сколько стоит курс?
Тимур живет в мире, в котором цена товара определяется как сумма Unicode кодов букв его названия. Буквенным обозначением данной валюты являются две заглавные латинские буквы UC. Например, ручка в его мире стоит:
1088+1091+1095+1082+1072=5428UC
Тимур составляет список покупок, но так как на его клавиатуре перестал работать блок с цифрами, то вместо указания количества товара числом, он добавляет его в список столько раз, сколько планирует купить. Все товары Тимур записывает в нижнем регистре через запятую.

Напишите программу, которая группирует одинаковые товары из данного списка покупок и определяет стоимость каждой группы.

Формат входных данных
На вход программе подается последовательность товаров, разделенных запятой без пробелов.

Формат выходных данных
Программа должна сгруппировать одинаковые товары, определить общую стоимость каждой группы и вывести полученный результат. Товары должны быть расположены в лексикографическом порядке, каждый на отдельной строке, в следующем формате:

<товар>: <цена за единицу товара> UC x <количество товаров в группе> = <общая стоимость группы> UC
Примечание 1. Программа должна добавлять нужное количество пробелов, если название товара имеет меньшую длину, чем другие.

Примечание 2. Получить Unicode код символа можно с помощью функции ord().

In [None]:
from collections import Counter

def count_words(inp: str) -> dict:
    return dict(Counter(map(str.strip, inp.split(','))))

def count_unicode(word:str) -> int:
    return sum([ord(i) for i in word.replace(' ', '')])

def count_addition(word: str, inp:str) -> int:
    mx = max([len(word) for word in inp.split(',')])        
    return mx-len(word)

inp = input()

print(*[f'{key}{' '*count_addition(key, inp)}: {count_unicode(key)} UC x {value} = {count_unicode(key)*value} UC' for key, value in sorted(count_words(inp).items())], sep='\n')

The Zen of Python
Вам доступен текстовый файл pythonzen.txt, содержащий текст на английском языке:

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
...
Напишите программу, которая определяет, сколько раз встречается каждая буква в этом тексте. Буквы и их количество должны выводиться в лексикографическом порядке, каждая на отдельной строке, в следующем формате:

<буква>: <количество>
Примечание 1. Начальная часть ответа выглядит так:

a: 53
b: 21
...
Примечание 2. Программа не должна учитывать регистр, то есть, например, буквы a и A считаются одинаковыми.

Примечание 3. Программа должна игнорировать все небуквенные символы.

In [109]:
from collections import Counter

with open('pythonzen.txt') as file:
    data = file.read()
    count = Counter(data.lower())
    
# print(count)

for key, value in sorted(count.items()):
    if key.isalpha():
        print(f'{key}: {value}')

a: 53
b: 21
c: 17
d: 17
e: 92
f: 12
g: 11
h: 31
i: 53
k: 2
l: 33
m: 16
n: 42
o: 43
p: 22
r: 33
s: 46
t: 79
u: 21
v: 5
w: 4
x: 6
y: 17
z: 1
