# Лайфхак
Чтобы узнать, является ли объект изменяемым, попробуйте взять у него хэш

Если у объекта можно взять хэш, значит, он неизменяемый.

Мы пишем сервис для обработки большого количества статей, публикуемых на нашей платформе. 

Для того, чтобы заниматься тематическим моделированием, нужно посчитать встречаемость слов.

In [1]:
def word_count(texts):
    count = {}
    for text in texts:
        for word in text.split():
            count[word] = count.get(word, 0) + 1
    return count

Спустя какое-то время количество текстов на нашем сайте стало настолько большим, что поместить в память всё разом уже не получится. Однако закупать новое железо мы тоже не торопимся. Поэтому решили слегка модифицировать функцию — так, чтобы она могла читать с диска тексты по батчам (например, по 10,000 за раз) и накапливать статистику по ним.

In [2]:
def word_count(batch, count={}):
    for text in batch:
        for word in text.split():
            count[word] = count.get(word, 0) + 1
    return count

In [None]:
import utils


def test_word_count():
    """Test word count"""
    count = utils.word_count(["this is a test", "this is another test"])
    assert count == {"this": 2, "is": 2, "a": 1, "test": 2, "another": 1}


def test_word_count_tricky():
    """Test tricky word count"""
    count1 = utils.word_count(["first test"])
    count2 = utils.word_count(["second test"])

    # Ожидаем, что словари независимы.
    assert count1 == {"first": 1, "test": 1}
    assert count2 == {"second": 1, "test": 1}


Отлично! Вы верно написали тест с контрпримером для функции коллеги.

Действительно, наличие изменяемых дефолтных значений в аргументах ведёт к багам.

In [17]:
def word_count(batch, count=None):
    if count is None:
        count = {}
    for text_group in batch:
        for text in text_group:
            for word in text.split():
                count[word] = count.get(word, 0) + 1
    return count


In [18]:
word_count([['a b c', 'a b', 'a'], ['a b c', 'a b c', 'a b', 'a']])

{'a': 7, 'b': 5, 'c': 3}