# Dicionários com *default*

Sabemos que nos dicionários Python normais (`dict`), o acesso a uma chave inexistente gera um erro:

In [None]:
d = {'a': 1, 'b': 2, 'c': 3}
print(d['a'])
print(d['e'])

Isso é bom para garantir que não estamos pegando informações sobre chaves inexistentes, no entanto é desconfortável em algumas situações.

Por exemplo, vamos supor que temos uma base de dados de vendas em uma loja com o nome do produto e o número de unidades em cada venda. Para nosso exemplo, vamos ter essa base de dados em uma lista com pares `(nome, quantidade)`.

In [None]:
sales = [('prod1', 1), ('prod5', 3), ('prod1', 2), ('prod2', 10), ('prod3', 4), ('prod1', 1), ('prod5', 4)]

Agora, queremos contar o total de produtos vendidos de cada tipo. Podemos criar um dicionário com a chave sendo o nome do produto e o valor sendo o total vendido, e atualizamos esse dicionário para cada elementos da lista de vendas:

In [None]:
def count_sales_v0(sales_list):
    total_sales = dict()
    for prod, count in sales_list:
        total_sales[prod] += count
    return total_sales

Infelizmente, esse código não funciona, pois está tentando (ao fazer `total_sales[prod] += count`) ler o valor da chave `prod` nesse dicionário, que vai falhar na primeira vez que um produto for encontrado na lista:

In [None]:
count_sales_v0(sales)

Podemos resolver esse problema usando dicionários normais, tomando cuidado de verificar que a chave existe antes de usá-la:

In [None]:
def count_sales_v1(sales_list):
    total_sales = dict()
    for prod, count in sales_list:
        if prod not in total_sales.keys():
            total_sales[prod] = 0
        total_sales[prod] += count
    return total_sales

In [None]:
count_sales_v1(sales)

No entanto, para essas situações é mais conveniente usar o `defaultdict`, do módulo `collections`, que é uma classe derivada de `dict` que altera o método de acesso ao dicionário de forma que, se uma chave inexistente for acessada, ela será inicializada com um valor *default*.

In [None]:
from collections import defaultdict
def count_sales(sales_list):
    total_sales = defaultdict(int)
    for prod, count in sales_list:
        total_sales[prod] += count
    return total_sales

In [None]:
count_sales(sales)

Veja que nesse código, o `total_sales` é um `defaultdict`, ao invés de um `dict`.

O primeiro parâmetro passado para o construtor de um `defauldict` é denominado uma **função de fábrica** (_factory function_). Quer dizer, esse parâmetro deve ser uma função, que quando chamada sem passagem de parâmetro, retorna o valor a ser usado como *default* para chaves inexistentes.

No nosso código, usamos o fato de que o `int`, quando chamado como uma função sem parâmetros, retorna o valor inteiro 0:

In [None]:
int()

Isso funciona de forma similar para outros tipos:

In [None]:
float(), complex(), str()

Como outro exemplo, vamos fazer um código para contar o número de vezes que cada "palavra" aparece em um arquivo texto, aqui definindo como "palavra", para simplificar, qualquer sequência de caracteres separados por espaços em braco, tabulações ou mudanças de linha (isto é, os separadores *default* do método `split`).

In [None]:
def count_words(text):
    words = text.split()
    word_count = defaultdict(int)
    for word in words:
        word_count[word] += 1
    return word_count

In [None]:
with open('teste.txt', encoding='utf8') as f:
    text = f.read()
counts = count_words(text)
sorted_words = sorted(counts.items(), 
                      key=lambda pair: (-pair[1], pair[0].lower())) 
for word, count in sorted_words:
    print(f'"{word}" appeared ' + 
          ('once' if count == 1 else f'{count} times'))

# Exercício

Altere o código acima considerando os dois pontos abaixo:
- Os sinais de pontuação `.`, `,`, `;`, `:`, `!` e `?` no final das palavras (como aparece por exemplo em `branco.` devem ser eliminados.
- Não deve haver diferenciação entre minúsculas e maiúsculas na contagem das palavras. Por exemplo, `em` e `Em` devem ser a mesma palavra, contada como aparecendo duas vezes.
- Ao mostrar os resultados, inclua também o caso especial **twice** ao invés de **2 times**.