# Introdução à dicionários

Dicionários são estruturas formadas por pares chave–valor, implementadas com tabelas de dispersão. Cada chave é transformada por uma função de hashing e usada para localizar o valor associado. O acesso por chave, a inserção e a atualização apresentam custo médio O(1). Em Python, chaves devem ser imutáveis e hasháveis. A estrutura é adequada para representar registros, construir índices, mapear identificadores e organizar dados que não dependem de ordem posicional. O funcionamento baseia-se nos princípios gerais de tabelas hash descritos em algoritmos clássicos de estruturas de dados. O design adotado por Python é uma variação otimizada da open addressing hash table com sondagem e compactação interna do array de armazenamento. A especificação completa encontra-se na documentação oficial da linguagem.

# Exemplos

## Lidando com bancos de dados

Deseja-se construir um dicionário no qual cada chave seja um identificador único e cada valor seja o registro de maior timestamp associado a esse identificador. O resultado esperado é:

In [48]:
# Dados do exemplo
data = [
 {"id": 1234, "timestamp": 1, "metadata": "a"},
 {"id": 1234, "timestamp": 2, "metadata": "b"},
 {"id": 2345, "timestamp": 4, "metadata": "c"},
 {"id": 2345, "timestamp": 2, "metadata": "d"},
 {"id": 5678, "timestamp": 1, "metadata": "e"}
]

# Resposta
expected_output = {
1234: {"id": 1234, "timestamp": 2, "metadata": "b"}, 2345: {"id": 2345, "timestamp": 4, "metadata": "c"},
 5678: {"id": 5678, "timestamp": 1, "metadata": "e"}
}

expected_output

{1234: {'id': 1234, 'timestamp': 2, 'metadata': 'b'},
 2345: {'id': 2345, 'timestamp': 4, 'metadata': 'c'},
 5678: {'id': 5678, 'timestamp': 1, 'metadata': 'e'}}

In [49]:
# inicializa o dicionário final vazio
expected_output_answer = {}
# dicionário auxiliar que armazenará, para cada id, o registro com o maior timestamp encontrado
auxiliary_dict = {}
# percorre cada registro da lista
for row in data:
    # extrai o id do registro atual
    i = row['id']
    # verifica se o id ainda não foi visto ou se o timestamp atual é maior que o já armazenado
    if i not in auxiliary_dict or row['timestamp'] > auxiliary_dict[i]['timestamp']:
        # atualiza o registro associado ao id
        auxiliary_dict[i] = row
# move o resultado final para a variável solicitada
expected_output_answer = auxiliary_dict
# exibe o resultado
expected_output_answer

{1234: {'id': 1234, 'timestamp': 2, 'metadata': 'b'},
 2345: {'id': 2345, 'timestamp': 4, 'metadata': 'c'},
 5678: {'id': 5678, 'timestamp': 1, 'metadata': 'e'}}

In [50]:
expected_output_answer == expected_output

True

## Lidando com dados missing

Considere uma lista de registros contendo id, timestamp e metadata. Alguns registros apresentam timestamp = None, mas sabe-se que todo timestamp válido é estritamente positivo. Deseja-se construir um dicionário cuja chave seja o id e cujo valor seja o registro com maior timestamp, tratando None como valor inferior a qualquer timestamp positivo (neste caso, substituindo-o por 1 para efeito de comparação).

In [59]:
# lista de registros
data = [
 {"id": 1234, "timestamp": None, "metadata": "b"},
 {"id": 2345, "timestamp": 4,   "metadata": "c"},
 {"id": 2345, "timestamp": 2,   "metadata": "d"},
 {"id": 5678, "timestamp": 1,   "metadata": "e"}
]
#
data

[{'id': 1234, 'timestamp': None, 'metadata': 'b'},
 {'id': 2345, 'timestamp': 4, 'metadata': 'c'},
 {'id': 2345, 'timestamp': 2, 'metadata': 'd'},
 {'id': 5678, 'timestamp': 1, 'metadata': 'e'}]

In [54]:
# dicionário auxiliar que armazenará o melhor registro para cada id
auxiliary_dict = {}

# função que normaliza valores None, atribuindo-lhes valor mínimo
def correct_none(t):
    return float(1) if t is None else t

# percorre cada registro da lista
for row in data:

    # extrai id e timestamp
    t = row['timestamp']
    i = row['id']

    # compara timestamps normalizados e mantém o maior
    if i not in auxiliary_dict or correct_none(t) > correct_none(auxiliary_dict[i]['timestamp']):
        auxiliary_dict[i] = row
        
# resultado final
expected_output_answer = auxiliary_dict
expected_output_answer

{1234: {'id': 1234, 'timestamp': None, 'metadata': 'b'},
 2345: {'id': 2345, 'timestamp': 4, 'metadata': 'c'},
 5678: {'id': 5678, 'timestamp': 1, 'metadata': 'e'}}

## Aplicando regra de negócio em metadata

Considere uma lista de registros, cada um contendo id, timestamp e metadata. Para cada id, deseja-se selecionar o registro “máximo”, obedecendo à seguinte regra de comparação. Primeiro critério: maior timestamp. Critério de desempate: maior metadata em ordem lexicográfica quando os timestamps forem iguais. O objetivo é construir um dicionário em que cada chave seja um id e cada valor seja o registro selecionado segundo as regras acima.

In [57]:
# lista de registros a serem processados
data = [
 {"id": 1234, "timestamp": 1, "metadata": "a"},
 {"id": 1234, "timestamp": 1, "metadata": "c"},
 {"id": 2345, "timestamp": 4, "metadata": "c"},
 {"id": 2345, "timestamp": 2, "metadata": "d"},
 {"id": 5678, "timestamp": 1, "metadata": "e"}
]
# output data
data

[{'id': 1234, 'timestamp': 1, 'metadata': 'a'},
 {'id': 1234, 'timestamp': 1, 'metadata': 'c'},
 {'id': 2345, 'timestamp': 4, 'metadata': 'c'},
 {'id': 2345, 'timestamp': 2, 'metadata': 'd'},
 {'id': 5678, 'timestamp': 1, 'metadata': 'e'}]

In [56]:
# dicionário final
expected_output_answer = {}

# dicionário auxiliar que manterá o melhor registro para cada id
auxiliary_dict = {}

# percorre cada registro
for row in data:

    # extrai o id atual
    i = row['id']

    # verifica se o id ainda não foi armazenado
    # ou se o timestamp atual é maior que o armazenado
    # ou, em caso de empate de timestamp, se o metadata atual é maior
    if (i not in auxiliary_dict or
        row['timestamp'] > auxiliary_dict[i]['timestamp'] or
        row['metadata'] > auxiliary_dict[i]['metadata']):
        
        # atualiza o registro associado ao id
        auxiliary_dict[i] = row

# armazena o resultado final
expected_output_answer = auxiliary_dict

# exibe o dicionário resultante
expected_output_answer

{1234: {'id': 1234, 'timestamp': 1, 'metadata': 'c'},
 2345: {'id': 2345, 'timestamp': 2, 'metadata': 'd'},
 5678: {'id': 5678, 'timestamp': 1, 'metadata': 'e'}}

# Referências

* Cormen, T. H.; Leiserson, C. E.; Rivest, R. L.; Stein, C. Introduction to Algorithms. 3rd ed. MIT Press, 2009. 
* Summerfield, M. Programming in Python 3: A Complete Introduction to the Python Language. 2nd ed. Addison-Wesley, 2010. Capítulo 3: “Data Types, Variables, and Operators”.
* Python Software Foundation. “Mapping Types — dict”. Python Language Reference. Disponível em: https://docs.python.org/3/library/stdtypes.html#mapping-types-dict
* https://www.geeksforgeeks.org/python/top-30-python-dictionary-interview-questions/