In [46]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Dicionários

## O modelo
Listas em Python são um instrumento muito poderoso quando desejamos extrair itens com base na sua posição em uma sequência.

Por exemplo, suponha uma lista ordenada, com os nomes das cidades brasileiras mais populosas:

In [47]:
cidades = ['São Paulo', 'Rio de Janeiro', 'Brasíia', 'Salvador', 'Fortaleza']

Dada essa lista, é possível responder diretamente a uma pergunta como “Qual a terceira maior cidade do Brasil?”.

In [48]:
cidades[2]

'Brasíia'

Numa lista, o valor do item que se acha numa determinada posição é recuperado de forma direta. Essa operação tem “custo” constante, isto é, independente da posição do item e do tamanho da lista. 

Suponha que quiséssemos também responder a “Qual a população de Salvador?”.  
Como fazer isso?

Seria possível, por exemplo, criar uma segunda lista, com a população de cada cidade, na mesma ordem.

In [49]:
população = [12106920, 6520266, 3039444, 2953986, 2627482]

Ainda assim, para obter a população de Salvador, será necessário fazer uma busca, explicitamente ou usando uma função do sistema.

In [50]:
i = 0
while i < len(cidades) and cidades[i] != 'Salvador':
    i += 1
print(população[i]) 

2953986


Essa operação tem complexidade $\mathcal{O}(n)$, isto é o tempo de execução passa a ser proporcional ao tamanho da lista.

Um **_dicionário_** em Python permite resolver esse problema de uma forma muito mais eficiente.

Um **_dicionário_** é uma **_coleção não ordenada de objetos_**, **_mutável_**, **_iterável_** e **_potencialmente heterogênea_**.

Os itens de um dicionários são acessíveis por **_chaves_** e não por índices, como nas estruturas sequenciais (listas, strings e tuplas) que já estudamos.

A implementação de dicionários usa uma técnica chmada *hashing* (que estudaremos mais à frente).

Essa técnica permite que o tempo de busca de um determinado valor seja potencialmente constante, em vez de crescer linearmente com o tamanho da estrutura, como acontece nas listas.

Um dicionário é representado por um conjunto de pares **_chave: valor_**, entre **{** e **}** e separados por **_vírgulas_**. 

As chaves devem pertencer a um tipo imutável (isto é, nada de *listas* ou *dicionários*), enquanto os valores podem ser de qualquer tipo.

Por exemplo:

In [51]:
população = {'São Paulo': 12106920, 
             'Rio de Janeiro': 6520266, 
             'Brasília': 3039400
            }

E agora, para obter a população de Brasília, basta dizer

In [52]:
população['Brasília']

3039400

## Como criar um dicionário

O exemplo acima mostrou como criar um dicionário. Se quiséssemos um dicionário *dic* vazio faríamos

In [53]:
dic = {}
dic

{}

## Como obter e modificar os itens de um dicionário
Já vimos como obter o valor associado a uma chave.  
A população de Brasília está errada. Vamos corrigi-la...

In [54]:
população['Brasília'] = 3039444

O mesmo procedimento permite incluir novos itens no dicionário:

In [55]:
população['Belo Horizonte'] = 2523000
população['Manaus'] = 2130264

In [56]:
população

{'Belo Horizonte': 2523000,
 'Brasília': 3039444,
 'Manaus': 2130264,
 'Rio de Janeiro': 6520266,
 'São Paulo': 12106920}

É possível também incluir ou atualizar mais do que um novo item de uma vez só, mesclando-se (*merging*) um outro dicionário com o método **update**.

In [57]:
população.update({'Salvador': 2954000, 'Fortaleza': 2627482, 'Belo Horizonte': 2523794})
população

{'Belo Horizonte': 2523794,
 'Brasília': 3039444,
 'Fortaleza': 2627482,
 'Manaus': 2130264,
 'Rio de Janeiro': 6520266,
 'Salvador': 2954000,
 'São Paulo': 12106920}

O acesso com uma chave inexistente provoca um erro

In [58]:
população['Campinas']

KeyError: 'Campinas'

Para evitar o erro, usa-se o método **get** que aceita um parâmetro com o valor que deve ser retornado, caso a chave consultada não seja encontrado.

In [None]:
população.get('Campinas', 'Não sei...')

## Como testar a existência de um item num dicionário
O erro numa consulta com uma chave inexistente também pode ser evitado protegendo-se a consulta por um teste de existência com os operadores **in** e **not in**.

In [None]:
'Campinas' in população

In [None]:
'Campinas' not in população

... o que nos permite fazer...

In [None]:
if 'Campinas' in população:
    resposta = população['Campinas']
else:
    resposta = 'não sei'
resposta

Esse comando também pode ser escrito de forma mais simples como

In [None]:
resposta = população['Campinas'] if 'Campinas' in população else 'não sei'
resposta

## Como remover itens de um dicionário
Para remover um item de um dicionário usa-se o comando **del**

In [None]:
del população['Manaus']
população

É possível obter o valor de um item e, ao mesmo tempo, removê-lo usando-se o método **pop**.

In [None]:
print(população.pop('Fortaleza'))

In [None]:
população

A tentativa de remoção de uma chave inexistente gera um erro...

In [None]:
print(população.pop('Campinas'))

É possível evitar o erro na remoção de uma chave inexistente dando *None* como um segundo argumento para **pop**.

In [None]:
print(população.pop('Campinas', None))

Para remover todas os itens de um dicionário usa-se o método **clear**.

**Clear** esvazia o dicionário associado à variável à qual ele é aplicado.

- A variável continua associada ao mesmo objeto (isto é, seu **id** não se altera).
- Apenas o valor do objeto é que foi alterado (neste caso para *vazio*).

In [59]:
dic = {'a': 123, 'b': 456, 'c': 789}
id(dic), dic

(4597547224, {'a': 123, 'b': 456, 'c': 789})

In [60]:
dic.clear()
id(dic), dic

(4597547224, {})

Note que isto não é o mesmo que atribuir **{}** à variável. Neste caso a variável deixa de estar associada ao antigo dicionário (que continua existindo) e passa a estar associada a outro dicionário (neste caso um dicionário vazio). Com isso, o **id** da variável muda, como mostram os exemplos a seguir. 

In [61]:
dic = {'a': 123, 'b': 456, 'c': 789}
id(dic), dic

(4597104360, {'a': 123, 'b': 456, 'c': 789})

In [62]:
dic = {}
id(dic), dic

(4598288176, {})

## Iterações sobre dicionários
Não é preciso fazer nada para iterar sobre as chaves ou valores de um dicionário

In [63]:
população = {'Salvador': 2954000,
             'Fortaleza': 2627482,
             'Belo Horizonte': 2523794,
             'São Paulo': 12106920,
             'Brasília': 3039444,
             'Rio de Janeiro': 6520266,
             'Manaus': 2130264}

In [64]:
for k in população:
    print(f'{k:16}  {população[k]:8}')

Salvador           2954000
Fortaleza          2627482
Belo Horizonte     2523794
São Paulo         12106920
Brasília           3039444
Rio de Janeiro     6520266
Manaus             2130264


O mesmo resultado pode ser conseguido de um jeito mais *pythoniano* por

In [65]:
for k, popk in população.items():
    print(f'{k:16}  {popk:8}')

Salvador           2954000
Fortaleza          2627482
Belo Horizonte     2523794
São Paulo         12106920
Brasília           3039444
Rio de Janeiro     6520266
Manaus             2130264


## Exemplos

### Quais as três cidades brasileiras mais populosas?

In [66]:
população = {'Salvador': 2954000,
             'Fortaleza': 2627482,
             'Belo Horizonte': 2523794,
             'São Paulo': 12106920,
             'Brasília': 3039444,
             'Rio de Janeiro': 6520266,
             'Manaus': 2130264}

In [68]:
from operator import itemgetter

spop = sorted(população.items(), key=itemgetter(1), reverse=True)
print(spop[:3])

[('São Paulo', 12106920), ('Rio de Janeiro', 6520266), ('Brasília', 3039444)]


### Quais cidades brasileiras têm mais do que 2.750.000 habitantes?

In [69]:
população = {'Salvador': 2954000,
             'Fortaleza': 2627482,
             'Belo Horizonte': 2523794,
             'São Paulo': 12106920,
             'Brasília': 3039444,
             'Rio de Janeiro': 6520266,
             'Manaus': 2130264}

In [70]:
from operator import itemgetter

grandes = [(rm, pop) for rm, pop in população.items() if pop > 2750000]
grandes = sorted(grandes, key=itemgetter(1), reverse=True)
grandes

[('São Paulo', 12106920),
 ('Rio de Janeiro', 6520266),
 ('Brasília', 3039444),
 ('Salvador', 2954000)]

### Dentre as cidades brasileiras com mais de 2 milhões de habitantes, quais as duas com nome mais curto?

In [72]:
população = {'São Paulo': 12106920, 'Rio de Janeiro': 6520266, 
             'Brasília': 3039444,   'Salvador': 2953986, 
             'Fortaleza': 2627482,  'Belo Horizonte': 2523794, 
             'Manaus': 2130264,     'Curitiba': 1908359, 
             'Recife': 1633697,     'Porto Alegre': 1484941, 
             'Goiânia': 1466105,    'Belém': 1452275, 
             'Guarulhos': 1349113,  'Campinas': 1182429, 
             'São Luís': 1091868,   'São Gonçalo': 1049826, 
             'Maceió': 1029129
            }

In [74]:
from operator import itemgetter

tam_nomes = [(nome, pop, len(nome)) for nome, pop in população.items() if pop > 2000000]
tam_nomes = sorted(tam_nomes, key=itemgetter(2))
tam_nomes
tam_nomes[:2]

[('Manaus', 2130264, 6),
 ('Brasília', 3039444, 8),
 ('Salvador', 2953986, 8),
 ('São Paulo', 12106920, 9),
 ('Fortaleza', 2627482, 9),
 ('Rio de Janeiro', 6520266, 14),
 ('Belo Horizonte', 2523794, 14)]

[('Manaus', 2130264, 6), ('Brasília', 3039444, 8)]