# Dicionários

- tabelas hash são o que confere alto desempenho

In [2]:
from collections import abc

In [3]:
my_dict = dict()
my_dict

{}

In [4]:
isinstance(my_dict, abc.Mapping)

True

In [5]:
isinstance(my_dict, abc.MutableMapping)

True

In [6]:
isinstance(my_dict, dict)

True

In [7]:
type(my_dict) == dict

True

In [8]:
isinstance(dict, abc.Mapping)

False

- Objetos hashable têm valor de hash constante em todo o seu tempo de vida.

In [9]:
class Aluno:
    nome: str = "Nome do aluno"


x = Aluno()

print(hash(x), id(x))
print(hash(Aluno), id(Aluno))

275632370 4410117920
306677542 4906840672


## Dict Comprehensions (dictcomp)

In [10]:
texto = """
A invenção do telégrafo, no início do século XIX, representa um marco revolucionário na comunicação humana. Desenvolvido inicialemente por Samuel Morse e outros colaboradores, o telégrafo elétrico permitiu a transmissão de mensagens em código Morse — uma série de sinais longos e curtos — através de cabos metálicos estendidos por longas distâncias. Essa tecnologia pioneira reduziu drasticamente o tempo necessário para enviar mensagens entre locais distantes, transformando as interações comerciais, políticas e sociais. Ao conectar diferentes partes do mundo de maneira rápida e eficiente, o telégrafo pavimentou o caminho para futuras inovações em comunicações eletrônicas, como o telefone e a internet.
""".strip().lower()

In [16]:
contagem_de_letras = {l: texto.count(l) for l in set(texto) if l not in "-,. —"}
print(*contagem_de_letras.items(), sep=", ")

('p', 12), ('i', 49), ('ã', 3), ('g', 9), ('x', 2), ('l', 18), ('á', 4), ('c', 30), ('o', 63), ('ç', 5), ('ó', 1), ('z', 1), ('í', 2), ('é', 7), ('b', 2), ('v', 8), ('t', 34), ('d', 21), ('n', 45), ('â', 1), ('a', 57), ('r', 41), ('s', 49), ('u', 17), ('m', 26), ('e', 73), ('õ', 3), ('h', 2), ('f', 8), ('ô', 1)


In [14]:
from collections import OrderedDict


contagem_ordenada = OrderedDict(
    sorted(contagem_de_letras.items(),
           key=lambda k: 1024*(k[1]) + ord(k[0])))
print(*contagem_ordenada.items(), sep=", ")

('z', 1), ('â', 1), ('ó', 1), ('ô', 1), ('b', 2), ('h', 2), ('x', 2), ('í', 2), ('ã', 3), ('õ', 3), ('á', 4), ('ç', 5), ('é', 7), ('f', 8), ('v', 8), ('g', 9), ('p', 12), ('u', 17), ('l', 18), ('d', 21), ('m', 26), ('c', 30), ('t', 34), ('r', 41), ('n', 45), ('i', 49), ('s', 49), ('a', 57), ('o', 63), ('e', 73)


In [15]:
_aux = {
    "blabla": 19,
    "a": -12
}
contagem_de_letras.update(_aux)
print(*contagem_de_letras.items(), sep=", ")

('p', 12), ('i', 49), ('ã', 3), ('g', 9), ('x', 2), ('l', 18), ('á', 4), ('c', 30), ('o', 63), ('ç', 5), ('ó', 1), ('z', 1), ('í', 2), ('é', 7), ('b', 2), ('v', 8), ('t', 34), ('d', 21), ('n', 45), ('â', 1), ('a', -12), ('r', 41), ('s', 49), ('u', 17), ('m', 26), ('e', 73), ('õ', 3), ('h', 2), ('f', 8), ('ô', 1), ('blabla', 19)


## setdefault(•)

In [41]:
mydict = {}
mv = memoryview(bytes(texto, encoding="utf-8"))
mvb = mv[:100].tobytes()
for c in set(mvb.decode("utf-8")):
    mydict.setdefault(c, 0) # resume if c not in mydict: mydict[c] = 0
    mydict[c] += mvb.count(c.encode("utf-8")) # daria erro sem a linha acima
mydict

{'p': 1,
 'i': 7,
 'ã': 1,
 'g': 1,
 'x': 2,
 'l': 3,
 'á': 1,
 'c': 5,
 'o': 12,
 'ç': 1,
 'í': 1,
 'é': 2,
 'v': 2,
 't': 2,
 ',': 2,
 'd': 2,
 'n': 8,
 'a': 5,
 ' ': 14,
 'r': 6,
 's': 2,
 'u': 4,
 'm': 3,
 'e': 6,
 'f': 1}

outro uso do `.setdefault(chave, valor_default)` pode ser

In [53]:
ocorrencias_letras = {}
for c in set(mvb.decode("utf-8")):
    ocorrencias_letras.setdefault(mvb.count(c.encode("utf-8")), []).append(c)
ocorrencias_letras

{1: ['p', 'ã', 'g', 'á', 'ç', 'í', 'f'],
 7: ['i'],
 2: ['x', 'é', 'v', 't', ',', 'd', 's'],
 3: ['l', 'm'],
 5: ['c', 'a'],
 12: ['o'],
 8: ['n'],
 14: [' '],
 6: ['r', 'e'],
 4: ['u']}

Assim, o código condensa em
```python
ocorrencias_letras.setdefault(mvb.count(c.encode("utf-8")), []).append(c)
```
a checagem, a atribuição do valor default e o comando de `.append`, melhorando a performance.