# Dicionários
   * Os dicionários pythonicos são amplamente utilizados, sendo parte fundamental da implementação da linguagem. Devido a essa função, eles são altamente otimizados com o uso de _hashtables_.
    
   * Os dicionários Python possuem suas interfaces formalizadas pelo módulo _collections.abc_ , mais especificamente as **ABCs _Mapping_ e _MutableMapping_.** Isso pode ser verificado através da função _isinstance_.

In [None]:
from collections import abc
my_dict = {}
isinstance(my_dict, abc.Mapping)

   * Todos os tipos de mapeamente da biblioteca-padrão de Python usam o _dict_, assim as chaves precisam ser _hashable_.
   * Um objeto é _hashable_ se tiver um valor **hash** que nunca mude durante sua vida, isto é um \__hash__(), e puder ser comparador com outros métodos - ter um método \__eq()__;
   * Todos os tipos imutáveis atômicos são _hashable_. Um _fronzenset_ é hashable porque seus elementos devem ser hashable por definição. Um _tuple_ é hashable se todos os seus itens forem hashable.
   * os tipos definidos pelo usuário são hashable por padrão pois seus hashes são seus _id()_ e na comparação são todos diferentes. Se um objeto implementar \_\_eq()__ ,ele só poderá ser hashable se todos os seus atributos assim o forem.

In [None]:
tt = (1, 2, (30, 40))
hash(tt)

In [None]:
tl = (1, 2, [30, 40])
hash(tl)

In [None]:
tf = (1, 2, frozenset([30, 40]))
hash(tf)

In [None]:
# Podemos criar dicionários de várias maneiras:
a = dict(one=1, two=2, three=3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
d = dict([('one', 1), ('two', 2), ('three', 3)])
e = dict({'one': 1, 'two': 2, 'three': 3})

a == b == c == d == e

In [None]:
# Dict Comprehension -> Cria uma instância de dict produzindo pares _key:value_ a partir de qualquer iterável

DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62 , 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan')
]

country_code = {country:code for code, country in DIAL_CODES}
country_code

In [None]:
{code: country.upper() for country, code in country_code.items() if code < 66}

## Tratando chaves ausentes com setdefault
   * Filosofia _**Fail Fast_ ->** acessos **d[k]** com k inexistente geram erros;
   * d.get(k, default) -> Alternativa quando um valor default for mais conveniente que tratar um _KeyError_.
   * Ao atualizar o valor encontrado, usar \__getitem__ não é pratica nem eficiente

In [32]:
""" Cria um índice que mapeia palavra -> lista de ocorrências """
import sys
import re

WORD_RE = re.compile(r'\w+')

index = {}
with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            # isto não é elegante; foi codificado desta forma para ilustrar uma questão
            occurrences = index.get(word, [])
            occurrences.append(location)
            index[word] = occurrences
            
# exibe em ordem alfabética
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(17, 48), (18, 53)]
Although [(9, 1), (14, 1), (16, 1)]
ambiguity [(12, 16)]
and [(13, 23)]
are [(19, 12)]
aren [(8, 15)]
at [(14, 38)]
bad [(17, 50)]
be [(13, 14), (14, 27), (18, 50)]
beats [(9, 23)]
Beautiful [(1, 1)]
better [(1, 14), (2, 13), (3, 11), (4, 12), (5, 9), (6, 11), (15, 8), (16, 25)]
break [(8, 40)]
cases [(8, 9)]
complex [(3, 23)]
Complex [(4, 1)]
complicated [(4, 24)]
counts [(7, 13)]
dense [(6, 23)]
do [(13, 64), (19, 48)]
Dutch [(14, 61)]
easy [(18, 26)]
enough [(8, 30)]
Errors [(10, 1)]
explain [(17, 34), (18, 34)]
Explicit [(2, 1)]
explicitly [(11, 8)]
face [(12, 8)]
first [(14, 41)]
Flat [(5, 1)]
good [(18, 55)]
great [(19, 28)]
guess [(12, 52)]
hard [(17, 26)]
honking [(19, 20)]
idea [(17, 54), (18, 60), (19, 34)]
If [(17, 1), (18, 1)]
implementation [(17, 8), (18, 8)]
implicit [(2, 25)]
In [(12, 1)]
is [(1, 11), (2, 10), (3, 8), (4, 9), (5, 6), (6, 8), (15, 5), (16, 16), (17, 23), (18, 23)]
it [(13, 67), (17, 43), (18, 43)]
let [(19, 42)]
may [(14, 19), (18, 

In [36]:
""" Cria um indice que mapeia palavra -> lista de ocorrências"""

import sys
import re

WORD_RE = re.compile(r'\w+')

index = {}

with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            index.setdefault(word, []).append(location) # Substitui três linhas de código
            # my_dict.setdefault(key, []).append(new_value) é igual à
            # if key not in my_dict:
            #     my_dict[key] = []
            # my_dict[key].append(new_value)

for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(17, 48), (18, 53)]
Although [(9, 1), (14, 1), (16, 1)]
ambiguity [(12, 16)]
and [(13, 23)]
are [(19, 12)]
aren [(8, 15)]
at [(14, 38)]
bad [(17, 50)]
be [(13, 14), (14, 27), (18, 50)]
beats [(9, 23)]
Beautiful [(1, 1)]
better [(1, 14), (2, 13), (3, 11), (4, 12), (5, 9), (6, 11), (15, 8), (16, 25)]
break [(8, 40)]
cases [(8, 9)]
complex [(3, 23)]
Complex [(4, 1)]
complicated [(4, 24)]
counts [(7, 13)]
dense [(6, 23)]
do [(13, 64), (19, 48)]
Dutch [(14, 61)]
easy [(18, 26)]
enough [(8, 30)]
Errors [(10, 1)]
explain [(17, 34), (18, 34)]
Explicit [(2, 1)]
explicitly [(11, 8)]
face [(12, 8)]
first [(14, 41)]
Flat [(5, 1)]
good [(18, 55)]
great [(19, 28)]
guess [(12, 52)]
hard [(17, 26)]
honking [(19, 20)]
idea [(17, 54), (18, 60), (19, 34)]
If [(17, 1), (18, 1)]
implementation [(17, 8), (18, 8)]
implicit [(2, 25)]
In [(12, 1)]
is [(1, 11), (2, 10), (3, 8), (4, 9), (5, 6), (6, 8), (15, 5), (16, 16), (17, 23), (18, 23)]
it [(13, 67), (17, 43), (18, 43)]
let [(19, 42)]
may [(14, 19), (18, 

## Mapeamentos com consulta de chave flexível

   * Às vezes, é conveniente ter mapeamentos que devolvem valores predefinidos quando uma chave ausente é buscada:
       - **defaultdict:** substituir um simples dict;
       - **\__missing__:** adicionar esse dunder method a uma subclasse de dict
       
## defaultdict:
   * Configurado para criar itens sob demanda sempre que uma chave ausente for buscada;
   * Ao instanciar esse objeto, fonece-se uma função ou classe que será usada para gerar um valor default sempre que \__getitem__ receber um argumento de chave inexistente;
   * O objeto callable que gera os valores default é armazenado em um atributo de instância chamado __default_factory__;
   * Não criará valores default para chamada dd.get() apenas para d[k]

In [39]:
from collections import defaultdict

dd = defaultdict(list) # list -> sempre que não houver a key, cria-se ela com list como value
print(dd)
dd['new-key']
print(dd)

defaultdict(<class 'list'>, {})
defaultdict(<class 'list'>, {'new-key': []})


In [40]:
""" Cria um índice que mapeia a palavra -> lista de ocorrências """

import sys
import re
import collections

WORD_RE = re.compile(r'\w+')

index = collections.defaultdict(list) # defaultdict com list como default_factory
with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            index[word].append(location) # se word não existir em index, default_factory será chamado
            
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(17, 48), (18, 53)]
Although [(9, 1), (14, 1), (16, 1)]
ambiguity [(12, 16)]
and [(13, 23)]
are [(19, 12)]
aren [(8, 15)]
at [(14, 38)]
bad [(17, 50)]
be [(13, 14), (14, 27), (18, 50)]
beats [(9, 23)]
Beautiful [(1, 1)]
better [(1, 14), (2, 13), (3, 11), (4, 12), (5, 9), (6, 11), (15, 8), (16, 25)]
break [(8, 40)]
cases [(8, 9)]
complex [(3, 23)]
Complex [(4, 1)]
complicated [(4, 24)]
counts [(7, 13)]
dense [(6, 23)]
do [(13, 64), (19, 48)]
Dutch [(14, 61)]
easy [(18, 26)]
enough [(8, 30)]
Errors [(10, 1)]
explain [(17, 34), (18, 34)]
Explicit [(2, 1)]
explicitly [(11, 8)]
face [(12, 8)]
first [(14, 41)]
Flat [(5, 1)]
good [(18, 55)]
great [(19, 28)]
guess [(12, 52)]
hard [(17, 26)]
honking [(19, 20)]
idea [(17, 54), (18, 60), (19, 34)]
If [(17, 1), (18, 1)]
implementation [(17, 8), (18, 8)]
implicit [(2, 25)]
In [(12, 1)]
is [(1, 11), (2, 10), (3, 8), (4, 9), (5, 6), (6, 8), (15, 5), (16, 16), (17, 23), (18, 23)]
it [(13, 67), (17, 43), (18, 43)]
let [(19, 42)]
may [(14, 19), (18, 

## Método __missing__
   * Não é definido na classe base _dict_ , porém _dict_ está ciente de sua finalidade;
   * Uma subclasse de _dict_ implementada com \_\_missing__ irá chamá-lo sempre que não existir a chave em vez de gerar um *KeyError*.
   * Este método é chamado **SOMENTE** por \_\_getitem__;

In [44]:
# Dict que converte chaves que não sejam strings para strings
class StrKeyDict0(dict): # Herda de dict
    
    def __missing__(self, key):
        # sem isinstance -> recursão infinita
        if isinstance(key, str): # Verifica se key é str se for e estiver ausente gera KeyError
            raise KeyError(key)
        return self[str(key)] # Cria método a partir de key e efaz a consulta
            
    def get(self, key, default=None): # Delega para __getitem__ 
        try:
            return self[key]
        except KeyError:
            return default # Se KeyError for gerado, __missing__ falhou, retorna default
        
    def __contains__(self, key):
        #  A maneira usual de usar o dunder contains geraria recursão infinita -> k in self
        return key in self.keys() or str(key) in self.keys() #.keys() retorna um set -> eficiente

In [46]:
# Tests for item retrieval using `d[key]` notation::
d = StrKeyDict0([('2', 'two'), ('4', 'four')])
print(d['2'])
print(d[4])
d[1]

two
four


KeyError: '1'

In [47]:
# Tests for item retrieva using `d.get(key)`:
print(d.get('2'))
print(d.get(4))
print(d.get(1, 'N/A'))

two
four
N/A


In [48]:
# Tests for the`in` operator:
print(2 in d)
print(1 in d)

True
False


## Variações de dict

   * **collections.OrderedDict:**
       - Mantém as chaves na ordem de inserção.
       - O método _popitem_ remove o primeiro item (FIFO), se utilizar last=True (LIFO
   * **collections.ChainMap:**
       - Armazena uma lista de mapeamentos que podem ser buscados como se fossem um só

In [50]:
import builtins
import collections
pylookup = collections.ChainMap(locals(), globals(), vars())
pylookup

ChainMap({'__name__': '__main__', '__doc__': ' Cria um índice que mapeia a palavra -> lista de ocorrências ', '__package__': None, '__loader__': None, '__spec__': None, '__builtin__': <module 'builtins' (built-in)>, '__builtins__': <module 'builtins' (built-in)>, '_ih': ['', 'my_dict = {}\nisinstance(my_dict, abc.Mapping)', 'import collections.abc\nmy_dict = {}\nisinstance(my_dict, abc.Mapping)', 'from collections import abc\nmy_dict = {}\nisinstance(my_dict, abc.Mapping)', 'tt = (1, 2, (30, 40)\n      hash(tt)', 'tt = (1, 2, (30, 40)\nhash(tt)', 'tt = (1, 2, (30, 40))\nhash(tt)', 'tl = (1, 2, [30, 40])\nhash(tl)', 'tf = (1, 2, frozenset([30, 40]))\nhash(tf)', "# Podemos criar dicionários de várias maneiras:\na = dict(one=1, two=2, three=3)\nb = {'one': 1, 'two': 2, 'three', 3}\nc = dict(zip(['one', 'two', 'three'], [1, 2, 3]))\nd = dict(['one', 1], ['two', 2], ['three', 3])\ne = dict({'one': 1, 'two': 2, 'three', 3})\n\na == b == c == d == e", "# Podemos criar dicionários de várias ma

   * **collections.Counter:**
       - Mapeamento que armazena um contador inteiro para cada chave.

In [51]:
ct = collections.Counter('abracadabra')
ct

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})

In [52]:
ct.update('aaaaazzz') # Faz o contador ser incrementado
ct

Counter({'a': 10, 'b': 2, 'r': 2, 'c': 1, 'd': 1, 'z': 3})

In [54]:
ct.most_common(2) # retorna os n itens mais comums

[('a', 10), ('z', 3)]

   * **collections.UserDict:**
       - Implementação pura de um mapeamento que funciona como um dict padrão;
       - Concebido para que subclasses sejam criadas a partir dele

## Criando subclasses de UserDict
   * Por que herdar de userdict em vez de dict?
        - Dict tem alguns atalhos de implementação que acabam nos forçando a sobrescrever métodos que podemos simplesmente herdar de UserDict sem nenhum problema.
   * UserDict não herda de dict, mas tem uma instância de dict chamada data que armazena os itens propriamente ditos.
   * Isso evita uma recursão indesejada na codificação de métodos especiais.
   * UserDict é uma subclasse de MutableMapping , os métodos restantes tornam StrKeyDict um mapeamento completo são herdados de UserDict, MutableMapping ou Mapping. Esses últimos possuem métodos concretos úteis apesar de serem ABCs:
       - **MutableMapping.update:**
           - Pode ser chamado diretamente;
           - Usado pelo \_\_init__ para carregar a instância a partir de outros mapeament;
           - Por usar **self[key] = value** para adicionar itens, nossa implementação de \_\_setitem__ é chamada.
       - **Mapping.get:**
           - Exatamente como StrKeyDict0.get, mas dessa vez herdamos em vez de ter que implementá-lo.

In [56]:
import collections

class StrKeyDict(collections.UserDict):
    def __missing__(self, key):
        if isinstance(self, key):
            raise KeyError(key)
        return self[str(key)]
    
    def __contains__(self, key):
        return str(key) in self.data # Podemos supor que todas as chaves sejam str
    
    def __setitem__(self, key, item):
        self.data[str(key)] = item # Converte qualquer item para str

# Mapeamentos Imutáveis
   * Útil para impedir que um usuário não altere um mapeamento por engano;
   * O módulo _types_ oferece uma classe wrapper chamada _**MappingProxyType**_ que é uma view somente de leitura, porém dinâmica do mapeamento original;
   * Atualizações no mapeamento original podem ser vistas em _mappingproxy_ mas não será possível fazer alterações por meio dela.

In [57]:
from types import MappingProxyType

d = {1: 'A'}
d_proxy = MappingProxyType(d)
d_proxy

mappingproxy({1: 'A'})

In [58]:
d_proxy[1] # Itens em d podem ser vistos por meio de d_proxy

'A'

In [59]:
d_proxy[2] = 'x' # Não é possível alterar d através de d_proxy

TypeError: 'mappingproxy' object does not support item assignment

In [60]:
d[2] = 'B' # Qualquer alteração feita em d se reflete em d_proxy -> d_proxy é dinâmico
d_proxy

mappingproxy({1: 'A', 2: 'B'})

In [61]:
d_proxy[2]

'B'

# Sets
   * Um __Set (Conjunto)__ é uma coleção de objetos únicos;
   * O tipo _set_ não é __hashable__, mas seu irmão _frozenset_ é;
   * Implementam as __operações essenciais de conjuntos__ como operadores infixos:
       - __a & b__ -> Intersecção entre a e b;
       - __a - b__ -> Diferença entre a e b;
       - etc...

In [1]:
# um caso de uso básico é remover duplicações
l = ['spam', 'spam', 'eggs', 'spam']
set(l)

{'eggs', 'spam'}

In [2]:
# Sintaxe literal
s = {1} # mais rápido do que chamar o construtor
type(s)

set

In [3]:
s.pop()
s

set()

In [4]:
from dis import dis
dis('{1}')

  1           0 LOAD_CONST               0 (1)
              2 BUILD_SET                1
              4 RETURN_VALUE


In [5]:
dis('set([1])') # Mais lento porque tem que criar uma lista

  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (1)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE


In [9]:
# Para o fronzenset, só é possivel convocar o construtor
frozenset(range(10))

frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})

In [12]:
dis('frozenset([1, 2, 3, 4])')

  1           0 LOAD_NAME                0 (frozenset)
              2 LOAD_CONST               0 (1)
              4 LOAD_CONST               1 (2)
              6 LOAD_CONST               2 (3)
              8 LOAD_CONST               3 (4)
             10 BUILD_LIST               4
             12 CALL_FUNCTION            1
             14 RETURN_VALUE


In [8]:
# Set comprehensions -> Setcomps
from unicodedata import name
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')} # Cria um conjunto de caracteres que tenham a palavra SIGN em seus nomes

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

### Por dentro de Dicts e Sets
   * Os dicionários são **extremamente rápidos**;
   * Os sets são mais **rápidos** que uma lista mas **não tão rápidos quanto dicionários**;
   * Uma __hashtable__ possui _buckets_ que, por sua vez, possuem dois campos:
       - **Chave**;
       - **Valor**;
   * O interpretador Python mantêm pelo menos um terço dos buckets vazio, se a tabela encher, ela será copiada para um novo local com espaço para mais _buckets_;
   * Ao colocar um item em uma tabela hash, a primeira coisa a ser feita é calcular o seu _hash_;
   - **PODE HAVER CONFLITOS, O INTERPRETADOR OS CORRIGE;**
   * **CONSEQUÊNCIAS DOS DICIONÁRIOS:**
       - As chaves devem ser objetos hashable:
           - Possuem \_\_hash__;
           - Possuem \_\_eq__;
           - Se a == b -> hash(a) == hash(b);
       - Busca muito rápido -> Overheading de memória;
       - A ordem das chaves depende da ordem de inserção;
       - Adicionar itens pode alterar a ordem das chaves existentes;
   * Como os **Conjuntos** funcionam e suas **consequências práticas:**
       - São implementados com uma tabela hash, com a exceção de que os _buckets_ armazenam somente uma referência ao elemento;
       - Os elementos devem ser hashables;
       - Os conjuntos possuem um overhead de memória;
       - O teste de presença (in) é muito eficiente;
       - A ordem dos elementos depende da ordem de inserção;
       - Adicionar elementos a um conjunto pode alterar a ordem de outros elementos;

In [3]:
# códigos de discagem dos dez paises mais populosos
DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62 , 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan')
]

d1 = dict(DIAL_CODES)
print('d1:', d1.keys())

d2 = dict(sorted(DIAL_CODES))
print('d2:', d2.keys())

d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1]))
print('d3:', d3.keys())

assert d1 == d2 and d2 == d3 # apesar de ordens diferentes, eles são iguais

d1: dict_keys([86, 91, 1, 62, 55, 92, 880, 234, 7, 81])
d2: dict_keys([1, 7, 55, 62, 81, 86, 91, 92, 234, 880])
d3: dict_keys([880, 55, 86, 91, 62, 81, 234, 92, 7, 1])
