# Capítulo 11 - Dicionários

In [3]:
eng2sp = dict()
eng2sp
# {} representa um dicionário vazio

{}

In [4]:
# acrescentar itens ao dicionário
eng2sp['one'] = 'uno'
eng2sp

{'one': 'uno'}

In [6]:
# criando um dicionário com 3 itens
eng2sp = {'one': 'uno', 'two': 'dos', 'three': 'tres'}
eng2sp
# ao exibir o dicionário os pares chave-valor podem não ser os mesmos
# a ordem dos itens em um dicionário é imprevisível

{'one': 'uno', 'two': 'dos', 'three': 'tres'}

In [None]:
# os elementos de um dicionário nunca são indexados com índices de números inteiros
# usa-se as chaves para procurar os valores correspondentes
eng2sp['two']
# 'two' sempre mapeia para o valor 'dos'

'dos'

In [None]:
# se a chave não estiver no dicionário -> exceção
eng2sp['four']

KeyError: 'four'

In [10]:
# tamanho do dicionário
len(eng2sp)

3

In [11]:
# operador in - consegue procurar pela chave
'one' in eng2sp

True

In [12]:
# não funciona com o valor
'uno' in eng2sp

False

In [13]:
# para ver se algo como um valor aparece num dicionário - método values
vals = eng2sp.values()
'uno' in vals

True

In [14]:
vals

dict_values(['uno', 'dos', 'tres'])

O operador `in` usa algoritmos diferentes para listas e dicionácios. Para listas, ele procura os elementos da lista em ordem. Conforme a lista torna-se mais longa, o tempo de busca também fica proporcionalmente mais longo. 
Para dicionários, o Python usa um algoritmo chamado **hashtable**, que tem uma propriedade notável, o operador `in` leva praticamente o mesmo tempo na busca, não importa quantos itens estejam no dicionário.

In [15]:
def histogram(s):
    d = dict()
    for c in s:
        if c not in d:
            d[c] = 1
        else:
            d[c] += 1
    return d

In [16]:
histogram('brontosaurus')

{'b': 1, 'r': 2, 'o': 2, 'n': 1, 't': 1, 's': 2, 'a': 1, 'u': 2}

In [17]:
# método get - recebe uma chave e um valor padrão
# se a chave estiver no dicionário, retorna o valor correspondente
h = histogram('a')
h

{'a': 1}

In [18]:
h.get('a', 0)

1

In [19]:
h.get('b', 0)

0

In [22]:
h = histogram('brontosaurus')
h.get('s', 0)

2

In [23]:
# usando get para simplificar histogram
def histogram(s):
    d = dict()
    for c in s:
        d[c] = d.get(c, 0) + 1
    return d

In [25]:
histogram('brontosaurus')

{'b': 1, 'r': 2, 'o': 2, 'n': 1, 't': 1, 's': 2, 'a': 1, 'u': 2}

In [26]:
# se usar um dicionário em uma instrução for, ela percorre as chaves do dicionário
def print_hist(h):
    for c in h:
        print(c, h[c])

In [27]:
h = histogram('parrot')
print_hist(h)

p 1
a 1
r 2
o 1
t 1


In [28]:
# para atravessar as chaves em ordem ascendente -> utilizar sorted
for key in sorted(h):
    print(key, h[key])

a 1
o 1
p 1
r 2
t 1


In [29]:
# busca - em um dicionário d e uma chave k, se k estiver em d, retorna d[k], senão retorna v
def search(d, k):
    if k in d:
        return d[k]
    return None

search(h, 'r')

2

In [33]:
# busca reversa - em um dicionário d e um valor v, retorna a primeira chave que mapeia para v
def reverse_lookup(d, v):
    for k in d:
        if d[k] == v:
            return k
    raise LookupError('value does not appear in the dictionary') # mensagem opcional
 
# a instrucão raise gera uma exceção - neste caso, uma exceção LookupError
# LookupError indica que a operação busca falhou

In [None]:
# uma buscca reversa é muito mais lenta que uma busca no sentido normal
h = histogram('parrot')
reverse_lookup(h, 2)

'r'

In [34]:
reverse_lookup(h, 3)

LookupError: value does not appear in the dictionary

In [35]:
# as listas podem aparecer como valores em um dicionário
# função que inverte um dicionário
def invert_dict(d):
    inverse = dict()
    for key in d:
        val = d[key]
        if val not in inverse:
            inverse[val] = [key]
        else:
            inverse[val].append(key)
    return inverse

In [36]:
hist = histogram('parrot')
hist

{'p': 1, 'a': 1, 'r': 2, 'o': 1, 't': 1}

In [37]:
inverse = invert_dict(hist)
inverse

{1: ['p', 'a', 'o', 't'], 2: ['r']}

In [38]:
# as listas podem ser valores em um dicionário, mas não podem ser chaves
# se tentar, ocorre uma exceção TypeError
t = [1, 2, 3]
d = dict()
d[t] = 'oops'

TypeError: unhashable type: 'list'

Um dicionário é implementado usando uma **hashtable** e isso significa que é preciso que as chaves possam ser **hashable** ("dispersáveis).
**Hash** é uma função que recebe um valor (de qualquer tipo) e retorna um número inteiro. Dicionários usam esses números inteiros, chamados de **hashes**, para armazenar e procurar pares chave-valor.

Esse sistema funciona perfeitamente se as chaves forem imutáveis. Porém se as chaves forem mutáveis, como listas, coisas ruins podem acontecer.

In [39]:
# Um valor calculado anteriormente que é guardado para uso posterior é chamado de memo
# versão memo de fibonacci

known = {0: 0, 1: 1}
def fibonacci(n):
    if n in known:
        return known[n]
    res = fibonacci(n-1) + fibonacci(n-2)
    known[n] = res
    return res

fibonacci(8)

21

In [40]:
known

{0: 0, 1: 1, 2: 1, 3: 2, 4: 3, 5: 5, 6: 8, 7: 13, 8: 21}

In [1]:
# variáveis globais são úteis para valores que são constantes para o programa
verbose = True
def example1():
    if verbose:
        print('Running example1')

In [3]:
been_called = False


# o valor de been_called não se altera - a função cria uma nova variável local chamada been_called
# a variável local somequando a chamada de função termina
def example2():
    been_called = True # errado

In [5]:
# instrução global - informa que a variável é global (não criar uma nova variável local)
def example2():
    global been_called
    been_called = True
    
print(been_called)
example2()
print(been_called)

False
True


In [6]:
# mais exemplos 
count = 0
def example3():
    count = count + 1 # errado
    
example3()
print(count)

UnboundLocalError: cannot access local variable 'count' where it is not associated with a value

In [None]:
def example3():
    global count
    count += 1 # certo
    
example3()
print(count)

1


In [None]:
# se uma variável global se referir a um valor mutável, pode ser alterada sem declarar a variável

known = {0: 0, 1: 1}
def example4():
    known[2] = 1
    
example4()
print(known)

# então é possível alterar uma lista ou dicionário sem usar a instrução global

{0: 0, 1: 1, 2: 1}


## Glossário

- **mapeamento**:
    - Relação na qual cada elemento de um conjunto corresponde a um elemento de outro conjunto.

- **dicionário**:
    - Mapeamento de chaves aos seus valores correspondentes.

- **par chave-valor**:
    - Representação do mapeamento de uma chave a um valor.

- **chave**:
    - Objeto que aparece em um dicionário como a primeira parte de um par chave-valor.

- **valor**:
    - Objeto que aparece em um dicionário como a segunda parte de um par chave-valor. Isso é mais específico que o nosso uso anterior da palavra “valor”.

- **implementação**:
    - Uma forma de executar um cálculo.

- **hashtable**:
    - Algoritmo usado para implementar dicionários de Python.

- **função hash**:
    - Função usada por uma hashtable para calcular a posição de uma chave.

- **hashable**:
    - Um tipo que tem uma função hash. Tipos imutáveis como números inteiros, de ponto flutuante e strings são hashable; tipos mutáveis, como listas e dicionários, não são..

- **busca**:
    - Operação de dicionário que recebe uma chave e encontra o valor correspondente.

- **busca reversa**:
    - Operação de dicionário que recebe um valor e encontra uma ou várias chaves que o mapeiem.

- **instrução raise**:
    - Instrução que (deliberadamente) causa uma exceção.

- **item avulso (singleton)**:
    - Uma lista (ou outra sequência) com um único elemento.

- **gráfico de chamada**:
    - Um diagrama que mostra cada frame criado durante a execução de um programa, com uma flecha apontando quem chama a quem é chamado.

- **memo**:
    - Valor já calculado, guardado para não ter que fazer o mesmo cálculo no futuro.

- **variável global**:
    - Variável definida fora de uma função. As variáveis globais podem ser acessadas de qualquer função.

- **instrução global**:
    - Instrução que declara um nome de variável global.

- **flag**:
    - Variável booleana usada para indicar se uma condição é verdadeira.

- **declaração**:
    - Instrução tal como global, que diz ao interpretador algo a respeito de uma variável.


## Exercícios

### Exercício 11.1

Escreva uma função que leia as palavras em words.txt e guarde-as como chaves em um dicionário. Não importa quais são os valores. Então você pode usar o operador in como uma forma rápida de verificar se uma string está no dicionário.

Se fez o Exercício 10.10, você pode comparar a velocidade desta implementação com o operador in de listas e a busca por bisseção.


In [13]:
fin = open('words.txt')
dict = {}

for line in fin:
    word = line.strip()
    # word é chave, valor é None
    dict[word] = None

In [15]:
'storytellings' in dict

True

In [17]:
# utilizando o bisect 
# utilizando o modulo bisect
import bisect

def read_words_append(filename):
    words = []
    with open(filename, 'r') as file:
        for line in file:
            word = line.strip()
            words.append(word)
    return words

read_words_append('words.txt')

def is_bisect(sorted_lst, target):
    index = bisect.bisect_left(sorted_lst, target)
    
    if index != len(sorted_lst) and sorted_lst[index] == target:
        return index
    return None

words_lst = read_words_append('words.txt')

In [18]:
print(is_bisect(words_lst, 'storytellings'))

96377


Guardar as palavras de words.txt em um dicionário e procurar uma chave é geralmente mais rápido do que guardar as palavras em uma lista e implementar um método de busca como o bisect.

- Dicionário
    - Tempo de busca: O(1) em média, devido à implementação de tabelas hash.
    - Inserção: O(1) em média.

- Lista com bisect (lista precisa estar ordenada)
    - Tempo de busca: O(log n), pois bisect realiza uma busca binária em uma lista ordenada.
    - Inserção: O(n) no pior caso, pois inserir um elemento na posição correta pode exigir o deslocamento de outros elementos.

### Exercício 11.2

Leia a documentação do método de dicionário ```setdefault``` e use-o para escrever uma versão mais concisa de ```invert_dict```.

Solução: http://thinkpython2.com/code/invert_dict.py.

In [None]:
# implementação anterior

def invert_dict(d):
    inverse = {}
    for key in d:
        val = d[key]
        if val not in inverse:
            inverse[val] = [key]
        else:
            inverse[val].append(key)
    return inverse

In [32]:
fin = open('words.txt')
dict_words = {}

for line in fin:
    word = line.strip()
    # word é chave, valor é None
    dict_words[word] = None
    
fin.close()

In [33]:
inverse_dict = invert_dict(dict_words)

In [34]:
# versão mais concisa

def invert_dict(d):
    inverse = {}
    for key, val in d.items():
        inverse.setdefault(val, []).append(key)

In [35]:
inverse_dict = invert_dict(dict_words)

### Exercício 11.3

Memorize a função de Ackermann do Exercício 6.2 e veja se a memorização permite avaliar a função com argumentos maiores. Dica: não.

Solução: http://thinkpython2.com/code/ackermann_memo.py.

In [45]:
# solução da 6.2 - função de Ackermann

def ack(m, n):
    if m == 0:
        return n + 1
    elif m > 0 and n == 0:
        return ack(m - 1, 1)
    elif m > 0 and n > 0:
        return ack(m - 1, ack(m , n - 1))
        
print(ack(3, 4))

125


In [46]:
memo = {}

def ack2(m, n, memo={}):
    result = 0
    if (m, n) in memo:
        return memo[m, n]
    if m == 0:
        result = n + 1
    elif m > 0 and n == 0:
        result = ack2(m - 1, 1, memo)
    elif m > 0 and n > 0:
        result = ack2(m - 1, ack2(m , n - 1, memo), memo)

    memo[m, n] = result
    #result = memo[m, n]
    return result

ack2(3, 4, memo)
#print(ack2(3, 4))

125

In [48]:
print(ack(4, 5))

RecursionError: maximum recursion depth exceeded

In [49]:
memo = {}
print(ack2(4, 5, memo))

RecursionError: maximum recursion depth exceeded

In [50]:
print(ack2(3, 4, memo))

125


In [None]:
# mesmo com valores salvos em memo o programa crasha

print(ack2(4, 5, memo))

RecursionError: maximum recursion depth exceeded

### Exercício 11.4

Se fez o Exercício 10.7, você já tem uma função chamada ```has_duplicates```, que recebe uma lista como parâmetro e retorna ```True``` se houver algum objeto que aparece mais de uma vez na lista.

Use um dicionário para escrever uma versão mais rápida e simples de has_duplicates.

Solução: http://thinkpython2.com/code/has_duplicates.py.

In [53]:
# exercício 10.7

def has_duplicates(lst):
    # set remove automaticamente elementos duplicados
    return len(lst) != len(set(lst))

print(has_duplicates([1, 2, 3, 4]))  # Saída: False
print(has_duplicates([1, 2, 2, 3]))  # Saída: True

False
True


In [None]:
def has_duplicates(dict):
    values = list(dict.values())
    return len(values) != len(set(values))

example_dict = {'a': 1, 'b': 2, 'c': 3, 'd': 2}
print(has_duplicates(example_dict)) # Saída: True - 'b' e 'd' possuem o mesmo valor

True


### Exercício 11.5

Duas palavras são “pares rotacionados” se for possível rotacionar um deles e chegar ao outro (ver ```rotate_word``` no Exercício 8.5).

Escreva um programa que leia uma lista de palavras e encontre todos os pares rotacionados.

Solução: http://thinkpython2.com/code/rotate_pairs.py.

In [55]:
# exercício 8.5

def rotate_word(word, n):
    new_word = ''
    for letter in word:
        new_word += chr(ord(letter) + n)
    return new_word

print(rotate_word('IBM', -1))

HAL


In [56]:
print(rotate_word('IBM', -1))
print(rotate_word('ASH', -1))
print(rotate_word('ARGARD', -1))

HAL
@RG
@QF@QC


In [None]:
list_words = ['IBM', 'osi', 'oijrow', 'difjosd', 'HAL', '@RG', '@QF@QC', 'ASH', 'ARGARD']

# funciona, mas não usa dicionários
for word in list_words:
    rotate = rotate_word(word, -1)
    if rotate in list_words:
        print(word, rotate) 

IBM HAL
ASH @RG
ARGARD @QF@QC


In [None]:
def find_rotate_word(word_list):
    rotate_pairs = []
    word_dict = {word: [] for word in word_list} # inicializa o dicionário
    
    for word in word_list:
        rotated = rotate_word(word, -1)
        if rotated in word_dict:
            # adiciona a palavra rotacionada ao dicionário
            word_dict[word].append(rotated)
            print(word, rotated)
    print(word_dict)
         
find_rotate_word(list_words)   

IBM HAL
ASH @RG
ARGARD @QF@QC
{'IBM': ['HAL'], 'osi': [], 'oijrow': [], 'difjosd': [], 'HAL': [], '@RG': [], '@QF@QC': [], 'ASH': ['@RG'], 'ARGARD': ['@QF@QC']}


### Exercício 11.6

Aqui está outro quebra-cabeça do programa Car Talk (http://www.cartalk.com/content/puzzlers):

Ele foi enviado por Dan O’Leary. Dan descobriu uma palavra comum, com uma sílaba e cinco letras que tem a seguinte propriedade única. Ao removermos a primeira letra, as letras restantes formam um homófono da palavra original, que é uma palavra que soa exatamente da mesma forma. Substitua a primeira letra, isto é, coloque-a de volta, retire a segunda letra e o resultado é um outro homófono da palavra original. E a pergunta é, qual é a palavra?

Agora vou dar um exemplo que não funciona. Vamos usar a palavra de cinco letras, ‘wrack’ (mover, eliminar). W-R-A-C-K, como na expressão ‘wrack with pain’ (se contorcer de dor). Se eu retirar a primeira letra, sobra uma palavra de quatro letras, ‘R-A-C-K’ (galhada). Como na frase, ‘Holy cow, did you see the rack on that buck! It must have been a nine-pointer!’ (‘Minha nossa, você viu a galhada daquele cervo! Deve ter nove pontas!’). É um homófono perfeito. Se puser o ‘w’ de volta e retirar o ‘r’ em vez disso, sobra a palavra ‘wack’, que é uma palavra de verdade, mas não é um homófono das outras duas palavras.

Mas há pelo menos uma palavra que Dan e eu conhecemos, que produz dois homófonos se você retirar qualquer uma das duas primeiras letras, e duas novas palavras de quatro letras são formadas. A pergunta é, qual é a palavra?

Você pode usar o dicionário do Exercício 11.1 para verificar se uma string está na lista de palavras.

Para verificar se duas palavras são homófonas, você pode usar o Dicionário de pronúncia CMU. Ele pode ser baixado em http://www.speech.cs.cmu.edu/cgi-bin/cmudict ou em http://thinkpython2.com/code/c06d. Você também pode baixar http://thinkpy thon2.com/code/pronounce.py, que tem uma função chamada read_dictionary, que lê o dicionário de pronúncia e retorna um dicionário de Python que mapeia cada palavra a uma string que descreve sua pronúncia primária.

Escreva um programa que liste todas as palavras que resolvem o quebra-cabeça.

Solução: http://thinkpython2.com/code/homophone.py.

In [13]:
# dicionario não disponivel!
