Diccionarios

Otra estructura de datos fundamental es un diccionario, que asocia valores
a claves y permite recuperar rápidamente el valor correspondiente a una
determinada clave:


In [1]:
empty_dict = {} # pitónico
empty_dict2 = dict() # menos pitónico
grades = {"Joel": 80, "Tim": 95} # dict literal


Se puede consultar el valor para una clave utilizando corchetes:


In [None]:
joels_grade = grades["Joel"] # es igual a 80

Pero se obtendrá un KeyError si se pregunta por una clave que no está en
el diccionario:


In [None]:
try:
    kates_grade = grades["Kate"]
except KeyError:
    print("no grade for Kate!")


Se puede comprobar la existencia de una clave utilizando in:


In [None]:
joel_has_grade = "Joel" in grades # True
kate_has_grade = "Kate" in grades # False

Esta verificación de membresía es aún más rápida para diccionarios
grandes.
Los diccionarios tienen un método get que devuelve un valor
predeterminado (en lugar de levantar una excepción) cuando se consulta una
clave que no está en el diccionario:


In [None]:
joels_grade = grades.get("Joel", 0) # es igual a 80
kates_grade = grades.get("Kate", 0) # es igual a 0
no_ones_grade = grades.get("No One") # el valor predeterminado es None

Se pueden asignar pares clave/valor utilizando los mismos corchetes:


In [None]:
grades["Tim"] = 99 # reemplaza el valor anterior
grades["Kate"] = 100 # añade una tercera entrada
num_students = len(grades) # es igual a 3

Como vimos en el capítulo 1, se pueden utilizar diccionarios para
representar datos estructurados:


In [2]:
tweet = {
"user" : "joelgrus",
"text" : "Data Science is Awesome",
"retweet_count" : 100,
"hashtags" : ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

Aunque pronto veremos un enfoque mejor.
Además de buscar claves específicas, también podemos mirarlas todas:



In [None]:
tweet_keys = tweet.keys() # iterable para las claves
tweet_values = tweet.values()
# iterable para los valores
tweet_items = tweet.items()
print(tweet_items)

# iterable para las tuplas (clave, valor)
"user" in tweet_keys # True, pero no pitónico
"user" in tweet # forma pitónica de comprobar claves
"joelgrus" in tweet_values # True (es lenta, pero la única forma de verificar)


dict_items([('user', 'joelgrus'), ('text', 'Data Science is Awesome'), ('retweet_count', 100), ('hashtags', ['#data', '#science', '#datascience', '#awesome', '#yolo'])])


True

Las claves de diccionario pueden ser “hashables”; en particular, no se
pueden utilizar listas como claves. Si se necesita una clave multiparte,
probablemente se debería utilizar una tupla o idear un modo de convertir la
clave en una cadena.


**defaultdict**

Imaginemos que estamos intentando contar las palabras de un documento.
Un método obvio para lograrlo es crear un diccionario en el que las claves
sean palabras y los valores sean contadores. Al comprobar cada palabra, se
puede incrementar su contador si ya está en el diccionario y añadirlo al
diccionario si no estaba:


In [8]:
document = """
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
"""

In [3]:
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1


Se podría utilizar también el sistema “mejor pedir perdón que permiso” y
simplemente manejar la excepción al intentar consultar una clave inexistente:


In [None]:
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1


Un tercer enfoque es utilizar get, que se comporta con mucha elegancia
con las claves inexistentes:


In [None]:
word_counts = {}
for word in document:
    previous_count = word_counts.get(word, 0)
    word_counts[word] = previous_count + 1


Todo esto es muy poco manejable, razón por la cual defaultdict es útil.
Un defaultdict es como un diccionario normal, excepto que, cuando se
intenta buscar una clave que no contiene, primero añade un valor para ella
utilizando una función de argumento cero suministrada al crearla. Para
utilizar diccionarios defaultdicts, es necesario importarlos de collections:


In [10]:
from collections import defaultdict
word_counts = defaultdict(int) # int() produce 0
print(word_counts)
for word in document:
    word_counts[word] += 1
print(word_counts)

defaultdict(<class 'int'>, {})
defaultdict(<class 'int'>, {'\n': 2, 'L': 1, 'o': 29, 'r': 22, 'e': 37, 'm': 17, ' ': 68, 'i': 42, 'p': 11, 's': 18, 'u': 28, 'd': 18, 'l': 21, 't': 32, 'a': 29, ',': 4, 'c': 16, 'n': 24, 'g': 3, 'b': 3, 'q': 5, '.': 4, 'U': 1, 'v': 3, 'x': 3, 'D': 1, 'h': 1, 'f': 3, 'E': 1})


También pueden resultar útiles con list o dict, o incluso con nuestras
propias funciones:


In [None]:
dd_list = defaultdict(list) # list() produce una lista vacía
dd_list[2].append(1) # ahora dd_list contiene {2: [1]}
dd_dict = defaultdict(dict) # dict() produce un dict vacío
dd_dict["Joel"]["City"] = "Seattle" # {"Joel" : {"City": Seattle"}}
dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1 # ahora dd_pair contiene {2: [0, 1]}


Serán útiles cuando estemos utilizando diccionarios para “recopilar”
resultados según alguna clave y no queramos comprobar todo el tiempo si la
clave sigue existiendo.