<p>
<font size='5' face='Georgia, Arial'>IIC2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados. Modificado el 2018-1, 2018-2, 2019-2, 2020-1, 2020-2, 2021-1, 2021-2, 2022-2 por Equipo docente IIC2233</font>
</p>

# Estructuras de datos no secuenciales

Las estructuras no secuenciales permiten almacenar datos, pero sin establecer necesariamente un orden fijo de acceso a ellos. Esto impide que se pueda acceder a los datos usando indexación, sin embargo, esto se compensa al proveer métodos muy eficientes para **búsqueda** de datos. Las dos estructuras secuenciales que revisaremos son los diccionarios y los conjuntos (*sets*).

## Diccionarios

Imaginemos que estamos escribiendo un programa para manejar dinero, y necesitamos saber qué moneda usa el usuario dado el país en que se encuentra. Una posible solución es escribir una función que reciba el nombre del país y que en una trama de `if - elif - else` retorne la moneda correspondiente:

In [1]:
def get_moneda(pais):
    if pais == "Chile":
        return "Peso"
    elif pais == "Perú":
        return "Soles"
    elif pais == "España" or pais == "Holanda":
        return "Euro"
    elif pais == "Brasil":
        return "Real"

No obstante, esta solución es larga, tediosa de escribir, y muy difícil de mantener. Tampoco nos permite extender o actualizar la información en tiempo de ejecución, con datos que podemos leer desde un archivo o desde un servicio web. Si nos fijamos, lo único que estamos haciendo es asociar un valor que conocemos de antemano con otro valor. Esto es un comportamiento muy común de un programa, y es lo que hacen precisamente los **diccionarios**.

Un **diccionario** es una estructura de datos no secuencial y **mutable** que permite asociar pares de elementos mediante la relación **llave-valor**. Al diccionario se le consulta por una **llave** y retorna su **valor** asociado. La **llave** y el **valor** (*key-value*) pueden tener distinto tipo en un diccionario. A este tipo de estructura también se le conoce como estructura de "mapeo" (*mapping*), porque asocian o *mapean* un valor a otro. Estructuras similares existen en muchos otros lenguajes de programación con otros nombres como "tablas de hash" o "*hash maps*".

En el ejemplo de las monedas, los países serían las llaves por las que consultamos, y los valores serían las distintas monedas.

![](img/hash-table.png)

### Diccionarios en Python


En Python, los diccionarios están implementados por la clase `dict`. La notación para describir un diccionario es mediante llaves (`{}`), y cada par llave-valor se asocia con `:` como muestra el ejemplo:

In [2]:
monedas = {
    "Chile": "Peso",
    "Perú": "Soles",
    "España": "Euro", 
    "Holanda": "Euro",
    "Brasil": "Real"
}

Para acceder al valor asociado a una llave se usan los corchetes (`[]`), mediante la instrucción:

`diccionario[nombre_llave]`.

In [3]:
print(monedas["Chile"])

Peso


Si se intenta consultar por una llave que no existe, obtenemos un error de tipo `KeyError` indicando que no existe una llave asociada a ese valor.

In [4]:
print(monedas["Argentina"])

KeyError: 'Argentina'

Otra manera de acceder al valor asociado a una llave consiste en utilizar el método [`get`](https://docs.python.org/3/library/stdtypes.html#dict.get) que posee la clase diccionario. Este método requiere dos parámetros: la llave buscada y un valor en caso de que la llave no exista.

In [5]:
print(monedas.get('Chile', 'No tiene moneda'))
print(monedas.get('Perú', 0))
print(monedas.get('Argentina', 'No tiene moneda'))
print(monedas.get('Colombia', False))

Peso
Soles
No tiene moneda
False


Como los diccionarios son **mutables**, si se asigna un valor a una llave existen dos comportamientos posibles. Si la llave no existe, ésta se crea y se le asigna un valor.

In [6]:
monedas["Vaticano"] = "Lira"
print(monedas)

{'Chile': 'Peso', 'Perú': 'Soles', 'España': 'Euro', 'Holanda': 'Euro', 'Brasil': 'Real', 'Vaticano': 'Lira'}


Si la llave ya existe, se actualiza con el nuevo valor:

In [7]:
monedas["Vaticano"] = "Euro"
print(monedas)

{'Chile': 'Peso', 'Perú': 'Soles', 'España': 'Euro', 'Holanda': 'Euro', 'Brasil': 'Real', 'Vaticano': 'Euro'}


A diferencia de otros lenguajes como C# o Java, en Python no es necesario que las llaves sean todas del mismo tipo. Tampoco es necesario que los valores sean todos del mismo tipo.

In [8]:
monedas[3.14] = ("Peso", "Dolar")
monedas

{'Chile': 'Peso',
 'Perú': 'Soles',
 'España': 'Euro',
 'Holanda': 'Euro',
 'Brasil': 'Real',
 'Vaticano': 'Euro',
 3.14: ('Peso', 'Dolar')}

Se puede eliminar ítems del diccionario utilizando la sentencia `del` como:

`del diccionario[nombre_llave]`.

In [9]:
del monedas[3.14]
monedas

{'Chile': 'Peso',
 'Perú': 'Soles',
 'España': 'Euro',
 'Holanda': 'Euro',
 'Brasil': 'Real',
 'Vaticano': 'Euro'}

Se puede comprobar la existencia de una llave en el diccionario utilizando la sentencia `in`. El comportamiento por defecto al utilizar sentencias sobre el diccionario es operar sobre los valores de las llaves. En el caso de `in`, devuelve `True` si la llave requerida existe dentro de las llaves en el diccionario.

In [10]:
print('Chile' in monedas)
print('Argentina' in monedas)
print('Peso' in monedas)
print('Euro' in monedas)

True
False
False
False


**Puedes revisar el Ejercicio Propuesto 5.1 para practicar el manejo básico de un diccionario.**

### Eficiencia de diccionarios

Dada una llave `llave`, **acceder a su valor asociado `dict[llave]`** es una operación **muy eficiente** que toma tiempo constante, es decir, **no depende de la cantidad de elementos que tenga el diccionario**. En contraste, esta estructura no está diseñada para buscar (en forma eficiente) una llave a partir de su valor, por lo que sería necesario recorrer todas las llaves creadas para encontrarla, como uno haría con una lista convencional, lo cual implica que ese tiempo de búsqueda es **proporcional al tamaño del diccionario**.

Esta eficiencia de acceso mediante llaves viene con un costo, no todo objeto puede ser usado como llave de diccionario en Python. En la última sección de este documento se ahonda en los motivos y cuáles objetos se pueden ocupar.

### Métodos útiles

Tres métodos útiles que existen en los diccionarios son: 

1. `keys()`: permite obtener una lista con las llaves del diccionario.
2. `values()`: permite obtener una lista con los valores del diccionario.
3. `items()`: permite obtener una lista con los **pares** que tiene el diccionario. Cada par es una tupla de la forma `(llave, valor)`.

In [11]:
print(monedas.keys()) # una lista con todas las llaves
print(monedas.values()) # una lista con todos los valores
print(monedas.items()) # una lista con tuplas de pares llave-valor

dict_keys(['Chile', 'Perú', 'España', 'Holanda', 'Brasil', 'Vaticano'])
dict_values(['Peso', 'Soles', 'Euro', 'Euro', 'Real', 'Euro'])
dict_items([('Chile', 'Peso'), ('Perú', 'Soles'), ('España', 'Euro'), ('Holanda', 'Euro'), ('Brasil', 'Real'), ('Vaticano', 'Euro')])


Estos métodos son prácticos y útiles durante la iteración sobre diccionarios.

In [12]:
print('Las llaves en el diccionario son las siguientes:')

for m in monedas.keys():
    print(f'{m}')

Las llaves en el diccionario son las siguientes:
Chile
Perú
España
Holanda
Brasil
Vaticano


In [13]:
## También se puede hacer sin usar .keys().
## Si no se especifica nada, se recorren las llaves.

print('Las llaves en el diccionario son las siguientes:')

for m in monedas:
    print(f'{m}')

Las llaves en el diccionario son las siguientes:
Chile
Perú
España
Holanda
Brasil
Vaticano


In [14]:
print('Los valores en el diccionario:')

for v in monedas.values():
    print(f'{v}')

Los valores en el diccionario:
Peso
Soles
Euro
Euro
Real
Euro


In [15]:
print('Los pares en el diccionario:')

for k, v in monedas.items():
    print(f'La moneda de {k} es {v}')

Los pares en el diccionario:
La moneda de Chile es Peso
La moneda de Perú es Soles
La moneda de España es Euro
La moneda de Holanda es Euro
La moneda de Brasil es Real
La moneda de Vaticano es Euro


### Diccionarios por comprensión

De forma similar a otras estructuras, en Python es posible definir diccionarios por comprensión. Esto permite escribir y crear diccionarios a partir de un concepto estructurado. Permite también el uso de filtrado dentro de éste.

In [16]:
from string import ascii_lowercase as letras


# Diccionario por comprensión
numero_por_letra = {letras[i].upper(): i + 1 for i in range(len(letras))}
print(numero_por_letra)

numero_por_vocales = {letras[i].upper(): i + 1 for i in range(len(letras)) if letras[i].upper() in "AEIOU"}
print(numero_por_vocales)

{'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5, 'F': 6, 'G': 7, 'H': 8, 'I': 9, 'J': 10, 'K': 11, 'L': 12, 'M': 13, 'N': 14, 'O': 15, 'P': 16, 'Q': 17, 'R': 18, 'S': 19, 'T': 20, 'U': 21, 'V': 22, 'W': 23, 'X': 24, 'Y': 25, 'Z': 26}
{'A': 1, 'E': 5, 'I': 9, 'O': 15, 'U': 21}


### Aplicaciones

Una aplicación usual de diccionarios es realizar conteos de frecuencia. En el siguiente ejemplo, el código cuenta cuántas veces aparece cada vocal en un *string*.

In [17]:
msg = 'supercalifragilisticoespialidoso'

# Crea un diccionario vacío para contabilizar las letras
vocales = dict()

for letra in msg:
    # Revisa si la letra es una vocal
    if letra not in 'aeiou':
        continue

    # Revisa si letra existe en el diccionario, si no la crea en 0
    if letra not in vocales:
        vocales[letra] = 0

    vocales[letra] += 1  # si ya existe, agrega una cuenta mas

print(vocales)

{'u': 1, 'e': 2, 'a': 3, 'i': 6, 'o': 3}


## Defaultdicts

Los `defaultdicts` son diccionarios que nos permiten asignar un valor por defecto a cada *key* con la que se llama el diccionario. Esto nos ahorra el problema de tener que escribir código preocupándonos de los casos en que el valor que se intenta obtener el diccionario no existe. 

Los `defaultdicts` reciben una función (o un *callable*) que debe devolver el valor que se asignará por defecto. Esta función *no debe recibir parámetros*, puede realizar cualquier acción, y puede devolver cualquier objeto, el cual será asignado como valor para el respectivo *key* en el diccionario.
 
Por ejemplo, podemos rehacer el ejemplo de contar las vocales de un *string*.

In [18]:
from collections import defaultdict


msg = 'supercalifragilisticoespialidoso'

# Crea un defaultdict vacío.
vocales = defaultdict(int)

# Pasamos int como callable. El callable se va a llamar sin parámetros
# cada vez que se consulte por una key que no existe.
# En este caso, int() devolverá el valor por defecto de este tipo (0)

for letra in msg:
    if letra not in 'aeiou':  # Revisa si la letra es una vocal
        continue

    vocales[letra] += 1  # si ya existe, agrega una cuenta mas

print(vocales)

defaultdict(<class 'int'>, {'u': 1, 'e': 2, 'a': 3, 'i': 6, 'o': 3})


También podemos entregar una función que nosotros definamos. En este ejemplo, cada vez que una *key* no exista le asociará un número *random*.

In [19]:
from random import random


def funcion_default():
    return random()


diccionario = defaultdict(funcion_default)

print(diccionario)
diccionario['A']
print(diccionario)
diccionario['B']
print(diccionario)

defaultdict(<function funcion_default at 0x7f2f140c5240>, {})
defaultdict(<function funcion_default at 0x7f2f140c5240>, {'A': 0.39128544427128964})
defaultdict(<function funcion_default at 0x7f2f140c5240>, {'A': 0.39128544427128964, 'B': 0.5050053844110712})


**Puedes revisar el Ejercicio Propuesto 5.2 para practicar organización de información usando diccionarios.**

### Llaves permitidas en diccionarios

Los diccionarios están implementados a partir una estructura llamada *tabla de hash*. En esta estructura, existe una función matemática que se le aplica a la llave para saber en qué lugar debe guardar un determinado valor. Esa función se llama *función de hash*.

No todo elemento puede ser usado como llave en un diccionario. El primer requisito es que las llaves **deben ser únicas** (no pueden repetirse), de lo contrario podría pasar que dos valores queden asociados a la misma llave. El segundo requisito es que la llave debe ser [*hasheable*](https://docs.python.org/3/glossary.html#term-hashable), es decir, que se le pueda entregar a la *función de hash*.

Un objeto es _hasheable_ si:
1. Implementa la función [`__hash__`](https://docs.python.org/3/reference/datamodel.html#object.__hash__). Esta función retorna un entero, y sirve de entrada para la función de *hash* de la *tabla de hash*.
2. El valor que retorna `__hash__` **no cambia** durante el ciclo de vida del objeto.
3. Implementa la función [`__eq__`](https://docs.python.org/3/reference/datamodel.html#object.__eq__). Esta función compara dos objetos y retorna `True` si éstos deben ser considerados iguales.
4. Si dos objetos son iguales según la función `__eq__`, entonces el valor que retorna `__hash__` debe ser el mismo. No es necesario que esto se cumpla al revés. 

En particular, todos los *built-ins* de Python que son **inmutables** son *hasheables*. Esto significa que tipos como `int`, `str` o `tuple` se pueden usar como llave en un diccionario. Por el contrario, todos los *built-ins* mutables no son *hasheables*, por lo que tipos como `list` no pueden ser ocupados como llave.

En el ejemplo de abajo, inicializamos dos *strings* iguales. Primero, vemos que su valor de *hash* es igual. También vemos que son iguales. Recordemos que el hecho de que dos objetos sean iguales **no significa** que sean el mismo, esto lo podemos ver usando la sentencia `is` que retorna `True` sólo si dos variables apuntan al mismo objeto.

In [20]:
hello_1 = "Hello world"
hello_2 = "Hello world"

print(f"Hash de hello_1: {hash(hello_1)}")
print(f"Hash de hello_2: {hash(hello_2)}")
print(f"¿Son iguales? {hello_1 == hello_2}")
print(f"¿Son el mismo objeto? {hello_1 is hello_2}")

Hash de hello_1: -7674084213483585334
Hash de hello_2: -7674084213483585334
¿Son iguales? True
¿Son el mismo objeto? False


\* Notar que una tupla es *hasheable* sólo si todos los valores que contiene son *hasheables*. Por ejemplo, una tupla que contiene una lista en su interior no es *hasheable*.

In [21]:
tupla = (0, 1, [2, 3])
hash(tupla)

TypeError: unhashable type: 'list'

Las instancias de clases creadas por el usuario son *hasheables* por defecto, puesto que la función `__hash__` retorna un valor único y fijo para cada instancia. Además, la función `__eq__` devuelve `True` sólo si corresponde exactamente al mismo objeto, por lo que no necesitamos que el valor de `__hash__` sea igual al de ningún otro objeto.

Podemos ver que los objetos de clases personalizadas son *hasheables* incluso si almacenan valores no *hasheables* en alguno de sus atributos:

In [22]:
class Dummy:

    def __init__(self, x, y):
        self.x = x
        self.y = y


dummy_0 = Dummy(4, 5)
dummy_1 = Dummy(0, [1, 2])
dummy_2 = Dummy("Hello", ["World", "Hold on"])

print(f"Hash de dummy_0: {hash(dummy_0)}")
print(f"Hash de dummy_1: {hash(dummy_1)}")
print(f"Hash de dummy_2: {hash(dummy_2)}")

Hash de dummy_0: 8740011188435
Hash de dummy_1: 8740011150201
Hash de dummy_2: 8740011110052


Esto ocurre porque, en instancias, el valor del *hash* **no depende** de los valores de los atributos de la instancia.

In [23]:
dummy_1.x = 33
print(f"Hash de dummy_1: {hash(dummy_1)}")

Hash de dummy_1: 8740011150201


Por último, los valores del *hash* para cada objeto son únicos (aunque los valores de los atributos sean iguales).

In [24]:
dummy_3 = Dummy("Hello", ["World", "Hold on"])
print(f"Hash de dummy_3: {hash(dummy_3)}")

Hash de dummy_3: 8740011193858


### Valores permitidos en diccionarios

Para el caso de los valores que puede contener un diccionario, no hay restricciones. Los valores pueden ser mutables o inmutables, *hasheables* o no, e incluso pueden incluir otros diccionarios. Como en Python todo es un objeto, se pueden incluso guardar funciones y clases.

**Puedes revisar el Ejercicio Propuesto 5.3 para practicar uso avanzado de diccionarios.**