# Diccionarios
<a href="https://colab.research.google.com/github/milocortes/diplomado_ciencia_datos_mide/blob/edicion-2024/talleres/dictionaries_mide_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
![hash_table.png](attachment:hash_table.png)
source: https://khalilstemmler.com/blogs/data-structures-algorithms/hash-tables/


## Diccionarios

Diccionarios es el nombre de Python para arreglos o mapeos asociativos, que implementa mediante el uso de tablas hash.

Los diccionarios son increíblemente útiles, incluso en programas simples.

## ¿Qué es un diccionario?

Una buena forma de empezar a entender el uso de los diccionarios es compararlos con listas:

* Se accede a los valores en las listas por medio de números enteros llamados **índices**, que indican en qué parte de la lista se encuentra un valor dado.
* Los diccionarios acceden a los valores por medio de números enteros, cadenas u otros objetos de Python llamados **llave**, que indican en qué parte del diccionario se encuentra un valor determinado. El mecanismo que utilizan los diccionarios para proporcionar acceso indizado es bastante diferente del que utilizan las listas.
* Tanto las listas como los diccionarios pueden almacenar objetos de cualquier tipo..
* Los valores almacenados en una lista están implícitamente *ordenados* por sus posiciones en la lista, porque los índices que acceden a estos valores son enteros consecutivos. Los valores almacenados en un diccionario *no* están ordenados implícitamente entre sí porque las claves del diccionario no son solo números.

El uso de diccionarios y listas a menudo parece ser el mismo. Un diccionario vacío se crea como una lista vacía, pero con corchetes en lugar de corchetes cuadrados:

In [2]:
x = [] # lista vacia
type(x)

list

In [3]:
y = {} # diccionario vacio
type(y)

dict

Después de crear un diccionario, puede almacenar valores en él como si fuera una lista:

In [5]:
y = {"uno" : 1, "dos" : 2}
y["uno"]

1

In [10]:
y

{'uno': 1, 'dos': 2}

In [11]:
y["tres"] = 3
y

{'uno': 1, 'dos': 2, 'tres': 3}

In [18]:
y[4] = "cuatro"
y[(98.56,45.97)] = "Chapultepec"
y

{'uno': 1, 'dos': 2, 'tres': 3, 4: 'cuatro', (98.56, 45.97): 'Chapultepec'}

In [14]:
x = [1,2,3]
x.append(2100)
x

[1, 2, 3, 2100]

Intentar hacer lo mismo con una lista daría como resultado un error, porque en python es ilegal asignar una posición que no existe en una lista.

Habiendo almacenado algunos valores en el diccionario, ahora puede acceder a ellos y usarlos:

La gran diferencia con respecto a las listas: almacena (y usa) algunos valores con llaves que no son números enteros:

Mientras que los índices de lista deben ser números enteros, las llaves de los diccionario están mucho menos restringidas: pueden ser números, strings, y una amplia gama mas de otros objetos de Python.

Tiene más sentido implementar un directorio telefónico con diccionarios que con una lista porque el número de teléfono de una persona puede almacenarse utilizando como llave el apellido de esa persona.

**Un diccionario es una forma de asignar una asociación entre un conjunto de objetos arbitrarios a otro conjunto de objetos igualmente arbitrario**


Un diccionario de traducción es un buen ejemplo:

In [19]:
ingles_a_espaniol = {}

ingles_a_espaniol["red"] = "rojo"
ingles_a_espaniol["azul"] = "azul"
ingles_a_espaniol

{'red': 'rojo', 'azul': 'azul'}

In [20]:
ingles_a_espaniol = {"red" : "rojo", "blue": "azul"}
ingles_a_espaniol

{'red': 'rojo', 'blue': 'azul'}

In [22]:
ingles_a_espaniol.values()


dict_values(['rojo', 'azul'])

In [25]:
for key,value in ingles_a_espaniol.items():
  print(f"La llave es {key} y su valor es {value}")

La llave es red y su valor es rojo
La llave es blue y su valor es azul


In [28]:
"orange" in ingles_a_espaniol

False

In [30]:
if "orange" in ingles_a_espaniol:
  ingles_a_espaniol["orange"]

In [38]:
resultado = ingles_a_espaniol.get("orange", "No existe traducción")
resultado

'No existe traducción'

In [41]:
ingles_a_espaniol.setdefault("orange", "naranja")


'naranja'

In [42]:
ingles_a_espaniol

{'red': 'rojo', 'blue': 'azul', 'orange': 'naranja'}

In [35]:
type(None)

NoneType

## Otras operaciones con diccionarios

Puede definir un diccionario explícitamente como una serie de parejas llave-valor separados por comas:

In [47]:
x = { 0 : "cero", 1 : "uno"}
y = x.copy()
y[1] = "cien"

x


{0: 'cero', 1: 'uno'}

In [58]:
z = {1 : "Uno", 2 : "Dos"}
x = {0 : "Cero", 1 : "uno", 3 : "Tres"}
z.update(x)
z

{1: 'uno', 2: 'Dos', 0: 'Cero', 3: 'Tres'}

In [None]:
agenda = {
    "Juan" : {
        "casa" : "232323",
        "oficina" : "6767668"
    },
    "Helena" : {
        "casa" : "576767",
        "oficina" : "56667"
    }
}

In [59]:
import pandas as pd

pd.DataFrame([[1,2], [3,4], [5,7]] , columns = ["a", "b"])

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,7


In [64]:
df = pd.DataFrame(
    {
        "clave" : ["01", "02", "03"],
        "edo" : ["aguascalientes", "Baja Norte", "Baja Sur"]
    }
)
{i:j for i,j in df.to_records(index = False)}

{'01': 'aguascalientes', '02': 'Baja Norte', '03': 'Baja Sur'}

In [56]:
del z[1]

KeyError: 1

In [55]:
z

{2: 'Dos', 0: 'Cero'}

In [67]:
{("Juan", "12121989", "México") : "CUEDEN2323",
 ("Juan", "12121989", "Canadá") : "FEBINBINT5"}

{('Juan', '12121989', 'México'): 'CUEDEN2323',
 ('Juan', '12121989', 'Canadá'): 'FEBINBINT5'}

<code>len</code> devuelve el número de parejas en un diccionario:

Puedes obtener todas las claves del diccionario con el método <code>keys</code>.

También es posible obtener todos los valores almacenados en un diccionario usando  <code>values</code>:

Puede usar el método <code>items</code> para devolver todas las llaves y sus valores asociados como una secuencia de tuplas:

Intentar acceder a una clave que no está en un diccionario es un error en Python

Para manejar este error, puede probar si la llave se encuentra en el diccionario con la palabra reservada <code>in</code>, que devuelve <code>True</code> si un diccionario tiene un valor almacenado bajo la llave dada y <code>Falso</code> en caso contrario:

Alternativamente, se puede utilizar la función <code>get</code>. Esta función devuelve el valor asociado
con una llave si el diccionario contiene esa clave, pero devuelve su segundo argumento si el
el diccionario no contiene la clave:

El segundo argumento es opcional. Si la llave no se encuentra en el diccionario, <code>get</code> devuelve <code>None</code>.

Si se desea obtener de forma segura el valor de una clave y asegurarse de que esté definida en un valor
predeterminado en el diccionario, se puede usar el método <code>setdefault</code>:


La diferencia entre <code>get</code> y <code>setdefault</code> es que después de la llamada a <code>setdefault</code>, hay una llave en el diccionario 'orange' con el valor 'naranja'.

Puede obtener una copia de un diccionario utilizando el método de <code>copy</code>:

Este método hace una copia superficial (*shallow copy*) del diccionario, que probablemente sea todo lo que necesite en la mayoría de las situaciones.


Para los diccionarios que contienen objetos modificables como valores (por ejemplo, una lista u otros diccionarios), es posible que desee realizar una copia en profundidad (*deepcopy*) mediante el método <code>deepcopy</code>

El método <code>update</code> actualiza un primer diccionario con todas las parejas llave-valor de un segundo diccionario. Para las llaves que son comunes a ambos diccionarios, los valores del segundo diccionario sobreescriben a los valores del primero:

Los métodos de diccionario brindan un conjunto completo de herramientas para manipular y usar diccionarios. Para una referencia rápida, la siguiente tabla enumera algunas de las principales funciones del diccionario.
![dictionaries_operations.png](attachment:dictionaries_operations.png)

## Conteo de palabras
Suponga que tenemos un archivo que contiene una lista de palabras, una palabra por línea. Queremos saber cuántas veces aparece cada palabra en el archivo. Podemos usar los diccionarios para realizar esta tarea.

## ¿Qué se puede utilizar como llave?

Los ejemplos anteriores usan cadenas como claves, pero Python permite usar más que solo cadenas de esta manera. Cualquier objeto de Python que sea inmutable y hashable se puede usar como llave para un diccionario.

En Python, un objeto que se puede modificar se denomina **mutable**. Ejemplos:

* Listas
* Diccionarios


Los enteros, cadenas y tuplas son **inmutables**. De manera que podemos usarlos como llaves.

Hay una restricción adicional: la llave también debe ser hashable. Para ser hashable, un valor debe tener un valor hash (proporcionado por un método <code>__hash__</code>) que nunca cambia a lo largo de la vida del valor.

Eso significa que las tuplas que contienen valores mutables **no** se pueden modificar, aunque las tuplas mismas son técnicamente inmutables.

La siguiente tabla ilustra cuáles de los tipos incorporados de Python son inmutables, hashables y elegibles para ser claves de diccionario:

![dictionaries_keys.png](attachment:dictionaries_keys.png)

## Matrices dispersas

Se presenta un ejemplo de cómo las tuplas y los diccionarios pueden funcionar juntos.

En términos matemáticos, una **matriz** es una grid bidimensional de números, generalmente definida en los libros de texto como un grid con corchetes a cada lado.

\begin{bmatrix}
    3 & 0 & -2 & 11 \\
    0 & 9 &  0 & 0 \\
    0 & 7 &  0 & 0 \\
    0 & 0 &  0 & -5     
\end{bmatrix}

Una forma bastante estándar de representar una matriz de este tipo es mediante una lista de listas. En Python, una matriz se presenta así:

Se puede acceder a los elementos de la matriz por número de fila y columna:

<code>element  = matrix[rownum][colnum</code>

En algunas aplicaciones, como el pronóstico del tiempo, es común que las matrices sean muy grandes. También es común que tales matrices contengan muchos elementos iguales a cero.

Para conservar la memoria, es común que dichas matrices se almacenen en una forma en la que solo se almacenan los elementos distintos de cero. Tal representación se denomina **matrices dispersas**.

Es simple implementar matrices dispersas usando diccionarios con tuplas como llaves. La matriz dispersa anterior se puede representar de la siguiente manera:

Ahora se puede acceder a un elemento de matriz individual en una fila y un número de columna dados con este código: