<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="./figures/cover-small.jpg">

*Este libro es una versión al español de [Python for Everybody](https://www.py4e.com/) escrito por el [Dr. Charles R. Severance](http://www.dr-chuck.com/); este contenido esta disponible en [GitHub](https://github.com/csev/py4e).*

Detalles de Copyright

*Copyright ~ 2009- Charles Severance.
Este trabajo está registrado bajo una Licencia Creative Commons AttributionNonCommercial-ShareAlike 3.0 [CC BY-NC-SA](https://creativecommons.org/licenses/by-nc-sa/3.0/).*

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 8 - Listas](cap08.ipynb) | [Capítulo 10 - Tuplas](cap10.ipynb) >

# Capítulo 9 - Diccionarios

Un diccionario es como una lista, pero más general. En una lista, las posiciones del índice deben ser enteros; en un diccionario, los índices pueden ser (casi) cualquier tipo.

Puede pensar en un diccionario como un mapeo entre un conjunto de índices (que se llaman claves) y un conjunto de valores. Cada clave se asigna a un valor. La asociación de una clave y un valor se denomina *par clave-valor* o, a veces, un elemento.

Como ejemplo, construiremos un diccionario que correlacione palabras de inglés a español, por lo que las claves y los valores son todas las cadenas.

La función `dict` crea un nuevo diccionario sin elementos. Debido a que `dict` es el nombre de una función incorporada, debe evitar usarlo como un nombre de variable.

In [1]:
eng2sp = dict()
print(eng2sp)

{}


Los corchetes, `{}` representan un diccionario vacío. Para agregar elementos al diccionario, puede usar corchetes:

In [2]:
eng2sp['one'] = 'uno'

Esta línea crea un elemento que se correlaciona desde la clave 'one' con el valor "uno". Si imprimimos el diccionario nuevamente, vemos un par clave-valor con dos puntos entre la clave y el valor:

In [3]:
print(eng2sp)

{'one': 'uno'}


Este formato de salida también es un formato de entrada. Por ejemplo, puede crear un nuevo diccionario con tres elementos. Pero si imprime `eng2sp`, se sorprenderá:

In [4]:
eng2sp = {'one': 'uno', 'two': 'dos', 'three': 'tres'}
print(eng2sp)

{'one': 'uno', 'two': 'dos', 'three': 'tres'}


En general, el orden de los elementos en un diccionario es impredecible.

Pero eso no es un problema porque los elementos de un diccionario nunca se indexan con índices enteros. En cambio, usa las claves para buscar los valores correspondientes:

In [5]:
print(eng2sp['two'])

dos


La clave `'two'` siempre se asigna al valor `'dos'`, por lo que el orden de los elementos no importa.

Si la clave no está en el diccionario, obtienes una excepción:

In [6]:
print(eng2sp['four'])

KeyError: 'four'

La función `len` funciona en diccionarios; devuelve el número de pares clave-valor:

In [7]:
 len(eng2sp)

3

El operador in trabaja en diccionarios; le dice si algo aparece como una clave en el diccionario (aparecer como un valor no es lo suficientemente bueno).

In [8]:
'one' in eng2sp

True

In [9]:
 'uno' in eng2sp

False

Para ver si algo aparece como un valor en un diccionario, puede usar el método `values`, que devuelve los valores como una lista, y luego usar el operador `in`:

In [10]:
vals = list(eng2sp.values())
'uno' in vals

True

El operador `in` usa diferentes algoritmos para listas y diccionarios. Para las listas, usa un algoritmo de búsqueda lineal. A medida que la lista se alarga, el tiempo de búsqueda se alarga en proporción directa a la longitud de la lista. Para los diccionarios, Python usa un algoritmo llamado tabla hash que tiene una propiedad notable: el operador `in` tarda aproximadamente la misma cantidad de tiempo sin importar cuántos elementos haya en un diccionario. No explicaré por qué las funciones hash son tan mágicas, pero puedes leer más sobre esto en www.wikipedia.org/wiki/Hash_table.

**Ejercicio 1:** Escriba un programa que lea las palabras en `words.txt` y las almacene como claves en un diccionario. No importa cuáles sean los valores. Luego puede usar el operador `in` como una forma rápida de verificar si una cadena está en el diccionario.

## Diccionario como una lista de contenedores

Supongamos que le dan una cadena y quiere contar cuántas veces aparece cada letra. Hay varias formas en que puede hacerlo:
1. Puede crear 26 variables, una para cada letra del alfabeto. Luego puede recorrer la cadena y, para cada carácter, incrementar el contador correspondiente, probablemente utilizando un condicional encadenado.
2. Podrías crear una lista con 26 elementos. Luego puede convertir cada carácter en un número (usando la función incorporada ord), usar el número como índice en la lista e incrementar el contador apropiado.
3. Puede crear un diccionario con caracteres como claves y contadores como los valores correspondientes. La primera vez que vea un personaje, agregará un elemento al diccionario. Después de eso, aumentaría el valor de un elemento existente.

Cada una de estas opciones realiza el mismo cálculo, pero cada una de ellas implementa ese cálculo de una manera diferente.

Una implementación es una forma de realizar un cálculo; algunas implementaciones son mejores que otras. Por ejemplo, una ventaja de la implementación del diccionario es que no tenemos que saber con anticipación qué letras aparecen en la cadena y solo tenemos que dejar espacio para las letras que sí aparecen.

Aquí es cómo se vería el código:

In [11]:
palabra = 'brontosaurio'
d = dict()
for c in palabra:
    if c not in d:
        d[c] = 1
    else:
        d[c] = d[c] + 1
print(d)

{'b': 1, 'r': 2, 'o': 3, 'n': 1, 't': 1, 's': 1, 'a': 1, 'u': 1, 'i': 1}


Estamos calculando efectivamente un histogram , que es un término estadístico para un conjunto de contadores (o frecuencias).

El bucle `for` atraviesa la cadena. Cada vez que `c` pasa el ciclo, si el caracter no está en el diccionario, creamos un nuevo elemento con clave `c` y el valor inicial `1` (ya que hemos visto esta letra una vez). Si `c` ya está en el diccionario aumentamos `d[c]`.

El histograma indica que las letras `a` y `b` aparecen una vez; `o` aparece dos veces, y así sucesivamente.

Los diccionarios tienen un método llamado `get` que toma una clave y un valor predeterminado. Si la clave aparece en el diccionario, `get` devuelve el valor correspondiente; de lo contrario, devuelve el valor predeterminado. Por ejemplo:

In [12]:
counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
print(counts.get('jan', 0))
print(counts.get('tim', 0))

100
0


Podemos usar `get` para escribir nuestro ciclo de histograma de manera más concisa. Debido a que el método `get` maneja automáticamente el caso donde una clave no está en un diccionario, podemos reducir cuatro líneas a una y eliminar la declaración `if`.

In [13]:
palabra = 'brontosaurio'
d = dict()
for c in palabra:
 d[c] = d.get(c,0) + 1
print(d)

{'b': 1, 'r': 2, 'o': 3, 'n': 1, 't': 1, 's': 1, 'a': 1, 'u': 1, 'i': 1}


El uso del método `get` para simplificar este ciclo de recuento termina siendo un "modismo" muy utilizado en Python y lo usaremos muchas veces en el resto del libro. Así que deberías tomarte un momento y comparar el ciclo usando la instrucción `if` y el operador `in` con el ciclo usando el método `get`. Hacen exactamente lo mismo, pero uno es más sucinto.

## Diccionarios y archivos

Uno de los usos comunes de un diccionario es contar la ocurrencia de palabras en un archivo con algún texto escrito. Comencemos con un archivo de palabras muy simple tomado del texto de Romeo y Julieta.

Para el primer conjunto de ejemplos, utilizaremos una versión abreviada y simplificada del texto sin puntuación. Más tarde trabajaremos con el texto de la escena con puntuación incluida.

    But soft what light through yonder window breaks
    It is the east and Juliet is the sun
    Arise fair sun and kill the envious moon
    Who is already sick and pale with grief

Escribiremos un programa de Python para leer las líneas del archivo, dividir cada línea en una lista de palabras, y luego recorrer cada una de las palabras en la línea y contar cada palabra usando un diccionario.

Verás que tenemos dos bucles `for`. El bucle externo está leyendo las líneas del archivo y el bucle interno está iterando a través de cada una de las palabras en esa línea particular. Este es un ejemplo de un patrón llamado bucles anidados porque uno de los bucles es el bucle externo y el otro bucle es el bucle interno.

Debido a que el bucle interno ejecuta todas sus iteraciones cada vez que el bucle externo realiza una sola iteración, pensamos que el bucle interno itera "más rápidamente" y el bucle externo se itera más lentamente.

La combinación de los dos bucles anidados asegura que vamos a contar cada palabra en cada línea del archivo de entrada.

In [14]:
fname = input('Ingresa el nombre de archivo: ')
try:
    fhand = open(fname)
except:
    print('No se puede abrir el archivo:', fname)
    exit()

counts = dict()
for linea in fhand:
    palabras = linea.split()
    for palabra in palabras:
        if palabra not in counts:
            counts[palabra] = 1
    else:
        counts[palabra] += 1
print(counts)

Ingresa el nombre de archivo: ./codes/romeo.txt
{'But': 1, 'soft': 1, 'what': 1, 'light': 1, 'through': 1, 'yonder': 1, 'window': 1, 'breaks': 2, 'It': 1, 'is': 1, 'the': 1, 'east': 1, 'and': 1, 'Juliet': 1, 'sun': 2, 'Arise': 1, 'fair': 1, 'kill': 1, 'envious': 1, 'moon': 2, 'Who': 1, 'already': 1, 'sick': 1, 'pale': 1, 'with': 1, 'grief': 2}


Cuando ejecutamos el programa, vemos un volcado sin procesar de todos los conteos en orden de hash sin clasificar (el archivo `romeo.txt` está disponible en www.py4e.com/code3/romeo.txt).

Es un poco incómodo consultar el diccionario para encontrar las palabras más comunes y sus recuentos, por lo que debemos agregar un poco más de código Python para obtener el resultado que será más útil.

## Ciclos y diccionarios

Si utiliza un diccionario como secuencia en una instrucción `for`, atraviesa las claves del diccionario. Este ciclo imprime cada clave y el valor correspondiente:

In [15]:
counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
for clave in counts:
    print(clave, counts[clave])

chuck 1
annie 42
jan 100


Podemos utilizar este patrón para implementar los distintos modismos de bucle que hemos descrito anteriormente. Por ejemplo, si quisiéramos encontrar todas las entradas en un diccionario con un valor superior a diez, podríamos escribir el siguiente código:

In [16]:
counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
for clave in counts:
    if counts[clave] > 10 :
        print(clave, counts[clave])


annie 42
jan 100


El ciclo `for` itera a través de las teclas del diccionario, por lo que debemos usar el operador de índice para recuperar el valor correspondiente para cada clave.

Solo vemos las entradas con un valor superior a 10.

Si desea imprimir las teclas en orden alfabético, primero haga una lista de las claves en el diccionario utilizando el método `keys` disponible en los objetos del diccionario, luego ordene esa lista y recorra la lista ordenada, busque cada clave e imprima la clave-valor de pares en ordenados de la siguiente manera:

In [17]:
counts = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
lst = list(counts.keys())
print(lst)
lst.sort()
for clave in lst:
    print(clave, counts[clave])

['chuck', 'annie', 'jan']
annie 42
chuck 1
jan 100


Primero, ve la lista de claves en orden no ordenado que obtenemos del método keys. Luego vemos los pares clave-valor en orden desde el bucle `for`.

## Analisis de texto avanzado

En el ejemplo anterior usando el archivo `romeo.txt`, hicimos el archivo lo más simple posible eliminando todos los signos de puntuación a mano. El texto real tiene muchos signos de puntuación, como se muestra a continuación.

    But, soft! what light through yonder window breaks?
    It is the east, and Juliet is the sun.
    Arise, fair sun, and kill the envious moon,
    Who is already sick and pale with grief,

Dado que la función `split` de Python busca espacios y trata las palabras como tokens separados por espacios, trataremos las palabras "soft!" y "soft" como diferentes palabras y crea una entrada de diccionario por separado para cada palabra.

Además, dado que el archivo tiene mayúsculas, trataremos "Who" y "who" como palabras diferentes con recuentos diferentes.

Podemos resolver estos dos problemas mediante el uso de los métodos de las cadenas `lower`, `punctuation` y `translate`. `El translate` es el más sutil de los métodos. Aquí está la documentación para translate:

    line.translate(str.maketrans(fromstr, tostr, deletestr))

Reemplace los caracteres `fromstr` con el carácter en la misma posición `tostr` y elimine todos los caracteres que están en `deletestr`. El `fromstr` y `tostr` pueden ser cadenas vacías y el `deletestr` un parámetro se puede omitir.

No especificaremos la tabla pero utilizaremos el parámetro `deletechars` para eliminar toda la puntuación. Incluso dejaremos que Python nos diga la lista de caracteres que considera "puntuación":

In [18]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

Los parámetros utilizados por `translate` son diferentes en Python 2.0.

Hacemos las siguientes modificaciones a nuestro programa:

In [19]:
import string
fname = input('Ingresa el nombre de archivo: ')

try:
    fhand = open(fname)
except:
    print('No se puede abrir el archivo:', fname)
    exit()

counts = dict()
for linea in fhand:
    linea = linea.rstrip()
    linea = linea.translate(linea.maketrans('', '', string.punctuation))
    linea = linea.lower()
    palabras = linea.split()
    for palabra in palabras:
        if palabra not in counts:
            counts[palabra] = 1
        else:
            counts[palabra] += 1
print(counts)

Ingresa el nombre de archivo: ./codes/romeo.txt
{'but': 1, 'soft': 1, 'what': 1, 'light': 1, 'through': 1, 'yonder': 1, 'window': 1, 'breaks': 1, 'it': 1, 'is': 3, 'the': 3, 'east': 1, 'and': 3, 'juliet': 1, 'sun': 2, 'arise': 1, 'fair': 1, 'kill': 1, 'envious': 1, 'moon': 1, 'who': 1, 'already': 1, 'sick': 1, 'pale': 1, 'with': 1, 'grief': 1}


Parte de aprender el "Arte de Python" o "Pensar Pythonically" es darse cuenta de que Python a menudo tiene capacidades incorporadas para muchos problemas comunes de análisis de datos. Con el tiempo, verá suficiente código de ejemplo y leerá la documentación suficiente como para saber dónde buscar para ver si alguien ya ha escrito algo que facilite su trabajo.

Mirar a través de esta salida todavía es difícil de manejar y podemos usar Python para darnos cuenta exactamente lo que estamos buscando, pero para hacerlo, necesitamos aprender sobre las tuplas de Python. Retomaremos este ejemplo una vez que aprendamos sobre las tuplas.

## Depuración

A medida que trabajas con conjuntos de datos más grandes, puede resultar difícil de depurar imprimiendo y verificando los datos a mano. Aquí hay algunas sugerencias para depurar conjuntos de datos grandes:

**Escalar la entrada:** 
Si es posible, reduzca el tamaño del conjunto de datos. Por ejemplo, si el programa lee un archivo de texto, comience con solo las primeras 10 líneas, o con el ejemplo más pequeño que pueda encontrar. Puede editar los archivos por sí mismo o (mejor) modificar el programa para que solo lea las primeras `n` líneas.

Si hay un error, puede reducir `n` al valor más pequeño que manifiesta el error, y luego aumentarlo gradualmente a medida que encuentre y corrija los errores.

**Ver resúmenes y tipos:**
En lugar de imprimir y verificar todo el conjunto de datos, considere imprimir resúmenes de los datos: por ejemplo, la cantidad de elementos en un diccionario o el total de una lista de números.

Una causa común de errores de tiempo de ejecución es un valor que no es del tipo correcto. Para depurar este tipo de error, a menudo es suficiente imprimir el tipo de un valor.

**Escribir autocomprobaciones:**
Algunas veces puede escribir código para verificar errores automáticamente. Por ejemplo, si está calculando el promedio de una lista de números, puede verificar que el resultado no sea mayor que el elemento más grande de la lista o menor que el más pequeño. Esto se denomina "comprobación de cordura" porque detecta resultados que son "completamente ilógicos".

**Impresión de la salida bonita:**
Formatear la salida de depuración puede hacer que sea más fácil detectar un error.
De nuevo, el tiempo que dedicas a construir andamios puede reducir el tiempo que pasas depurando.

## Glosario

* **diccionario:** Una asignación de un conjunto de claves a sus valores correspondientes.
* **tabla hash:** El algoritmo utilizado para implementar diccionarios de Python.
* **función hash:** Una función utilizada por una tabla hash para calcular la ubicación de una clave.
* **histograma** Un conjunto de contadores.
* **implementación: ** Una forma de realizar un cálculo.
* **llave:** Un objeto que aparece en un diccionario como la primera parte de un par clave-valor.
* **par clave-valor:** La representación de la asignación de una clave a un valor.
* **buscar:** Una operación de diccionario que toma una clave y encuentra el valor correspondiente.
* **bucles anidados:** Cuando hay uno o más bucles "dentro" de otro bucle. El bucle interno se ejecuta hasta completarse cada vez que el bucle externo se ejecuta una vez.
* **valor:** Un objeto que aparece en un diccionario como la segunda parte de un par clave-valor. Esto es más específico que nuestro uso anterior de la palabra "valor".

## Ejercicios

**Ejercicio 2:** escriba un programa que clasifique cada mensaje de correo por el día de la semana en que se realizó el compromiso. Para hacer esto, busque líneas que comiencen con "From", luego busque la tercera palabra y lleve un recuento continuo de cada uno de los días de la semana. Al final del programa, imprima el contenido de su diccionario (el orden no importa).

Línea de muestra:

    From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

Ejecución de muestra:

    python dow.py
    Ingresa el nombre de archivo: mbox-short.txt
    {'Fri': 20, 'Thu': 6, 'Sat': 1}

**Ejercicio 3:** escriba un programa para leer un registro de correo, cree un histograma usando un diccionario para contar cuántos mensajes provienen de cada dirección de correo electrónico e imprima el diccionario.

    Ingresa el nombre de archivo: mbox-short.txt
    {'gopal.ramasammycook@gmail.com': 1, 'louis@media.berkeley.edu': 3,
    'cwen@iupui.edu': 5, 'antranig@caret.cam.ac.uk': 1,
    'rjlowe@iupui.edu': 2, 'gsilver@umich.edu': 3,
    'david.horwitz@uct.ac.za': 4, 'wagnermr@iupui.edu': 1,
    'zqian@umich.edu': 4, 'stephen.marquard@uct.ac.za': 2,
    'ray@media.berkeley.edu': 1}

**Ejercicio 4:** agregue código al programa anterior para descubrir quién tiene la mayor cantidad de mensajes en el archivo.

Una vez que se han leído todos los datos y se ha creado el diccionario, consulte el diccionario utilizando la función `max` para encontrar quién tiene más mensajes e imprimir cuántos mensajes tiene la persona.

    Ingresa el nombre de archivo: mbox-short.txt
    cwen@iupui.edu 5

    Ingresa el nombre de archivo: mbox.txt
    zqian@umich.edu 195

**Ejercicio 5:** este programa registra el nombre de dominio (en lugar de la dirección) desde donde se envió el mensaje, en lugar de quién vino el correo (es decir, toda la dirección de correo electrónico). Al final del programa, imprima los contenidos de su diccionario.

    python schoolcount.py
    Ingresa el nombre de archivo: mbox-short.txt
    {'media.berkeley.edu': 4, 'uct.ac.za': 6, 'umich.edu': 7,
    'gmail.com': 1, 'caret.cam.ac.uk': 1, 'iupui.edu': 8}

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 8 - Listas](cap08.ipynb) | [Capítulo 10 - Tuplas](cap10.ipynb) >