# Diccionarios

Un diccionario es similar a una lista, pero más general. En una lista, las posiciones
de los índices deben ser enteros; en un diccionario, los índices pueden ser de (casi)
cualquier tipo.

Puedes pensar en un diccionario como una asignación entre un conjunto de índices
(a los cuales se les llama claves) y un conjunto de valores. Cada clave apunta a
un valor. La asociación de una clave y un valor recibe el nombre de pareja clave-valor,
o a veces elemento.

Por ejemplo, hemos construido un diccionario que asocia palabras inglesas con
sus equivalentes en español, de modo que tanto claves como valores son cadenas.

In [1]:
eng2sp=dict()
print(eng2sp)

{}


Las llaves {}, representan un diccionario vacío. Para añadir elementos al diccionario,
se pueden usar corchetes:

In [2]:
eng2sp['one']='uno'

Esta línea crea un elemento con la clave ’one’ que apunta al valor 'uno'. Si imprimimos
el diccionario de nuevo, veremos una pareja clave-valor con dos-puntos
entre la clave y el valor:

In [3]:
print(eng2sp)

{'one': 'uno'}


Este formato de salida es también un formato de entrada. Por ejemplo, puedes
crear un nuevo diccionario con tres elementos:

In [13]:
eng2sp={'one':'uno','two':'dos','three':'tres',"four":"cuatro"}

In [14]:
#Llaves
eng2sp.keys()

dict_keys(['one', 'two', 'three', 'four'])

In [15]:
#Valores
eng2sp.values()

dict_values(['uno', 'dos', 'tres', 'cuatro'])

Para eliminar un elemento del diccionario

In [16]:
del eng2sp["four"]

In [17]:
eng2sp

{'one': 'uno', 'two': 'dos', 'three': 'tres'}

En general, el orden de los elementos en un diccionario es impredecible. Pero eso no es un problema, porque los elementos de un diccionario nunca son indexados por índices enteros. En lugar de eso, se usan las claves para buscar los valores correspondientes:

In [18]:
eng2sp['two']

'dos'

La clave ’two’ siempre apunta al valor 'dos', de modo que el orden de los
elementos no importa.

Si la clave especificada no está en el diccionario, se obtiene una excepción:

In [18]:
print(eng2sp['four'])

KeyError: 'four'

La función len funciona en los diccionarios; devuelve el número de parejas clavevalor:

In [19]:
len(eng2sp)

3

El operador in también funciona en los diccionarios; te dice si algo aparece como
clave en el diccionario (que aparezca como valor no es suficiente).

In [20]:
'one' in eng2sp

True

In [21]:
'uno' in eng2sp

False

Para ver si algo aparece como valor en un diccionario, se puede usar el método
values, que devuelve los valores como una lista, y después usar el operador in
sobre esa lista:

In [22]:
valores=eng2sp.values()
'uno' in valores

True

In [23]:
print(valores)

dict_values(['uno', 'dos', 'tres'])


In [31]:
data=open('words.txt')

In [33]:
dic_pal={}
for palabra in data:
    dic_pal[palabra]={}
dic_pal

{'hola\n': {},
 'seÃ±or\n': {},
 'israel\n': {},
 'maria\n': {},
 'pucho\n': {},
 'pulo\n': {},
 'entrenador\n': {},
 'casa\n': {},
 'departamento\n': {},
 'hospital\n': {}}

# Diccionario como un conjunto de contadores

Supongamos que te han dado una cadena y quieres contar cuántas veces aparece
cada letra. Hay varias formas de hacerlo

 Podrías crear un diccionario con los caracteres como claves y contadores
como sus valores correspondientes. La primera vez que veas un carácter,
añadirías un elemento al diccionario. Después, aumentarías el valor del elemento
ya existente.

Así es como podría programarse el código:

In [34]:
palabra='brontosaurio'
d=dict()
for c in palabra:
    if c not in d:
        d[c]=1
    else:
        d[c] += 1
print(d)

{'b': 1, 'r': 2, 'o': 3, 'n': 1, 't': 1, 's': 1, 'a': 1, 'u': 1, 'i': 1}


En realidad estamos realizando un histograma, que es un término estadístico para
un conjunto de contadores (o frecuencias).

El bucle for recorre la cadena. Cada vez que entra en el bucle, si el carácter c no
está en el diccionario, creamos un nuevo elemento con la clave c y el valor inicial
1 (ya que hemos encontrado esa letra una vez). Si c ya está en el diccionario,
incrementamos d[c].

Los diccionarios tienen un método llamado get que toma una clave y un valor por
defecto. Si la clave aparece en el diccionario, get devuelve el valor correspondiente;
si no, devuelve el valor por defecto. Por ejemplo:

In [36]:
contadores={'chuck':1,'annie':42,'jan':100}
print(contadores.get('jan','no esta'))

100


In [39]:
print(contadores.get('felipe',0)) # el valor por defecto es el segundo argumento de get, podria ser "0" o "no esta"

0


Podemos usar get para escribir nuestro bucle de histograma de forma más concisa.
Como el método get gestiona automáticamente el caso de que la clave no esté en
el diccionario, podemos reducir cuatro líneas a una sola y eliminar la sentencia if

In [40]:
palabra='brontosaurio'
d=dict()
for c in palabra:
    d[c]=d.get(c,0)+1  #d.get(c,0) en este caso entrega el valor numerico asociado a cada llave y si no esta le entrega un cero por defecto
print(d)

{'b': 1, 'r': 2, 'o': 3, 'n': 1, 't': 1, 's': 1, 'a': 1, 'u': 1, 'i': 1}


El uso del método get para simplificar este bucle de recuento al final resulta ser
un “estilo” que se usa en Python con mucha frecuencia, y lo utilizaremos muchas
veces en el resto del libro. Así que deberías pararte un momento y comparar el bucle
usando la sentencia if y el operador in con el mismo bucle usando el método
get. Hacen exactamente lo mismo, pero uno es más conciso.

## Diccionarios y Archivos

Uno de los usos más comunes de un diccionario es contar la aparición de palabras
en un archivo con texto escrito. Empecemos con un archivo muy sencillo de
palabras tomados del texto de Romeo and Juliet.

Para el primer conjunto de ejemplos, usaremos una versión acortada y simplificada
del texto, sin signos de puntuación. Más tarde trabajaremos con el texto completo
de la escena, con puntuación incluida.

Vamos a escribir un programa en Python para ir leyendo las líneas del archivo, dividir
cada línea en una lista de palabras, ir recorriendo esa lista y contar el número
de veces que aparece cada palabra, usando un diccionario.

Verás que tenemos dos bucles for. El bucle exterior va leyendo las líneas del
archivo, mientras que el interior va iterando a través de cada una de las palabras
de una línea concreta. Esto es un ejemplo de un diseño llamado bucles anidados,
ya que uno de los bucles es el exterior, y el otro es el interior.

Debido a que el bucle interior ejecuta todas sus iteraciones cada vez que el bucle
exterior realiza una sola, consideramos que el bucle interior va iterando “más
rápido” y que el exterior lo hace más lentamente.

La combinación de los dos bucles anidados garantiza que se cuentan todas las
palabras en cada línea del archivo de entrada.


In [3]:
nombref=input('Introduzca el nombre del fichero')
try:
    manf=open(nombref)
except:
    print('El fichero no se pudo abrir')

contadores=dict()

for linea in manf:
    palabras=linea.split()
    for palabra in palabras:
        if palabra not in contadores:
            contadores[palabra]=1
        else:
            contadores[palabra] += 1
            
print(contadores)

Introduzca el nombre del ficheroromeo.txt
{'But': 1, 'soft': 1, 'what': 1, 'light': 1, 'through': 1, 'yonder': 1, 'window': 1, 'breaks': 1, 'It': 1, 'is': 3, 'the': 3, 'east': 1, 'and': 3, 'Juliet': 1, 'sun': 2, 'Arise': 1, 'fair': 1, 'kill': 1, 'envious': 1, 'moon': 1, 'Who': 1, 'already': 1, 'sick': 1, 'pale': 1, 'with': 1, 'grief': 1}


Resulta un poco incómodo buscar a través del diccionario para encontrar cuál es
la palabra más común y su contador, de modo que necesitaremos añadir un poco
más de código para obtener una salida que nos resulte más ´util.


## Bucles y diccionarios

Si se utiliza un diccionario como secuencia en una sentencia for, ésta recorrerá
todas las claves del diccionario. Este bucle imprime cada clave y su valor correspondiente:

In [22]:
contadores = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
for clave in contadores:
    print(clave,contadores[clave])

chuck 1
annie 42
jan 100


Podemos usar este diseño para poner en práctica las diversas expresiones de bucles
que hemos descrito antes. Por ejemplo, si queremos encontrar todas las entradas de
un diccionario que tengan un valor superior a diez, podríamos escribir el siguiente
código:

In [23]:
contadores = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
for clave in contadores:
    if contadores[clave] > 10:
        print(clave,contadores[clave])

annie 42
jan 100


Si se quieren imprimir las claves en orden alfabético, primero se debe crear una
lista de las claves del diccionario, usando el método keys, que está disponible en
los objetos del tipo diccionario. Luego, habrá que ordenar esa lista e irse desplazando
a través de la lista ordenada, buscando cada clave e imprimiendo las parejas
clave-valor en orden, como se muestra a continuación:

In [44]:
contadores = { 'chuck' : 1 , 'annie' : 42, 'jan': 100}
lista=[]
for palabra in contadores:
    lista.append(palabra)
print(lista)
lista.sort()
for clave in lista:
    print(clave,contadores[clave])

['chuck', 'annie', 'jan']
annie 42
chuck 1
jan 100


## Procesado avanzado de texto

En el ejemplo anterior, al usar el fichero romeo.txt hemos hecho que el archivo
fuera lo más sencillo posible, eliminando manualmente todos los signos de puntuación. El texto real tiene montones de esos signos, como se muestra a continuación:

But, soft! what light through yonder window breaks?
It is the east, and Juliet is the sun.
Arise, fair sun, and kill the envious moon,
Who is already sick and pale with grief,



Dado que la función de Python split busca espacios y trata las palabras como
piezas separadas por esos espacios, trataríamos las palabras “soft!” y “soft” como
diferentes, y se crearía una entrada diferente en el diccionario para cada una de
ellas.

Además, dado que el archivo contiene palabras en mayúsculas, también se trataría
a “who” y “Who” como palabras diferentes, con contadores distintos.

Podemos solventar ambos problemas usando los métodos de cadena lower,
punctuation, y translate. translate es el más sutil de estos métodos. Aquí
está la documentación para translate:

string.translate(s, table[, deletechars])

Elimina todos los caracteres de s que hay en deletechars (si existe alguno), y luego
traduce los caracteres usando table, que debe ser una cadena de 256-caracteres
que proporcione la traducción para cada valor de carácter, indexado por su ordinal.
Si la tabla es None, entonces sólo se realizará el borrado de caracteres.

Nosotros no especificaremos el valor de table, pero usaremos el parámetro
deletechars para eliminar todos los signos de puntuación. Incluso dejaremos
que sea el propio Python quien nos diga la lista de caracteres que él considera
“signos de puntuación”:

In [46]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [15]:
nombref=input('Introduzca el nombre del fichero')
try:
    manf=open(nombref)
except:
    print('El fichero no se pudo abrir')

contadores=dict()

for linea in manf:
    translator = str.maketrans('', '', string.punctuation)
    linea = linea.translate(translator)
    linea=linea.lower()
    palabras=linea.split()
    for palabra in palabras:
        if palabra not in contadores:
            contadores[palabra]=1
        else:
            contadores[palabra] += 1
            
print(contadores)



Introduzca el nombre del ficheroromeo-full.txt
{'romeo': 40, 'and': 42, 'juliet': 32, 'act': 1, '2': 2, 'scene': 2, 'ii': 1, 'capulets': 1, 'orchard': 2, 'enter': 1, 'he': 5, 'jests': 1, 'at': 9, 'scars': 1, 'that': 30, 'never': 2, 'felt': 1, 'a': 24, 'wound': 1, 'appears': 1, 'above': 6, 'window': 2, 'but': 18, 'soft': 1, 'what': 11, 'light': 5, 'through': 2, 'yonder': 2, 'breaks': 1, 'it': 22, 'is': 21, 'the': 34, 'east': 1, 'sun': 2, 'arise': 1, 'fair': 4, 'kill': 2, 'envious': 2, 'moon': 4, 'who': 5, 'already': 1, 'sick': 2, 'pale': 1, 'with': 8, 'grief': 2, 'thou': 32, 'her': 14, 'maid': 2, 'art': 7, 'far': 2, 'more': 9, 'than': 6, 'she': 9, 'be': 14, 'not': 18, 'since': 1, 'vestal': 1, 'livery': 1, 'green': 1, 'none': 1, 'fools': 1, 'do': 7, 'wear': 1, 'cast': 1, 'off': 1, 'my': 29, 'lady': 2, 'o': 11, 'love': 24, 'knew': 1, 'were': 9, 'speaks': 3, 'yet': 9, 'says': 1, 'nothing': 1, 'of': 20, 'eye': 2, 'discourses': 1, 'i': 61, 'will': 8, 'answer': 1, 'am': 7, 'too': 8, 'bold': 1

In [24]:

maximo=max(contadores.values())
print(maximo)

61


In [27]:
for valor in contadores:   #para ver la palabra que mas se repite
    if contadores[valor] != 61:
        continue
    print(valor)

i
