# Dictionaries

Dictionaries are Python's most powerful data collection.

They have different names in different languages: Associative Arrays (Perl/PHP), Properties or Map or HashMap (Java), Property Bag (C#/ .Net)

Dictionaries are like bags - no order, otherwise lists index their entries based on the position in the list. 

DICTIONARIES index using KEY/LABEL - VALUE.  It is a collection, i.e. many values in a single "variable".

D'un dictionary, les keys són immutables i els values són mutables.

## Crear un dictionary

Opció 1: crear un diccionari buit i anar-lo omplint

diccionari = dict()

diccionari[ key ] = value

Opció 2: 

{key : value, key : value}

Opció 3:

A partir d'un zip de dues llistes

```python
dict1 = {}
for key, value in zip(key_list, value_list):
dict1[key] = value
```

In [8]:
#Opció 1
purse = dict() # empty dictionary
purse["money"] = 12
purse["candy"] = 3
print(purse)
print(purse["candy"])
purse["candy"] = purse["candy"] + 2
print(purse)

#Opció 2
moneder = {"Judit" : 60, "Israel" : 50} # creating a dictionary
print(moneder)
# print(moneder["Dolors"]) Donaria Tracebak perquè Dolors no està en el diccionari
print("Dolors" in moneder) # Retorna False

#Opció 3
branch = ["Àlgebra", "Càlcul", "Geometria"]
num_child = [12,8,7]

dicts = {}
for key, value in zip(branch, num_child) :
    dicts[key] = value
print(dicts)

{'money': 12, 'candy': 3}
3
{'money': 12, 'candy': 5}
{'Judit': 60, 'Israel': 50}
False
{'Àlgebra': 12, 'Càlcul': 8, 'Geometria': 7}


## Valid dict key types

While the values of a dict can be any Python object, the keys generally have to be immutable objects like scalar types (int, float, string) or tuples (all the objects in the tuple need to be immutable, too). The technical term here is hashability. You can check whether an object is hashable (can be used as a key in a dict) with the hash function. Si no dóna tracebak és que és vàlida.

In [30]:
hash([1,2])
# hauríem de transformar-la en tupla

TypeError: unhashable type: 'list'

## Eliminar una key-value i afegir multiples key-values

In [7]:
#Eliminar
d1 = {"Judit": 1, "Israel": 4, "Granny": 0}

del d1["Granny"]
print(d1)

trape = d1.pop("Israel") # returns the value and delete the key
print(d1)
print(trape)

#Afegir
d1.update({"Mama": 2, "Papa": 3})
print(d1)

{'Judit': 1, 'Israel': 4}
{'Judit': 1}
4
{'Judit': 1, 'Mama': 2, 'Papa': 3}


## Usar dictionaries per comptar elements. Method GET - value default

En el següent codi veurem dos exemples, el primer, menys eficient, i el segon usant el method .get que el fa més eficient.

```plain 
counts.get(name, 0)  equival a 

if name in counts:
    x = counts[name]
else :
    x = 0
```

In [1]:
# Bucle sense method get. Menys eficient.

counts = dict()
names = ["csev", "cwen", "csev", "zqian", "cwen"]
for name in names :
    if name not in counts :
        counts[name] = 1
    else :
        counts[name] += 1
print(counts)

# The pattern of checking to see if a key is already in a dictionary and assuming a default value if the key is not there is so common that 
# there is a method called GET() that does this.

# Bucle amb method get més eficient
counts = dict()
names = ["csev", "cwen", "csev", "zqian", "cwen"]
for name in names :
    counts[name] = counts.get(name, 0) + 1
print(counts)

{'csev': 2, 'cwen': 2, 'zqian': 1}
{'csev': 2, 'cwen': 2, 'zqian': 1}


## Method setdefault

In [13]:
# bucle if-else
words = ['apple', 'bat', 'bar', 'atom', 'book', 'house']

by_letter = {}
for word in words :
    iletter = word[0]
    if iletter not in by_letter :
        by_letter[iletter] = [word]
    else :
        by_letter[iletter].append(word)
print(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book'], 'h': ['house']}


In [19]:
# Method setdefault més eficient
words = ['apple', 'bat', 'bar', 'atom', 'book', 'house']

by_letter = {}
for word in words :
    iletter = word[0]
    by_letter.setdefault(iletter, []).append(word)
print(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book'], 'h': ['house']}


## Method defaultdict
The built-in collections module has a useful class, defaultdict, which makes this even easier. To create one, you pass a type or function for generating the default value for each slot in the dict.

In [22]:
from collections import defaultdict 

words = ['apple', 'bat', 'bar', 'atom', 'book', 'house']

by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

print(by_letter)

defaultdict(<class 'list'>, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book'], 'h': ['house']})


## Extreure keys o values del dictionary

In [5]:
counts = {"chuck": 1, "fred": 42, "jan": 100}

print(list(counts.keys())) #És una llista amb les keys. 
print(list(counts.values())) #És una llista amb els values. Té el mateix ORDRE que la llista de keys.
print(list(counts.items())) #Són parells de dos valors, tuples, en una llista.

for key in counts :   # Bucle for en un dictionary
    print(key, counts[key])
    

for key,value in counts.items() :  # Bucle alternatiu for en una llista de tuples
    print(key, value)

['chuck', 'fred', 'jan']
[1, 42, 100]
[('chuck', 1), ('fred', 42), ('jan', 100)]
chuck 1
fred 42
jan 100
chuck 1
fred 42
jan 100


In [6]:
# Exercici que donada una frase, compta quantes vegades hi ha cada paraula, i retorna la més repetida i les vegades que apareix.

import string

counts = dict()

line = input("Enter a line of text:")

# line = line.rstrip() Si la lectura fos d'un text, hauríem de suprimir els intros del final de cada línea.

line = line.translate(line.maketrans("","",string.punctuation)) #Elimina de la línea els signes de puntuació, perquè sinó, hola! i hola, serien dues paraules diferents.
line = line.lower() #Ho posa tot en minúscules, perquè sinó Hola i hola serien paraules diferents.
words = line.split() #Genera una llista amb les paraules.

for word in words :
    counts[word] = counts.get(word,0) + 1 #omplim el diccionari amb la paraula i la quantitat de vegades que apareix a la llista.

# Busquem la paraula més repetida i quantes vegades ho està, és a dir, en el diccionari counts mirem qui té l'ítem valor més gran.

bigcount = None
bigword = None
for word,count in counts.items() :
    if bigcount is None or count > bigcount : # bigcount is None succeeix en la primera iteració, quan és la primera paraula que mirem, aquesta és per defecte la més repetida. Després ja comparem.
        bigcount = count
        bigword = word
print(bigword, bigcount)

# Manera alternativa. Ordenem el diccionari per l'ítem valor, i ens quedem amb el primer ítem. A més, si el següent ítem té el mateix valor (dos o més paraules igual de repetides), volem mostrar-los tots!

sort_counts = sorted(counts.items(), key=lambda x: x[1], reverse=True) # count.items és una llista de tuples key-value. El resultat d'aquest sorted és una llista de tuples ordenades pel segon ítem, value, de gran a petit (reverse=true)

# sort_counts = sorted([ (value,key) for key,value in counts.items() ], reverse=True) Manera alternativa d'ordenar per valor. Creem una llista de tuples que inverteix les tuples de counts.items i posa primer el valor. Aleshores, sorted ordena aquesta llista pels valors, que és el que volíem. El que passa és que la llista final ordenada està invertida, primer té els valors i després la key.

# Si haguéssim volgut ordenar per key, aleshores és tant fàcil com
# sort_key_counts = sorted(counts.items())

maxims = list() # Creem una llista on col·locar les paraules més repetides

for tupla in sort_counts :
    if tupla[1] == sort_counts[0][1] : # Si el valor de la paraula de cada tupla és igual que el valor de la primera paraula del diccionari (que és la més gran perquè l'hem ordenat), l'afegim a la llista de maxims
        maxims.append(tupla)

print(maxims)

que 3
[('que', 3), ('tal', 3)]


In [10]:
# Escribir un programa que clasifica cada mensaje de correo dependiendo del día de la semana en que se recibió. Para hacer esto busca las líneas que comienzan con “From”, después busca por la tercer palabra y mantén un contador para cada uno de los días de la semana. Al final del programa imprime los contenidos de tu diccionario (el orden no importa).
# Escribe un programa para leer a través de un historial de correos, construye un histograma utilizando un diccionario para contar cuántos mensajes han llegado de cada dirección de correo electrónico, e imprime el diccionario.
# Agrega código al programa anterior para determinar quién tiene la mayoría de mensajes en el archivo.
# Este programa almacena el nombre del dominio (en vez de la dirección) desde donde fue enviado el mensaje en vez de quién envió el mensaje (es decir, la dirección de correo electrónica completa). Al final del programa, imprime el contenido de tu diccionario.

import sys

file = input("Indica el nom de l'arxiu: ") #mbox.txt
try :
    file = open(file,"r")
except :
    print("No s'ha pogut trobar l'arxiu:", file)
    sys.exit()

day_counts = dict()
mail_counts = dict()
origin_counts = dict()

for line in file :
    if not line.startswith("From ") : #L'exercici demana incloure només els From_ i no els From:
        continue
    words = line.split()
    mail = words[1].split("@") # el segon ítem de la llista words és el mail, així que fem split per l'@ i separem l'usuari de l'organització.
    day_counts[words[2]] = day_counts.get(words[2],0) + 1 #words[2] conté el dia de la setmana
    mail_counts[words[1]] = mail_counts.get(words[1],0) +1 #words[1] conté el mail
    origin_counts[mail[1]] = origin_counts.get(mail[1],0) +1 #mail[1] conté l'organització

print("Quantitat de mails rebuts per dia de la setmana", day_counts, "\n")
print("Quantitat de mails rebuts per persona", mail_counts, "\n")
print("Quantitat de mails rebuts per organització", origin_counts, "\n")

sort_mail_counts = sorted(mail_counts.items(), key=lambda x: x[1], reverse=True)

maxims = list() # Creem una llista on col·locar els mails més repetits

for tupla in sort_mail_counts :
    if tupla[1] == sort_mail_counts[0][1] : # Si el valor del mail de cada tupla és igual que el valor del primer mail (que és el més gran perquè l'hem ordenat), l'afegim a la llista de maxims
        maxims.append(tupla)

print("Persona o persones de les quals hem rebut més correus:", maxims)

Quantitat de mails rebuts per dia de la setmana {'Sat': 61, 'Fri': 315, 'Thu': 392, 'Wed': 292, 'Tue': 372, 'Mon': 299, 'Sun': 66} 

Quantitat de mails rebuts per persona {'stephen.marquard@uct.ac.za': 29, 'louis@media.berkeley.edu': 24, 'zqian@umich.edu': 195, 'rjlowe@iupui.edu': 90, 'cwen@iupui.edu': 158, 'gsilver@umich.edu': 28, 'wagnermr@iupui.edu': 44, 'antranig@caret.cam.ac.uk': 18, 'gopal.ramasammycook@gmail.com': 25, 'david.horwitz@uct.ac.za': 67, 'ray@media.berkeley.edu': 32, 'mmmay@indiana.edu': 161, 'stuart.freeman@et.gatech.edu': 17, 'tnguyen@iupui.edu': 6, 'chmaurer@iupui.edu': 111, 'aaronz@vt.edu': 110, 'ian@caret.cam.ac.uk': 96, 'csev@umich.edu': 19, 'jimeng@umich.edu': 93, 'josrodri@iupui.edu': 28, 'knoop@umich.edu': 5, 'bkirschn@umich.edu': 27, 'dlhaines@umich.edu': 84, 'hu2@iupui.edu': 7, 'sgithens@caret.cam.ac.uk': 43, 'arwhyte@umich.edu': 27, 'gbhatnag@umich.edu': 3, 'gjthomas@iupui.edu': 44, 'a.fish@lancaster.ac.uk': 14, 'ajpoland@iupui.edu': 48, 'lance@indiana.edu