# Ordenar una lista de diccionarios por una clave común

1.13



- Problema

        Tiene una lista de diccionarios y le gustaría ordenar las entradas según una o más de los valores del diccionario.



- Solución

        Clasificar este tipo de estructura es fácil usando la función itemgetter del módulo operator.
        Supongamos que ha consultado una tabla de base de datos para obtener una lista de los miembros de su sitio web, y recibe la siguiente estructura de datos a cambio:

In [1]:
rows = [
{'fname':'Brian', 'lname': 'Jones', 'uid': 1003},
{'fname':'David', 'lname': 'Beazley', 'uid': 1002},
{'fname':'John', 'lname': 'Cleese', 'uid': 1001},
{'fname':'Big', 'lname': 'Jones', 'uid': 1004}
]

Es bastante fácil generar estas filas ordenadas por cualquiera de los campos comunes a todos los
diccionarios. 

Por ejemplo:


In [None]:
from operator import itemgetter

In [3]:
rows_by_fname = sorted(rows, key = itemgetter('fname'))
rows_by_uid   = sorted(rows, key = itemgetter('uid'))

In [4]:
print(*rows_by_fname,sep="\n")

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}


In [5]:
print(*rows_by_uid,sep="\n")

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}


La funcion itemgetter() tambien acepta multiple llaves.   
Por exemplo

In [6]:
rows_by_lfname = sorted(rows, key=itemgetter('lname','fname'))
print(*rows_by_lfname,sep="\n")

{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}


La funcionalidad de itemgetter () a veces se reemplaza por expresiones lambda.   
por ejemplo:

In [7]:
rows_by_fname2 = sorted(rows, key=lambda r: r['fname'])
print(*rows_by_fname2,sep="\n")

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}


In [8]:
rows_by_lfname2 = sorted(rows, key=lambda r: (r['lname'],r['fname']))
print(*rows_by_lfname2,sep="\n")

{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}


Esta solución a menudo funciona bien. Sin embargo, la solución que involucra itemgetter ()
normalmente se ejecuta un poco más rápido. Por lo tanto, es posible que lo prefiera si el rendimiento es un problema.
Por último, pero no menos importante, no olvide que la técnica que se muestra en esta receta se puede aplicar
a funciones como min () y max ().   
Por ejemplo:

In [9]:
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [10]:
max(rows, key=itemgetter('uid'))

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}

# Ordenar objetos sin soporte a la comparación

1.14

- Problema

        Quieres ordenar los objetos de la misma clase, pero no admiten la comparación de forma nativa.

- Solución

        La función incorporada sorted () toma un argumento clave que se puede pasar un invocable que devolverá algún valor en el objeto que sorted utilizará para comparar los objetos.
        Por ejemplo, si tiene una secuencia de instancias de usuario en su aplicación y desee ordenarlos por su atributo user_id, proporcionaría un invocable que toma un objeto user como entrada y devuelve el user_id.

Por ejemplo:

In [42]:
class User:
    def __init__(self, user_id,name):
        self.user_id = user_id
        self.name    = name
    def __repr__(self):
        return 'User({})'.format(self.user_id)

In [43]:
users = [User(23,"luca"), User(3,"emi"), User(99,"jenny"),User(10,"luca")]

In [44]:
users

[User(23), User(3), User(99), User(10)]

In [45]:
from operator import attrgetter
sorted(users, key=attrgetter('user_id'))

[User(3), User(10), User(23), User(99)]

La elección de utilizar lambda o attrgetter () puede ser preferencia personal. Sin embargo, attrgetter () es a menudo un poco más rápido y también tiene el agregado
característica de permitir la extracción de múltiples campos simultáneamente. Esto es análogo a
el uso de operator.itemgetter () para diccionarios . Por ejemplo, si
Las instancias de usuario también tenían un atributo first_name y last_name, podría realizar una
ordenar así:

In [48]:
sorted(users, key=attrgetter("name","user_id"))

[User(3), User(99), User(10), User(23)]

También vale la pena señalar que la técnica utilizada en esta receta se puede aplicar a funciones
como min () y max ().   
Por ejemplo:

In [58]:
min(users,key = attrgetter("name"))

User(3)

In [59]:
max(users,key = attrgetter("name"))

User(23)

# Agrupar registros en función de un campo

1.15

- Problema

        Tiene una secuencia de diccionarios o instancias y desea iterar sobre los 
        datos en grupos según el valor de un campo en particular, como la fecha.

- Solución

        La función itertools.groupby () es particularmente útil para agrupar datos

In [11]:
rows = [
{'address':'5412 N CLARK'     , 'date': '07/01/2012'},
{'address':'5148 N CLARK'     , 'date': '07/04/2012'},
{'address':'5800 E 58TH'      , 'date': '07/02/2012'},
{'address':'2122 N CLARK'     , 'date': '07/03/2012'},
{'address':'5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address':'1060 W ADDISON'   , 'date': '07/02/2012'},
{'address':'4801 N BROADWAY'  , 'date': '07/01/2012'},
{'address':'1039 W GRANVILLE' , 'date': '07/04/2012'},
]

Ahora suponga que desea iterar sobre los datos en fragmentos agrupados por fecha. Para hacerlo, primero
ordenar por el campo deseado (en este caso, fecha) y luego usar itertools.groupby ():

In [12]:
from operator import itemgetter
from itertools import groupby

In [13]:
rows.sort(key = itemgetter('date'))

In [14]:
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print("     ", i)

07/01/2012
      {'address': '5412 N CLARK', 'date': '07/01/2012'}
      {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
      {'address': '5800 E 58TH', 'date': '07/02/2012'}
      {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
      {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
      {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
      {'address': '5148 N CLARK', 'date': '07/04/2012'}
      {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


La función groupby () funciona escaneando una secuencia y encontrando "ejecuciones" secuenciales
de valores idénticos (o valores devueltos por la función clave dada). En cada iteración,
devuelve el valor junto con un iterador que produce todos los elementos de un grupo con
el mismo valor.
Un paso preliminar importante es clasificar los datos según el campo de interés. Ya que
groupby () solo examina elementos consecutivos, si no se clasifican primero, no se agruparán los registros
como quieras.  

Si su objetivo es simplemente agrupar los datos por fechas en una gran estructura de datos que
permite el acceso aleatorio, es posible que tenga más suerte usando defaultdict () para construir un
multidict.

Por ejemplo:

In [15]:
from collections import defaultdict
rows_by_date = defaultdict(list)

for row in rows:
    rows_by_date[row['date']].append(row)

In [16]:
rows_by_date

defaultdict(list,
            {'07/01/2012': [{'address': '5412 N CLARK', 'date': '07/01/2012'},
              {'address': '4801 N BROADWAY', 'date': '07/01/2012'}],
             '07/02/2012': [{'address': '5800 E 58TH', 'date': '07/02/2012'},
              {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
              {'address': '1060 W ADDISON', 'date': '07/02/2012'}],
             '07/03/2012': [{'address': '2122 N CLARK', 'date': '07/03/2012'}],
             '07/04/2012': [{'address': '5148 N CLARK', 'date': '07/04/2012'},
              {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]})

In [17]:
for r in rows_by_date['07/01/2012']:
    print(r)

{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}


# Filtrar elementos de secuencia

1.16

- Problema

        Tiene datos dentro de una secuencia y necesita extraer valores o reducir la secuencia utilizando algunos criterios.

- Solución

        La forma más sencilla de filtrar los datos de la secuencia suele ser utilizar una lista de comprensión. 

Por ejemplo:

In [18]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]

In [19]:
[n for n in mylist if n > 0]

[1, 4, 10, 2, 3]

In [20]:
[n for n in mylist if n < 0]

[-5, -7, -1]

Una posible desventaja de usar una lista de comprensión es que puede producir una gran
resultado si la entrada original es grande. Si esto le preocupa, puede usar expresiones generadoras
para producir los valores filtrados de forma iterativa.   
Por ejemplo:

In [21]:
pos = (n for n in mylist if n > 0)
pos

<generator object <genexpr> at 0x7f188425cf20>

In [22]:
for i in pos:
    print(i,end=" ")

1 4 10 2 3 

A veces, los criterios de filtrado no se pueden expresar fácilmente en una lista de comprensión o
expresión generadora. Por ejemplo, suponga que el proceso de filtrado implica una excepción
manipulación o algún otro detalle complicado. Para ello, ponga el código de filtrado en su propio
función y utilice la función de filtro incorporada (). Por ejemplo:

In [23]:
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

In [24]:
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
#filter crea un iterador, para obtenet una lista uso list
ivals = list(filter(is_int, values))  
print(ivals)

['1', '2', '-3', '4', '5']


In [25]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1]
import math
[math.sqrt(n) for n in mylist if n > 0]

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]

In [26]:
[n if n < 0 else None for n in mylist]

[None, None, -5, None, -7, None, None, -1]

Otra herramienta de filtrado notable es itertools.compress (), que toma un método iterable y
una secuencia selectora booleana adjunta como entrada. Como salida, le da todos los
elementos en el iterable donde el elemento correspondiente en el selector es True. Esto puede
ser útil si está intentando aplicar los resultados de filtrar una a otra secuencia relacionada  
Por ejemplo,  
suponga que tiene las siguientes dos columnas de datos:

In [35]:
direc = [
{'address':'5412 N CLARK'     , 'date': '07/01/2012'},
{'address':'5148 N CLARK'     , 'date': '07/04/2012'},
{'address':'5800 E 58TH'      , 'date': '07/02/2012'},
{'address':'2122 N CLARK'     , 'date': '07/03/2012'},
{'address':'5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address':'1060 W ADDISON'   , 'date': '07/02/2012'},
{'address':'4801 N BROADWAY'  , 'date': '07/01/2012'},
{'address':'1039 W GRANVILLE' , 'date': '07/04/2012'},
]
cont=[1,4,5,9,5,10,6,1,15,25,35,12]

In [36]:
from itertools import compress

In [37]:
mas_igual_5 = [n >= 5 for n in cont]
mas_igual_5

[False, False, True, True, True, True, True, False, True, True, True, True]

In [38]:
list(compress(direc, mas_igual_5))

[{'address': '5800 E 58TH', 'date': '07/02/2012'},
 {'address': '2122 N CLARK', 'date': '07/03/2012'},
 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
 {'address': '1060 W ADDISON', 'date': '07/02/2012'},
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'}]