Dentro de la biblioteca estándar de Python dispones de auténticas joyas, muchas veces ignoradas u olvidadas. Es por ello que voy a empezar un breve pero intenso recorrido por algunas piezas de arte disponibles de serie.

# Módulo `collections`

Con la ayuda de este módulo puedes aumentar las estructuras de datos típicas disponibles en Python (listas, tuplas, diccionarios,...). Veamos algunas utilidades disponibles:

## `ChainMap`

**Solo Python 3. Actualízate!!**

Dicho en bruto, es un conglomerado de diccionarios (también conocidos como *mappings* o *hash tables*).

Para que puede ser útil:

* [Ejemplos en la documentación de Python](https://docs.python.org/3/library/collections.html#chainmap-examples-and-recipes).
* Actualizar partes de una configuración.
* Actualizar un diccionario pero que pueda ser de forma reversible.
* [Ejemplos de uso en github](https://github.com/search?l=python&q=from+collections+import+Chainmap&ref=searchresults&type=Code&utf8=%E2%9C%93).
* ...

Ejemplo, imaginemos que tenemos un diccionario de configuración `dict_a`, que posee las claves `a` y `b`, y queremos actualizar sus valores con otros pares *clave:valor* que están en el diccionario `dict_b`, que posee las claves `b` y `c`. Podemos hacer:

In [1]:
from collections import ChainMap

dict_a = {'a': 1, 'b': 10}
dict_b = {'b': 100, 'c': 1000}

cm = ChainMap(dict_a, dict_b)
for key, value in cm.items():
    print(key, value)

a 1
c 1000
b 10


Hemos añadido el valor de la clave `c` de `dict_b` sin necesidad de modificar nuestro diccionario original de configuración `dict_a`, es decir, hemos hecho un 'cambio' reversible. También podemos 'sobreescribir' las claves que están en nuestro diccionario original de configuración, `dict_b` variando los parámetros del constructor:

In [2]:
cm = ChainMap(dict_b, dict_a)
for key, value in cm.items():
    print(key, value)

a 1
c 1000
b 100


Vemos que, además de añadir la clave `c`, hemos sobreescrito la clave `b`.

Los diccionarios originales están disponibles haciendo uso del atributo `maps`:

In [3]:
cm.maps

[{'b': 100, 'c': 1000}, {'a': 1, 'b': 10}]

Ejercicio: haced un `dir` de `cm` y un `dir` de `dict_a` y veréis que los atributos y métodos disponibles son parecidos.

Más información en [este hilo de stackoverflow](https://stackoverflow.com/questions/23392976/what-is-the-purpose-of-collections-chainmap) en el que me he basado para el ejemplo anterior (¿basar y copiar no son sinónimos?).

## `Counter`

Permite contar ocurrencias de forma simple. En realidad, su funcionalidad se podría conseguir sin problemas con algunas líneas extra de código pero ya que lo tenemos, está testeado e implementado por gente experta vamos a aprovecharnos de ello.

En la documentación oficial hay [algunos ejemplos interesantes](https://docs.python.org/3/library/collections.html#counter-objects) y en github podéis encontrar [unos cuantos más](https://github.com/search?l=python&q=from+collections+import+Counter&ref=searchresults&type=Code&utf8=%E2%9C%93). Veamos un ejemplo simple pero potente, yo trabajo mucho con datos meteorológicos y uno de los problemas recurrentes es tener fechas repetidas que no deberían existir (pero pasa demasiado a menudo). Una forma rápida de buscar problemas de estos en ficheros, lanzar una alarma, sería:

In [4]:
from io import StringIO
from collections import Counter

virtual_file = StringIO("""2010/01/01 2.7
2010/01/02 2.2
2010/01/03 2.1
2010/01/04 2.3
2010/01/05 2.4
2010/01/06 2.2
2010/01/02 2.2
2010/01/03 2.1
2010/01/04 2.3
""")

if Counter(virtual_file.readlines()).most_common(1)[0][1] > 1:
    print('fichero con fecha repetida')

fichero con fecha repetida


## `namedtuple`

A veces me toca crear algún tipo de estructura que guarda datos y algunos metadatos. Una forma simple sin crear una clase ad-hoc sería usar un diccionario. Un ejemplo simple sería:

In [21]:
import numpy as np
import datetime as dt
from pprint import pprint

datos = {
    'valores': np.random.randn(100),
    'frecuencia': dt.timedelta(minutes = 10),
    'fecha_inicial': dt.datetime(2016, 1, 1, 0, 0),
    'parametro': 'wind_speed',
    'unidades': 'm/s'
}

pprint(datos)

{'fecha_inicial': datetime.datetime(2016, 1, 1, 0, 0),
 'frecuencia': datetime.timedelta(0, 600),
 'parametro': 'wind_speed',
 'unidades': 'm/s',
 'valores': array([  1.66798849e-01,  -8.10562099e-01,  -2.22577515e-01,
         7.21753084e-01,  -8.77873884e-01,  -3.05772491e-01,
         4.01297617e-01,   4.09603814e-01,  -3.64456284e-01,
        -1.62534413e+00,   1.20389741e+00,  -9.55447598e-01,
         8.93198800e-01,  -4.17195768e-01,  -4.26509171e-02,
        -9.52507235e-01,  -1.74664331e+00,  -1.55617582e+00,
        -4.87457248e-01,  -1.09056621e-01,  -3.75649544e-01,
         6.58552038e-01,   7.91284719e-01,   2.37866164e-01,
        -2.01427274e+00,  -2.64573257e-01,   4.44205039e-01,
        -1.14177006e+00,  -1.45566539e+00,  -8.51340286e-01,
         1.15973222e+00,  -1.57294073e+00,  -1.60970015e+00,
         8.00223102e-01,  -5.54753393e-01,   4.28100458e-01,
         1.82447911e+00,  -1.23086637e+00,  -2.12550747e+00,
        -1.03142583e+00,  -3.23690811e-01,  -5.55

Lo anterior es simple y rápido pero usando una `namedtuple` dispongo de algo parecido con algunas cosas extra. Veamos un ejemplo similar usando `namedtuple`:

In [26]:
from collections import namedtuple

Datos = namedtuple('Datos', 'valores frecuencia fecha_inicial parametro unidades')

datos = Datos(np.random.randn(100), 
              dt.timedelta(minutes = 10),
              dt.datetime(2016, 1, 1, 0, 0),
              'wind_speed',
              'm/s')
print(datos)

Datos(valores=array([-1.15088413, -2.56514991,  1.44608296,  0.54379682, -0.90522011,
       -0.16566468, -0.35177371, -0.54329507,  0.49884539, -1.47496928,
        0.34977761,  0.17185979,  1.0841466 ,  0.72980301,  0.74948793,
       -0.58893627, -1.02718887, -0.91649217,  1.33860119,  0.39608563,
       -1.35736068, -1.31573163, -1.83301115,  0.8785257 ,  0.88054639,
       -0.70983137, -0.60080374,  0.37122572,  1.35695541, -1.64514249,
       -0.43831246, -0.35866056,  1.60847917, -0.22826239, -1.37596102,
       -0.95290935,  0.3905279 , -1.19999519,  0.42577439,  0.69913995,
        0.86171438,  0.97124497,  0.89628371, -0.70415439, -0.69986264,
       -0.06708162,  0.15825805,  0.40558181,  0.04844905, -0.65195386,
       -0.78209848,  0.47753236, -1.41130276,  0.56886563,  1.28510891,
       -0.92577124,  1.01705266, -0.92242978,  0.55834513,  0.38484962,
        0.18166509, -1.66409028,  0.11990668,  0.45760692, -0.57324399,
       -1.28583163, -0.00380156,  0.07755123,  0.6

Ventajas que le veo con respecto a lo anterior:

* Puedo acceder a los 'campos' o claves del diccionario usando *dot notation*

In [27]:
print(datos.valores)

[-1.15088413 -2.56514991  1.44608296  0.54379682 -0.90522011 -0.16566468
 -0.35177371 -0.54329507  0.49884539 -1.47496928  0.34977761  0.17185979
  1.0841466   0.72980301  0.74948793 -0.58893627 -1.02718887 -0.91649217
  1.33860119  0.39608563 -1.35736068 -1.31573163 -1.83301115  0.8785257
  0.88054639 -0.70983137 -0.60080374  0.37122572  1.35695541 -1.64514249
 -0.43831246 -0.35866056  1.60847917 -0.22826239 -1.37596102 -0.95290935
  0.3905279  -1.19999519  0.42577439  0.69913995  0.86171438  0.97124497
  0.89628371 -0.70415439 -0.69986264 -0.06708162  0.15825805  0.40558181
  0.04844905 -0.65195386 -0.78209848  0.47753236 -1.41130276  0.56886563
  1.28510891 -0.92577124  1.01705266 -0.92242978  0.55834513  0.38484962
  0.18166509 -1.66409028  0.11990668  0.45760692 -0.57324399 -1.28583163
 -0.00380156  0.07755123  0.64245163 -0.41804237  1.48719097  0.08556443
 -0.59397126 -0.15754885 -0.83679231  0.43162761 -1.1355951   0.29833502
 -1.18802814  1.07681989  1.59099178  1.55838678 -2.

* Puedo ver el código usado para crear la estructura de datos usando `verbose = True`. Usa `exec` [entre bambalinas](https://hg.python.org/cpython/file/3.5/Lib/collections/__init__.py#l301) (o_O). Puedo ver que todas las claves se transforman en `property`'s. Puedo ver que se crea documentación... MAGIA en estado puro!!!

(Si no quieres usar la keyword `verbose = True` puedes seguir teniendo acceso en un objeto usando `obj._source`)

In [32]:
Datos = namedtuple('Datos', 'valores frecuencia fecha_inicial parametro unidades', verbose = True)

from builtins import property as _property, tuple as _tuple
from operator import itemgetter as _itemgetter
from collections import OrderedDict

class Datos(tuple):
    'Datos(valores, frecuencia, fecha_inicial, parametro, unidades)'

    __slots__ = ()

    _fields = ('valores', 'frecuencia', 'fecha_inicial', 'parametro', 'unidades')

    def __new__(_cls, valores, frecuencia, fecha_inicial, parametro, unidades):
        'Create new instance of Datos(valores, frecuencia, fecha_inicial, parametro, unidades)'
        return _tuple.__new__(_cls, (valores, frecuencia, fecha_inicial, parametro, unidades))

    @classmethod
    def _make(cls, iterable, new=tuple.__new__, len=len):
        'Make a new Datos object from a sequence or iterable'
        result = new(cls, iterable)
        if len(result) != 5:
            raise TypeError('Expected 5 arguments, got %d' % len(result))
        return result

    def _replace(_self, **kwds):
        'Return a new Datos object replacing specified fiel

In [37]:
# Lo mismo de antes
print(datos._source)

from builtins import property as _property, tuple as _tuple
from operator import itemgetter as _itemgetter
from collections import OrderedDict

class Datos(tuple):
    'Datos(valores, frecuencia, fecha_inicial, parametro, unidades)'

    __slots__ = ()

    _fields = ('valores', 'frecuencia', 'fecha_inicial', 'parametro', 'unidades')

    def __new__(_cls, valores, frecuencia, fecha_inicial, parametro, unidades):
        'Create new instance of Datos(valores, frecuencia, fecha_inicial, parametro, unidades)'
        return _tuple.__new__(_cls, (valores, frecuencia, fecha_inicial, parametro, unidades))

    @classmethod
    def _make(cls, iterable, new=tuple.__new__, len=len):
        'Make a new Datos object from a sequence or iterable'
        result = new(cls, iterable)
        if len(result) != 5:
            raise TypeError('Expected 5 arguments, got %d' % len(result))
        return result

    def _replace(_self, **kwds):
        'Return a new Datos object replacing specified fiel

* Puedo seguir obteniendo un diccionario (un `OrderedDict`, también incluido en el módulo `collections`) si así lo deseo:

In [38]:
datos._asdict()['valores']

array([-1.15088413, -2.56514991,  1.44608296,  0.54379682, -0.90522011,
       -0.16566468, -0.35177371, -0.54329507,  0.49884539, -1.47496928,
        0.34977761,  0.17185979,  1.0841466 ,  0.72980301,  0.74948793,
       -0.58893627, -1.02718887, -0.91649217,  1.33860119,  0.39608563,
       -1.35736068, -1.31573163, -1.83301115,  0.8785257 ,  0.88054639,
       -0.70983137, -0.60080374,  0.37122572,  1.35695541, -1.64514249,
       -0.43831246, -0.35866056,  1.60847917, -0.22826239, -1.37596102,
       -0.95290935,  0.3905279 , -1.19999519,  0.42577439,  0.69913995,
        0.86171438,  0.97124497,  0.89628371, -0.70415439, -0.69986264,
       -0.06708162,  0.15825805,  0.40558181,  0.04844905, -0.65195386,
       -0.78209848,  0.47753236, -1.41130276,  0.56886563,  1.28510891,
       -0.92577124,  1.01705266, -0.92242978,  0.55834513,  0.38484962,
        0.18166509, -1.66409028,  0.11990668,  0.45760692, -0.57324399,
       -1.28583163, -0.00380156,  0.07755123,  0.64245163, -0.41

* Puedo crear subclases de forma simple para añadir funcionalidad:

In [46]:
class DatosExtendidos(Datos):
    def media(self):
        "Calcula la media de los valores."
        return self.valores.mean()

datos_ext = DatosExtendidos(**datos._asdict())

print(datos_ext.media())

-0.180088021718


WOW!!!!!

Los ejemplos en la [documentación oficial son muy potentes y dan nuevas ideas de potenciales usos](https://docs.python.org/3/library/collections.html?highlight=collections#collections.namedtuple).

## `deque`

Otra joyita que quizá debería usar más a menudo sería `deque` en una secuancia mutable (parecido a una lista), pero con una serie de ventajas. Es una cola/lista cuyo principio y fin es 'indistinguible' y es *thread-safe* y que está diseñada para poder insertar y eliminar de forma rápida en ambos extremos de la cola (ahora veremos qué significa todo esto). Un uso evidente es el de usar, por ejemplo, los últimos elementos de tu secuencia ya que:



In [48]:
from collections import deque

dq = deque(np.arange(10))

In [59]:
dq.rotate(3)
dq

deque([9, 0, 1, 2, 3, 4, 5, 6, 7, 8])