# Colecciones avanzadas

```python
import collections
```

## ChainMap

`ChainMap` es una estructura de datos proporcionada por la biblioteca estándar de Python que permite tratar varios diccionarios como uno solo.

*Diccionarios: constant-time lookups (búsquedas de tiempo constante)*

Ejercicio 🧠: construye un inventario hecho de diccionarios y crea un ChainMap de todos esos diccionarios.

In [1]:
toys = {"Blocks": 30, "Monopoly": 20}
computers = {"iMac": 1000, "Chromebook": 800, "PC": 400}
clothing = {"Jeans": 40, "T-Shirt": 10}

In [2]:
from collections import ChainMap

inventory = ChainMap(toys, computers, clothing)

In [3]:
inventory

ChainMap({'Blocks': 30, 'Monopoly': 20}, {'iMac': 1000, 'Chromebook': 800, 'PC': 400}, {'Jeans': 40, 'T-Shirt': 10})

In [4]:
inventory["Monopoly"]

20

In [5]:
computers["Macbook"] = 3000

In [8]:
inventory

ChainMap({'Blocks': 30, 'Monopoly': 20}, {'iMac': 1000, 'Chromebook': 800, 'PC': 400, 'Macbook': 3000}, {'Jeans': 40, 'T-Shirt': 10})

In [11]:
inventory["Macbook"]

3000

Permite crear una nueva instancia con una asignación (diccionario) adicional al principio de la lista de mapas para que sea más fácil evitar modificar las estructuras de datos subyacentes existentes.

In [16]:
import collections

a = {"a": "A", "c": "C"}
b = {"b": "B", "c": "D"}

In [17]:
repetido = ChainMap(a, b)

In [18]:
repetido["c"]

'C'

In [9]:
import argparse
import os
from collections import ChainMap

In [10]:
por_defecto = {"verbose": False}

In [11]:
parser = argparse.ArgumentParser()
parser.add_argument("--verbose")
args = parser.parse_args()

usage: ipykernel_launcher.py [-h] [--verbose VERBOSE]
ipykernel_launcher.py: error: unrecognized arguments: -f /Users/r/Library/Jupyter/runtime/kernel-8fb3630d-6785-4cb1-be5d-408df6d0f258.json


SystemExit: 2

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [12]:
cli_args = {key: value for key, value in vars(args).items() if value}

NameError: name 'args' is not defined

In [None]:
config = ChainMap(cli_args, os.environ, defaults)

In [10]:
# dd["a"]["b"]

In [11]:
m1 = collections.ChainMap(a, b)
m2 = m1.new_child()

print("m1 before:", m1)
print("m2 before:", m2)

m1 before: ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
m2 before: ChainMap({}, {'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})


In [12]:
m2["c"] = "E"

print("m1 after:", m1)
print("m2 after:", m2)

m1 after: ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
m2 after: ChainMap({'c': 'E'}, {'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})


Más información:
* https://docs.python.org/3.7/library/collections.html#collections.ChainMap
* https://www.blog.pythonlibrary.org/2016/03/29/python-201-what-is-a-chainmap/
* https://pymotw.com/3/collections/chainmap.html

## OrderedDict

`OrderedDict` es un diccionario en el que las claves mantienen el orden en que se insertan, lo que significa que si cambia el valor de una clave más adelante, no cambiará la posición de la clave.

In [13]:
d = {}

In [15]:
d["aaa"] = 1

In [16]:
d

{'aaa': 1}

In [None]:
cnt = collections.Counter(milista)
nod = dict(cnt.most_common())

In [None]:
from collections import OrderedDict

In [13]:
milista = ["a", "c", "c", "a", "b", "a", "a", "b", "c"]

od = collections.OrderedDict(cnt.most_common())

for key, value in od.items():
    print(key, value)

a 4
c 3
b 2


In [14]:
od["a"] = 20
od

OrderedDict([('a', 20), ('c', 3), ('b', 2)])

In [15]:
nod["a"] = 40

for k, v in nod.items():
    print(k, v)

a 40
c 3
b 2


Más información:

* https://stackabuse.com/introduction-to-pythons-collections-module/#theordereddict

## defaultdict

In [None]:
for valor in milista:
    if valor in midiccionario.values() and isinstance(midiccionario[valor]):
        midiccionario[valor].append(123)
    else:
        midiccionario[valor]= []
        midiccionario[valor].append(123)

In [40]:
from collections import defaultdict

In [41]:
bbdd = defaultdict(list)

In [20]:
bbdd["a"] = 1

In [42]:
bbdd["c"].append(45)

In [43]:
bbdd

defaultdict(list, {'c': [45]})

## enum

In [44]:
from enum import Enum


class Color(Enum):
    RED = 1
    GREEN = 2
    BLUE = 3

In [27]:
print(Color.RED)

Color.RED


In [47]:
type(Color.RED)

<enum 'Color'>

In [48]:
isinstance(Color.GREEN, Color)

True

In [51]:
print(Color.RED.name)

RED


In [52]:
print(Color["RED"])
print(Color(1))

Color.RED
Color.RED


No se puede repetir el nombre

In [54]:
def imprimir_color(color: Color) -> str:
    
    return "asdasd"

In [55]:
from enum import Enum, unique

class Mistake2(Enum):
    ONE = 1
    TWO = 2
    THREE = 3
    FOUR = 3

In [56]:
Mistake2(3)

<Mistake2.THREE: 3>

In [32]:
class Shape(Enum):
    SQUARE = 2
    SQUARE = 3

TypeError: Attempted to reuse key: 'SQUARE'

Por defecto, los `enum` permiten múltiples nombres como alias para un mismo valor. Cuando no queremos este comportamiento, se puede usar el siguiente decorador para garantizar que cada valor se use solo una vez en la enumeración:

`@enum.unique`

In [25]:
def print_color(color):

    assert isinstance(color, Color), print("not a color")
    
    print(color)

In [26]:
print_color(Color.RED)

Color.RED


In [59]:
from enum import Enum, unique


@unique
class Mistake(Enum):
    ONE = 1
    TWO = 2
    THREE = 3
    FOUR = 4

In [60]:
Mistake(4)

<Mistake.FOUR: 4>

Cual será el resultado de esto?

In [61]:
from enum import auto, Enum


class Ordinal(Enum):
    NORTH = auto()
    SOUTH = auto()
    EAST = auto()
    WEST = auto()
    AAA = auto()
    
list(Ordinal)

[<Ordinal.NORTH: 1>,
 <Ordinal.SOUTH: 2>,
 <Ordinal.EAST: 3>,
 <Ordinal.WEST: 4>,
 <Ordinal.AAA: 5>]

In [30]:
class AutoName(Enum):
    def _generate_next_value_(name, start, count, last_values):
        return name  # definimos que la función auto() le de como valor a cada elemento su propio nombre


class Ordinal(AutoName):
    NORTH = auto()
    SOUTH = auto()
    EAST = auto()
    WEST = auto()


list(Ordinal)

[<Ordinal.NORTH: 'NORTH'>,
 <Ordinal.SOUTH: 'SOUTH'>,
 <Ordinal.EAST: 'EAST'>,
 <Ordinal.WEST: 'WEST'>]

Por ejemplo, si quieres que los usuarios indiquen que no es "Verde", "verde", o "Veerde", sino Color.green: usad el objeto `enum.Enum`. Es a la vez explícito y específico (cosas a las que siempre aspirar en Python).

In [66]:
from enum import Enum

class EstadoBug(Enum):
    
    nuevo = 7
    incompleto = 6
    invalido = 5
    no_arreglar = 4
    en_progreso = 3
    fix_subido = 2
    fix_publicado = 1

In [64]:
estado_actual = EstadoBug.no_arreglar
estado_deseado = EstadoBug.fix_publicado

In [65]:
estado_actual == estado_deseado

False

In [None]:
if estado_actual != EstadoBug.fix_publicado:
    enviar_email(direcion:"asdasd@asdasd")

### El Zen the Python

In [31]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Más información:
* https://docs.python.org/3.7/library/enum.html 👈🏼
* https://stackoverflow.com/questions/37601644/python-whats-the-enum-type-good-for
* https://pymotw.com/3/enum/

### Counter

**collections.Counter** nos poermite, de forma automática, contar el número de veces que aparece cada elemento en, por ejemplo, una lista.

*El ejemplo mostrado durante el curso se ha eliminado porque usaba un archivo local de mi ordenador.*

In [67]:
from collections import Counter

words = ["hola", "hola", "adios", "curso", "python", "python", "python"]


contador = Counter(words)

In [68]:
contador

Counter({'hola': 2, 'adios': 1, 'curso': 1, 'python': 3})

In [69]:
contador.most_common()

[('python', 3), ('hola', 2), ('adios', 1), ('curso', 1)]

In [None]:
import collections


contador = collections.Counter(words)

contador.most_common(20) # mostrar las 20 más comunes y el número de veces que aparece cada una

lambda functions, comprehensions, map

### Ejercicios

https://gist.githubusercontent.com/jsdario/6d6c69398cb0c73111e49f1218960f79/raw/8d4fc4548d437e2a7203a5aeeace5477f598827d/el_quijote.txt

* Descargar el texto de la URL enviada por el chat usando la librería `requests`. **Si no podéis descargarlo**: se puede copiar todo el texto y pegarlo en un archivo `.txt`, el ejercicio entonces será abrir y leer ese archivo.
* Convertir texto a MINÚSCULAS.
* Crear una lista con todas las palabras que hay en el texto.
* Usar `collections.Counter` con esta lista de palabras y ver cuales son las 10 palabras más comunes.

**Extra**

* Lo mismo que antes, pero sin tener en cuenta las palabras que están en esta lista: https://raw.githubusercontent.com/Alir3z4/stop-words/master/spanish.txt
* ¿Cual es la palabra más larga del texto? (en longitud de caracteres)
* Crear una lista con todas las palabras que empiezan por la letra -> **L** <- (minúscula)

Cosas a tener en cuenta (o buscar como se hacen):
* descar contenidos de una URL
* convertir texto a minusculas
* dividir una cadena de texto

...

# Título: cheatsheet de markdown

## Título 2

**negrita**

*cursiva*

`código`

* lista
* lista

Ricardo Ander-Egg Aguilar

* 🖥: https://ricardoanderegg.com/
* 🐦: https://twitter.com/ricardoanderegg
* 👨🏻‍🎓: https://www.linkedin.com/in/ricardoanderegg/

* https://docs.python.org/3.7/library/collections.html#collections.Counter