# `List` y `Dict` Comprehensions

Es difícil explicar en abstracto que son las `List` y `Dict` *comprehensions*. Por ahora sólo vamos a decir que son una manera muy potente y rápida de generar `List` y `Dict` a partir de otros `List` y `Dict`. Veamos un par de ejemplos.

## `List` *Comprehensions*

Construir una `List` a partir de otra `List` u otra estrucutura de datos.

### Ejemplo: Transformar los Elementos de una `List`

Supongamos que tenemos una lista de RUTs. Como es típico, los RUTs vienen con formatos inconsistentes, supongamos que pueden venir con o sin separador de miles y con o sin guión antes del dígito verificador. Por ejemplo:

- 12.345.678-9
- 21543879-9
- 214537689

Obviamente, antes de utilizar esta lista, queremos homologar los formatos. Para homologar un RUT al formato sin separador de miles y con guión, escribimos la siguiente función:

In [1]:
def estandariza_rut(rut):
    """
    Estandariza un RUT al siguiente formato XXXXXXXX-DV.
    
    Parameters
    ----------
    
    rut: str o int
        Representa un RUT, puede venir con o sin separador de miles, con o sin guión antes del 
        dígito verificador y podría ser un `int` o un `str`.
        
    Returns
    -------
    
    El RUT en el formato estandarizado como un `str`.
    """
    # Antes de comenzar la transformación nos aseguramos que el parámetro rut sea un str.
    temp = str(rut)
    
    # Se eliminan eventuales separadores de miles.
    temp = temp.replace(".", "")
    temp = temp.replace(",", "")
    
    # Se elimina eventual dígito verificador.
    temp = temp.replace("-", "")
    
    # Se agrega el dígito verificador y se retorna.
    return f'{temp[:-1]}-{temp[-1]}' # slicing

Probemos la función:

In [2]:
ruts = ['12.345.678-9', '21543879-9', 214537689]
for rut in ruts:
    print(estandariza_rut(rut))

12345678-9
21543879-9
21453768-9


In [4]:
ruts_ok = []
for rut in ruts:
    ruts_ok.append(estandariza_rut(rut))
ruts_ok

['12345678-9', '21543879-9', '21453768-9']

Aplicamos ahora un `List` comprehension para transformar la `List` `ruts` en una `List` con RUTs estandarizados.

In [3]:
ruts_ok = [estandariza_rut(rut) for rut in ruts]
ruts_ok

['12345678-9', '21543879-9', '21453768-9']

La mejor manera de pensar y entender esta sintaxis es recordando la notación matemática (del colegio nada complicado) para denotar o definir un conjunto. En este caso el conjunto $Y$ formado por todos los valores transformados por la función $f$ de los elementos del conjunto $X$.

$$Y=\{ f(x):x\in X \}$$

#### Ejemplo

Considerar esta `List` de nombres: `nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']`.

Transformar `nombres` en: `['María', 'Rosa', 'José', 'Horacio', 'Anacleta']`.

**Tip:** ir a Google y buscar *capitalize string in python*.

Solución:

In [6]:
# Usando List comprehension. Más elegante y más rápido.
nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']
resultado = [x.capitalize() for x in nombres]
print(resultado)

# Forma fea
resultado1 = []
for x in nombres:
    resultado1.append(x.capitalize())
print(resultado1)

['María', 'Rosa', 'José', 'Horacio', 'Anacleta']
['María', 'Rosa', 'José', 'Horacio', 'Anacleta']


### Ejemplo: Filtrar los Elementos de una `List`

Tenemos ahora una `List` de `Tuple` donde cada `Tuple` tiene el nombre de un producto comestible y un `bool`que indica si el producto tiene o no sellos (si es `True` entonces tiene sellos).

In [5]:
productos = [
    ('Super8', True),
    ('Apio', False),
    ('Zucaritas', True),
    ('Té verde', False)
]

Vamos a filtrar los productos sin sellos y almacenarlos en una nueva `List`.

In [12]:
productos_con_sellos = [p for p in productos if p[1]]

La expresión `if p[1]` es lo mismo que escribir `if p[1] == True`, pero es más elegante y conciso. Veamos qué obtuvimos.

In [13]:
productos_con_sellos

[('Super8', True), ('Zucaritas', True)]

También usando la notación matemática para conjuntos, esta sintaxis se puede pensar como:

$$Y=\{(x_0, x_1): (x_0, x_1) \in X \land x_1 = True \}$$

Aquí, $\land$ es el símbolo matemático para la condición lógica `and`.

#### Ejemplo

Considerando la siguiente `List` `rand_nums` de números enteros generados aleatoriamente usando una `List` comprehension:

- filtrar todos los elementos superiores a 50
- generar la `List` con las raíces cuadradas de los elementos de `rand_nums`.

In [14]:
import random as rnd
import math # En esta librería está la función sqrt para calcular raíces cuadradas
rand_nums = [rnd.randint(1, 101) for i in range(100)] # Es primera vez que usamos range

Solución:

In [17]:
gt_50 = [number for number in rand_nums if number > 50]
sqr = [math.sqrt(number) for number in rand_nums]

print(rand_nums)
print()
print(gt_50)
print()
print(sqr)

[65, 12, 79, 41, 87, 87, 21, 98, 81, 32, 28, 13, 88, 58, 67, 66, 47, 68, 28, 97, 5, 2, 94, 15, 91, 11, 35, 36, 92, 31, 91, 62, 26, 38, 3, 66, 22, 87, 75, 23, 37, 69, 87, 69, 80, 9, 70, 94, 94, 95, 49, 58, 62, 31, 72, 100, 36, 17, 31, 36, 37, 7, 24, 44, 36, 78, 21, 21, 22, 6, 42, 16, 8, 88, 66, 66, 42, 32, 10, 60, 76, 87, 31, 54, 8, 98, 93, 21, 20, 29, 17, 19, 70, 6, 31, 95, 91, 48, 64, 63]

[65, 79, 87, 87, 98, 81, 88, 58, 67, 66, 68, 97, 94, 91, 92, 91, 62, 66, 87, 75, 69, 87, 69, 80, 70, 94, 94, 95, 58, 62, 72, 100, 78, 88, 66, 66, 60, 76, 87, 54, 98, 93, 70, 95, 91, 64, 63]

[8.06225774829855, 3.4641016151377544, 8.888194417315589, 6.4031242374328485, 9.327379053088816, 9.327379053088816, 4.58257569495584, 9.899494936611665, 9.0, 5.656854249492381, 5.291502622129181, 3.605551275463989, 9.38083151964686, 7.615773105863909, 8.18535277187245, 8.12403840463596, 6.855654600401044, 8.246211251235321, 5.291502622129181, 9.848857801796104, 2.23606797749979, 1.4142135623730951, 9.69535971483

##### Ejemplos de `range`

In [18]:
for i in range(5):
    print(i)

0
1
2
3
4


In [22]:
for i in range(-1, 20, 2):
    print(i)

-1
1
3
5
7
9
11
13
15
17
19


In [24]:
print(range.__doc__) # dunder doc

range(stop) -> range object
range(start, stop[, step]) -> range object

Return an object that produces a sequence of integers from start (inclusive)
to stop (exclusive) by step.  range(i, j) produces i, i+1, i+2, ..., j-1.
start defaults to 0, and stop is omitted!  range(4) produces 0, 1, 2, 3.
These are exactly the valid indices for a list of 4 elements.
When step is given, it specifies the increment (or decrement).


In [14]:
datos = ['a', 'b', 'c', 'd', 'e']
for i in range(len(datos)):
    print(datos[i])

a
b
c
d
e


## `Dict` *Comprehensions*

Construir un `Dict` a partir de otro `Dict`, una `List` u otra estrucutura de datos.

### Reorganizar una `List`

Consideremos la siguiente `List` de `Tuples`. Cada `Tuple` contiene el nombre, edad (años), peso (kilos) y estatura (cm.) de un paciente. Data con esta estructura es la que usualmente se obtiene de la consulta a una base de datos. Sin embargo, si queremos rápidamente acceder a las cifras de un paciente en particular, tener la data almacenada de esta forma, no es lo más conveniente. Si vamos a buscar por nombre, lo más conveniente es usar un `Dict` cuyos `keys` sea el nombre del paciente y cuyos `values` sea la data del paciente.

In [26]:
data = [
    ('Pedro', 25, 70, 170),
    ('Juan', 43, 67, 165),
    ('Diego', 18, 90, 180),
    ('María', 50, 55, 160),
]

In [34]:
data[0][1:]

(25, 70, 170)

In [35]:
data_dict = {d[0]: d[1:] for d in data}
data_dict

{'Pedro': (25, 70, 170),
 'Juan': (43, 67, 165),
 'Diego': (18, 90, 180),
 'María': (50, 55, 160)}

Ahora, si queremos acceder a los datos de María sólo tenemos que:

In [36]:
data_dict['María']

(50, 55, 160)

### Asignar Nombres a los Datos Numéricos

La estructura anterior es sin duda una mejora. Sin embargo, podríamos confundirnos entre la edad y el peso de un paciente. Por ejemplo, María tiene **50** años y pesa **55** kilos. Para que no exista esa confusión, también la data se almacenará en un `Dict`.

In [37]:
data_dict_2 = {d[0]: {'edad': d[1], 'peso': d[2], 'estatura': d[3]} for d in data}

In [38]:
data_dict_2

{'Pedro': {'edad': 25, 'peso': 70, 'estatura': 170},
 'Juan': {'edad': 43, 'peso': 67, 'estatura': 165},
 'Diego': {'edad': 18, 'peso': 90, 'estatura': 180},
 'María': {'edad': 50, 'peso': 55, 'estatura': 160}}

Ahora, si queremos la edad de María hacemos:

In [42]:
data_dict_2['María']['edad']

50

Y su peso ...

In [21]:
data_dict_2['María']['peso']

55