# `List` y `Dict` Comprehensions

Es difícil explicar en abstracto que son las `List` y `Dict` *comprehensions*. Por ahora sólo vamos a decir que son una manera muy potente y rápida de generar `List` y `Dict` a partir de otros `List` y `Dict`. Veamos un par de ejemplos.

## `List` *Comprehensions*

Construir una `List` a partir de otra `List` u otra estrucutura de datos.

### Ejemplo: Transformar los Elementos de una `List`

Supongamos que tenemos una lista de RUTs. Como es típico, los RUTs vienen con formatos inconsistentes, supongamos que pueden venir con o sin separador de miles y con o sin guión antes del dígito verificador. Por ejemplo:

- 12.345.678-9
- 21543879-9
- 214537689

Obviamente, antes de utilizar esta lista, queremos homologar los formatos. Para homologar un RUT al formato sin separador de miles y con guión, escribimos la siguiente función:

In [1]:
def estandariza_rut(rut):
    # Antes de comenzar la transformación nos aseguramos que el parámetro rut sea un str
    temp = str(rut).replace(".", "").replace("-", "")
    return f'{temp[:-1]}-{temp[-1]}'

Probemos la función:

In [2]:
ruts = ['12.345.678-9', '21543879-9', 214537689]
for rut in ruts:
    print(estandariza_rut(rut))

12345678-9
21543879-9
21453768-9


Aplicamos ahora un `List` comprehension para transformar la `List` `ruts` en una `List` con RUTs estandarizados.

In [3]:
ruts_ok = [estandariza_rut(rut) for rut in ruts]
ruts_ok

['12345678-9', '21543879-9', '21453768-9']

La mejor manera de pensar y entender esta sintaxis es recordando la notación matemática (del colegio nada complicado) para denotar o definir un conjunto. En este caso el conjunto $Y$ formado por todos los valores transformados por la función $f$ de los elementos del conjunto $X$.

$$Y=\{ f(x):x\in X \}$$

#### Ejercicio

Considerar esta `List` de nombres: `nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']`.

Transformar `nombres` en: `['María', 'Rosa', 'José', 'Horacio', 'Anacleta']`.

**Tip:** ir a Google y buscar *capitalize string in python*.

Solución:

In [4]:
nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']
resultado = [x.capitalize() for x in nombres]
print(resultado)

# Forma fea
resultado1 = []
for x in nombres:
    resultado1.append(x.capitalize())
print(resultado1)

['María', 'Rosa', 'José', 'Horacio', 'Anacleta']
['María', 'Rosa', 'José', 'Horacio', 'Anacleta']


### Ejemplo: Filtrar los Elementos de una `List`

Tenemos ahora una `List` de `Tuple` donde cada `Tuple` tiene el nombre de un producto comestible y un `bool`que indica si el producto tiene o no sellos (si es `True` entonces tiene sellos).

In [5]:
productos = [('Super8', True), ('Apio', False), ('Zucaritas', True), ('Té verde', False)]

Vamos a filtrar los productos sin sellos y almacenarlos en una nueva `List`.

In [6]:
productos_ok = [p for p in productos if p[1]] # if p[1] es lo mismo que escribir if p[1] == True, pero es más
                                              # elegante y conciso.
productos_ok

[('Super8', True), ('Zucaritas', True)]

También usando la notación matemática para conjuntos, esta sintaxis se puede pensar como:

$$Y=\{x_1: (x_0, x_1) \in X \land x_1 = True \}$$

Aquí, $\land$ es el símbolo matemático para la condición lógica `and`.

#### Ejercicio

Considerando la siguiente `List` `rand_nums` de números enteros generados aleatoriamente usando una `List` comprehension:

- filtrar todos los elementos superiores a 50
- generar la `List` con las raíces cuadradas de los elementos de `rand_nums`.

In [7]:
import random as rnd
import math # En esta librería está la función sqrt para calcular raíces cuadradas
rand_nums = [rnd.randint(1, 100) for i in range(100)]

Solución:

In [23]:
gt_50 = [number for number in rand_nums if number > 50]
sqr = [math.sqrt(number) for number in rand_nums]

print(rand_nums)
print()
print(gt_50)
print()
print(sqr)

[50, 85, 15, 1, 64, 44, 70, 67, 66, 92, 35, 70, 81, 13, 26, 60, 75, 22, 69, 5, 58, 5, 75, 37, 29, 90, 77, 95, 87, 33, 66, 46, 97, 78, 43, 5, 66, 29, 6, 55, 6, 21, 98, 18, 13, 23, 81, 57, 100, 38, 73, 57, 31, 42, 23, 18, 73, 97, 90, 81, 47, 24, 99, 77, 36, 75, 69, 73, 18, 24, 51, 60, 80, 99, 75, 23, 62, 45, 2, 38, 77, 24, 34, 56, 56, 98, 19, 80, 88, 10, 98, 5, 17, 73, 56, 64, 57, 85, 74, 49]

[85, 64, 70, 67, 66, 92, 70, 81, 60, 75, 69, 58, 75, 90, 77, 95, 87, 66, 97, 78, 66, 55, 98, 81, 57, 100, 73, 57, 73, 97, 90, 81, 99, 77, 75, 69, 73, 51, 60, 80, 99, 75, 62, 77, 56, 56, 98, 80, 88, 98, 73, 56, 64, 57, 85, 74]

[7.0710678118654755, 9.219544457292887, 3.872983346207417, 1.0, 8.0, 6.6332495807108, 8.366600265340756, 8.18535277187245, 8.12403840463596, 9.591663046625438, 5.916079783099616, 8.366600265340756, 9.0, 3.605551275463989, 5.0990195135927845, 7.745966692414834, 8.660254037844387, 4.69041575982343, 8.306623862918075, 2.23606797749979, 7.615773105863909, 2.23606797749979, 8.6602

## `Dict` *Comprehensions*

Construir un `Dict` a partir de otro `Dict`, una `List` u otra estrucutura de datos.

### Reorganizar una `List`

Consideremos la siguiente `List` de `Tuples`. Cada `Tuple` contiene el nombre, edad (años), peso (kilos) y estatura (cm.) de un paciente. Data con esta estructura es la que usualmente se obtiene de la consulta a una base de datos. Sin embargo, si queremos rápidamente acceder a las cifras de un paciente en particular, tener así almacenda la data, no es lo más conveniente. Si vamos a buscar por nombre, lo más conveniente es usar un `Dict` cuyos `keys` sea el nombre del paciente y cuyos `values` sea la data del paciente.

In [9]:
data = [
    ('Pedro', 25, 70, 170),
    ('Juan', 43, 67, 165),
    ('Diego', 18, 90, 180),
    ('María', 50, 55, 160),
]

In [10]:
data_dict = {d[0]: d[1:] for d in data}
data_dict

{'Pedro': (25, 70, 170),
 'Juan': (43, 67, 165),
 'Diego': (18, 90, 180),
 'María': (50, 55, 160)}

Ahora, si queremos acceder a los datos de María sólo tenemos que:

In [11]:
data_dict['María']

(50, 55, 160)

### Asignar Nombres a los Datos Numéricos

La estructura anterior es sin duda una mejora. Sin embargo, podríamos confundirnos entre la edad y el peso de un paciente. Por ejemplo, María tiene **50** años y pesa **55** kilos. Para que no puede existir esa confusión, también la data se almacenará en un `Dict`.

In [12]:
data_dict_2 = {d[0]: {'edad': d[1], 'peso': d[2], 'estatura': d[3]} for d in data}

Ahora, si queremos la edad de María hacemos:

In [13]:
data_dict_2['María']['edad']

50