# Contenedores

*tuple, list, set, array, dictionary, string, data frame*

Los lenguajes de programación permiten agrupar elementos dentro de ciertas "estructuras de datos" para poder manejarlos cómodamente como una única entidad. Podemos pensar en el equivalente informático de los vectores, matrices, conjuntos, etc. que encontramos en matemáticas. Son **contenedores** de cualquier tipo de dato que queramos almacenar en ellos. También podemos decir que son tipos *compuestos*, en contraste con los tipos *simples* que hemos visto hasta ahora.

Hay varios tipos de contenedor. Cada uno tiene una serie de operaciones que le son propias y a la vez aceptan operaciones comunes a todos ellos (p. ej. consultar el número de elementos almacenados o sumarlos todos).

## Tuplas

Las [tuplas](https://en.wikipedia.org/wiki/Tuple) sirven para agrupar varios valores del mismo o diferentes tipos. Por ejemplo, podemos guardar en una tupla las dos soluciones de una ecuación de segundo grado, o las coordenadas $(x,y,z)$ de un punto en el espacio. La sintaxis en Python es idéntica a la del lenguaje matemático, aunque los paréntesis solo son obligatorios para eliminar ambigüedad. Realmente la tupla se construye cuando introducimos la coma.

Veamos algunos ejemplos:

In [None]:
a = (5.7, 2j)
b = 3,4,5
c = 'hola',(2,abs,b)

La tupla `a` contiene un `float` y un `complex`. La tupla `b` contiene tres `int`. El segundo elemento de la tupla `c` es a su vez otra tupla, que contiene una función y otra tupla más. No hay limitaciones, pero se recomienda usarlas con moderación.

In [None]:
type(b)

In [None]:
b

Para extraer un elemento se emplean los corchetes. Recuerda que el primer índice es el cero.

In [None]:
a[1]

In [None]:
c[1][0]

El número de elementos se puede consultar con la función `len`.

In [None]:
len(b)

Si los elementos son todos numéricos se pueden sumar:

In [None]:
sum((3,-4,7))

## Listas

La [lista](https://en.wikipedia.org/wiki/List_(abstract_data_type) es un contenedor muy parecido a la tupla pero que se construye mediante corchetes.

In [None]:
l = [1,-2,67,0,8,1,3]

También admite elementos de diferentes tipos, incluyendo otras listas, tuplas, o cualquier otro tipo de datos, aunque lo normal es trabajar con listas homogéneas (con elementos del mismo tipo) cuyos elementos pueden procesarse todos de la misma manera usando un bucle.

La extracción de elementos ("indexado"), la longitud de la lista y la suma de sus elementos se consiguen exactamente igual que en las tuplas:

In [None]:
l[2], len(l), sum(l)

Sin embargo, las listas se diferencian en una característica fundamental. Son **mutables**: podemos añadir o quitar elementos de ellas.

In [None]:
l.append(28)

l

In [None]:
l += [-2,4]

l

In [None]:
l.remove(0)

l

In [None]:
l[2] = 7

l

In [None]:
l.pop()

In [None]:
l

In [None]:
del l[2]

In [None]:
l

In [None]:
l.insert(3,100)

l

Más adelante explicaremos en detalle el concepto de mutabilidad.

## Conjuntos

El tipo `set` trata de reproducir el concepto matemático de conjunto. Se construye con llaves y los elementos duplicados se eliminan automáticamente.

In [None]:
C = {1,2,7,1,8,2,1}
C

Las operaciones de conjuntos están disponibles con símbolos o con "métodos" (funciones en forma de sufijo) . Los detalles pueden encontrarse en la [documentación](https://docs.python.org/3.6/library/stdtypes.html?highlight=set#set).

In [None]:
C.union({0,8})

In [None]:
C | {0,8}

In [None]:
C & {5,2}

In [None]:
C - {2,8,0,5}

In [None]:
5 in C

In [None]:
{1,2} < {5,2,1}

## Arrays

El contenedor de tipo [array](https://en.wikipedia.org/wiki/Array_data_type) es una especie de tabla multidimensional cuyos elementos se especifican con una secuencia de índices. Un array de dimensión 1 es como un vector, cuyos elementos se especifican como `a[j]`. Un array de dimensión 2 es como una matriz, cuyos elementos  `a[i,j]` se especifican con dos índices (i-ésima fila, j-ésima columna). Un array de dimensión 3 sería un bloque parecido a un cubo de Rubik cuyos elementos se especifican mediante tres índices `a[i,j,k]` (fila, columna, capa). Y así sucesivamente.

Por ejemplo, un archivo de vídeo una vez descodificado puede considerarse como un array de 4 dimensiones: los valores de tiempo, fila y columna, especifican un vector de 3 componentes que codifica el color de cada punto elemental de imagen (pixel).

Los arrays son estructuras completamente regulares, con el mismo número de elementos y organización en cada índice, y con el mismo tipo base, que suele ser numérico. Admiten de forma natural las operaciones matemáticas y de álgebra lineal. El array es la estructura de datos fundamental en la computación científica. 

En Python los arrays están disponibles en el módulo `numpy`, que estudiaremos en detalle en un tema posterior. Aquí simplemente ponemos un par de ejempos muy simples para recordar la forma de importar el módulo.

In [None]:
import numpy as np

In [None]:
np.linspace(0,1,11)

In [None]:
v = np.random.randint(1,6+1,10)
v

In [None]:
np.median(v)

## Diccionarios *

El tipo `dict` es un contenedor que almacena datos con una clave de acceso asociada a cada uno.

Por ejemplo, el siguiente diccionario almacena las propiedades de un cuerpo en un hipotético programa de simulación:

In [None]:
obj = {'masa': 5.0, 'posición': (3,5,6), 'velocidad': (0,0,1), 'radio': 5.7}

En este caso las claves de acceso son cadenas y los datos almacenados son números y tuplas. Pero cualquier combinación es posible:

In [None]:
dic = {3:5, 5:2}

Podemos extraer el elemento correspondiente a una clave mediante el corchete:

In [None]:
obj['radio']

In [None]:
dic[3]

Un diccionario es como una lista o una tupla cuyos elementos se indexan con un dato de (casi) cualquier tipo. Para consultar las claves existentes se utiliza el método `keys`.

In [None]:
obj.keys()

Un ejemplo muy práctico de diccionario lo tenemos en el módulo [scipy.constants](https://docs.scipy.org/doc/scipy-0.19.0/reference/constants.html), que proporciona los valores oficiales de las constantes físicas.

In [None]:
import scipy.constants as const

In [None]:
const.physical_constants['Planck constant']

Este diccionario contiene el valor, sus unidades, y la incertidumbre con la que se conoce actualmente cada magnitud. También están disponibles las constantes directamente con nombres, si solo necesitamos su valor.

In [None]:
const.Planck

Para conocer las claves del diccionario o los nombres disponibles en un módulo puedes pulsar la tecla de tabulador en el editor justo después del punto o la comilla, y aparecerán una ventana todos los nombres definidos.

## Data frames *

El tipo "data frame" es una tabla de dos dimensiones cuyas columnas pueden tener tipos  distintos. Es la estructura utilizada para organizar la información en las aplicaciones de análisis de datos y estadística. Este tema se estudiará detenidamente en la segunda parte de la asignatura.

## Otros *

Hay muchos otros tipos de estructuras de datos, útiles para otras aplicaciones ([árboles][tree], [grafos][graph], etc.) pero que se salen de los límites de este curso introductorio.

[tree]: https://en.wikipedia.org/wiki/Tree_(data_structure)

[graph]: https://en.wikipedia.org/wiki/Graph_(abstract_data_type)

## Iteración en contenedores

Si queremos procesar todos los elementos de un contenedor podemos hacer un bucle y acceder a cada uno de ellos con la operación de indexado.

In [None]:
lista = [2,-7,30,0,5]

for k in range(len(lista)):
    print(lista[k])

Esta construcción es tan común que en Python podemos escribirla de forma mucho más natural:

In [None]:
for x in lista:
    print(x)

Esto funciona incluso en contenedores como `set` que no admiten el indexado. Los tipos contenedores se pueden "recorrer" directamente mediante un bucle `for`, visitando todos sus elementos.

In [None]:
for k,v  in obj.items():
    print(k,v)

A veces resulta útil recorrer los elementos junto con su número de orden:

In [None]:
for k,x in enumerate(lista):
    print(k,x)

## Conversión

El nombre de un contenedor es a la vez una función para construir un contenedor de ese tipo a partir de otro contenedor cualquiera.

In [None]:
l = [4,2,2,3,3,3,3,1]

tuple(l)

In [None]:
set(l)

In [None]:
list({5,4,3})

In [None]:
list(range(10))

Esta característica funciona con cualquier otro tipo, no solo con contenedores:

In [None]:
float(5)

In [None]:
int('54')

Si la conversión no es posible se producirá un error.

## Subsecuencias

In [None]:
l = list(range(20))

l

In [None]:
l[:5]

In [None]:
l[4:]

In [None]:
l[-3:]

In [None]:
l[5:10:2]

In [None]:
l[::-1]

In [None]:
l[10:14] = [0,0,0]

l

## List comprehensions

Cuando utilizamos un bucle para recorrer una lista o realizar un gran número de cálculos los resultados intermedios se pueden imprimir si se desea, pero en cualquier caso al final se pierden.

Muchas veces surge la necesidad de construir una lista (o cualquier otro tipo de contenedor) a partir de los elementos de otra. Una forma de programarlo es empezar con una lista vacía e iterar mediante un bucle añadiendo elementos.

Supongamos que queremos construir una lista con los 100 primeros números cuadrados $1,4,9,16,\ldots,10000$. En principio parece razonable hacer lo siguiente:

In [None]:
r = []
for k in range(1,101):
    r.append(k**2)

print(r)

No está mal, pero los lenguajes modernos proporcionan una herramienta mucho más elegante para expresar este tipo de cálculos. Se conoce como [list comprehension](https://en.wikipedia.org/wiki/List_comprehension) (o *bucle implícito*) y trata de imitar la notación matemática para definir conjuntos:

$$ r = \{ k^2 \; : \; \forall k \in \mathbb{N},  \;1 \leq k \leq 100 \} $$

In [None]:
r = [ k**2 for k in range(1,101) ]

print(r)

In [None]:
[ k for k in range(100) if k%7 == 0 ]

In [None]:
[(a,b) for a in range(1,7) for b in range(1,7) if a + b >= 10 ]

In [None]:
{ a+b for a in range(1,7) for b in range(1,7) }

In [None]:
sum([k**2 for k in range(100+1)])

In [None]:
sum([k for k in [1,3,5,7,9]])

## Reducción *

In [None]:
np.prod([3,5,7])

In [None]:
from functools import reduce
import operator

def product(l):
    return reduce(operator.mul,l,1)

In [None]:
product([3,5,7])

In [None]:
product(range(1,10+1))

## zip *

In [None]:
list( zip(range(3), "Hola") )

## Counter *

In [None]:
from collections import Counter

In [None]:
Counter( [3,5,7,3,1,3,5])

In [None]:
Counter( "sdfñlksjdfdsf" )

## Desestructuración *

En Python es posible asignar nombres a los elementos de una secuencia de forma muy natural.

Supongamos que tenemos una tupla como la siguiente

In [None]:
t = (3,4,5)

y queremos operar con sus elementos. Podemos acceder con un índice:

In [None]:
t[1] + t[2]

No hay ningún problema pero el acceso con índice se hace pesado si los elementos aparecen varias veces en el código. En estos casos es mejor ponerles nombre. Podemos hacer

In [None]:
b = t[1]
c = t[2]

b+c

Sin embargo Python nos permite algo más elegante:

In [None]:
_,b,c = t

b+c

(El nombre `_`  se suele usar cuando no necesitamos ese elemento.)

Usando esta característica podemos escribir varias asignaciones de una vez:

In [None]:
x, y = 23, 45

Un nombre con asterisco captura dentro de una lista todos los elementos restantes:

In [None]:
s = 'Alberto'

x, y, *z, w = s

In [None]:
y

In [None]:
z

La desestructuración de argumentos es muy práctica en combinación con las *list comprehensions*:

In [None]:
l = [(k,k**2) for k in range(5)]
l

In [None]:
[a+b for a,b in l]

## Tipos mutables *

¡Cuidado!

In [None]:
l = [1,2,3]

b = (5,l)

l[1] = 100

b

In [None]:
x = y = 0

y = 1

x

In [None]:
x = y = [0]

y = [1]

x

In [None]:
x = y = [0]

y[0] = 1

x

## Ejercicios

- Rehaz los ejercicios del capítulo anterior (solo los que tenga sentido hacerlo) usando *list comprehensions*.


- Comprueba el [teorema de Nichomacus](https://en.wikipedia.org/wiki/Squared_triangular_number) para unos cuantos valores de $n$:

 $$1^3 + 2^3 + 3^3 + \ldots + n^3 = (1+2+3+\ldots+n)^2 $$


- Crea una lista de [tripletas pitagóricas](https://en.wikipedia.org/wiki/Pythagorean_triple).