# Tipos de datos compuestos o Estructuras de datos

Los siguientes tipos de datos que veremos son llamados *compuestos* o *estructuras de datos* 
porque sirven para agrupar distintas variables en una sola.

## Listas

La lista es la estructura más habitual, consiste en una enumeración o lista
de variables, siendo el orden de la misma importante, porque es precisamente
usando ese orden como después podremos acceder a los valores individuales. En
Python una lista se indica abriendo corchetes: ``[``, a continuación
las variables, valores o expresiones que formarán parte de la lista
y acabamos cerrando los corchetes: ``]``. Descrito así, parece mucho
más complicado. Veamos un ejemplo:

In [1]:
a = ['Maria', 4, 723.4, None]
a

['Maria', 4, 723.4, None]

En otros lenguajes, la lista o `array` de datos solo puede contener
un determinado tipo de datos; por ejemplo, una lista de enteros. En
Python, como vemos, en la lista se pueden guardar cualquier tipo de
datos.

Al igual que las cadenas de texto, las listas se acceden usando un índice,
que de nuevo empieza por cero. También podemos usar "rebanadas" o *slices*,
exactamente igual que con las strings, y tambien podemos concatenarlas
usando el operador `+`:

In [2]:
a = ['Maria', 4, 723.4, None]
assert a[0] == 'Maria'
assert a[1:3] == [4, 723.4]
assert a[-2:] == [723.4, None]
assert a + [(6+7j), True] == ['Maria', 4, 723.4, None, (6+7j), True]

Tiene sentido, si pensamos que una cadena de textos al final viene a ser
como una lista de caracteres.

Todas las operaciones de rebanado devuelven una nueva lista, que contiene
los elementos indicados. Una forma habitual de obtener una copia de una
lista es usando ``[:]``; al omitir los límites inferior y superior
estos son sustituidos por "desde el principio" y "hasta el final":

In [3]:
a = ['Maria', 4, 723.4, None]
b = a[:]
assert a == b
a is b

False

Pero, al contrario que las cadenas de texto, las listas sí son *mutables*. Es
posible cambiar elementos individuales dentro de la lista:

In [4]:
a = ['Maria', 4, 723.4, None]
a[1] = a[1] + 6


Incluso es posible hacer aquello que no podíamos con las strings, asignar
a una rodaja, aunque esto cambie el tamaño de la lista o incluso
la deje totalmente vacia:

In [5]:
a = [1,2,3,4]
a[1:3] = [2.0, 2.1, 2.3, 2.5, 2.7, 2.9, 3.0]
assert a == [1, 2.0, 2.1, 2.3, 2.5, 2.7, 2.9, 3.0, 4]
a[:] = [] # Borramos todo el contenido de la lista
assert a == []

La función `len`, que en el caso de las cadenas de textos nos
retornaba su longitud, aplicada a una lista nos devuelve
el número de elementos de la lista:

In [6]:
l = [1,2,3,4]
assert len(l) == 4
s = '¡Es una trampa!'
assert len(s) == 15

Las listas pueden contener cualquier tipo de dato, no solo los datos
simples que vimos al principio, tambien pueden contener otras listas,
o tuplas, diccionarios (que veremos a continuación), etc... Por ejemplo
podemos crear una matriz de 3x3 haciendo una lista de tres elementos,
cada uno de los cuales es un una lista de tres elementos:

In [7]:
a = [[1,2,3], [4,5,6], [7,8,9]]
print(a[0][0], a[1][1])

1 5


Que las listas sean mutables es algo que no debemos olvidar, ya que
puede causar muchos problemas en el programador principiante. Por ejemplo,
dado el siguiente fragmento de código, ¿qué saldrá impreso por
pantalla? ¿Por qué?:

In [8]:
a = [1,2,3,5]
b = a
b[3] = 'hola'
print(a)

[1, 2, 3, 'hola']


Un ejemplo un poco más rebuscado. Podemos añadir un elemento a una lista
usando el **método** `append`, de forma que:

In [9]:
a = [1,2,3]
a.append(4)
assert a == [1, 2, 3, 4]

Sabiendo esto, y dado el siguiente programa, ¿Cuál será la
salida? ¿y por qué?:

In [10]:
q = ['a', 'b']
p = [1, q, 4]
q.append('extra')
print(p)

[1, ['a', 'b', 'extra'], 4]


¿Qué operadores podemos usar con las listas? En primer lugar podemos
compararlas con el operador `==`; las listas `a` y `b` son iguales si lo
son entre si cada uno de los elementos de que las componen:

In [11]:
a = [1, 2, 3]
b = [1, 2, 3]
assert a == b

Las comparaciones (`<`, `<=`, `>`, `>=` y `!=`) se realizan
comparando los elementos en orden, a la primera discrepancia, se
devuelve el resultado correspondiente. Si no se encuentra ninguna
discrepacia, se considera que ambas secuencias son iguales:

In [12]:
a = [1, 2, 3]
b = [1, 2, 4]
assert not a > b
assert a < b

Si una secuencia resulta ser la parte inicial de la otra, se considera
que la secuencia más corta es la más pequeña. Si los elementos a
comparar son cadenas de texto, se compararán carácter a carácter. Es
legal comparar objetos de diferentes tipos, pero el resultado puede
que le sorprenda: Los tipos se ordenan por su nombre (en inglés, claro).
Por lo tanto, una *string* siempre será menor que una *tupla*, una
*lista* siempre sera menor que una *string*, etc...

Tambien podemos sumar listas con el operador `+`:

In [13]:
a = [1, 2, 3]
b = [4, 5, 6]
c = a + b
assert c == [1, 2, 3, 4, 5, 6]

Pero cuidado, el operador `+` siempre creará una nueva lista. Si queremos
añadir una lista a la actual, sin crear una nueva, tenemos que usar
una notación especial, `+=`:

In [14]:
a = [1, 2, 3]
a += [4, 5, 6]
assert a == [1, 2, 3, 4, 5, 6]

Aunque el resultado parezca el mismo, hay una sutil diferencia entre
ampliar una lista o crear una nueva con el contenido ampliado, que
puede causar  problemas relativamente complejos. Por ejemplo,
supongamos de nuevo la lista `a`:

In [15]:
a = [1,2,3]
b = a  # a y b son la misma lista
a += [4]
assert b == [1, 2, 3, 4]
# Es correcto, los cambios en a se reflejan en b, son la misma
assert a is b
a = a + [5]
assert a == [1, 2, 3, 4, 5] # 'a' es una nueva lista
assert b == [1, 2, 3, 4]    # 'b' sigue apuntado a la lista original
assert a is not b

Evidentemente, si la lista es muy larga, es mucho más eficiente añadir
un elemento a la lista que crear una nueva lista de cero, con  el
nuevo elemento añadido, más la sobrecarga de, probablemente, tener que
liberar la memoria de las dos listas previas.

Las listas definen también una serie de métodos, algunos de los cuales
explicaremos brevemente aquí:

### Métodos aplicables a las listas
    
- **`append(x)`**: Permite añadir el elemento `x` a la lista. En elemento se añade despues
  de todos los elementos que hubiera, de forma que el nuevo elemento es el último.

- **`count(x)`**: Devuelve el número de veces que aparece el parámetro `x` en la lista.

- **`extend(l)`**: Añade a la lista añade todos los elementos de la lista que se pasa como parámetro.

- **`index(x)`**: Devuelve la posición del elemento `x` dentro de la lista. Si no lo puede encontrar, se producirá un error.

- **`insert(pos, x)`**: Inserta el elemento `x` en la lista, de forma que ocupará la posición indicada por el parámetro `pos`.

- **`pop([pos])`**: Extrae el elemento de la lista que ocupe la posición `pos`, y lo devuelve como resultado. Si no se especifica la posición, se extrae y devuelve el último. (Los corchetes `[` y `]` indican que el parámetro es opcional)

- **`remove(x)`**: Elimina el elemento `x` de la lista. Eleva un error si `x` no estuviera en la misma.

- **`reverse()`**: Invierte las posiciones de los elementos de la lista, de forma que el primero pasa a ser el último, sl segundo penúltimo, etc... Modifica la lista en sí, no devuelve una nueva lista con el nuevo orden.

- **`sort([cmp=None, key=None, reverse=False])`**: Ordena los elementos en la lista (los argumentos que se le pueden pasar, todos opcionales, se utilizan para ajustar la forma en que deseamos que se realiza la ordenación, y se explicarán mas adelante, cuando veamos la función `sorted`).

Veamos un ejemplo en el que usamos estos métodos:

In [16]:
a = [66.25, 333, 333, 1, 1234.5]
assert a.count(333) == 2 
assert a.count(66.25) == 1 
assert a.count('x') == 0
a.insert(2, -1)
a.append(333)
assert a == [66.25, 333, -1, 333, 1, 1234.5, 333]
assert a.index(333) == 1
a.remove(333)
assert a == [66.25, -1, 333, 1, 1234.5, 333]
a.reverse()
assert a == [333, 1234.5, 1, 333, -1, 66.25]
a.sort()
assert a == [-1, 1, 66.25, 333, 333, 1234.5]
assert a.pop() == 1234.5
assert a == [-1, 1, 66.25, 333, 333]

### Implementando pilas y/o colas con listas 

Podemos usar una lista como una pila o *stack* (*LIFO: Last In, First Out*) usando
solo los métodos `append()` y `pop()` para introducir o extraer datos.

Podemos usar una lista como una cola o *queue* (*FIFO: First In, First Out*) si
usamos solo `insert()` (con `index=0`) y `pop()`.

## Tuplas

Hemos visto que las listas y las cadenas de texto tenían muchas cosas
en común, como el poder ser accedidas mediante índices y por rodajas.
En realidad, hay más tipos de datos que comparten estas propiedades,
todos ellos agrupados bajo el nombre genérico de **tipos de secuencias
de datos**, como `bytes`, `bytearray` o el que nos ocupa ahora,
tuplas (`tuple`). A medida que evoluciona Python, puede que se vayan
añadiendo nuevos tipos de secuencia. De hecho, podemos escribir
nuestros propios tipos de secuencia, tal y como veremos en la sección
de programación orientada a objetos.

Las tuplas son, por tanto, un tipo de secuencia de datos. Se pueden
escribir simplemente con una lista de valores separados con comas, o
bien encerrándolas entre  paréntesis. En general se recomienda, por
claridad, incluir los paréntesis:

In [17]:
t = 12.5, 9560 + 23, 'hola'
assert t[0] == 12.5 
assert t[1] == 9583
assert t[2] == 'hola'
assert t == (12.5, 9560 + 23, 'hola')

Todo lo dicho para las listas es aplicable para las tuplas, con una
diferencia: las tuplas __no son mutables__. Igual que con las *strings*,
podemos crear nuevas tuplas cortando y rebanando de otras, pero
no podemos modificar una determinada tupla una vez creada. Obsérvese
que, aunque las tuplas sean inmutables, sí que pueden contener en su
interior objetos mutables, como una lista.

El intérprete de Python hace uso extensivo de las tuplas mediante un
mecanismo llamado  **empaquetado/desempaquetado automático de
tuplas**. Esto es *azúcar sintáctico* que nos permite expresiones como:

In [18]:
# Asignación múltiple
a, b, c = 1, 2, 3
print(a, b, c)

1 2 3


O ésta:

In [19]:
# Intercambio de valores
a = -5 
b = 7
a, b = b, a
print(a, b)

7 -5


Se plantea un problema con la construcción de tuplas vacías o con un
único elemento: La sintaxis nos obliga a especificar una tupla vacía
con `()`, lo cual parece bastante claro, pero para una  tupla con un
solo elemento, debe incluir obligatoriamente una coma (no es suficiente
con encerrar un valor entre paréntesis). La sintaxis es fea, hay que
reconocerlo, pero funciona:

In [20]:
vacia = ()
singleton = ('hola',)    # <-- ojo a la coma
assert len(vacia) == 0
assert len(singleton) == 1 

Notese que la función `len` también funciona con las tuplas, y con
un resultado equivalente al que producía para listas y cadenas de
texto. Compacto.

También podemos comparar tuplas, siguiendo las mismas reglas que
seguíamos para las listas. Las tuplas comparten métodos con las
listas, pero no todos, ya que muchos no tienen sentido al ser las
tuplas inmutables:

- **`count(valor)` -> integer**

  Devuelve el número de veces que aparece `valor` en la lista.


- **`index(valor, [inicio, [final]])` -> integer**

  Retorna el índice de la primera aparición de `valor` en  la
  lista; opcionalmente entre los límites indicados por
  `inicio` y `final`. Si `valor` no se encuentra en la
  lista, eleva una excepción de tipo `ValueError`.

Otra utilidad interesante que se deriva de las tuplas y el empaquetado y desempaquetado automático
es la capacidad de devolver más de un resultado desde una función o método. Veámoslo
con un ejemplo:

In [21]:
def divide(cociente, divisor):
    return (
        cociente // divisor,
        cociente % divisor,
        )

resultado, resto = divide(75, 5)
assert resultado == 15 and resto == 0
resultado, resto = divide(27, 4)
assert resultado == 6 and resto == 3

Sólo como curiosidad, Python nos ofrece la función `divmod` en su librería estándar, que realiza la operación anterior en un solo paso:

In [22]:
resultado, resto = divmod(75, 5)
assert resultado == 15 and resto == 0

## Conjuntos (sets)

Los conjuntos son exactamente lo que su nombre indica: una
implementación del concepto matemático de conjunto. Como tal, cumple con
dos condiciones imprescindibles: sus elementos no mantienen ningún orden
intrínseco, y no es posible que un elemento se repita dentro del
conjunto. Las usos más habituales de los conjuntos son determinar si un
objeto pertenece al conjunto o no, y eliminar duplicados.

Podemos crear un conjunto con la función `set`; normalmente le
pasaremos una lista de elementos o un iterable a partir de los cuales
crear el  conjunto. Si hubiera duplicados en la lista, estos desaparecen
en el conjunto. Para determinar si un valor pertenece a un conjunto
podemos usar el operador `in`. La función `len`, como no podía ser
de otra manera, también  funciona con conjuntos:

In [23]:
s = set(['a', 'e', 'i', 'o', 'u', 'a', 'e'])
assert s == set(['a', 'i', 'e', 'u', 'o'])
assert len(s) == 5
assert 'a' in s
assert 'f' not in s

Con los conjuntos es posible hacer cualquier operación del [Algebra de
Conjuntos](https://es.wikipedia.org/wiki/%C3%81lgebra_de_conjuntos): unión, intersección, diferencia, complemento y (con un poco de ayuda) producto cartesiano:

In [24]:
a = set('PETER')
assert a == set(['P', 'R', 'E', 'T'])
b = set('PARKER')
assert b == set(['A', 'P', 'K', 'R', 'E'])

diferencia = a - b # Letras en PETER, pero no en PARKER
assert diferencia == set(['T'])

otra_diferencia = b - a # Letras en PARKER, pero no en PETER
assert otra_diferencia == set(['A', 'K'])

union = a | b # Letras en PETER o en PARKER (Unión)
assert union == set(['A', 'E', 'K', 'P', 'R', 'T'])

interseccion = a & b # Letras en PETER y en PARKER (Intersección)
assert interseccion == set(['P', 'R', 'E'])

complemento = a ^ b # Letras en PETER o en PARKER, pero no en los dos
assert complemento == set(['A', 'T', 'K'])

Para el *producto cartesiano* tendremos que recurrir al módulo de la librería
estándar `itertools` (Veremos los módulos más adelante):

In [25]:
import itertools
a = set('ABC')
b = set('123')
p = set(itertools.product(a, b))
print(sorted(p))

[('A', '1'), ('A', '2'), ('A', '3'), ('B', '1'), ('B', '2'), ('B', '3'), ('C', '1'), ('C', '2'), ('C', '3')]


Otros métodos  interesantes de los conjuntos son los
siguientes:

- **`issubset(set)` -> boolean**

    Indica si el conjunto es un subconjunto de otro mayor, que
    se pasa como parámetro.


- **`issuperset(set)` -> boolean**

    Indica si el el conjunto incluye al que
    se le pasa como parámetro.


- **`isdisjoint(set)` -> boolean**

    Indica si el subconjunto no tiene ningún elemento en común
    con el que se le pasa como parámetro.

## Diccionarios

Los diccionarios son quizá la estructura de datos más potente de
Python. Si solo pudiéramos quedarnos con una, esta sería la
prefererida de muchos.

Los dicionarios reciben también nombres como *memorias asociativas* o
*arrays asociativos* en otros lenguajes. Es una estructura que nos
permite almacenar valores, como lo es también una lista o una tupla,
pero a diferencia de ellas, los valores que podemos usar para indexar
-es decir, para acceder a los valores almacenados- no están limitados
a un rango de números. Se accede a los contenidos de los diccionarios
con claves o *keys*, que definimos nosotros a nuestro criterio. La
única condición que debe tener un valor para poder ser usado
como clave es que tiene que ser __inmutable__. Las cadenas de texto, como
valores inmutables que son, resultan ideales para ser usadas como
claves, pero también podemos usar enteros, tuplas (siempre y cuando
contengan, a su vez, valores inmutables), números complejos,
etc...

Las listas y los propios diccionarios, al ser mutables, no  pueden ser
usadas como claves, pero sí ser almacenadas como valores dentro del diccionario.

La mejor manera de pensar en los diccionarios en como un montón de
parejas `clave:valor`, donde las claves son únicas dentro del
diccionario, y los valores pueden ser cualquier cosa. Podemos crear un
diccionario vacío usando solo las llaves: `{}`. Si queremos
inicializarlo con contenido, se añaden parejas con el formato
`clave:valor`, separadas por comas, dentro de  las llaves.

Veamos un ejemplo clásico, un diccionario que nos permite pasar de nombres
de meses al número del mes:

In [26]:
d = {
   'enero': 1,
   'febrero': 2,
   'marzo': 3,
   'abril': 4,
   'mayo': 5,
   'junio': 6,
   'julio': 7,
   'agosto': 8,
   'septiembre': 9,
   'octubre': 10,
   'noviembre': 11,
   'diciembre': 12,
   }
print('el mes de {} es el número {}'.format('enero', d['octubre']))

el mes de enero es el número 10


Espero que no sorprenda a nadie la revelación de que la función `len()`
también funciona con los diccionarios, y devuelve, por supuesto, el
número de claves/valores almacenados en el diccionario:

In [27]:
print(len(d))

12


Las operaciones más habituales con un diccionario son
almacenar un valor con una determinada clave, o recuperar un valor a partir
de la clave:

In [28]:
d = {}
d['hola'] = 'Mundo'
print(d['hola'])

Mundo


Si se asigna un valor usando una clave que ya existe, se
sobreescribe el valor nuevo y el antiguo, si no queda nada que lo
referencie, desaparecerá. Si intentamos obtener un valor usando
una clave que no existe en el diccionario, obtendremos una
excepción de tipo `KeyError`.

Un método de uso habitual en los diccionarios es `keys()`, que
devuelve una lista de todas las claves. Según la definición del lenguaje actual, las
claves se devuelven en un orden sin determinar, lo
que significa, en la práctica, que debemos asumir un orden aleatorio. Tambien podemos
determinar si una determinada clave existe en un diccionario usando la
palabra reservada `in`. Siguiendo con el ejemplo de los meses:

In [29]:
d = {
    'enero': 1,    'febrero': 2,    'marzo': 3,
    'abril': 4,    'mayo': 5,       'junio': 6,
    'julio': 7,    'agosto': 8,     'septiembre': 9,
    'octubre': 10, 'noviembre': 11, 'diciembre': 12,
   }
assert 'octubre' in d
assert 'OCTUBRE' not in d
print(d.keys())

dict_keys(['marzo', 'julio', 'abril', 'agosto', 'junio', 'enero', 'octubre', 'febrero', 'septiembre', 'mayo', 'noviembre', 'diciembre'])


**Nota**: Hay una clase derivada del diccionario estandar, llamada `OrderedDict`, definida
en el módulo de la librería estándar [collections](https://docs.python.org/2/library/collections.html), que recuerda
el orden en que fueron insertados los valores, de forma que iterar por el mismo o llamar a `keys()` 
devuelve las claves en ese mismo orden. En la versión canónica de Python 3.6 sobre C, los diccionarios
estándar son, de facto, diccionarios ordenados, pero es una característica de implementación; en el
estándar del lenguaje los diccionarios siguen considerándose como no ordenados. Es posible que esto cambie
en un futuro, pero por el momento lo más seguro es considerar los diccionarios como si no tuvieran 
orden ninguno, y usar `OrderedDict` en caso de que tengamos la necesidad de mantener las claves ordenadas.


In [30]:
from collections import OrderedDict

d = OrderedDict()
d['a'] = 1
d['b'] = 2
d['c'] = 3
for k in d:
    print(k)

a
b
c


Hay una función, `dict` que nos permite construir diccionarios estándar
de dos formas diferentes: o bien indicándole una secuencia
de parejas "clave, valor" (por ejemplo, una lista de 2-tuplas):

In [31]:
b = dict([
    ('Jack Kirby', 1917),
    ('Stan Lee', 1922),
    ('Steve Ditko', 1927)
    ])
print(b['Stan Lee'])

1922


O, si las claves son simples cadenas de texto, sin espacios, etc...
puede ser más sencillo especificarlas mediante parámetros con nombre:

In [32]:
n = dict(Au=79, Ag=47, Cu=29, Pb=82, Hg=89, Fe=26, H=1)
print(n)

{'Pb': 82, 'Fe': 26, 'Au': 79, 'H': 1, 'Hg': 89, 'Ag': 47, 'Cu': 29}


Algunos de los métodos más importantes de los diccionarios son los
siguientes:

- **`clear()`**

    Vacía el diccionario.


- **`get(key, [default_value])` -> item**

    Si `key` está en el diccionario, devuelve
    el valor correspondiente. Si no está, devuelve
    `default_value` si se ha especificado, o
    `None` si no.


- **`items()` -> Lista de tuplas**

    Devuelve una lista de duplas o 2-tuplas, donde cada dupla
    está constituida por una pareja "clave, valor" de
    cada entrada del diccionario.


- **`keys()` -> Lista**

    Devuelve una lista de todas las claves usadas en el
    diccionario.


- **`pop(key, [default_value])` -> item**

    Devuelve el valor almacenado con la clave `key`, y borra la
    entrada del diccionario. Si `key` no está en el
    diccionario, devuelve el valor `default_value` si se ha
    especificado, si no, eleva la excepcion `KeyError`.


- **`setdefault(key, [default_value])` -> item**

    Si `key` es una clave ya en el diccionario, simplemente
    devuelve el valor que le corresponde. Si no existía, almacena
    `[default_value]` en la clave `key` y devuelve
    `[default_value]`. Nunca he podido comprender por qué no se
    llama `getdefault`.


- **`update(d)`**

    Actualiza el diccionario con los valores de `d`, que puede
    ser o bien otro diccionario, o un iterable que devuelve
    2-tuplas, o bien parámetros por nombre.


- **`values()` -> List**

    Devuelve todos los valores almacenados en el diccionario.