# Tema 6: estructuras de datos (I)

Hasta ahora hemos utilizado variables que eran capaces de almacenar un único valor. Sin embargo, es posible crear variables que almacenen grandes cantidades de datos. Estos datos pueden estar organizados de distintas maneras en la memoria del ordenador dependiendo de cómo queramos utilizarlos. Las estructuras de datos permiten almacenar grandes cantidades de información de manera eficiente.

En este curso vamos a estudiar 3 estructuras de datos principales: listas, conjuntos y diccionarios. También existen las _tuplas_, pero las veremos en el tema 7.

## Listas
Una _lista_ es una secuencia de elementos. Este término, _secuencia_, es importante porque indica que los elementos están ordenados. Por ejemplo, una lista de empleados contendrá la información de los empleados de una empresa ordenados por algún criterio (quizás los apellidos o la fecha de incorporación).

Los pasos de una receta de cocina también los podríamos almacenar como una lista, porque el orden en que se ejecutan es importante (no es lo mismo echar primero el aceite que el huevo). El concepto de orden es importante porque diferencia las listas de otras estructuras de datos como, por ejemplo, los conjuntos.
### Crear listas
Podemos definir una lista escribiendo sus elementos entre corchetes y separándolos por comas:

In [1]:
[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

La lista anterior contiene 5 elementos, todos ellos números enteros. Pero las listas también pueden contener elementos de distintos tipos:

In [4]:
['uno', 2, True, 4.57, 'cinco', 2 + 4]

['uno', 2, True, 4.57, 'cinco', 6]

Podemos almacenar listas en variables con el operador de asignación:

In [2]:
mi_lista = ['uno', 2, True, 4.57, 'cinco', 2 + 4]
print(mi_lista)

['uno', 2, True, 4.57, 'cinco', 6]


También podemos, y nos va a ser muy útil en algunos momentos, crear listas vacías, simplemente escribiendo los corchetes. Una lista vacía es una lista que no contiene ningún elemento.

In [7]:
lista_vacia = []

### Número de elementos: `len()`
La función `len()` devuelve la longitud de la lista, es decir, el número de elementos que contiene:

In [12]:
len(mi_lista)

6

Como es de esperar, la longitud de una lista vacía es 0, por lo tanto, si le pasamos como argumento a `len()` una lista vacía, nos devolverá 0.

In [14]:
len(lista_vacia)

0

### Consultar si una lista contiene un elemento
Podemos consultar si un elemento aparece en la lista con el operador `in`:

In [15]:
'cinco' in mi_lista

True

Junto con las condiciones que hemos aprendido, esto permite comprobaciones muy poderosas. Un ejemplo sencillo sería tener una lista cerrada de datos, como pueden ser los continentes, y probar distintos nombres para ver si pertenecen a esa lista.

In [16]:
continentes = ['Europa', 'Asia', 'Oceanía', 'África', 'América del Norte', 'América del Sur', 'Antártida']
america = 'América'
if america in continentes:
    print('Según esta fuente,', america, 'es un continente.')
else:
    print('Según esta fuente,', america, 'NO es un continente.')

Según esta fuente, América NO es un continente.


### Acceder a un elemento
Podemos acceder a los elementos de una lista de la misma forma que accedíamos a los caracteres de una string: escribiendo el nombre de la lista y, seguidamente, la posición del elemento que nos interese entre corchetes. También podemos usar el slicing usando los dos puntos para indicar las posiciones inicial y final de la sublista que nos interese.

Recuerda que el primer elemento de una lista está en la posición 0. En Python, siempre empezamos a contar desde 0.

In [3]:
print(mi_lista[0])
print(mi_lista[0:2])
print(mi_lista[1:4])

uno
['uno', 2]
[2, True, 4.57]


### Modificar elementos
Podemos modificar un elemento de una lista simplemente asignándole un nuevo valor:

In [33]:
pintores = ['Rembrandt', 'Rafael', 'Boticelli', 'Van Gogh']
print(pintores)
pintores[2] = 'Botticelli' # corregimos la errata
print(pintores)

['Rembrandt', 'Rafael', 'Boticelli', 'Van Gogh']
['Rembrandt', 'Rafael', 'Botticelli', 'Van Gogh']


O modificar varios elementos de una vez utilizando rangos:

In [34]:
pintores[2:4] = ['Botticelli', 'Picasso']
print(pintores)

['Rembrandt', 'Rafael', 'Botticelli', 'Picasso']


El rango 2:4 contiene 2 elementos (recuerda que el último queda fuera del rango) y por tanto tenemos que asignarle una lista de longitud 2.

### Añadir un nuevo elemento
Para añadir un nuevo elemento a una lista, podemos usar el método `.append()`:

In [40]:
compra = []
compra.append('harina')
compra.append('huevos')
compra.append('azúcar')
compra.append('mantequilla')
print(compra)

['harina', 'huevos', 'azúcar', 'mantequilla']


También podemos añadir elementos en una posición determinada usando el método `.insert()`, que recibe dos argumentos: la posición en la que insertar y el nuevo elemento:

In [41]:
compra.insert(0, 'levadura')
print(compra)

['levadura', 'harina', 'huevos', 'azúcar', 'mantequilla']


### Eliminar un elemento
Podemos eliminar el elemento que ocupa una posición determinada en la lista usando la palabra reservada `del`:

In [42]:
del compra[0]
print(compra)

['harina', 'huevos', 'azúcar', 'mantequilla']


También podemos eliminar la primera aparición de un elemento en una lista, esté donde esté, con el método `.remove()`:

In [43]:
compra.remove('azúcar')
print(compra)

['harina', 'huevos', 'mantequilla']


### Encontrar un elemento
Podemos encontrar la posición que ocupa un elemento en la lista usando el método `.index()`:

In [44]:
letras = ['a', 'b', 'c']
letras.index('b')

1

Si el elemento aparece varias veces en la lista, `.index()` devolverá la posición de la primera aparición. Y si el elemento buscado no aparece en la lista, se producirá un error.

In [45]:
letras = ['a', 'b', 'c', 'a']
letras.index('a')

0

In [46]:
letras.index('z')

ValueError: 'z' is not in list

## Bucles `for` con estructuras de datos
Como hemos dicho en el anterior tema, `for` no solo se puede usar con rangos, sino también con listas, conjuntos y diccionarios. Se usa de una forma similar:

    for <variable> in <estructura>:
        <instrucciones_dentro_del_for>
    <resto_del_programa>
    
Podríamos preguntarnos: ¿en qué se diferencia una estructura de datos, como puede ser una lista, de un rango? Efectivamente, un rango es casi una lista, pero no. Y esto es por una cuestión de memoria. `range()` genera un objeto iterable similar a una lista, pero que solo mantiene en memoria un número a la vez, de forma que lo hace perfecto, muy eficiente, para usarlo en bucles si solo necesitamos los números. Las listas mantienen en la memoria todos sus elementos cada vez.

Sería muy ineficiente que `range()` generara una lista solo para recorrerla en un bucle, así que simplemente genera un objeto iterable similar a una lista, pero que solo mantiene en memoria un número a la vez, en lugar de todos, como hacen las listas.

### Recorrer los elementos de una lista
Podemos recorrer los elementos de una lista usando `for` y dando un nombre temporal a los elementos de la lista, normalmente un nombre descriptivo que se haga entender:

In [1]:
filosofos = ["sócrates", "platón", "aristóteles"]
for filosofo in filosofos:
    print(filosofo)

sócrates
platón
aristóteles


Ya sabes que los elementos de las listas siempre están en el mismo orden. Por eso, a veces querremos recorrer los elementos de una lista a la vez que la posición que ocupan en ella. Esto se puede hacer dando dos nombres temporales a la posición y al elemento, separados por una coma, y recorriendo la función `enumerate()`, que debe tomar como argumento el nombre de la lista. Como en el siguiente ejemplo:

In [2]:
for orden, filosofo in enumerate(filosofos):
    print(orden, filosofo)

0 sócrates
1 platón
2 aristóteles


#### Listas por comprensión (o _list comprehensions_)
Las _lists comprehensions_ son una forma muy compacta de recorrer una lista o un rango para crear otra lista. En vez de declarar una lista vacía en una línea, escribir el `for` en otra, escribir las instrucciones dentro del `for` en otra y usar `.append()` en otra, se le aplican las instrucciones al elemento y se mete directamente en la lista resultante, todo en una sola línea, usando este esquema:

    <lista_resultante> = [<instrucción con el elemento> for <elemento> in <lista_inicial>]
    
Por ejemplo:

In [3]:
filosofos_corregidos = [filosofo.capitalize() for filosofo in filosofos]

print(filosofos_corregidos)

['Sócrates', 'Platón', 'Aristóteles']


Los programadores de Python usan esta forma de crear listas de manera habitual, pero puede ser un tanto opaca. Te recomiendo usarla si tienes la seguridad de que al volver a pasar por ella vas a saber qué hace esa línea (porque has puesto un comentario, porque te has acostumbrado...).

En todo caso, solo se pueden usar cuando las instrucciones dentro del `for` son muy cortas. Y siempre van a poder escribirse de la manera básica (observa la cantidad de líneas que nos podemos ahorrar):

In [4]:
filosofos_corregidos = []
for filosofo in filosofos:
    filosofo = filosofo.capitalize()
    filosofos_corregidos.append(filosofo)

print(filosofos_corregidos)

['Sócrates', 'Platón', 'Aristóteles']


Además, en estas _comprehensions_ también podemos incluir condiciones de forma abreviada:

    <lista_resultante> = [<instrucción con el elemento> for <elemento> in <lista_inicial> if <condición>]

In [34]:
filosofos_corregidos = [filosofo.capitalize() for filosofo in filosofos if filosofo.endswith("s")]

print(filosofos_corregidos)

['Sócrates', 'Aristóteles']


## Las strings son listas… o casi
Las listas y las cadenas de caracteres son muy parecidas. Como habrás observado, muchas de las operaciones que acabamos de hacer con listas se pueden hacer con cadenas.

In [3]:
palabra = 'alcachofa'
print(palabra[0])
print(palabra[6])
print(palabra[4:9])
print('a' in palabra)

a
o
chofa
True


La principal diferencia entre ambas es que los elementos de una lista de pueden modificar, pero los de una cadena de caracteres no. Si lo intentamos, saltará un error.

In [28]:
palabra[6] = 'a'

TypeError: 'str' object does not support item assignment

### Bucles con strings
Las cadenas de caracteres se pueden recorrer también, lo cual es muy útil para aplicar transformaciones a ciertos caracteres.

Supongamos que, por lo que sea, queremos eliminar la puntuación de la cadena que introduzca el usuario. Pues tendremos que recorrerla y meter cada elemento en una nueva lista, excepto si se trata de un carácter de puntuación (que podemos averiguar evaluando si se encuentra en una lista de caracteres de puntuación).

In [6]:
punctuation = [".", ",", ":", ";", "-", "_", "¿", "?", "¡", "!", "'", '"']
curated_text = [] # creamos una lista vacía en la que iremos metiendo nuestro texto sin puntuación

raw_text = input("¿Qué estás pensando?: ")
for character in raw_text:
    if character not in punctuation:
        curated_text.append(character)

print(curated_text)

¿Qué estás pensando?: Eso digo yo, ¿qué estaré pensando?
['E', 's', 'o', ' ', 'd', 'i', 'g', 'o', ' ', 'y', 'o', ' ', 'q', 'u', 'é', ' ', 'e', 's', 't', 'a', 'r', 'é', ' ', 'p', 'e', 'n', 's', 'a', 'n', 'd', 'o']


Pero ¡hay un problema! Hemos partido de una string y hemos terminado con una lista. ¿Y cómo convertir una lista en una string?

Podemos pasar de strings a listas de dos maneras, dependiendo de lo que queramos hacer:
- si lo que queremos es convertir cada carácter en un elemento de una lista, podemos usar `list()` pasándole la string como argumento
- si lo que queremos es que la string se divida en elementos de una lista dependiendo de cierto carácter (por ejemplo, es muy interesante hacerlo con el espacio o la coma), podemos aplicarle el método `.split()` a la string, y pasarle como argumento el carácter separador (que por defecto, si dejamos el paréntesis vacío, va a ser el espacio)

In [7]:
print(list("llaves, móvil, cartera, mascarilla"))
print("llaves, móvil, cartera, mascarilla".split())
print("llaves, móvil, cartera, mascarilla".split(" "))
print("llaves, móvil, cartera, mascarilla".split(", "))

['l', 'l', 'a', 'v', 'e', 's', ',', ' ', 'm', 'ó', 'v', 'i', 'l', ',', ' ', 'c', 'a', 'r', 't', 'e', 'r', 'a', ',', ' ', 'm', 'a', 's', 'c', 'a', 'r', 'i', 'l', 'l', 'a']
['llaves,', 'móvil,', 'cartera,', 'mascarilla']
['llaves,', 'móvil,', 'cartera,', 'mascarilla']
['llaves', 'móvil', 'cartera', 'mascarilla']


Observa cómo las líneas 2 y 3 imprimen lo mismo, y cómo la línea 4 no imprime ni la coma ni el espacio.

También podemos pasar de listas a strings con el método `.join()`. Este método se aplica al carácter que queramos usar como pegamento, es decir, si queremos que salga todo pegado pondremos simplemente una string vacía, `''`; y si queremos por ejemplo que se separe por espacios escribiremos `' '`. Toma como argumento la lista que queremos convertir en string. Es el mismo razonamiento que cuando creamos una lista vacía para luego meterle elementos.

In [9]:
lista = "llaves, móvil, cartera, mascarilla".split(", ")
print("Esto es una lista: ", lista)

string = ' '.join(lista)
print("Esto es una string:", string)

Esto es una lista:  ['llaves', 'móvil', 'cartera', 'mascarilla']
Esto es una string: llaves móvil cartera mascarilla


Así, volviendo al problema de limpiar un texto de puntuación, podemos arreglar nuestro `curated_text` de la siguiente manera:

In [10]:
curated_text = ''.join(curated_text)
print(curated_text)

Eso digo yo qué estaré pensando


# Ejercicios
## 060101
Toma esta lista de los 27 Estados miembros de la Unión Europea y escribe un programa que pida al usuario un nombre de país y le responda si está o no en la UE. El usuario debe introducir el nombre del país correctamente.

In [2]:
ue = [
    "Alemania",
    "Austria",
    "Bélgica",
    "Bulgaria",
    "Chipre",
    "Croacia",
    "Dinamarca",
    "Eslovaquia",
    "Eslovenia",
    "España",
    "Estonia",
    "Finlandia",
    "Francia",
    "Grecia",
    "Hungría",
    "Irlanda",
    "Italia",
    "Letonia",
    "Lituania",
    "Luxemburgo",
    "Malta",
    "Países Bajos",
    "Polonia",
    "Portugal",
    "República Checa",
    "Rumanía",
    "Suecia"
]

## 060102
Ahora, haz lo mismo que en 060101 pero permitiendo que el usuario escriba el nombre del país en minúsculas. Es decir, crea una lista `ue_minus`, a partir de la lista `ue`, que contenga los mismos elementos pero en minúsculas, para después poder consultar directamente si el input del usuario en minúsculas está en la lista.

(Nota: para pasar los elementos de `ue` a minúsculas puedes usar `.lower()`. Puedes usar listas por comprensión.)

## 060103
La siguiente lista contiene todos los países que están en Europa:

In [4]:
europa = [
    "Albania",
    "Alemania",
    "Andorra",
    "Armenia",
    "Austria",
    "Azerbaiyán",
    "Bélgica",
    "Bielorrusia",
    "Bosnia y Herzegovina",
    "Bulgaria",
    "Chipre",
    "Croacia",
    "Dinamarca",
    "Eslovaquia",
    "Eslovenia",
    "España",
    "Estonia",
    "Finlandia",
    "Francia",
    "Georgia",
    "Grecia",
    "Hungría",
    "Irlanda",
    "Islandia",
    "Italia",
    "Letonia",
    "Liechtenstein",
    "Lituania",
    "Luxemburgo",
    "Macedonia",
    "Malta",
    "Moldavia",
    "Mónaco",
    "Montenegro",
    "Noruega",
    "Países Bajos", 
    "Polonia",
    "Portugal",
    "Reino Unido",
    "República Checa",
    "Rumanía",
    "Rusia",
    "San Marino",
    "Serbia",
    "Suecia",
    "Suiza",
    "Ucrania",
    "Vaticano"
]

Obtén los países europeos que no están en la Unión Europea a partir de las listas `ue` y `europa`, y mételos en una nueva lista `no_ue`.

## 060104
Crea otra lista `europa_minus` a partir de `europa`, que contenga los mismos países que esta pero en minúsculas. La idea es, ahora, pedir un nombre de país europeo al usuario y decirle si está en la UE o no (consultando en `ue_minus`), y si es europeo o se ha equivocado (consultando en `europa_minus`).

Puedes hacer que pregunte hasta que el usuario introduzca un país europeo, por ejemplo:

    Dime un país europeo y te digo si está en la UE: EEUU
    ¡Eso ni siquiera es un país europeo!
    Dime un país europeo y te digo si está en la UE: india
    ¡Eso ni siquiera es un país europeo!
    Dime un país europeo y te digo si está en la UE: irlanda
    Pertenece a la UE.