<a href="https://colab.research.google.com/github/carabiasjulio/fyea/blob/main/fyea_02_data_structure.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Estructuras de datos básicas**

Hasta ahora, hemos pensado un poco en hacer cálculos. Cambiemos de tema y veamos cómo representar los datos.

Por ejemplo, digamos que quiero hacer un seguimiento de todos mis amigos y sus cumpleaños. ¿Cómo podría hacerlo para poder trabajar con ello en Python?

O tal vez, estoy escribiendo un servidor de juegos donde todo el mundo tiene un nombre de usuario único y una cuenta asociada a él. ¿Cómo podría buscar eficientemente una cuenta a partir del nombre de usuario?

Por último, ¿qué pasaría si quisiera encontrar rápidamente todos los números únicos que aparecen en una lista? ¿Hay alguna forma de hacerlo?

Veremos que cada uno de estos problemas puede resolverse de forma eficiente utilizando algunas estructuras de datos fundamentales: listas, diccionarios y conjuntos.

#**Listas**
Las listas son, quizá, la estructura de datos fundamental. Son... bueno... listas. La mayoría de las veces, cuando tratamos con datos, no tenemos un solo elemento o un par de ellos, sino muchos. Las listas nos ayudan a organizarlos en una colección coherente y ordenada. Por ejemplo:

In [2]:
numbers = [1, 4, 2, 3, 9]
print(numbers)

[1, 4, 2, 3, 9]


Supongamos que quiero acceder a posiciones concretas de la lista. ¿Cómo puedo hacerlo?

In [None]:
print(numbers[0])
print(numbers[1])
print(numbers[-1])

También puedo tomar «rebanadas» enteras de la lista. Tenga en cuenta que, al igual que el rango, el corte sigue la convención del intervalo semiabierto [,).

In [3]:
print(numbers[1:4])
print(numbers[2:5])
print(numbers[1:])
print(numbers[:-3])

[4, 2, 3]
[2, 3, 9]
[4, 2, 3, 9]
[1, 4]


Puedo incluso introducir saltos entre los elementos de la lista.

In [4]:
print(numbers[::2])
print(numbers[1::3])
print(numbers[1:3:2])

[1, 2, 9]
[4, 9]
[4]


Eso está muy bien, pero queremos hacer algo más que ver una lista. Queremos poder modificarlas. Por ejemplo, hacemos un nuevo amigo y queremos añadirlo a nuestra lista de cumpleaños.

In [5]:
numbers = [1, 4, 2, 3, 9]
numbers.append(10)
print(numbers)

[1, 4, 2, 3, 9, 10]


In [6]:
numbers = [1, 4, 2, 3, 9]
numbers.insert(0, 10)
print(numbers)

[10, 1, 4, 2, 3, 9]


In [7]:
numbers = [1, 4, 2, 3, 9]
numbers.insert(2, 10)
print(numbers)

[1, 4, 10, 2, 3, 9]


También puedo eliminar elementos de una lista.

In [8]:
people = ["Hip", "Cindy", "Ken", "Bruce Wayne", "Judge Judy"]
print(people.pop(0))
print(people)

Hip
['Cindy', 'Ken', 'Bruce Wayne', 'Judge Judy']


In [9]:
people = ["Hip", "Cindy", "Ken", "Bruce Wayne", "Judge Judy"]
print(people.pop(-1)) # note: same as just people.pop()
print(people)

Judge Judy
['Hip', 'Cindy', 'Ken', 'Bruce Wayne']


También puedo unir dos listas existentes para formar una nueva lista «sumándolas» o concatenándolas.

In [10]:
items1 = [1, 2, 3, 4, 5]
items2 = ['A', 'B', 'C']
print(items1 + items2)
print(items2 + items1)

[1, 2, 3, 4, 5, 'A', 'B', 'C']
['A', 'B', 'C', 1, 2, 3, 4, 5]


Incluso podemos tener casos más interesantes. Por ejemplo, podemos representar un simple «árbol» como una lista con otras listas dentro.

In [11]:
data = ["house key", 7, 3.1, [3, 4, 1], ["lighter", [1, True], "pocket knife"]]
print(data)

['house key', 7, 3.1, [3, 4, 1], ['lighter', [1, True], 'pocket knife']]


Por último, podemos iterar los elementos de una lista de forma similar a como iteramos un rango de números. Recordemos que teníamos:

In [13]:
things = [4, 1, 2, 9, 2, 'a', 2, 'thing', 4, 3.2]

for x in things:
    print(x)

4
1
2
9
2
a
2
thing
4
3.2


#**Ejercicio 1**

1.  Crea una función que tome una lista de enteros e imprima si la entrada es positiva, negativa o cero.
2.  Modifica esta función para que en lugar de imprimir «positivo», «negativo» o «cero», devuelva la lista de cadenas correspondientes. (¿Puedes hacer esto más general? En lugar de llevar un número a la cadena «positivo», «negativo» o «cero», ¿qué pasa si quiero los cuadrados de los números? ¿O que cada número se incremente en uno? ¿Cómo lo permitiría?)
3.  Escribe una función que tome una lista de números y devuelva la suma de los cubos de todos los elementos.
4.  Escribe una función que encuentre el elemento mayor de una lista de números.
5.  Escribe una función que devuelva una lista pero en orden inverso.

In [None]:
# Inserta tu código aquí

#**Operaciones comunes con listas**

Ahora que hemos implementado un par de este tipo de cosas, resulta que Python tiene algunas funcionalidades incorporadas que ya hacen esto por nosotros. Por ejemplo, si queremos encontrar el elemento más grande de una lista, podemos usar:

In [15]:
numbers = [2, 4, -1, 9, 10, 3, 20, 6, 2, 9, 9, 2, 3]
print(max(numbers))

20


Del mismo modo, si queremos añadir los elementos, sólo tenemos que utilizar:

In [17]:
print(sum(numbers))

78


Una última operación muy útil y habitual es poder ordenar una lista de elementos:

In [18]:
numbers = [2, 4, -1, 9, 10, 3, 20, 6, 2, 9, 9, 2, 3]
print(sorted(numbers))

[-1, 2, 2, 2, 3, 3, 4, 6, 9, 9, 9, 10, 20]


Algunas de estas funciones resultan muy útiles cuando se combinan con el concepto de generador. Aunque no vamos a profundizar en ellas, resultan útiles para realizar pequeñas construcciones o cálculos de forma muy compacta. Por ejemplo, puedo construir una lista de cuadrados utilizando la notación «generador de listas»:

In [19]:
[n**2 for n in range(1, 10)]

[1, 4, 9, 16, 25, 36, 49, 64, 81]

También puedes utilizar funciones como min o sum a través de un generador. Por ejemplo, puede reimplementar la función de suma de cubos utilizando la notación del generador:

In [20]:
numbers = [1, 5, 3, 9, 8]
sum(n**3 for n in numbers)

1394

Esto (a veces) tiene la ventaja de mejorar la legibilidad junto con la compacidad. Es fácil ver inmediatamente lo que la línea de arriba está haciendo en esta notación.

#**Tuplas**

Otra tarea habitual consiste en emparejar fragmentos de datos. Por ejemplo, en mi lista de cumpleaños de amigos, quiero una forma de mantener una agrupación coherente de cada amigo con su cumpleaños. Algo así como una lista de pares de la forma (amigo, cumpleaños). Las tuplas son una posible solución:

In [22]:
birthdays = [
    ('James', 'Aug 25'),
    ('Tommy', 'Sept 12'),
    ('Jason', 'Jun 13'),
    ('Lexi', 'Feb 1'),
]

Las tuplas son similares a las listas, pero son «inmutables». En otras palabras, una vez que creamos una tupla, no podemos cambiar su contenido. Por lo demás, podemos seguir accediendo a los elementos de la misma manera. Por ejemplo,

In [23]:
entry = birthdays[1]
print(entry)
print(entry[1])

('Tommy', 'Sept 12')
Sept 12


Python también tiene un buen método de asignación de «coincidencia de patrones» utilizando tuplas. Por ejemplo, si quiero imprimir sólo los cumpleaños de mi lista iterando los pares, puedo usar:

In [24]:
for (name, bday) in birthdays:
  print(bday)

Aug 25
Sept 12
Jun 13
Feb 1


Además, podemos hacer que esto sea aún más «limpio» utilizando simplemente:

In [25]:
for name, bday in birthdays:
  print(bday)

Aug 25
Sept 12
Jun 13
Feb 1


Otro ejemplo común de esto es un iterador en Python llamado enumerar, que empareja el índice de y elemento con el elemento:

In [26]:
numbers = [1, 5, 3, 6, 1]

for n, xn in enumerate(numbers):
  print(str(n) + ' -> ' + str(xn))

0 -> 1
1 -> 5
2 -> 3
3 -> 6
4 -> 1


#**Ejercicio 2**
1. Supongamos que estoy jugando a un juego de cartas como el póquer. ¿Cuáles son algunas formas posibles de representar mi mano actual en el juego?
2. Haz una lista corta de los cumpleaños de tus amigos como la de arriba. Imprime una versión ordenada de esta lista. ¿Notas cómo la ordena Python? Ahora, escribe una función que cree una nueva lista de cumpleaños pero con el orden del nombre y el cumpleaños intercambiados. Imprime una versión ordenada de esta lista. ¿Notas la diferencia?
3. Crea una lista con los números del 1 al 10. Crea una nueva lista con los pares de números consecutivos de la lista. Por ejemplo, [(1, 2), (2, 3), (3, 4), ..., (9, 10)].
4. Escriba una función que tome dos tuplas de pares (x1, y1) y (x2, y2) y devuelva la «suma vectorial» (x1+x2, y1+y2). Esto sugiere que podemos intentar implementar una colección completa de funciones de soporte para el álgebra vectorial. De hecho, ¡este tipo de abstracción de datos es otro enfoque crucial para construir programas!

#**Diccionarios**

Imaginemos una guía telefónica inversa para un sistema de identificación de llamadas. Queremos poder identificar a una persona por su número de teléfono, así que necesitamos una estructura de datos que tome un número de teléfono y nos dé un nombre. En segundo lugar, queremos poder actualizar nuestros datos añadiendo, eliminando o modificando entradas a medida que cambian.

Una forma de hacerlo es mantener una gran lista de pares (clave, valor). Pero... para realizar todas las operaciones que queremos de forma eficiente, necesitaríamos imponer algún tipo de estructura sobre cómo se organizan los elementos. Si no estamos planeando utilizar realmente esta estructura aparte de un problema corto, esto es quizás demasiado esfuerzo para utilizar.

Alternativamente, podríamos intentar implementar dicha estructura de datos como una gran lista con entradas posiblemente vacías para cada número de teléfono posible. Pero, como puedes imaginar, es probable que esto sea una representación demasiado densa para lo que queremos...
Lo que realmente queremos es usar un diccionario. Estos son una estructura de datos incorporada en Python y proporcionan exactamente el tipo de comportamiento clave -> valor que nos gustaría.

In [27]:
phonebook = {}
phonebook['2173218822'] = 'Tommy Cool-guy'
phonebook['2173211122'] = 'Michael Jordan'
phonebook['2183321232'] = 'Bobby Bigmoney Patterson'

Alternativamente, al inicializar un diccionario, podemos utilizar la abreviatura:

In [28]:
phonebook = {
    '2173218822': 'Tommy Cool-guy',
    '2173211122': 'Michael Jordan',
    '2183321232': 'Bobby Bigmoney Patterson',
}

Para buscar una entrada, podemos utilizar simplemente la misma notación de índice que utilizamos para las listas.

In [29]:
print(phonebook['2173211122'])

Michael Jordan


*Llegados a este punto, debemos reflexionar sobre una diferencia importante entre las listas y los diccionarios. Recuerda que las listas sólo aceptan indicies enteros, mientras que los diccionarios pueden utilizar muchos otros tipos como claves. En relación con esto, los tipos generales de claves no tienen un orden natural, por lo que deberíamos esperar cualquier tipo de orden en cómo se almacenan los elementos de un diccionario.*

Si queremos comprobar si una clave está en el diccionario, podemos utilizar las sentencias in y not in:

In [32]:
print('2173211122' in phonebook)
print('2173211122' not in phonebook)

True
False


Podemos eliminar entradas utilizando la sentencia del.

In [34]:
phonebook['2173211122'] = 'Michael Jordan'
print('2173211122' in phonebook)
print(phonebook['2173211122'] + ' is retiring...')
del(phonebook['2173211122'])
print('2173211122' in phonebook)

True
Michael Jordan is retiring...
False


Por último, al igual que con las listas, podemos enumerar los elementos.

In [35]:
for num, name in phonebook.items():
  print(str(num) + ' -> ' + str(name))

2173218822 -> Tommy Cool-guy
2183321232 -> Bobby Bigmoney Patterson


#**Ejercicio 3**

1. Escribe un diccionario que traduzca una abreviatura de cada día de la semana al número de día correspondiente. Por ejemplo:
Lun -> 1, Mar -> 2, Mie -> 3, Jue -> 4, ...
A ver si puedes utilizarlo para construir un diccionario «inverso» que convierta los números de los días en nombres de días.
2. Suponga que tiene la lista
['perro', 'lápiz', 'valla', 'perro', 'manzana', 'perro', 'perro', 'perro', 'pera', 'lápiz', 'pera', 'pera'].
Utiliza un diccionario para calcular el número de veces que aparece cada palabra.
3. A continuación, imprime los dos elementos más frecuentes. (Sugerencia: Intenta convertir el diccionario en una lista de pares clave-valor (o pares valor-clave) y ordénala).

#**Conjuntos**

El último escenario que vamos a considerar aquí es algo parecido a lo siguiente: Supongamos que obtengo texto de páginas web y registro las 20 palabras que aparecen con más frecuencia en una página concreta. Supongamos ahora que quiero comprobar si esas palabras aparecen con frecuencia en dos páginas distintas.

¿Cómo podría hacerlo?

Bueno, si almacenara ambos elementos en una lista, podría hacer algo como: para cada elemento de la primera lista, compruebe si está en la segunda.

El problema con esto es que, digamos que en el peor de los casos, las dos listas son totalmente disjuntas, para cada elemento de la primera lista, estoy realizando un número de pasos proporcional a la longitud de la segunda lista. En este caso, 20. A continuación, hago lo mismo para cada elemento de la primera lista. En total, ¡he realizado 400 pasos!

Se puede decir que este método se escala a $O(n^2)$ del tamaño de la entrada. Para nuestros propósitos, esto no es un problema. Pero, ¿y si duplicara el tamaño de los datos? ¿O aumentarlo un orden de magnitud? Entonces empezaríamos a tener problemas... No es algo en lo que vayamos a profundizar mucho aquí, pero es algo que merece la pena tener en cuenta a la hora de diseñar soluciones a los problemas.

Entonces, ¿qué más podemos hacer? Bueno, ¡podemos usar una estructura de datos más inteligente! Esta vez, un conjunto. Python proporciona una estructura de datos para trabajar con conjuntos de la misma forma en que pensamos. Por ejemplo, los elementos sólo aparecerán una vez en un conjunto. Podemos calcular eficientemente la unión, intersección o diferencia de dos conjuntos. Y así sucesivamente...

In [36]:
A = {1, 2, 5, 7, 8, 9}
B = {2, 4, 5, 8, 10}

In [37]:
print(A)
print(B)
print(len(A))

{1, 2, 5, 7, 8, 9}
{2, 4, 5, 8, 10}
6


Podemos comprobar la pertenencia a un conjunto de la siguiente manera.

In [38]:
print(2 in A)
print(3 in A)

True
False


De forma similar a las listas, podemos añadir y eliminar elementos de los conjuntos:


In [39]:
A = {1, 4, 5}
A.add(3)
A

{1, 3, 4, 5}

In [40]:
A.remove(5)
A

{1, 3, 4}

También podemos calcular algunas operaciones estándar con conjuntos tal y como las escribiríamos matemáticamente.

In [41]:
print(A & B)
print(A | B)
print(A - B)

{4}
{1, 2, 3, 4, 5, 8, 10}
{1, 3}


Por último, los conjuntos admiten las comparaciones de subconjuntos estándar a las que estamos acostumbrados:


In [42]:
A = {1, 2, 3}
B = {1, 3}
print(B < A)
print(B <= A)

True
True


Una sutil diferencia entre los conjuntos y las listas o los diccionarios es que los conjuntos no tienen ninguna noción natural de indexación. En otras palabras, no podemos acceder a un elemento mediante una clave. Sin embargo, podemos utilizar un iterador para obtener los elementos de un conjunto:


In [43]:
S = {1, 2, 3}
for x in S:
  print(x)

1
2
3


Por último, a la luz de la discusión anterior sobre el generador, podemos utilizar la notación del constructor de conjuntos de la siguiente manera:


In [44]:
dice = range(1, 7)

pairs = {(a, b) for a in dice
                for b in dice
                if a == 2 or b == 2}

#**Ejercicio 4**

1. Escribe una función que calcule la diferencia simétrica de dos conjuntos.
2. Suponga que tiene una lista de números como:

<center>
[1, 4, 5, 3, 6, 7, 5, 3, 1, 9, 3, 3, 4, 2]
</center>

¿Cómo podrías utilizar una estructura de datos de conjuntos para eliminar todos los duplicados de la lista?
3. Suponga que tengo un servidor y una lista de usuarios «malos» de los que quiero asegurarme de que no pueden conectarse. Escribe una función que tome una lista de usuarios que quieren conectarse y un conjunto de usuarios malos. Por ejemplo, si le doy

<center>
users = ['tom', 'pam', 'sasha', 'jj', 'que', 'jeff']
bad = set(['jeff', 'sasha'])
</center>

Debería devolver una lista «permitida»:

<center>
['tom', 'pam', 'jj', 'que']
</center>

4. Supongamos que lanzas dos dados justos. Representa los pares de tiradas para los que al menos una entrada es un 2 o un 5 utilizando un conjunto y calcula la probabilidad de obtener uno de ellos.

In [None]:
# Inserte su código aquí