<img src="img/viu_logo.png" width="200"><img src="img/python_logo.png" width="250"> *Mario Cervera*

# Estructuras de datos avanzadas

Estructuras de datos básicas:

* Listas.
* Diccionarios.
* Conjuntos (sets).
* Tuplas.

En esta sección veremos:

* Array.
* 2D Array.
* Lista enlazada (linked list).
* Pila (stack).
* Cola (queue).
* Cola de prioridad (heap).
* Tabla Hash.
* Grafo.

> Es importante elegir estructura de datos en base a qué operaciones queremos que se ejecuten de manera eficiente.

Antes de empezar, una versión más avanzada de las listas convencionales:

## List Comprehensions

Formato general (**versión simplicada**):

```
[<expression> for <item> in <iterable>]
```

* Permiten construir listas a través de la ejecución repetida (sentencia *for*) de una expressión para cada item de un objeto iterable.
* Van entre '[' y ']'. Esto es indicativo de que estamos construyendo una lista.

Ejemplo: repetir los carácteres de un string.

In [None]:
[c * 2 for c in 'Enrique']

* Comúnmente, el item de la sentencia *for* aparecerá en la expresión principal, pero eso no es obligatorio.

In [None]:
[2 for c in 'Enrique']

* Se puede especificar un filtro (sentencia *if*) para obtener únicamente los elementos que cumplan cierta condición.

Formato general (**versión extendida**):

```
[<expression> for <item> in <iterable> if <condition>]
```

Ejemplo: obtener números pares:

In [None]:
[x for x in range(9) if x % 2 == 0]

* Las list comprehension no son realmente requeridas, ya que siempre podemos escribir un bucle equivalente.

In [None]:
pares = []
for x in range(9):
    if(x % 2 == 0):
        pares.append(x)
    
print(pares)

* La sentencia *if* de una list comprehension también puede contener una expresión alternativa.

Formato general (**versión completa**):

```
[<expression_1> if <condition> else <expression_2> for <item> in <iterable>]
```

Ejemplo: poner a cero los números pares.

In [None]:
[0 if x % 2 == 0 else x for x in range(9)]

* Principales ventajas de las comprehensions en comparación a un bucle convencional:

    * Expresión compacta y legible, si estás familiarizado con la sintaxis.
    * Mejor rendimiento.


* Desventaja: rápidamente se puede convertir en una expresión difícil de entender.

## Array

* Estructura contigua de memoria.
* Las *listas* de Python están implementas como arrays.
* Acceso aleatorio rápido a través de un índice.
    * Dirección de memoria + offset.

<img src="img/EstructurasDatos/Array.png" width="800">

In [None]:
array = [0, 0, 0, 0, 0]
array[1] = 3
print(array)

## 2D Array

* Estructura contigua de memoria.
* Es un array de arrays.
* Sirve para representación de *matrices*. Por lo tanto, puede verse como una tabla, con sus filas y columnas.
* Acceso aleatorio rápido a través de 2 índices.

<img src="img/EstructurasDatos/2DArray.png" width="900">

Ejemplo: registros de temperatura por día.

In [None]:
registros = [[10, 13, 16, 11], [5, 6, 8, 6], [11, 11, 12, 12], [7, 11, 16, 15]]
print(registros[1][2]) #  Tercer registro del segundo día

In [None]:
# Mostrar todos los registros
for dia in registros:
    for registro in dia:
        print(registro, end = " ")
    print()

## Lista enlazada (Linked list)

* Similar a los arrays, pero los elementos no están en posiciones contiguas de memoria.
* Cada elemento es un nodo que contiene dos partes:
    * Un dato.
    * Un enlace al siguiente nodo de la lista.
* No permite acceso aleatorio en base a un índice.
* Inserciones y borrados más rápidos que en un array.

<img src="img/EstructurasDatos/LinkedList.png" width="600">

Implementación a través de *deque* (double-ended queue).

In [None]:
from collections import deque

linked_list = deque('abcd')
print(linked_list)

linked_list.append('e')
print(linked_list)

linked_list.remove('b')
print(linked_list)

## Pila (Stack)

* Almacena items en orden Last-In/First-Out (LIFO).
* Es decir, los items se extraen en orden contrario al orden de inserción.
* Ejemplo de caso de uso: funcionalidad deshacer.

<img src="img/EstructurasDatos/Stack.png" width="800">

Hay varias opciones de implementación

#### Pilas usando Listas

* *Push* con método *append*.

In [None]:
pila = []

pila.append('a')
pila.append('b')
pila.append('c')

print(pila)

print(pila.pop())
print(pila.pop())
print(pila.pop())

print(pila)

* Las listas están implementadas como un *array*.
* Dado que los arrays son bloques de memoria contiguos, la operación *push* puede ocasionalmente tener un coste elevado.
   * Esto es porque el array puede haberse quedado sin espacio. En este caso, Python internamente crea uno nuevo (más grande) y transfiere todos los elementos.

#### Pilas usando Deque

In [None]:
from collections import deque
pila = deque()

pila.append('a')
pila.append('b')
pila.append('c')

print(pila)

print(pila.pop())
print(pila.pop())
print(pila.pop())

print(pila)

* *Deque* está implementada como *lista enlazada*.
* La operación *pop* siempre tiene coste bajo.
* Para implementar una pila, *deque* es más apropiado.

## Cola (Queue)

* Almacena items en orden First-In/First-Out (FIFO).
* Es decir, los items se extraen en orden de inserción.
* Ejemplo de caso de uso: jobs de una impresora.

<img src="img/EstructurasDatos/Queue.png" width="800">

#### Colas usando Deque

* *Enqueue* implementada como *append* y *dequeue* como *popleft*.
* *Deque* está implementada como *lista enlazada*.
* Ambas operaciones de las colas siempre tienen un coste bajo.
* Es muy mala idea implementar colas usando listas de Python (arrays), ya que una de las operaciones requerirá desplazar todos los elementos.

In [None]:
from collections import deque

q = deque()
q.append(1)
q.append(2)
q.append(3)

print(q)

print(q.popleft())
print(q.popleft())
print(q.popleft())

print(q)

## Cola de prioridad (heaps)

* Es como una cola, pero en lugar de extraer por orden de inserción, se extrae por orden de prioridad (en base a algún criterio de ordenación).
* Ejemplo de caso de uso: lista de tareas, donde quieres ir abordando la más urgente.


* Operaciones:
    * *insert*: inserta un elemento en la cola de prioridad.
    * *extract min/max*: extrae el elemento de mayor prioridad.

#### Colas de prioridad usando Heapq

* Implementación basada en *array*.
* En [este enlace](https://realpython.com/python-heapq-module/) podéis encontrar detalles de cómo se implementan colas de prioridad por medio de arrays.

In [None]:
import heapq

cola_prioridad = [3, 1, 9, 5]
print('Array original:', cola_prioridad)
heapq.heapify(cola_prioridad)
print('Tras heapify:', cola_prioridad)

heapq.heappush(cola_prioridad, 4)     # Insert
print('Tras insertar 4: ', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

## Tabla Hash

* Un array convencional + una función hash que determina el índice de cada elemento.
* Aprovecha el acceso aleatorio de los arrays para soportar búsquedas muy eficientes.
* Resolución de colisiones.
    * Open addressing.
    * Separate chaining.

<img src="img/EstructurasDatos/TablaHash.png" width="600">

Los conjuntos (sets) y diccionarios de Python se implementan como una Tabla Hash.

Ejemplo: mantener registro de personas que han acudido a un evento.

In [None]:
personas = set()

personas.add('Pablo Gil')
personas.add('Jose Perez')
personas.add('Beatriz Rodriguez')

print(personas)

print('Pablo Gil' in personas)
print('Sofia Navarro' in personas)

## Grafo

* Permiten representar redes (nodos relacionados entre sí por medio de aristas).
* Características:
    * Dirigidos vs no dirigidos.
    * Ponderados vs no ponderados.
* Gran multitud de aplicaciones: los nodos pueden representar cualquier cosa que sea de interés para nuestra aplicación.

<img src="img/EstructurasDatos/Graph.png" width="900">

Ejemplo: Camino más cortos ([Algoritmo de Dijkstra](https://es.wikipedia.org/wiki/Algoritmo_de_Dijkstra)).

#### Implementación por medio de Lista de Adyacencia

* Una lista de listas enlazadas donde cada nodo del grafo se almacena junto a los vertices adyacentes.

In [None]:
graph = {
    1 : [2, 3, None],
    2 : [5, None],
    3 : [5, None],
    4 : [6, None],
    5 : [4, 6, None],
    6 : [None]
}

print(graph)

Mostrar los nodos de un grafo:

In [None]:
print(list(graph.keys()))

Añadir nuevo nodo a un grafo:

In [None]:
def add_node(node):
    if node not in graph:
        graph[node] = [None]

add_node(7)
print(graph)

Añadir nueva arista:

In [None]:
def add_edge(source_node, target_node):
    if source_node in graph and target_node not in graph[source_node]:
        graph[source_node].insert(0, target_node)
        
add_edge(6, 7)
print(graph)

## Ejercicios

1. Escribe una *list comprehension* que construya una lista con los números positivos de una lista de enteros dada.

2. Escribe un *set comprehension* que, dada una palabra, construya un conjunto que contenga las vocales de dicha palabra.

3. Escribe una función que calcule el producto de dos matrices.

4. Escribe una función que, dada una cadena de caracteres con paréntesis, compruebe si los paréntesis están balanceados. Ejemplo: en '(aa(a))aa'  los paréntesis están balanceados. En 'aa((aaa)' no están balanceados. Pista: puedes hacer uso de una pila.

5. Escribe una función que, dada una lista desordenada de números, utilice una cola de prioridad para indicar cual es la mediana (es decir, el elemento central si la lista estuviera ordenada).

6. Escribe una función que, dada una lista de palabras, utilice una tabla hash para comprobar si hay alguna palabra duplicada.