<img src="img/viu_logo.png" width="200"><img src="img/python_logo.png" width="250"> *Mario Cervera*

# Estructuras de datos avanzadas

Estructuras de datos básicas:

* Listas.
* Diccionarios.
* Conjuntos (sets).
* Tuplas.

En esta sección veremos:

* Array.
* 2D Array.
* Lista enlazada (linked list).
* Pila (stack).
* Cola (queue).
* Cola de prioridad (heap).
* Tabla Hash.
* Grafo.

> Es importante elegir estructura de datos en base a qué operaciones queremos que se ejecuten de manera eficiente.

## Array

* Estructura contigua de memoria.
* Las *listas* de Python están implementas como arrays.
* Acceso aleatorio rápido a través de un índice.
    * Dirección de memoria + offset.

<img src="img/EstructurasDatos/Array.png" width="800">

In [1]:
array = [0, 0, 0, 0, 0]
array[1] = 3
print(array)

[0, 3, 0, 0, 0]


## 2D Array

* Estructura contigua de memoria.
* Es un array de arrays.
* Sirve para representación de *matrices*. Por lo tanto, puede verse como una tabla, con sus filas y columnas.
* Acceso aleatorio rápido a través de 2 índices.

<img src="img/EstructurasDatos/2DArray.png" width="900">

Ejemplo: registros de temperatura por día.

In [None]:
registros = [[10, 13, 16, 11], [5, 6, 8, 6], [11, 11, 12, 12], [7, 11, 16, 15]]
print(registros[1][2]) #  Tercer registro del segundo día

In [None]:
# Mostrar todos los registros
for dia in registros:
    for registro in dia:
        print(registro, end = " ")
    print()

## Lista enlazada (Linked list)

* Similar a los arrays, pero los elementos no están en posiciones contiguas de memoria.
* Cada elemento es un nodo que contiene dos partes:
    * Un dato.
    * Un enlace al siguiente nodo de la lista.
* No permite acceso aleatorio en base a un índice.
* Inserciones y borrados más rápidos que en un array.

<img src="img/EstructurasDatos/LinkedList.png" width="600">

Implementación a través de *deque* (double-ended queue).

In [None]:
from collections import deque

linked_list = deque('abcd')
print(linked_list)

linked_list.append('e')
print(linked_list)

linked_list.remove('b')
print(linked_list)

## Pila (Stack)

* Almacena items en orden Last-In/First-Out (LIFO).
* Es decir, los items se extraen en orden contrario al orden de inserción.
* Ejemplo de caso de uso: funcionalidad deshacer.

<img src="img/EstructurasDatos/Stack.png" width="800">

Hay varias opciones de implementación

#### Pilas usando Listas

* *Push* con método *append*.

In [None]:
pila = []

pila.append('a')
pila.append('b')
pila.append('c')

print(pila)

print(pila.pop())
print(pila.pop())
print(pila.pop())

print(pila)

* Las listas están implementadas como un *array*.
* Dado que los arrays son bloques de memoria contiguos, la operación *push* puede ocasionalmente tener un coste elevado.
   * Esto es porque el array puede haberse quedado sin espacio. En este caso, Python internamente crea uno nuevo (más grande) y transfiere todos los elementos.

#### Pilas usando Deque

In [None]:
from collections import deque
pila = deque()

pila.append('a')
pila.append('b')
pila.append('c')

print(pila)

print(pila.pop())
print(pila.pop())
print(pila.pop())

print(pila)

* *Deque* está implementada como *lista enlazada*.
* La operación *pop* siempre tiene coste bajo.
* Para implementar una pila, *deque* es más apropiado.

## Cola (Queue)

* Almacena items en orden First-In/First-Out (FIFO).
* Es decir, los items se extraen en orden de inserción.
* Ejemplo de caso de uso: jobs de una impresora.

<img src="img/EstructurasDatos/Queue.png" width="800">

#### Colas usando Deque

* *Enqueue* implementada como *append* y *dequeue* como *popleft*.
* *Deque* está implementada como *lista enlazada*.
* Ambas operaciones de las colas siempre tienen un coste bajo.
* Es muy mala idea implementar colas usando listas de Python (arrays), ya que una de las operaciones requerirá desplazar todos los elementos.

In [None]:
from collections import deque

q = deque()
q.append(1)
q.append(2)
q.append(3)

print(q)

print(q.popleft())
print(q.popleft())
print(q.popleft())

print(q)

## Cola de prioridad (heaps)

* Es como una cola, pero en lugar de extraer por orden de inserción, se extrae por orden de prioridad (en base a algún criterio de ordenación).
* Ejemplo de caso de uso: lista de tareas, donde quieres ir abordando la más urgente.


* Operaciones:
    * *insert*: inserta un elemento en la cola de prioridad.
    * *extract min/max*: extrae el elemento de mayor prioridad.

#### Colas de prioridad usando Heapq

* Implementación basada en *array*.
* En [este enlace](https://realpython.com/python-heapq-module/) podéis encontrar detalles de cómo se implementan colas de prioridad por medio de arrays.

In [None]:
import heapq

cola_prioridad = [3, 1, 9, 5]
print('Array original:', cola_prioridad)
heapq.heapify(cola_prioridad)
print('Tras heapify:', cola_prioridad)

heapq.heappush(cola_prioridad, 4)     # Insert
print('Tras insertar 4: ', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

print('Pop devuelve:', heapq.heappop(cola_prioridad))  # Extract min
print('Tras pop:', cola_prioridad)

## Tabla Hash

* Un array convencional + una función hash que determina el índice de cada elemento.
* Aprovecha el acceso aleatorio de los arrays para soportar búsquedas muy eficientes.
* Resolución de colisiones.
    * Open addressing.
    * Separate chaining.

<img src="img/EstructurasDatos/TablaHash.png" width="600">

Los conjuntos (sets) y diccionarios de Python se implementan como una Tabla Hash.

Ejemplo: mantener registro de personas que han acudido a un evento.

In [1]:
personas = set()

personas.add('Pablo Gil')
personas.add('Jose Perez')
personas.add('Beatriz Rodriguez')

print(personas)

print('Pablo Gil' in personas)
print('Sofia Navarro' in personas)

{'Beatriz Rodriguez', 'Pablo Gil', 'Jose Perez'}
True
False


## Grafo

* Permiten representar redes (nodos relacionados entre sí por medio de aristas).
* Características:
    * Dirigidos vs no dirigidos.
    * Ponderados vs no ponderados.
* Gran multitud de aplicaciones: los nodos pueden representar cualquier cosa que sea de interés para nuestra aplicación.

<img src="img/EstructurasDatos/Graph.png" width="900">

Ejemplo: Camino más cortos ([Algoritmo de Dijkstra](https://es.wikipedia.org/wiki/Algoritmo_de_Dijkstra)).

#### Implementación por medio de Lista de Adyacencia

* Una lista de listas enlazadas donde cada nodo del grafo se almacena junto a los vertices adyacentes.

In [13]:
grafo = {
    1 : [2, 3],
    2 : [5],
    3 : [5],
    4 : [6],
    5 : [4, 6],
    6 : []
}

print(grafo)

{1: [2, 3], 2: [5], 3: [5], 4: [6], 5: [4, 6], 6: []}


Mostrar los nodos de un grafo:

In [3]:
print(list(grafo.keys()))

[1, 2, 3, 4, 5, 6]


Añadir nuevo nodo a un grafo:

In [16]:

def anyadir_nodo(nodo):
    if nodo not in grafo:
        grafo[nodo] = []

anyadir_nodo(8)
print(grafo)

{1: [2, 3], 2: [5], 3: [5], 4: [6], 5: [4, 6], 6: [], 8: []}


Añadir nueva arista:

In [22]:
def anyadir_arista(nodo_origen, nodo_destino):
    if nodo_origen in grafo and nodo_destino not in grafo[nodo_origen]:
        grafo[nodo_origen].insert(0, nodo_destino)
        
anyadir_arista(1, 15)
print(grafo)

{1: [15, 1, 2, 3], 2: [5], 3: [5], 4: [6], 5: [4, 6], 6: [1, 4, 7], 8: []}


## Ejercicios

1. Escribe una función que reciba como entrada una lista de palabras que puede contener duplicados y devuelva como resultado una lista que contenga las mismas palabras pero sin duplicados. En este ejercicio, deberás utilizar la estructura de datos auxiliar más apropiada para resolver el problema; es decir, aquella que lleve a un algoritmo eficiente. No se permite hacer un casting para transformar la lista de entrada a un objeto de tipo *set* o *dictionary*.

2. Escribe una función que, dada una lista desordenada de números, utilice una cola de prioridad para devolver la lista de números ordenada.

3. Escribe una función que, dada una lista desordenada de números, utilice una cola de prioridad para indicar cual es la mediana (es decir, el elemento central si la lista estuviera ordenada). Si la longitud de la lista de entrada es un número par, entonces el algoritmo puede devolver cualquiera de las 2 medianas válidas.

4. Escribe una función que, dada una cadena de caracteres que puede incluir paréntesis '()' o corchetes '[]' compruebe si los paréntesis y corchetes aparecen de manera correcta, es decir, están balanceados. Ejemplo: tanto en '(aa(c))bb[a]' como en '([b])(aa)' los paréntesis y corchetes están balanceados; por lo tanto, la función devolverá *True*. En 'dd((abc[a)]' o en '[(a])' no lo están; por lo tanto, la función devolverá *False*. Pista: la estructura de datos *Pila* puede ser de gran ayuda para resolver este problema.

5. Este ejercicio consiste en simular el orden LIFO (last-in first-out) de las pilas usando dos colas. En el siguiente programa, hay definidas dos colas: cola_1 y cola_2. Estas son las únicas estructuras de datos auxiliares que se permite usar para almacenar información. Estas estructuras están declaradas como deques, pero únicamente se permite usar las operaciones de las colas: enqueue (método *append*) y dequeue (método *popleft*). También se permite consultar el número de elementos existentes, por ejemplo, para comprobar si una cola está vacía. El ejercicio consiste en completar las funciones que simulan el orden LIFO (*insertar_LIFO* y *extraer_LIFO*) de manera que se satisfagan los tests definidos en la sección Tests.

In [None]:
from collections import deque

# Estructuras de datos. Son las únicas permitidas en este programa.

cola_1 = deque()
cola_2 = deque()

# Funciones a completar.

#def insertar_LIFO(elemento):
    # ...

#def extraer_LIFO():
    # ...

# ------------ Tests ------------



## Soluciones

In [None]:
# Ejercicio 1

def eliminar_duplicados(lista):
    objetos_ya_vistos = set()
    lista_sin_duplicados = []
    for objeto in lista:
        if objeto not in objetos_ya_vistos:
            lista_sin_duplicados.append(objeto)
        objetos_ya_vistos.add(objeto)
    return lista_sin_duplicados

print(eliminar_duplicados([1,2,1,3,4,1,3,5,2,1,5]))

In [None]:
# Ejercicio 2

import heapq

def heapsort(lista):
    cola_prioridad = []
  
    for elemento in lista:
         heapq.heappush(cola_prioridad, elemento) 
        
    lista_ordenada = []
    while len(cola_prioridad) > 0:
        elemento_extraido_de_cola = heapq.heappop(cola_prioridad)
        lista_ordenada.append(elemento_extraido_de_cola)
        
    return lista_ordenada


print(heapsort([6,10,1,4,9,16,2,5]))

In [None]:
# Ejercicio 3

import heapq

def obtener_mediana(lista):
    cola_prioridad = []
  
    for elemento in lista:
         heapq.heappush(cola_prioridad, elemento) 
        
    for _ in range(len(lista)//2 + 1):
        mediana = heapq.heappop(cola_prioridad)
        
    return mediana


print(obtener_mediana([6,10,1,4,9,16,2,5]))

In [None]:
# Ejercicio 4

from collections import deque

def match(c1, c2):
    return (c1 == '(' and c2 == ')') or (c1 == '[' and c2 == ']')

def esta_balanceado(s):
    pila = deque()
    for c in s:
        if c == '(' or c == '[':
            pila.append(c)
        elif c == ')' or c == ']':
            if len(pila) == 0 or not match(pila.pop(), c):
                return False
    return len(pila) == 0


print(esta_balanceado('(aa(c))bb[a]'))
print(esta_balanceado('([b])(aa)'))
print(esta_balanceado('dd((abc[a)]'))
print(esta_balanceado('[(a])'))

In [None]:
# Ejercicio 5

from collections import deque

# Estructuras de datos. Son las únicas permitidas en este programa.

cola_1 = deque()
cola_2 = deque()

# Funciones a completar.

def insertar_LIFO(elemento):
    intercambiar_elementos(cola_1, cola_2)
    cola_1.append(elemento)
    intercambiar_elementos(cola_2, cola_1)

def extraer_LIFO():
    try:
        return cola_1.popleft()
    except:
        return None

# Funciones auxiliares

def intercambiar_elementos(cola_origen, cola_destino):
    while len(cola_origen) > 0:
        cola_destino.append(cola_origen.popleft())
        
# ------------ Tests ------------

insertar_LIFO(6)
insertar_LIFO(9)
insertar_LIFO(1)
insertar_LIFO(3)

print(extraer_LIFO()) # Debe mostrar 3
print(extraer_LIFO()) # Debe mostrar 1
print(extraer_LIFO()) # Debe mostrar 9

insertar_LIFO(5)
insertar_LIFO(8)

print(extraer_LIFO()) # Debe mostrar 8
print(extraer_LIFO()) # Debe mostrar 5
print(extraer_LIFO()) # Debe mostrar 6
print(extraer_LIFO()) # Debe mostrar 'None'