<h1 align="center">ANÁLISIS DE ALGORITMOS</h1>

<h2 align="center">Sesión 04: Estructuras de datos</h2>

<h2 align="center">ESCUELA DE CIENCIAS</h2>

<h2 align="center">DOCTORADO EN INGENIERÍA MATEMÁTICA</h2>

<h2 align="center">UNIVERSIDAD EAFIT</h2>

<h3 align="center">MEDELLÍN - COLOMBIA </h3>

<h3 align="center">2019 </h3>

### Docente: Carlos Alberto Álvarez Henao, I.C. Ph.D.

5. Estructuras de datos (Sesión 04, feb/27)
    
    5.1 Arreglos, pilas y colas
    
    5.2 Listas
    
    5.3 Grafos
    
    5.4 Árboles
    
    5.5 Ejemplos y desafíos

# 5. Estructuras de datos

La selección de una estructura de datos adecuada es un factor crucial en el diseño de algoritmos eficientes. Sin pretender de que este capítulo sea un manual de estructura de datos, se espera que el estudiante tenga nociones básicas de lo que es un arreglo, un vector, una matriz, un apuntador, etc. Otros elementos menos básicos como grafos se tratarán de ver con alguna profundidad sin pretender, nuevamente, en ser muy explicativos.

## 5.1 Arreglos, pilas y colas

### 5.1.1 Arreglos

Un arreglo es una estructura de datos, o más técnicamente, un espacio de memoria que permite almacenar una colección de elementos, todos del mismo tipo. Conviene imaginar un arreglo como una secuencia contigua de celdas (espacios de memoria), o *casillas*, en cada una de las cuales se puede guardar un elemento de la colección. Además, es usual dibujarlo como lo ilustra la figura siguiente:

![Array.png](attachment:Array.png)

la figura representa un arreglo de siete casillas cada una de las cuales se puede utilizar para guardar un dato. La *dimensión* o tamaño de un arreglo es el número de casillas que lo conforman. Debe ser claro, entonces, que la figura anterior corresponde a un arreglo de dimensión $7$. 

Cada una de las casillas de un arreglo tiene asociado un número que la identifica de manera única. A este número se le llama índice o dirección. En la figura anterior, debajo de cada casilla, aparece su índice. En lenguajes como $C$, $C++$, $java$ y $Python$, la primera casilla del arreglo tiene índice $0$, la segunda tiene índice $1$, la tercera índice $2$, y así sucesivamente. Es muy importante tener presente que si el arreglo es de dimensión $N$, la última casilla tiene índice $N-1$. En $Fortran$, $Matlab$, y otros, la primera casilla de un arreglo tiene índice $1$ y el de la última es $N$.

Los lenguajes de programación, permiten que el programador declare arreglos de cualquier tipo y prácticamente de cualquier tamaño. En seudolenguaje, un arreglo se declara usando el siguiente formato:

si se quiere declarar un arreglo con nombre "letras", de dimensión $15$ y que pueda almacenar datos de tipo caracter, se debe escribir la siguiente línea.

Los índices se crearon para permitir que el programador se pueda referir, de forma específica, a una cualquiera de las casillas del arreglo, tanto para guardar un dato en esa casilla, como para obtener el dato guardado. Para referirse a una casilla particular de un arreglo se debe seguir el siguiente formato: 

como ejemplo:

Como se crea un arreglo en *Python*:

In [None]:
import numpy as np

datos = np.zeros([10],dtype=int)
datos[1] = 100
i = 5
while (i<10):
    datos[i] = 550
    i += 1
print(datos)
type(datos)

In [None]:
a = [1,"Hola",3,"4",5]
b = [6,7,8,True,10]

c = a + b
print(c)
type(c)

Se entiende que los elementos están dispuestos de izquierda a derecha.

La propiedad esencial de una matriz es que se puede calcular la dirección de cualquier elemento dado en un tiempo constante.

El tiempo necesario para leer el valor de un solo elemento, o cambiarlo de valor, es de $\mathcal{O}(1)$, es decir, se pueden tratar estas operaciones como si fueran elementales.

Toda operación que implique a todos los elementos de una matriz requerirá más tiempo a medida que el tamaño de $n$ crece (el tamaño del arreglo).

Una operación como dar valor inicial a todos los elementos de un arreglo $1D$ o buscar el mayor elemento, requerirá un tiempo proporcional al número de elementos a examinar ($t(n)=\mathcal{O}(n)$). En un arreglo $2D$ es de $t(n)=\mathcal{O}(n^2)$.

Los arreglos unidimensionales permiten implementar de forma eficiente las estructuras de datos denominadas *pilas* y *colas*.

### 5.1.2 Pilas

Su nombre se deriva de la metáfora de una pila de platos en una cocina.

La inserción y extracción de elementos de la pila siguen el principio *LIFO* (*last-in / first-out*).

El último elemento en entrar es el único accesible en cada momento.

![Pila01.png](attachment:Pila01.png)

Una *pila* (*stack*) es una colección ordenada de elementos en la cual los datos se insertan o se retiran por el mismo extremo llamado “parte superior” de la *pila*.

![Pila02.png](attachment:Pila02.png)

#### Operaciones Básicas en Pilas:

***Push***

Existe solamente un lugar en donde cualquier elemento puede ser agregado a la pila.

![Pila03.png](attachment:Pila03.png)

Después de haber insertado el nuevo elemento, $G$ ahora es el elemento en la cima.

***Pop***

Basta indicar que sea retirado un elemento. 

![Pila04.png](attachment:Pila04.png)

No podemos decir “*retirar* $C$”, porque $C$ no está en la cima de la pila.

***Aplicaciones de las pilas***

***Navegador Web***

- Se almacenan los sitios previamente visitados

- Cuando el usuario quiere regresar (presiona el botón de retroceso), simplemente se extrae la última dirección (pop) de la pila de sitios visitados.

***Editores de texto***

- Los cambios efectuados se almacenan en una pila.

-  Usualmente implementada como arreglo.

- Usuario puede deshacer los cambios mediante la operación “undo”, la cual extraer el estado del texto antes del último cambio realizado.

***Ejemplo:***

![Pila05.png](attachment:Pila05.png)

***Implementación de las Pilas***

Una *pila* está conformada por dos elementos:

- Un espacio suficiente para almacenar los elementos insertados en la *pila*.


- Una elemento que indique cuál es el elemento en la cima de la *pila*.

### 5.2.2 Cola


Su nombre se deriva de la metáfora de una cola de personas en una taquilla.


La inserción y extracción de elementos de la cola siguen el principio *FIFO* (*first-in/first-out*).

El elemento con más tiempo en la cola es el que puede ser extraído.

![Cola00.png](attachment:Cola00.png)

En una cola hay dos extremos, uno es llamado la parte delantera y el otro extremo se llama la parte trasera de la cola. En una cola, los elementos se retiran por la parte delantera y se agregan por la parte trasera.

![Cola01.png](attachment:Cola01.png)

#### Operaciones Básicas en Colas:

- ***Enqueue (meter):*** añade un nuevo elemento al final de la cola.


- ***Dequeue: (sacar):*** elimina (saca) el primer elemento de la cola.

***Ejemplo***

![Cola02.png](attachment:Cola02.png)

***Aplicaciones de las colas***

En general, operaciones en redes de computadoras.

- Trabajos enviados a una impresora

- Solicitudes a un servidor.

Clientes solicitando ser atendidos por una telefonista.

***Implementación de la estructura cola***

De manera similar a las *pilas*, las *colas* definen una estructura no estándar, de manera que se debe crear un nuevo tipo de dado, el tipo *cola*, que debe tener los
siguientes elementos:


- Un arreglo de $n$ elementos de algún tipo específico, puede incluso ser un tipo estándar o no.


- Un número que indica el elemento que está en la posición del frente de la *cola*.


- Un número que indica el elemento que está en la posición trasera de la *cola*.

## 5.2 Listas

Una *lista* es una colección de elementos de información dispuestos en un cierto orden. A diferencia de los *arreglos*, el número de elementos de una *lista* no se prefija ni es limitado con anterioridad.

Se define como una serie de $N$ elementos $E_1, E_2, \ldots, E_N$, ordenados de manera consecutiva, es decir, el elemento $E_k$ (que se denomina elemento $k$*-ésimo*) es previo al elemento $E_{k+1}$. Si la lista contiene $0$ elementos se denomina como lista vacía.

Es una estructura *lineal* en la que cada elemento de la lista, excepto el primero, tiene un único predecesor y cada elemento de la lista, excepto el último, tiene un único sucesor.

La estructura de datos deberá permitir determinar cuál es el primer elemento, cuál el último y cuáles el predecesor y sucesor de cualquier elemento dado.

Con las listas se pueden realizar muchas operaciones:

- construir una lista

- obtener el tamaño de la lista

- verificar si está vacía

- obtener el primer elemento de la lista, usualmente llamado *head* o *cabeza*

- insertar/eliminar un nuevo elemento a la lista en la posición $k$.

- obtener el elemento para un índice dado.

Entre muchas otras operaciones

Dos operaciones comunes son la indización y la asignación a una posición indizada. Ambas operaciones toman la misma cantidad de tiempo sin importar cuán grande sea la lista. Cuando una operación como ésta es independiente del tamaño de la lista, se dice que es $\mathcal{O}(1)$.

Otra tarea de programación muy común es hacer crecer una lista. Hay dos maneras de crear una lista más larga. En `Python` puede utilizar el método `append` o el operador de concatenación, `+`. El método `append` es $\mathcal{O}(1)$. Sin embargo, el operador de concatenación es $\mathcal{O}(k)$ donde $k$ es el tamaño de la lista que está siendo concatenada. Es importante saber esto porque puede ayudar a hacer sus propios programas más eficientes eligiendo la herramienta de trabajo adecuada.

Veamos cuatro maneras diferentes de generar una lista de $n$ números comenzando con $0$. 

- Primero empleando un ciclo `for` y crear la lista por concatenación, 


- luego se usará `append` en lugar de la concatenación. 


- A continuación, se creará la lista utilizando comprensión de listas ([List Comprenhension](https://www.datacamp.com/community/tutorials/python-list-comprehension?utm_source=adwords_ppc "List Comprenhension")) y finalmente, y tal vez de la forma más obvia, 


- utilizando la función `range` envuelta por una llamada al constructor de la lista.

In [None]:
def prueba1():
    l = []
    for i in range(100):
        l = l + [i]

def prueba2():
    l = []
    for i in range(100):
        l.append(i)

def prueba3():
    l = [i for i in range(100)]

def prueba4():
    l = list(range(100))

In [None]:
if __name__ == '__main__':
    
    import timeit
    
    print("Concatenación: ",timeit.timeit("prueba1()", setup="from __main__ import prueba1"))
    
    print("Append: ", timeit.timeit("prueba2()", setup="from __main__ import prueba2"))
    
    print("List Comprenhension",timeit.timeit("prueba3()", setup="from __main__ import prueba3"))
  
    print("Range: ", timeit.timeit("prueba4()", setup="from __main__ import prueba4"))    

Es interesante poder determinar el desempeño de las operaciones básicas aplicadas a las listas (en este caso las implementadas en *Python*). 

| Operación            | $\mathcal{O}$          |
|:---------------------|:----------------------:|
| Indización           | $\mathcal{O}(1)$       |
| Asignación indizada  | $\mathcal{O}(1)$       |
| append               | $\mathcal{O}(1)$       |
| pop()                | $\mathcal{O}(1)$       |
| pop(i)               | $\mathcal{O}(n)$       |
| insert(i,item)       | $\mathcal{O}(n)$       |
| del                  | $\mathcal{O}(n)$       |
| iteración            | $\mathcal{O}(n)$       |
| in                   | $\mathcal{O}(n)$       |
| slicing: [x:y]       | $\mathcal{O}(k)$       |
| eliminar una porción | $\mathcal{O}(n)$       |
| asignar una porción  | $\mathcal{O}(n+k)$     |
| reverse              | $\mathcal{O}(n)$       |
| concatenar           | $\mathcal{O}(k)$       |
| ordenar              | $\mathcal{O}(n log n)$ |
| multiplicar          | $\mathcal{O}(nk)$      |

De esta tabla es de especial interés lo que sucede con la operación `pop` que presenta dos tiempos diferentes.

- Cuando `pop` es llamado sobre el final de la lista se tarda $\mathcal{O}(1)$


- Cuando `pop`es llamado sobre el primer elemento de la lista, o en cualquier punto intermedio, es de $\mathcal{O}(n)$.


Esto es debido a la forma como *Python* elige implementar las listas.


- Cuando un elemento se toma del frente de la lista, en la implementación de *Python*, todos los demás elementos de la lista se desplazan una posición más cerca del inicio. 


- Esto puede parecer tonto ahora, pero si nos fijamos en la Tabla veremos que esta implementación también permite que la operación de indización sea $\mathcal{O}(1)$. Éste es un sacrificio mutuo que los implementadores de *Python* pensaron que era bueno.

## 5.3 Grafos

Formalmente, un grafo $G$ consiste en dos conjuntos finitos $N$ y $A$. 

- $N$ es el conjunto de elementos del grafo, también denominados vértices o nodos. 


- $A$ es el conjunto de arcos, que son las conexiones que se encargan de relacionar los nodos para formar el grafo. 


- Los arcos también son llamados aristas o líneas.


- Los nodos suelen usarse para representar objetos y los arcos para representar la relación entre ellos. Por ejemplo, los nodos pueden representar ciudades y los arcos la existencia de carreteras que las comunican.


- Cada arco queda definido por un par de elementos $n_1, n_2 \in N$ a los que conecta.


Aunque habitualmente los elementos son distintos, permitiremos que sean el mismo nodo ($n_1 = n_2$). Representaremos gráficamente un arco como una línea que une los dos nodos asociados


Si queremos representar mediante un grafo la red de vuelos de una compañía aérea entre diferentes ciudades, tendríamos el siguiente grafo $G = {N, A}$; $N = {Málaga, Zaragoza,
Madrid, Barcelona}$; $A = {(Madrid, Málaga), (Madrid, Barcelona), (Málaga, Barcelona),(Zaragoza, Barcelona)}$

![Grafos01.png](attachment:Grafos01.png)

- Se dice que dos nodos son adyacentes o vecinos si hay un arco que los conecta. Los nodos adyacentes pueden ser representados por pares $(a, b)$.


- Un camino es una secuencia de nodos $n_1, n_2, \ldots, n_m$ tal que $\forall i, 1 ≤ i ≤ (m-1)$, cada par de nodos $(n_i, n_{i+1})$ son adyacentes. Se dice que un camino es simple si cada uno de sus nodos, excepto tal vez el primero y el último, aparece sólo una vez en la secuencia.


- La longitud de un camino es el número de arcos de ese camino. Se puede considerar como caso especial un nodo por sí mismo como un camino de longitud $0$.


- Un ciclo es un camino simple en el que el primer y último nodos son el mismo ($n_1 = n_m$). Si un camino desde un nodo a él mismo no contiene otros nodos entonces decimos que es un ciclo degenerado.


- Un grafo sin ciclos se dice acíclico.


- Si en un grafo $G = {N,A}$, $N$ está formado por dos o más subconjuntos disjuntos de nodos (no hay arcos que conecten nodos de un subconjunto con nodos de otro subconjunto) entonces se dice que el grafo es *desconectado* o *inconexo*, en otro caso se dice que es *conectado* o *conexo*.

![Grafos02.png](attachment:Grafos02.png)

### Grafos dirigidos y no dirigidos.

Hasta ahora hemos supuesto que un arco conecta dos nodos en ambos sentidos igualmente. Un grafo dirigido es aquel en el que los arcos tienen un único sentido. En este caso, un arco se dirige desde el nodo origen hasta el nodo destino. Se dice que el nodo origen precede al nodo destino, y que éste sucede al origen. Los arcos de un grafo dirigido se representan gráficamente con flechas.


- Un grafo no dirigido es un grafo donde los arcos conectan a los nodos en ambos sentidos.


- Un grafo dirigido se podría usar para representar bloques de un programa mediante los nodos y la transferencia del flujo de control mediante los arcos. Un grafo que representara el sentido del tráfico entre diferentes plazas podría ser:

![Grafos03.png](attachment:Grafos03.png)

- Un nodo $N$ se dice alcanzable desde un nodo $M$ si y sólo si existe un camino desde $M$ hasta $N$. Más formalmente, un nodo $W$ se dice alcanzable desde un nodo $M$ si:


1. $N$ y $M$ son el mismo nodo, o


2. $N$ es alcanzable desde algún nodo que sea sucesor de $M$.


Para cada nodo de un grafo existe un conjunto de nodos alcanzables desde ese nodo, denominado *conjunto alcanzable*.

Un nodo $N$ se dice directamente alcanzable desde un nodo $M$ si y sólo si son adyacentes y $N$ es el sucesor de $M$.

Un grafo conexo acíclico no dirigido es un árbol libre. Un árbol libre puede convertirse en un árbol general si se elige cualquier nodo deseado como raíz y se orienta el cada arco desde ella.

### Ponderación


- Las aristas pueden ponderarse para mostrar que hay un costo para ir de un vértice a otro. Por ejemplo, en un grafo de carreteras que conectan una ciudad con otra, la ponderación en la arista puede representar la distancia entre las dos ciudades.


- Un grafo puede ser representado por $G=(V,E)$. Para el grafo $G$, $V$ es un conjunto de vértices y $E$ es un conjunto de aristas. Cada arista es una tupla $(v,w)$ donde $w,v \in V$. Podemos añadir un tercer componente a la tupla de la arista para representar una ponderación. Un subgrafo $s$ es un conjunto de aristas $e$ y de vértices $v$ tales que $e⊂E$ y $v⊂V$.

La Figura muestra otro ejemplo de un digrafo ponderado simple. Formalmente podemos representar este grafo como el conjunto de seis vértices:

$$V= \{V0,V1,V2,V3,V4,V5 \}$$

y el conjunto de nueve aristas:

$$E=\{(v0,v1,5),(v1,v2,4),(v2,v3,9),(v3,v4,7),(v4,v0,1),(v0,v5,2),(v5,v4,8),(v3,v5,3),(v5,v2,1) \}$$


![Grafos04.png](attachment:Grafos04.png)

- en la figura, la ruta desde $V3$ hasta $V1$ es la secuencia de vértices $(V3,V4,V0,V1)$. Las aristas son $\{(v3,v4,7),(v4,v0,1),(v0,v1,5)\}$.


- en la figura, la ruta $(V5,V2,V3,V5)$ es un ciclo. Un grafo sin ciclos se denomina grafo acíclico. 

### El tipo abstracto de datos grafo

- `Grafo()` crea un grafo nuevo y vacío.

- `agregarVertice(vert)` agrega una instancia de Vertice al grafo.

- `agregarArista(deVertice, aVertice)` agrega al grafo una nueva arista dirigida que conecta dos vértices.

- `agregarArista(deVertice, aVertice, ponderacion)` agrega al grafo una nueva arista ponderada y dirigida que conecta dos vértices.

- `obtenerVertice(claveVert)` encuentra el vértice en el grafo con nombre `claveVert`.

- `obtenerVertices()` devuelve la lista de todos los vértices en el grafo.

- `in` devuelve `True` para una instrucción de la forma `vertice in grafo`, si el vértice dado está en el grafo, `False` de lo contrario.

### Matriz de adyacencia

Una de las maneras más fáciles de implementar un grafo es usar una matriz bidimensional. 

- En esta implementación de matriz, cada una de las filas y columnas representa un vértice en el grafo. 


- El valor que se almacena en la celda en la intersección de la fila $v$ y la columna $w$ indica si hay una arista desde el vértice $v$ al vértice $w$. 


- Cuando dos vértices están conectados por una arista, decimos que son adyacentes. La siguiente figura ilustra la matriz de adyacencia para el grafo de la figura anterior. 


- Un valor en una celda representa la ponderación de la arista que une el vértice $v$ con el vértice $w$.

![Grafos05.png](attachment:Grafos05.png)

La ventaja de la matriz de adyacencia es que es simple, y que para grafos pequeños es fácil ver qué nodos están conectados a otros nodos. Sin embargo, note que la mayoría de las celdas de la matriz están vacías. Dado que la mayoría de las celdas están vacías decimos que esta matriz es “*rala*”. Una matriz no es una forma muy eficiente de almacenar datos ralos.

La matriz de adyacencia es una buena implementación para un grafo cuando el número de aristas es grande. Pero ¿qué entendemos por grande? ¿Cuántas aristas se necesitarían para llenar la matriz? Puesto que hay una fila y una columna para cada vértice en el grafo, el número de aristas requeridas para llenar la matriz es $\mathcal{O}(n^2)$. Una matriz está llena cuando cada vértice está conectado a todos los otros vértices. Hay pocos problemas reales que se aproximan a este tipo de conectividad.

Una forma más eficiente, respecto al uso del espacio, de implementar un grafo conectado de forma rala es usar una *lista de adyacencia*. En una implementación de lista de adyacencia mantenemos una lista maestra de todos los vértices en el objeto Grafo y además cada objeto Vértice en el grafo mantiene una lista de los otros vértices a los que está conectado. En nuestra implementación de la clase `Vertice` usaremos un diccionario en lugar de una lista donde las claves del diccionario son los vértices, y los valores son las ponderaciones. La figura siguiente ilustra la representación mediante una lista de adyacencia para el grafo de la figura inicial.

![Grafos06.png](attachment:Grafos06.png)

La ventaja de la implementación mediante una lista de adyacencia es que nos permite representar de forma compacta un grafo ralo. La lista de adyacencia también nos permite encontrar fácilmente todos los enlaces que están directamente conectados a un vértice particular.

In [None]:
class Vertice:
    def __init__(self,clave):
        self.id = clave
        self.conectadoA = {}

    def agregarVecino(self,vecino,ponderacion=0):
        self.conectadoA[vecino] = ponderacion

    def __str__(self):
        return str(self.id) + ' conectadoA: ' + str([x.id for x in self.conectadoA])

    def obtenerConexiones(self):
        return self.conectadoA.keys()

    def obtenerId(self):
        return self.id

    def obtenerPonderacion(self,vecino):
        return self.conectadoA[vecino]

In [None]:
class Grafo:
    def __init__(self):
        self.listaVertices = {}
        self.numVertices = 0

    def agregarVertice(self,clave):
        self.numVertices = self.numVertices + 1
        nuevoVertice = Vertice(clave)
        self.listaVertices[clave] = nuevoVertice
        return nuevoVertice

    def obtenerVertice(self,n):
        if n in self.listaVertices:
            return self.listaVertices[n]
        else:
            return None

    def __contains__(self,n):
        return n in self.listaVertices

    def agregarArista(self,de,a,costo=0):
        if de not in self.listaVertices:
            nv = self.agregarVertice(de)
        if a not in self.listaVertices:
            nv = self.agregarVertice(a)
        self.listaVertices[de].agregarVecino(self.listaVertices[a], costo)

    def obtenerVertices(self):
        return self.listaVertices.keys()

    def __iter__(self):
        return iter(self.listaVertices.values())


In [None]:
g = Grafo()

for i in range(6):
    g.agregarVertice(i)

g.listaVertices{0: <__main__.Vertice object>, 
 1: <__main__.Vertice object>, 
 2: <__main__.Vertice object>,
 3: <__main__.Vertice object>, 
 4: <__main__.Vertice object>, 
 5: <__main__.Vertice object>}

g.agregarArista(0,1,5)
g.agregarArista(0,5,2)
g.agregarArista(1,2,4)
g.agregarArista(2,3,9)
g.agregarArista(3,4,7)
g.agregarArista(3,5,3)
g.agregarArista(4,0,1)
g.agregarArista(5,4,8)
g.agregarArista(5,2,1)

for v in g:
    for w in v.obtenerConexiones():
        print("( %s , %s )" % (v.obtenerId(), w.obtenerId()))