<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados.</font>
<br>
<font size='1'> Modificado en 2017-2 por Equipo Docente IIC2233</font>
</p>

# Estructuras de Datos

Se entiende por <b>estructura de datos</b> a una forma especializada para agrupar y almacenar la información, de tal modo que esta pueda ser utilizada eficientemente. A diferencia de las variables simples, las estructuras de datos involucran un alto nivel de abstracción y por lo tanto una estrecha relación con OOP. El uso de cada tipo de estructura de datos tiene relación directa con el contexto de aplicación, como también con el diseño y eficiencia alcanzada por los algoritmos. Es decir, la elección adecuada de la estructura de datos es crucial para desarrollar un buen software.

La estructura de datos más simple es un objeto vacío, sin métodos. Una vez que este objeto es instanciado, el usuario puede agregar atributos o propiedades. Para dejar la estructura vacía se utiliza la sentencia `pass`. Esta sentencia es una operación nula donde nada ocurre y es utilizada generalmente en lugares donde el código eventualmente no tiene nada declarado, pero que lo tendrá.

In [1]:
# Se crea una clase vacía.
class Video:
    pass

vid = Video()

# se agregan atributos nuevos. ¿Recuerdan por qué hacer esto no es buena práctica?
vid.ext = 'avi'
vid.size = '1024'

print(vid.ext, vid.size) 

# También se puede crear una clase sin métodos pero con algunos atributos pre-definidos
class Imagen:
    def __init__(self):
        self.ext = ''
        self.size = ''
        self.data = ''

img = Imagen()
img.ext = 'bmp'
img.size = '8'
img.data = [255,255,255,200,34,35]
img.ids = 20 # python permite de todas formas agregar nuevos atributos a pesar de no estar declarados inicialmente

print(img.ext, img.size, img.data, img.ids)


avi 1024
bmp 8 [255, 255, 255, 200, 34, 35] 20


Sin embargo, en Python el manejo de clases vacías no es la forma óptima de generar estructuras de datos debido a la cantidad de memoria requerida para hacer el seguimiento de todos los atributos, nombres y valores de potenciales nuevos atributos que pueden ser creados dinámicamente a lo largo del programa hace este método poco eficiente. Python posee varias estructuras ya implementadas para el manejo eficiente de datos: listas, tuplas, diccionarios, conjuntos, pilas y colas.

# Estructuras secuenciales basadas en arreglos

En esta sección veremos estructuras basadas en un ordenamiento secuencial de los elementos, según como son ingresados en la estructura. Todos las estructuras de este tipo soportan indexación de los elementos de la forma ```secuencia[índice]```. El ```índice``` parte desde <b>0</b> hasta el <b>largo de la secuencia - 1</b>. En este tipo de estructuras encontramos: ```Strings```, ```Tuplas``` y ```Listas```. En particular los Strings también entran en la categoría de secuencias basadas en arreglos, sin embargo, se consideran más un tipo de variable que una estructura de datos.

## Tuplas

Estas estructuras se utilizan para manejar datos de forma ordenada. Los contenidos pueden ser accesados utilizando el índice correspondiente al orden con que los contenidos fueron ingresados según se muestra en la figura. 

![](img/indices_secuencia.png)


Las tuplas pueden contener distintos objetos o tipos de datos. Para declarar o crear una tupla se utiliza `tuple(elementos)`

In [2]:
# Para crear una tupla vacia se usa tuple() sin ingresar elementos.
a = tuple()

# Se puede declarar explícitamente los elementos de la tupla ingresando los elementos entre paréntesis.
b = (0, 1, 2)

# La tupla puede ser creda con objetos de distito tipo. En las tuplas el uso de parentesis no es obligatorio cuando son creadas.
c = 0, 'mensaje'

print(b[0], b[1])
print(c[0], c[1])

0 1
0 mensaje


Las tuplas son estructuras de datos **INMUTABLES**, es decir, que no es posible agregar o eliminar elementos, o bien cambiar el contenido de ella  una vez que esta fue creada. La principal ventaja de la inmutabilidad es que pueden ser usadas como valor de mapeo o llave en estructuras basadas en *hashing*, como son los diccionarios.

En el siguiente ejemplo, la posicion 0 de la tupla a contiene originalmente un objeto del tipo *Imagen*. Intentamos reemplazar esta posición por un string (o cualquier tipo de dato). En este caso se origina un *error de tipo* debido a que la tupla no permite asignación.

In [3]:
img = Imagen()
a = (img, 'este es', 'un archivo')
a[0] = 'nuevo dato' 

TypeError: 'tuple' object does not support item assignment

Las tuplas pueden ser desempaquetadas en variables individuales. En este ejemplo creamos una función llamada `calcular_geometria()` que recibe como entrada los lados de un cuadrilátero y retorna algunas medidas geométricas típicas. Cuando las funciones retornan más de un valor, lo hacen empaquetando todos los valores en una tupla.

In [4]:
def calcular_geometria(a, b):
    area = a*b
    perimeter = (2*a) + (2*b)
    mpa = a/2
    mpb = b/2
    return (area, perimeter, mpa, mpb) # Los paréntesis son opcionales

# Obtenemos una tupla con los datos provenientes de la función.
data = calcular_geometria(20.0, 10.0)
print('1: {0}'.format(data))

# Obtenemos un valor desde la tupla directamente referenciando el índice del dato requerido.
a = data[0]
print('2: {0}'.format(a))

# desempaquetando en variables independientes los valores contenidos en una tupla
a, p, mpa, mpb = data
print('3: {0}, {1}, {2}, {3}'.format(a, p, mpa, mpb))

# Las funciones devuelven el conjunto de valores como una tupla. Se puede desempaquetar directamente en variables individuales como en el caso anterior.
a, p, mpa, mpb = calcular_geometria(20.0, 10.0)
print('4: {0}, {1}, {2}, {3}'.format(a, p, mpa, mpb))

1: (200.0, 60.0, 10.0, 5.0)
2: 200.0
3: 200.0, 60.0, 10.0, 5.0
4: 200.0, 60.0, 10.0, 5.0


Es posible tomar secciones de la tupla usando la notación <i>slicing</i>. En esta notación los índices no coinciden directamente con la posición del elemento en la secuencia, si no más bien funcionan como márgenes desde donde y hasta donde se necesita recuperar. Esta notación se debe usar como `secuencia[inicio:término:pasos]`. Por defecto el número de pasos es 1. La siguiente figura muestra un ejemplo de como se debe considerar los indices al usar la notación slicing. 
![](img/indices_slicing.png)

Forma general de hacer slicing en Python:

- ```a[start : end]```: retorna los elementos desde ```start``` hasta ```end-1```

- ```a[start:]```: retorna los elementos desde ```start``` hasta el final del arreglo

- ```a[:end]```: retorna los elementos desde el principio hasta ```end-1```

- ```a[:]```: crea una copia (shallow) del arreglo completo. Es decir, el arreglo retornado está en una nueva dirección de memoria, pero los elementos en el arreglo están hace referencia a la dirección de memoria a los elemenos del arreglo inicial

- ```a[start : end : step]```: retorna los elementos desde ```start``` hasta no pasar ```end```, en pasos de a ```step```

- ```a[-1]```: retorna el último elemento en el arreglo

- ```a[-n:]```:   # últimos ```n``` elementos en el arreglo

- ```a[:-n]```: retorna todos los elementos del arreglo menos los últimos ```n``` elementos

Veamos por ejemplos de *slicing* aplicado a tuplas.

In [5]:
# Usando los valores asignados en a, podemos obtener los valores de una sección de la tupla.
data = (400, 20, 1, 4, 10, 11, 12, 500)

# Recuperamos los elementos que están entre los índices 1 y 3
a = data[1:3]
print('1: {0}'.format(a))

# Recuperamos desde el índice 3 en adelante
a = data[3:]
print('2: {0}'.format(a))

# Recuperamos los valores hasta el índice 5
a = data[:5]
print('3: {0}'.format(a))

# Recuperamos desde el índice 2 en adelante respecto del slice en pasos de a dos
a = data[2::2]
print('4: {0}'.format(a))

# Recuperamos entre los índices 1 y 4, en pasos de a dos
a = data[1:6:2]
print('5: {0}'.format(a))

# Una secuencia puede ser fácilmente invertida
a = data[::-1]
print('6: {0}'.format(a))

1: (20, 1)
2: (4, 10, 11, 12, 500)
3: (400, 20, 1, 4, 10)
4: (1, 10, 12)
5: (20, 4, 11)
6: (500, 12, 11, 10, 4, 1, 20, 400)


## Named Tuples

Las *Named Tuples* permiten definir campos para cada una de las posiciones en que han sido ingresado los datos. Son útiles como una forma de agrupar datos. Este tipo de tupla requiere definir un objeto con los nombres de los atributos o elementos que tendrá la tupla. Para poder hacer uso de esta estructura se requiere importar el modulo `namedtuple` dese la librería `collections`. La inicialización básica de una `namedtuple` requiere el nombre para el tipo de tupla y el nombre de los campos que tendrá.

In [6]:
from collections import namedtuple

# Asignamos un nombre a la tupla (Register_type), y los nombres de los atributos que tendrá

Register = namedtuple('Register_type', ['RUT', 'name', 'age'])

# instanciación e iniciación de la tupla
c1 = Register('13427974-5', 'Christian', 20) 
c2 = Register('23066987-2', 'Dante', 5)

print(c1.RUT)
print(c2.RUT)
print(type(c2))

13427974-5
23066987-2
<class '__main__.Register_type'>


Se puede usar también las *Named Tuples* para entregar la salida de una función

In [7]:
# from collections import namedtuple

def calcular_geometria(a, b):
    Features = namedtuple('Geometrical', 'area perimeter mpa mpb')
    area = a*b
    perimeter = (2*a) + (2*b)
    mpa = a/2
    mpb = b/2
    return Features(area, perimeter, mpa, mpb)

data = calcular_geometria(20.0, 10.0)
print(data.area)
print(type(data))

200.0
<class '__main__.Geometrical'>


## Listas

Este tipo de estructura de datos ha sido diseñada para el almacenamiento de distintas instancias de un mismo tipo de objeto. De todas formas no existe restricción en la combinación de tipos de objetos que pueden manejar. 
Las listas son estructuras que guardan datos de forma **ordenada**, a diferencia de la tuplas que son estructuras que guardan una **disposición** de los datos. Los elementos que se agregan usando `append` se ponen al final de la lista. Los elementos se pueden obtener usando el valor del índice del posición donde fueron almacenados. Las listas son estructuras **MUTABLES**, es decir, que su contenido puede cambiar dinámicamente después que esta fue creada.

NOTA: **EVITA** el uso de las listas para coleccionar distintos atributos de un objeto  o bien usarlas con algún tipo de acceso similar al uso de vectores en C++, como por ejemplo, usarlas como histogramas para la cuenta de palabras `[‘a’, 1, ‘b’, 2]`. Esto necesita diseñar un algoritmo de acceso a los datos dentro de la lista que hace engorroso su manejo. En este caso preferir el uso de otro tipo de estructuras como diccionarios, named tuples u objetos.

In [8]:
# lista vacía y agregar elementos incrementalmente. En este caso agregamos tuplas.
lista = []
lista.append((2015, 3, 14))
lista.append((2015, 4, 18))
print(lista)

# Tambien es posible agregar los objetos explicitamente al definirla por primera vez
lista = [1, 'string', 20.5, (23, 45)]
print(lista)

# Extraemos un el elemento usando el indice respectivo
print(lista[1])

[(2015, 3, 14), (2015, 4, 18)]
[1, 'string', 20.5, (23, 45)]
string


A veces es necesario agregar nuevos elementos contenidos en otras listas. En estos casos resulta muy útil agregar la lista completa y no cada elemento de forma individual con `append()`. En este caso resulta mejor utilizar el método `extend()`.

In [9]:
canciones = ['Addicted to pain', 'Ghost love score', 'As I am']
print(canciones)

nuevas_canciones = ['Elevate', 'Shine', 'Cry of Achilles']
canciones.extend(nuevas_canciones)
print(canciones)

['Addicted to pain', 'Ghost love score', 'As I am']
['Addicted to pain', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']


También es posible insertar elementos en posiciones específicas mediante el método `insert(posicion, elemento)`.

In [10]:
print(canciones)
canciones.insert(1, 'Sober')
print(canciones)

['Addicted to pain', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']
['Addicted to pain', 'Sober', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']


Además podemos extraer mediante indexación un elemento específico desde una lista. Al igual que las tuplas también es posible recuperar una porción completa de la lista utilizando la notación *slicing*.

In [11]:
# Tomando una tajada particular
numeros = [6, 7, 2, 4, 10, 20, 25]
print(numeros[2:6])

# tomando una seccion hasta el final de la lista
print(numeros[2:])

# tomando una sección desde el principio hasta un punto específico
print(numeros[:5:])

# considerando pasos de 2
print(numeros[:5:2])

# revirtiendo una lista
print(numeros[::-1])

[2, 4, 10, 20]
[2, 4, 10, 20, 25]
[6, 7, 2, 4, 10]
[6, 2, 10]
[25, 20, 10, 4, 2, 7, 6]


Las listas pueden ser ordenadas utilizando el método `sort()`. Esto ordena las listas en si mismas y no devuelve nada, es decir, el resultado no es asignable a una nueva lista.

In [12]:
numeros = [6, 7, 2, 4, 10, 20, 25]
print(numeros)

# En sentido ascendente. Observar como a no recibe ninguna asignacion despues de que la lista numeros es ordenada
a = numeros.sort() 
print(numeros, a)

# En sentido descendente
numeros.sort(reverse=True)
print(numeros)

[6, 7, 2, 4, 10, 20, 25]
[2, 4, 6, 7, 10, 20, 25] None
[25, 20, 10, 7, 6, 4, 2]


Las listas han sido optimizadas para ser una estructura flexible y fácil de manejar. También se pueden recorrer un `for``

In [13]:
class Pieza:
    pid = 0
    
    def __init__(self, pieza):
        Pieza.pid += 1
        self.pid = Pieza.pid
        self.tipo = pieza

piezas = []
piezas.append(Pieza('Alfil'))
piezas.append(Pieza('Peon'))
piezas.append(Pieza('Rey'))
piezas.append(Pieza('Reina'))

# Por cada iteración en el ciclo la variable pieza recibe un elemento de la lista.
for pieza in piezas:
    print('pid: {0} - tipo de pieza: {1}'.format(pieza.pid, pieza.tipo))


pid: 1 - tipo de pieza: Alfil
pid: 2 - tipo de pieza: Peon
pid: 3 - tipo de pieza: Rey
pid: 4 - tipo de pieza: Reina
