<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015 Karim Pichara - Christian Pieringer. Todos los derechos reservados.</font>
<br>
<font size='1'> Modificado en 2017-2, 2018-1, 2018-2 por Equipo Docente IIC2233</font>
</p>

# Tabla de contenidos

## Estructuras de datos

Desde IIC1103, debemos recordar que las clases se definen por un conjunto de datos y métodos. Sin embargo, una clase muy simple puede contener solamente datos y no métodos. Esto podría verse como la estructura de datos más simple.

En Python, para definir una estructura vacía podemos utilizar la sentencia `pass`. Esta sentencia es una **operación nula** que no produce efectos. Usualmente es utilizada en lugares donde eventualmente planeamos escribir código, pero donde si dejamos el espacio vacío provocaríamos un error sintáctico.

Por lo tanto, se entiende por **estructura de datos** a una forma especializada para agrupar y almacenar datos, de tal modo que éstos puedan ser almacenados, accedidos y utilizados eficientemente. 

A diferencia de las variables simples, las estructuras de datos involucran un alto nivel de _abstracción_ y por lo tanto tienen una estrecha relación con OOP. En esta semana estudiaremos el modelo conceptual de algunas estructuras de datos típicas utilizadas en ciencia de la computación, así como también su implementación en Python. 

La decisión de "qué estructura de datos utilizar" dependerá tanto del contexto de la aplicación en que se desea usar, como también de su diseño y _eficiencia_ esperada. Al final de esta semana, habremos aprendido que la elección adecuada de una estructura de datos para cada situación es crucial para desarrollar un _software_ eficiente.

In [1]:
# Se crea una clase vacía
class Video:
    pass

En Python, una vez que una clase se ha instanciado, es posible agregar atributos nuevos al objeto creado. Esta característica no está soportada en todos los lenguajes. Por ejemplo, lenguajes como Java o C# no la soportan.

In [2]:
#instanciamos la clase 
vid = Video()

# Se agregan atributos nuevos, que existen 
# en este objeto en particular
vid.ext = 'avi'
vid.size = '1024'

(vid.ext, vid.size)

('avi', '1024')

También es posible crear una clase sin métodos, pero con algunos atributos predefinidos. Estos atributos se agregan en el método `__init__` que se ejecuta cada vez que deseamos _inicializar_ una clase.

In [3]:
class Imagen:
    def __init__(self):
        self.ext = ''
        self.size = ''
        self.data = ''

img = Imagen()
img.ext = 'bmp'
img.size = '8'
img.data = [255, 255, 255, 200, 34, 35]

Nuevamente, es posible agregar atributos nuevos a pesar de no estar declarados inicialmente. Estos atributos nuevos existen solamente dentro del objeto que hemos instanciado.

In [4]:
# No todas las instancias de Imagen poseen el atributo ids, pero ésta sí
img.ids = 20
(img.ext, img.size, img.data, img.ids)

('bmp', '8', [255, 255, 255, 200, 34, 35], 20)

Si bien Python permite manejar clases y, una vez instanciadas, agregar atributos a los objetos, esto **no es una buena práctica**. Al hacer esto el intérprete utiliza más memoria para llevar el registro de los atributos, nombres y valores de potenciales nuevos atributos que puedan ser creados dinámicamente. Por otro lado, también hace que el código sea más difícil de mantener y entender, y ya hemos dicho que el código se lee mucho más veces de las que se escribe.

Python posee varias estructuras de datos ya implementadas (*built-ins*) para el manejo eficiente de datos. A continuación estudiaremos las más básicas de ellas: listas (_lists_), tuplas (_tuples_), diccionarios (_dictionaries_), conjuntos (_sets_), pilas (_stacks_) y colas (_queue_).

## Estructuras secuenciales basadas en arreglos

En esta sección estudiaremos estructuras basadas en un **ordenamiento secuencial** de los elementos, según como son ingresados en la estructura. Todas las estructuras de este tipo se caracterizaon porque soportan **indexación de los elementos** de la forma `secuencia[índice]`, donde el ```índice``` **empieza en 0** y llega hasta el **largo de la secuencia - 1**. 

En este tipo de estructuras encontramos: ```str```, ```tuple``` y ```list```. Si bien los _strings_ también entran en la categoría de _secuencias basadas en arreglos_, suelen ser considerados más un tipo de variable que una estructura de datos, por lo tanto nos concentraremos en `tuple` y `list`.

### Tuplas

Las **tuplas** (`tuple`) se utilizan para manejar datos de forma **ordenada** e **inmutable**, es decir, no se pueden cambiar los valores de una tupla. Para acceder a algún elemento de la tupla, es necesario usar índices correlativos al orden en que los valores fueron agregados.

![](img/indices_secuencia.png)


Las tuplas pueden ser heterogéneas, lo que significa que pueden contener objetos pertenciente a clases o tipos de datos distintos, incluyendo otras tuplas. Las tuplas pueden ser creadas de las siguientes maneras:

In [5]:
# Usando tuple() sin ingresar elementos, se crea una tupla vacía (tal como una clase, pues tuple es una clase en Python).
a = tuple()

# Declarando explícitamente los elementos de la tupla, ingresándolos entre paréntesis.
b = (0, 1, 2)

# Cuando creamos una tupla de tamaño 1, debemos incluir una coma al final
c = (0, )

# Pueden ser creadas con objetos de distinto tipo. Al momento de la creación se pueden omitir los paréntesis.
d = 0, 'uno'

print(a)
print(b)
print(b[0], b[1])
print(c)
print(d[0], d[1])

()
(0, 1, 2)
0 1
(0,)
0 uno


Las tuplas son estructuras de datos **inmutables**. Esto significa que **no es posible agregar o eliminar elementos**, o bien cambiar el contenido de la tupla una vez que ésta fue creada.

En el siguiente ejemplo, la posicion 0 de la tupla `a` contiene originalmente un objeto del tipo `Imagen`. Si intentamos reemplazar el contenido de esta posición por un _string_ (o cualquier otro valor), se genera un *error de tipo* (`TypeError`), debido a que los objetos de la clase `tuple` _no permiten asignación_.

In [6]:
img = Imagen()
a = (img, 'es', 'una foto')
a[0] = 'este archivo' 

TypeError: 'tuple' object does not support item assignment

Sin embargo, sí es posible modificar algún valor contenido _dentro_ de un elemento de la tupla, siempre que el tipo de datos lo permita. En el siguiente caso **no** estamos modificando el objeto `tuple`, sino un valor interno al elemento de la posición 0.

In [7]:
img = Imagen()
img.ext = 'bmp'
img.size = '8'
img.data = [255,255,255,200,34,35]
a = (img, 'es', 'una foto')
a[0].ext = 'gif'
a[0].ext, a[0].size, a[0].data, a[1], a[2]

('gif', '8', [255, 255, 255, 200, 34, 35], 'es', 'una foto')

Las tuplas pueden ser **desempaquetadas** en variables individuales. En el siguiente ejemplo creamos una función llamada `calcular_geometria()` que recibe como entrada los lados de un cuadrilátero y retorna algunas medidas geométricas típicas. Cuando las funciones retornan más de un valor, lo hacen empaquetando todos los valores en una tupla. Esto es simplemente un [truco](https://en.wikipedia.org/wiki/Syntactic_sugar) de Python, replicable en otros lenguajes, para aparentar que se entregan múltiples valores de retorno.

In [11]:
def calcular_geometria(a, b):
    area = a*b
    perimeter = (2*a) + (2*b)
    mpa = a / 2
    mpb = b / 2
    return (area, perimeter, mpa, mpb) # Los paréntesis son opcionales, ya que estamos creando una tupla

# Obtenemos una tupla con los datos provenientes 
# de la función.
data = calcular_geometria(20.0, 10.0)
print(f"1: {type(data)}")

# Obtenemos un valor desde la tupla directamente 
# referenciando el índice del dato requerido.
p = data[1]
print(f"2: {type(p)}")

# Desempaquetando en variables independientes 
# los valores contenidos en una tupla
a, p, mpa, mpb = data
print(f"3: {type(a)}, {p}, {mpa}, {mpb}")

# Las funciones devuelven el conjunto de valores 
# como una tupla. Se puede desempaquetar directamente 
# en variables individuales como en el caso anterior.
a, p, mpa, mpb = calcular_geometria(20.0, 10.0)
print(f"4: {type(a)}, {p}, {mpa}, {mpb}")

1: <class 'tuple'>
2: <class 'float'>
3: <class 'float'>, 60.0, 10.0, 5.0
4: <class 'float'>, 60.0, 10.0, 5.0


Es posible tomar secciones de la tupla usando la notación de **_slicing_**. En esta notación, los índices no coinciden directamente con la posición del elemento en la secuencia, si no más bien funcionan como márgenes para indicar _desde dónde_ y [_hasta dónde_](https://youtu.be/whLU_Rm2Sds?t=3m01s) deseamos recuperar datos de la tupla. La sintaxis de la notación de _slicing_ es: `secuencia[inicio:término:pasos]`. Por defecto, el número de pasos es 1. La siguiente figura muestra un ejemplo de cómo se deben considerar los indices al usar la notación de _slicing_. 
![](img/indices_slicing.png)

Forma general de hacer slicing en Python:

- ```a[start:end]```: retorna los elementos desde ```start``` hasta ```end - 1```

- ```a[start:]```: retorna los elementos desde ```start``` hasta el final del arreglo

- ```a[:end]```: retorna los elementos desde el principio hasta ```end - 1```

- ```a[:]```: crea una copia (shallow) del arreglo completo. Es decir, el arreglo retornado está en una nueva dirección de memoria, pero los elementos en el arreglo están hace referencia a la dirección de memoria a los elemenos del arreglo inicial

- ```a[start:end:step]```: retorna los elementos desde ```start``` hasta no pasar ```end```, en pasos de a ```step```

- ```a[-1]```: retorna el último elemento en el arreglo

- ```a[-n:]```:   # últimos ```n``` elementos en el arreglo

- ```a[:-n]```: retorna todos los elementos del arreglo menos los últimos ```n``` elementos

Veamos algunos ejemplos de *slicing* aplicado a tuplas.

In [9]:
# Usando los valores asignados en a, podemos obtener los valores de una sección de la tupla.
data = (400, 20, 1, 4, 10, 11, 12, 500)

# Recuperamos los elementos que están entre los índices 1 y 3
a = data[1:3]
print('1: {0}'.format(a))

# Recuperamos desde el índice 3 en adelante
a = data[3:]
print('2: {0}'.format(a))

# Recuperamos los valores hasta el índice 5
a = data[:5]
print('3: {0}'.format(a))

# Recuperamos desde el índice 2 en adelante respecto del slice en pasos de a dos
a = data[2::2]
print('4: {0}'.format(a))

# Recuperamos entre los índices 1 y 4, en pasos de a dos
a = data[1:6:2]
print('5: {0}'.format(a))

# Una secuencia puede ser fácilmente invertida
a = data[::-1]
print('6: {0}'.format(a))

1: (20, 1)
2: (4, 10, 11, 12, 500)
3: (400, 20, 1, 4, 10)
4: (1, 10, 12)
5: (20, 4, 11)
6: (500, 12, 11, 10, 4, 1, 20, 400)


### _Named tuples_

Los [*named tuples*](https://docs.python.org/3/library/collections.html#collections.namedtuple) son estructuras que permiten definir campos para cada una de las posiciones en que han sido ingresados los datos. Son útiles como una forma de agrupar datos. Generalmente se utilizan como alternativa a las clases cuando los datos no tienen un comportamiento asociado. 

Este tipo de tupla requiere definir un objeto con los nombres de los atributos que tendrá la tupla. Para poder hacer uso de esta estructura se requiere importar el modulo `namedtuple` desde la librería `collections`. La inicialización básica de una `namedtuple` requiere un _string_ con el nombre para el tipo de tupla y el nombre de los campos que tendrá, los que se entregan en una lista de _strings_ como en el siguiente ejemplo:

In [10]:
from collections import namedtuple

# Asignamos un nombre a la tupla (Register_type), y los nombres de los atributos que tendrá

Register = namedtuple('Register_type', ['RUT', 'name', 'age'])

# instanciación e inicialización de la tupla
c1 = Register('13427974-5', 'Christian', 20) 
c2 = Register('23066987-2', 'Dante', 5)

print(c1.RUT)
print(c2.RUT)
print(type(c2))

13427974-5
23066987-2
<class '__main__.Register_type'>


Al igual que las tuplas, las _named tuples_ son inmutables.

In [11]:
c1.name = 'Cristian'

AttributeError: can't set attribute

### Listas

Las **listas** (`list`) se utilizan para manejar datos de forma **ordenada** y **mutable**. Los contenidos pueden ser accedidos utilizando el índice correspondiente al orden en que se encuentran en la lista. A diferencia de las tuplas, el _orden_ de los elementos de una lista, y _los elementos mismos_ pueden cambiar mediante métodos que manipulan la lista.

Las listas también pueden ser heterogéneas, lo que significa que pueden contener objetos pertenciente a clases o tipos de datos distintos, incluyendo otras listas. Si bien no hay nada que obligue a que sea así, es más común ver listas con tipos de datos homogéneos que heterogéneos.

En una lista, los elementos que se agregan usando `append`, se ponen al final de la lista.

Podemos crear listas de las siguientes maneras:


In [12]:
# Creamos una lista vacía y agregamos elementos incrementalmente. 
# En este caso agregamos dos tuplas al final de la lista.
lista = list()                # También puede ser con lista=[]
lista.append((2015, 3, 14))
lista.append((2015, 4, 18))
print(lista)

# Tambien es posible agregar los objetos explicitamente al definirla por primera vez
lista = [1, 'string', 20.5, (23, 45)]
lista.append('ultimo')
print(lista)

# Extraemos un el elemento usando el indice respectivo
print(lista[1])

[(2015, 3, 14), (2015, 4, 18)]
[1, 'string', 20.5, (23, 45), 'ultimo']
string


A veces es necesario agregar nuevos elementos contenidos en otras listas. En estos casos resulta muy útil agregar la lista completa y no cada elemento de forma individual con `append()`. Para eso podemos utilizar el método `extend()`.

In [13]:
canciones = ['Addicted to pain', 'Ghost love score', 'As I am']
print(canciones)

nuevas_canciones = ['Elevate', 'Shine', 'Cry of Achilles']
canciones.extend(nuevas_canciones)
print(canciones)

['Addicted to pain', 'Ghost love score', 'As I am']
['Addicted to pain', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']


También es posible insertar elementos en posiciones específicas mediante el método `insert(posicion, elemento)`.

In [14]:
print(canciones)
canciones.insert(1, 'Sober')
print(canciones)

['Addicted to pain', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']
['Addicted to pain', 'Sober', 'Ghost love score', 'As I am', 'Elevate', 'Shine', 'Cry of Achilles']


Además podemos extraer mediante indexación un elemento específico desde una lista. Al igual que las tuplas también es posible recuperar una porción completa de la lista utilizando la notación de *slicing*.

In [15]:
# Tomando una tajada particular
numeros = [6, 7, 2, 4, 10, 20, 25]
print(numeros[2:6])

# tomando una seccion hasta el final de la lista
print(numeros[2:])

# tomando una sección desde el principio hasta un punto específico
print(numeros[:5:])

# considerando pasos de 2
print(numeros[:5:2])

# revirtiendo una lista
print(numeros[::-1])

[2, 4, 10, 20]
[2, 4, 10, 20, 25]
[6, 7, 2, 4, 10]
[6, 2, 10]
[25, 20, 10, 4, 2, 7, 6]


Las listas pueden ser ordenadas utilizando el método `sort()`. Esto ordena las listas en sí mismas (_in-place_) y no devuelve nada, es decir, el resultado no es asignable a una nueva lista.

In [16]:
numeros = [6, 7, 2, 4, 10, 20, 25]
print(numeros)

# Ordenamos eEn sentido ascendente. 
# Observar como a no recibe ninguna asignacion despues de que la lista numeros es ordenada
a = numeros.sort() 
print(a)
print(numeros)

# Ordenamos en sentido descendente
numeros.sort(reverse=True)
print(numeros)

[6, 7, 2, 4, 10, 20, 25]
None
[2, 4, 6, 7, 10, 20, 25]
[25, 20, 10, 7, 6, 4, 2]


Las listas han sido optimizadas para ser una estructura flexible y fácil de manejar. También se pueden recorrer con la notación de `for`

In [17]:
class Pieza:
    # Los atributos definidos fuera de un metodo son **atributos de clase**.
    # Esto significa que son compartidos entre todas las instancias de una clase.
    # En este caso, todas las instancias de Pieza lo usan asignar un identificador (id) secuencial.
    id_ = 0
    
    def __init__(self, pieza):
        Pieza.id_ += 1
        self.id = Pieza.id_
        self.tipo = pieza

piezas = []
piezas.append(Pieza('Alfil'))
piezas.append(Pieza('Peon'))
piezas.append(Pieza('Rey'))
piezas.append(Pieza('Reina'))

# Por cada iteración en el ciclo la variable pieza recibe un elemento de la lista,
# de acuerdo al orden de la lista
for pieza in piezas:
    print('id: {0} - tipo de pieza: {1}'.format(pieza.id, pieza.tipo))

id: 1 - tipo de pieza: Alfil
id: 2 - tipo de pieza: Peon
id: 3 - tipo de pieza: Rey
id: 4 - tipo de pieza: Reina


En este ejemplo, cada elemento de la lista `piezas` es un objeto de clase `Pieza`, que ha sido ingresado de manera ordenada dentro de la lista. 

Cada pieza tiene un identificador único. La manera que utilizamos para generar este identificador único es usando un **atributo de clase** dentro de la definición de la clase `Pieza`. Los atributos de clase se definen fuera de todos los métodos de la clase, y a diferencia de los atributos de objetos, éstos son compartidos entre todas las instancias de la clase. Es por esto que, luego de inicializar cada objeto `Pieza`, el valor de `Pieza.pid` ha cambiado. Al llamar a un atributo de clase, dado que no están asociados a ningún objeto particular, se debe anteponer el nombre de la clase.