Estructuras de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPy-for-data-science/blob/master/03-estructuras-datos.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPy-for-data-science/blob/master/03-estructuras-datos.ipynb) para ver la última versión online en `nbviewer`. 

---

# Listas

Las principales funciones de las listas son las siguientes:

* `list.`**`append`**`(`*`x`*`)`  -- agrega el elemento `x` al final de la lista. 
* `list.`**`extend`**`(`*`L`*`)`  -- agrega la lista `L` al final de la lista.
* `list.`**`insert`**`(`*`i`*`,`*`x`*`)` -- inserta el elemento `x` en la posición `i`.
* `list.`**`remove`**`(`*`x`*`)`  -- remueve el elemento `x`.
* `list.`**`pop`**`([`*`j`*`])`   -- remueve el elemento en la posición `j` de la lista. 
* `list.`**`clear`**`()`  -- borra la lista; elimina todos los elementos de la lista.
* `list.`**`index`**`(`*`x`*`)`  -- devuelve el indice del elemento `x`
* `list.`**`count`**`(`*`x`*`)`  -- Cuenta las veces que aparece el elemento `x`.
* `list.`**`sort`**`(`*`key=None`*`, `*`reverse=False`*`)` -- ordena los elementos de la lista.
* `list.`**`copy`**`()` -- crea una copia de la lista.

In [37]:
a = [1, 2, 3, 4, 5] # creación de la lista
a

[1, 2, 3, 4, 5]

In [38]:
a.append(6) # agrega el elemento al final
a

[1, 2, 3, 4, 5, 6]

In [39]:
b = [7, 8, 9]  # crea una nueva lista
a.extend(b)    # pega la nueva lista al final de la anterior
a

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [40]:
a.insert(0, 'a')  # las listas pueden contener elementos con diferentes tipos de datos
a

['a', 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [41]:
x = ['a', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd', 'd'] # cuenta la cantidad de veces que aparece cada elemento
print(x.count('a'), x.count('b'), x.count('c'), x.count('d'))

1 2 3 4


In [42]:
x.remove('c')  # borra una de las veces que aparece el elemento
x

['a', 'b', 'b', 'c', 'c', 'd', 'd', 'd', 'd']

In [43]:
a.reverse()  # invierte la lista
a

[9, 8, 7, 6, 5, 4, 3, 2, 1, 'a']

In [44]:
v = [2, 4, 1, 5, 3]  
v.sort()  # ordena la lista
v

[1, 2, 3, 4, 5]

In [45]:
sorted([2, 4, 1, 5, 3])  # devuelve una copia ordenada de la lista original

[1, 2, 3, 4, 5]

In [46]:
v.pop() # remueve el último elemento de la lista (extremo derecho).
v

[1, 2, 3, 4]

In [47]:
a.pop(2) # remueve el elemento en la posición 2 de la lista
a

[9, 8, 6, 5, 4, 3, 2, 1, 'a']

In [48]:
x = list(range(10)) # convierte un objeto rango en lista
x

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [49]:
y = x  # `y` apunta en memoria a la misma lista que `x`.
y

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [50]:
y.pop()  # si se remueve un elemento en la lista `y`, también se remueve en la lista `x`
x

[0, 1, 2, 3, 4, 5, 6, 7, 8]

In [51]:
x = list(range(10))  
y = x.copy()         # para evitar el problema anterior se usa `copy()`
x.pop()
y

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Funciones `filter` y  `map` 

In [52]:
# Filtra los elementos mayores que 4
# MAL
a = [3, 4, 5]
b = []
for i in a:
    if i > 4:
        b.append(i)
print(b)

[5]


In [53]:
# BIEN
a = [3, 4, 5]
b = [i for i in a if i > 4]
# O:
b = filter(lambda x: x > 4, a)

In [54]:
# Sume 3 a todos los elementos de una lista
# MAL
a = [3, 4, 5]
for i in range(len(a)):
    a[i] += 3
print(a)

[6, 7, 8]


In [55]:
# BIEN
a = [3, 4, 5]
a = [i + 3 for i in a]
a

[6, 7, 8]

In [56]:
# BIEN
a = [3, 4, 5]
a = map(lambda i: i + 3, a)
list(a)

[6, 7, 8]

# Desempaquetado de listas

In [57]:
a, *rest = [1, 2, 3]    # a = 1, rest = [2, 3]
print(rest)

[2, 3]


In [58]:
a, *middle, c = [1, 2, 3, 4] # a = 1, middle = [2, 3], c = 4
print(middle)

[2, 3]


# Uso de listas como stacks

Una lista es una estructura de datos LIFO (Last In First Out): el último elemento en entrar es el primer elemento en salir. Para simular este funcionamiento se usan las funciones `append` y `pop`.

In [59]:
stack = [3, 4, 5] # se crea una lista con elementos
stack.append(6)   # se agrega el 6 al final de la lista
stack.append(7)   # se agrega el 7 al final de la lista
stack

[3, 4, 5, 6, 7]

In [60]:
stack.pop()  # al llamar a `pop` sale primero el 7 que fue el último elemento en entrar.

7

In [61]:
stack

[3, 4, 5, 6]

In [62]:
stack.pop()

6

In [63]:
stack.pop()

5

In [64]:
stack

[3, 4]

# Uso de listas como colas

Esta estructura de datos simula la cola de un supermercado. Los elementos entran por la cola y salen por la cabeza (popleft -- pop() por el inicio de la lista). Para ello, se debe importar la función `deque` de la librería `collections`.

In [65]:
from collections import deque
queue = deque(["a", "b", "c"])  # se crea una cola con elementos.
queue.append("d")               # la `d` entra por el extremo derecho
queue.append("e")               # la `e` entra por el extremo derecho
queue.popleft()                 # la `a` sale por el extremo izquierdo.

'a'

In [66]:
queue.popleft()                 # la `b` sale por el extremo izquierdo

'b'

In [67]:
queue                           # imprime el contenido de la variable queue

deque(['c', 'd', 'e'])

# List comprenhensions

Este es un mecanismo para definir la composición de una lista de forma compacta. En el siguiente ejemplo se crea una lista con los cuadrados de los números del 0 al 9.

In [68]:
squares = []
for x in range(10):
    squares.append(x**2)
    
squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Un mecanismo más simple consiste en aplicar la función `lambda x:x**2` a los elementos de la lista `[0, ..., 9]`. Para que la función anónima sea aplicada a cada elemento de la lista se usa la función `map`. 

In [69]:
squares = list(map(lambda x: x**2, range(10)))
squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Un mecanismo mucho más simple es integrar la definición de los elementos de la lista en el ciclo `for`: 

In [70]:
squares = [x**2 for x in range(10)]
squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

En una comprenhension, se pueden anidar ciclos `for` tal como se muestra a continuación. Adicionalmente, se pueden agregar condiciones usando la palabra reservada `if`.

In [71]:
[(x, y) for x in [1,2,3] for y in [3,1,4] if x != y]

[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

Note que el codigo anterior es mucho más simple que el equivalente usando ciclos `for` anidados como se ilustra en el siguiente código.

In [72]:
combs = []
for x in [1,2,3]:
    for y in [3,1,4]:
        if x != y:
            combs.append((x, y))

combs


[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

Ya que este es un mecanismo para crear listas, tambien puede ser aplicado sobre elementos del tipo string. En el siguiente ejemplo, la función `strip` elimina los espacio en blanco al principio y al final de la cadena de caracteres.

In [73]:
# llamada de un metodo sobre cada elemento
x = ['  a a', '  a a  ', 'a a  ']
[y.strip() for y in x]  # elimina los espacios en blanco que delimitan la cadena

['a a', 'a a', 'a a']

In [74]:
['linea ' + str(i) for i in range(1, 6)]

['linea 1', 'linea 2', 'linea 3', 'linea 4', 'linea 5']

In [75]:
for x in ['linea ' + str(i) for i in range(1, 6)]: print(x)

linea 1
linea 2
linea 3
linea 4
linea 5


In [76]:
# numeros del 1 al 20 que contienen un '1'
import re
[str(x) for x in range(1,21) if re.search('1', str(x))]

['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19']

In [77]:
# números del 1 al 20 que finanlizan con un '1'
import re
[str(x) for x in range(1,21) if re.search('1$', str(x))]

['1', '11']

In [78]:
# cantidad de números del 1 al 20 que contienen un '1'
import re
len([str(x) for x in range(1,21) if re.search('1', str(x))])

11

In [79]:
# extrae los caracteres en las posiciones 2, 3 y 4
x = ["123456790",
     "abcdefghi",
     "jklmnopqr" ]
[m[2:5] for m in x]

['345', 'cde', 'lmn']

In [80]:
# extrae los caracteres entre corchetes `[` y `]`.
x = ["-->[456]<--",
     "-->[def]<--",
     "-->[nop]<--",
    "-------->[123456]<---------"]
[m[(m.find('[')+1):m.find(']')] for m in x]

['456', 'def', 'nop', '123456']

In [81]:
# extrae la segunda palabra de cada línea
x = ["Bash is a Unix shell and command language",
     "written by Brian Fox for the ", 
     "GNU Project as a free software",
     "replacement for the Bourne shell."]
[m.split(' ')[1] for m in x]

['is', 'by', 'Project', 'for']

A continuación se presentan varios ejemplos de iteración sobre strings.

In [82]:
# iteracción sobre strings -- MAL
nums = ""
for n in range(20):
  nums += str(n)   # Lento e ineficiente
print(nums)

012345678910111213141516171819


In [83]:
# iteración sobre strings -- BIEN
nums = []
for n in range(20):
  nums.append(str(n))
print("".join(nums))  # más eficiente

012345678910111213141516171819


In [84]:
# iteración sobre strings -- MEJOR
nums = [str(n) for n in range(20)]
print("".join(nums))

012345678910111213141516171819


In [85]:
# también se pueden crear tuplas.
[(x, x**2) for x in range(6)]

[(0, 0), (1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

En el siguiente ejemplo, el primer `for` recorre los elementos de la lista `vec` mientras que el segundo ciclo `for` recorre las componentes de dicho elemento.

In [86]:
vec = [[1,2,3], [4,5,6], [7,8,9]]
[num for elem in vec for num in elem]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [87]:
from math import pi  # otro ejemplo
[str(round(pi, i)) for i in range(1, 6)]

['3.1', '3.14', '3.142', '3.1416', '3.14159']

In [88]:
# se simula una matriz como una lista cuyos elementos son listas de números.
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
]

In [89]:
# se calcula la transpuesta 
[[row[i] for row in matrix] for i in range(4)]

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

In [90]:
# este es el codigo equivalente tradicional.
transposed = []
for i in range(4):
    transposed.append([row[i] for row in matrix])

transposed

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

In [91]:
# otro codigo equivalente.
transposed = []
for i in range(4):
    # the following 3 lines implement the nested listcomp
    transposed_row = []
    for row in matrix:
        transposed_row.append(row[i])
    transposed.append(transposed_row)

transposed

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

In [92]:
# otra forma
list(zip(*matrix))

[(1, 5, 9), (2, 6, 10), (3, 7, 11), (4, 8, 12)]

# Borrado de elementos de una lista

El comando `del` permite borar elementos de una lista.

In [93]:
a = [-1, 1, 66.25, 333, 333, 1234.5]
del a[0]
a

[1, 66.25, 333, 333, 1234.5]

In [94]:
del a[2:4]
a

[1, 66.25, 1234.5]

In [95]:
del a[:]
a

[]

In [96]:
del a

# Tuplas y secuencias

Una tupla es una secuencia de elementos separados por comas. 

In [97]:
t = 12345, 54321, 'hello!'
t[0]

12345

In [98]:
t  # una tupla se diferencia de una lista porque se imprime entre paréntesis. 

(12345, 54321, 'hello!')

In [99]:
# Las tuplas pueden anidarse.
u = t, (1, 2, 3, 4, 5)
u

((12345, 54321, 'hello!'), (1, 2, 3, 4, 5))

In [100]:
x, y, z = t # asignación de los elementos de una tupla.

In [101]:
x

12345

In [102]:
y

54321

In [103]:
z

'hello!'

# Conjuntos

Un conjunto es una estructura de datos cuyos elementos no se repiten.

In [104]:
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(basket)                      # los elmentos duplicados se removieron.

{'apple', 'orange', 'pear', 'banana'}


In [105]:
'orange' in basket # `in` se usa para determinar si el elemento está en el conjunto

True

In [106]:
'crabgrass' in basket

False

In [107]:
a = set('abracadabra')    # el string se descompone en sus letras.
b = set('alacazam')
a                         # letras únicas en el string `a`.

{'a', 'b', 'c', 'd', 'r'}

A continuación se presentan las principales operaciones entre conjuntos.

In [108]:
a - b                              # letras en a pero no en b (diferencia)

{'b', 'd', 'r'}

In [109]:
a | b                              # letras en a o en b (OR)

{'a', 'b', 'c', 'd', 'l', 'm', 'r', 'z'}

In [110]:
a & b                              # letras en a y en b (intersección)

{'a', 'c'}

In [111]:
a ^ b                              # letras en a o en b pero no en ambos

{'b', 'd', 'l', 'm', 'r', 'z'}

In [112]:
# List comprenhensions en conjuntos
a = {x for x in 'abracadabra' if x not in 'abc'} # letras que estan en `abracadabra` y no están en `abc`.
a

{'d', 'r'}

# Diccionarios

Un dicionario es una estructura de datos en que cada elemento contiene una clave y un valor. Los diccionarios pueden crearse usando `{` y `}`.

In [113]:
x = {'b': 2, 'a': 1} # 'a'  y 'b'  son las claves y 1 y 2 son los valores
x['c'] = 3  # se agrega un neuvo elemento al dicicionario.
x

{'a': 1, 'b': 2, 'c': 3}

In [114]:
x['b']  # se obtiene el valor asociado a la clave 'b'

2

In [115]:
del x['b']      # se elimina el elemento.
x['d'] = 4    # se agrega un nuevo elemento.
x

{'a': 1, 'c': 3, 'd': 4}

In [116]:
list(x.keys())    # la función `keys` imprime las claves.

['d', 'a', 'c']

In [117]:
sorted(x.keys())  # claves ordenadas.

['a', 'c', 'd']

In [118]:
'a' in x  # 

True

In [119]:
'a' not in x

False

In [120]:
# un diccionario también puee crearse con `dict` a partir de una lista de tuplas.
dict([('d', 4), ('a', 1), ('b', 2)]) 

{'a': 1, 'b': 2, 'd': 4}

In [121]:
# también se pueden crear diccionarios usando comprenhensions
{x: x**2 for x in (2, 4, 6)}

{2: 4, 4: 16, 6: 36}

In [122]:
dict(c=3, b=2, a=1) # creación del diccionario usando `=`

{'a': 1, 'b': 2, 'c': 3}

In [123]:
x.copy()  # devuelve una copia del diccionario

{'a': 1, 'c': 3, 'd': 4}

In [124]:
x.items() # retorna una nueva vista de los items en el diccionario.

dict_items([('d', 4), ('a', 1), ('c', 3)])

# Comparación de secuencias y otros tipos de datos

A continuación se presentan varios ejemplos de comparación entre secuencias.

In [125]:
(1, 2, 3) < (1, 2, 4)

True

In [126]:
[1, 2, 3] < [1, 2, 4]

True

In [127]:
'ABC' < 'C' < 'Pascal' < 'Python'

True

In [128]:
(1, 2, 3, 4) < (1, 2, 4)

True

In [129]:
(1, 2) < (1, 2, -1)

True

In [130]:
(1, 2, 3) == (1.0, 2.0, 3.0)

True

In [131]:
(1, 2, ('aa', 'ab')) < (1, 2, ('abc', 'a'), 4)

True

# Representación de objectos (estructuras de datos) como texto

La función `repr()` produce la representación de un objeto en forma de string para su impresión. La función `str()` convierte un objeto a una cadena de caracteres.

In [151]:
s = 'Hola, mundo.'
print(s) # note que aca lo imprime sin las comillas

Hola, mundo.


In [152]:
str(s) # imprime las comillas

'Hola, mundo.'

In [153]:
repr(s) # note las comillas dobles

"'Hola, mundo.'"

In [154]:
a = 1  
str(a)  # convierte al 1 de número a string.

'1'

In [155]:
str(1/7)

'0.14285714285714285'

La función `repr()` es usualmente usada para impresión, tal como se ilustra en el siguiente ejemplo.

In [156]:
x = 10 * 3.25
y = 200 * 200
s = 'El valor de "x" es ' + repr(x) + ', y el de "y" es ' + repr(y) + '...'
print(s)

El valor de "x" es 32.5, y el de "y" es 40000...


In [157]:
hello = 'hola, mundo, feliz\n' 
hellos = repr(hello) # agrega comillas
print(hellos)

'hola, mundo, feliz\n'


In [158]:
repr((x, y, ('a', 'b')))  # la función `repr()` recibe cualquier objeto de Python

"(32.5, 40000, ('a', 'b'))"

In [159]:
for x in range(1, 11):
    print(repr(x).rjust(2), repr(x*x).rjust(3), end=' ') # imprime las dos primeras columnas
    print(repr(x*x*x).rjust(4))                          # imprime la tercera columna

 1   1    1
 2   4    8
 3   9   27
 4  16   64
 5  25  125
 6  36  216
 7  49  343
 8  64  512
 9  81  729
10 100 1000


In [160]:
# forma alternativa
for x in range(1, 11): 
    print('{0:2d} {1:3d} {2:4d}'.format(x, x*x, x*x*x))

 1   1    1
 2   4    8
 3   9   27
 4  16   64
 5  25  125
 6  36  216
 7  49  343
 8  64  512
 9  81  729
10 100 1000


La función `zfill()` permite rellenar un número con ceros a la izquierda.

In [161]:
'12'.zfill(5)  # el número debe tener 5 caracteres de longitud en total

'00012'

In [162]:
'-3.14'.zfill(7) # el número debe tener 7 caracteres de longitud en total, teniendo en cuenta el signo - 

'-003.14'

In [163]:
'3.14159265359'.zfill(5) # si la cadena ya excede la longitud, zfill() no la recorta.

'3.14159265359'

La función `print()` admite argumentos para la impresión. En su forma más simple, los argumentos son impresos en orden y su lugar se indica mediante los caracteres `{}`.

In [164]:
print('Este es el argumento {} y este el "{}"'.format('-1-', '-2-'))

Este es el argumento -1- y este el "-2-"


En los ejemplos anteriores, los argumentos se imprimen por posición: el primer argumetno de format se imprime en el primer `{}` y asi sucesivamente. Python permite numerar o dar nombre a los argumentos para su impresión.

In [165]:
print('{0} y {1}'.format('-0-', '-1-'))  # {0} es '-0-'  y {1} es '-1-'

-0- y -1-


In [166]:
print('{1} y {0}'.format('-0-', '-1-')) # {0} es '-0-'  y {1} es '-1-'

-1- y -0-


In [167]:
print('{arg0} y {arg1}.'.format(arg1='-1-', arg0='-0-')) # se da nombre a los argumentos 

-0- y -1-.


In [168]:
print('{0}, {1}, y {a}.'.format('-0-', '-1-', a='-2-'))

-0-, -1-, y -2-.


In [169]:
x = '-0-'
print('Este es el argumento {}.'.format(x))

Este es el argumento -0-.


In [170]:
print('Este es el argumento {!r}.'.format(x)) # aca agrega comillas alrededor de x

Este es el argumento '-0-'.


El formato `{0:.3f}`indica lo siguiente: `0` es el número del argumento; `.3f` indica un número en punto flotante (un real) con tres decimales después del punto.

In [171]:
import math
print('Valor de PI con tres decimales: {0:.3f}.'.format(math.pi))

Valor de PI con tres decimales: 3.142.


In [172]:
print('{} ---- {}'.format('hola mundo', 1.23456789))

hola mundo ---- 1.23456789


In [173]:
print('{0:15s} ---- {1:8.2f}'.format('hola mundo', 1.23456789))

hola mundo      ----     1.23


In [174]:
print('{0:>15s} ---- {1:8.2f}'.format('hola mundo', 1.23456789))

     hola mundo ----     1.23


En el siguiente ejemplo se ilustra la ipmpresión de un diccionario. El formato `{0:10}` indica que el argumento `0` tiene diez caracteres de longitud; la cadena de caracteres se alinea por la izquierda. El formato `{1:10d}` señala que el argumento 1 es entero ('d') y tiene diez caracteres de longitud; se hace la alineación por la derecha. 

In [175]:
z = {'a': 100, 'b': 101, 'c': 102}
for x, y in z.items():
    print('{0:10} ---> {1:10d}'.format(x, y))

b          --->        101
a          --->        100
c          --->        102


In [176]:
# este ejemplo muestra como imprimir un diccionario.
z = {'a': 100, 'b': 101, 'c': 102}
print('a: {0[a]:d}; '
      'b: {0[b]:d}; '
      'c: {0[c]:d}'.format(z))

a: 100; b: 101; c: 102


In [177]:
# otra forma de imprimir un diccionario.
z = {'a': 100, 'b': 101, 'c': 102}
print('a: {a:d}; b: {b:d}; c: {c:d}'.format(**z))

a: 100; b: 101; c: 102


Por compatibilidad con versiones anteriores, Python conserva la impresión usando el operador `%`. En el siguiente ejemplo, la especificación `%5.3f` indica que se imprimirá un número real de cinco caracteres de longitud y tres posiciones decimales.

In [178]:
import math
print('--> %5.3f <--' % math.pi)

--> 3.142 <--


---

Estructuras de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPy-for-data-science/blob/master/03-estructuras-datos.ipynb) para acceder a la última versión online

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPy-for-data-science/blob/master/03-estructuras-datos.ipynb) para ver la última versión online en `nbviewer`. 

---

**Bibliografía**.

> [The Python Tutorial](https://docs.python.org/3/tutorial/index.html) by Python Software Fundation

> [IPython in deep](https://github.com/ipython/ipython-in-depth/blob/master/examples/Index.ipynb) at GitHub

> [IPython wiki](https://github.com/ipython/ipython/wiki) at GitHub