# Built-in Data Structures, Functions

Analizaremos las capacidades integradas en el lenguaje Python que se utilizarán de manera ubicua en todo este libro. Si bien las bibliotecas de complementos como pandas y NumPy agregan funcionalidad computacional avanzada para conjuntos de datos más grandes, están diseñadas para usarse junto con las **herramientas de manipulación de datos integradas** de Python.

Comenzaremos con las estructuras básicas de Python: tuplas, listas, dictados y conjuntos. Luego, discutiremos la creación de propias funciones Python reutilizables. Finalmente, veremos la mecánica de los objetos de archivo Python e interactuaremos con el disco duro local.

## Data Structures and Sequences

### Tuple

- Una tupla es una secuencia **inmutable** de **longitud fija**. La forma más fácil de crear una es con una secuencia de valores separados por comas.

In [1]:
tup = 4, 5, 6
tup

(4, 5, 6)

- Cuando defines tuplas en expresiones más complicadas, a menudo es necesario encerrar los valores entre paréntesis, como en este ejemplo donde se crea una tupla de tuplas:

In [3]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

- Puedes convertir cualquier **secuencia** o **iterator** en una tupla invocando **tuple**.

In [5]:
tuple([4, 0, 2])

(4, 0, 2)

In [6]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

- Los elementos pueden ser accedidos con corchetes **[]**, como la mayoría de los otros tipos de secuencia. Como en C, C++, Java y muchos otros lenguajes, las secuencias están indexadas desde 0 en Python. 
- Si bien los objetos almacenados en una tupla pueden ser **mutables**, una vez creada la tupla no es posible modificar ninguno de los objetos almacenados en cada ranura.

In [8]:
tup = tuple(['foo', [1, 2], True])
print(tup[0])
tup[2] = False

foo


TypeError: 'tuple' object does not support item assignment

- Si un objeto dentro de una tupla es **mutable**, como una **lista**, puede ser modificado in-situ:

In [9]:
print(tup)
tup[1].append(3)
tup

('foo', [1, 2], True)


('foo', [1, 2, 3], True)

- Puedes concatenar tuplas usando el operador + y producir tuplas más largas.

In [11]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

- Multiplicar una tupla por un número entero, como con las **listas**, tiene el efecto de concatenar ese número de veces las copias de la tupla. 
    - Tenga en cuenta que los objetos en sí no se copian, sino solo las referencias a ellos.

In [12]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### Unpacking tuples

- Si intenta _asignar_ a una expresión de variables similar a una tupla, Python intentará _desempaquetar_ el valor en el lado derecho del signo igual:

In [13]:
tup = (4, 5, 6)
a, b, c = tup
b

5

- Incluso las secuencias con tuplas anidadas se pueden _desempaquetar_.

In [15]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

- Con esta funcionalidad, puedes intercambiar nombres de variables fácilmente, una tarea que en muchos idiomas podría verse: 

In [None]:
tmp = a
a = b
b = tmp

In [None]:
a, b = 1, 2
print(a)
print(b)
b, a = a, b
print(a)
print(b)

- Un uso común del _desempaquetado_ de variables es iterar sobre secuencias de tuplas o listas.

In [17]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


- Otro uso común es devolver múltiples valores de una función. El lenguaje Python adquirió recientemente un _desempaquetado_ de tuplas más avanzado para ayudar con situaciones en las que es posible que se desee "extraer" algunos elementos desde el comienzo de una tupla. Esto usa la sintaxis especial **\*rest**, que también se usa en firmas de funciones para capturar una lista arbitrariamente larga de argumentos posicionales:

#### Tuple methods

Dado que el tamaño y el contenido de una tupla no se pueden modificar, es muy ligera en métodos de instancia. Uno particularmente útil (también disponible para listas) es **count**, que cuenta el número de apariciones de un valor.

In [1]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

### List

- A diferencia de las tuplas, las **listas** son de longitud variable y su contenido se puede modificar en el lugar. Puede definirlos usando corchetes [] o usando la función de **tipo list**.

In [32]:
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [33]:
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

- Las **listas** y **tuplas** son semánticamente similares (aunque las tuplas no se pueden modificar) y se pueden usar indistintamente en muchas funciones.
    - La función **list** se usa con frecuencia en el procesamiento de datos como una forma de materializar un iterador o una expresión generadora:

In [10]:
gen = range(10)
print(gen)
list(gen)

range(0, 10)


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### Adding and removing elements

- Los elementos se pueden agregar al final de la lista con el método **append**.

In [34]:
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

- Usando **insert** puede insertarse un elemento en una ubicación específica en la lista.
    - El índice de inserción debe estar entre 0 y la longitud de la lista.

In [35]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

- **insert** es computacionalmente costoso en comparación con **append**, porque las referencias a elementos posteriores tienen que desplazarse internamente para hacer espacio para el nuevo elemento. Si necesitas insertar elementos tanto al principio como al final de una secuencia, es posible que desee explorar **collections.deque**, una cola de dos extremos, para este propósito.
- La operación inversa para insertar es **pop**, que elimina y devuelve un elemento en un índice particular.

In [36]:
b_list.pop(2)

'peekaboo'

In [37]:
b_list

['foo', 'red', 'baz', 'dwarf']

- Los elementos pueden eliminarse por valor con **remove**, que localiza el primer valor y lo elimina del último.

In [38]:
b_list.append('foo')
print(b_list)
b_list.remove('foo')
print(b_list)

['foo', 'red', 'baz', 'dwarf', 'foo']
['red', 'baz', 'dwarf', 'foo']


- Si el rendimiento no es una preocupación, usando de **append** y **remove**, puede usar una lista de Python como una estructura de datos "multiset" perfectamente adecuada.
- Se comprueba si una lista contiene un valor utilizando la palabra clave **in**.

In [39]:
'dwarf' in b_list

True

- La palabra clave **not** puede usarse para negar **in**.

In [40]:
'dwarf' not in b_list

False

- Verificar si una lista contiene un valor es mucho más lento que hacerlo con dictos y conjuntos (que se presentarán en breve), ya que Python realiza un escaneo lineal a través de los valores de la lista, mientras que puede verificar los demás (según las tablas hash) en tiempo constante

#### Concatenating and combining lists

- Al igual que con tuplas, se pueden concatenar dos listas con **+**

In [1]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

- Si tienes una lista definida puedes agregarle múltiples elementos usando el método **extend**.

In [3]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

- Ten en cuenta que la concatenación de listas por adición es una operación comparativamente costosa ya que se debe crear una nueva lista y copiar los objetos. Por lo general, es preferible utilizar **extend** para agregar elementos a una lista existente, especialmente si se está creando una lista grande.
- Por ejemplo este código:

In [None]:
everything = []
for chunk in list_of_lists:
    everything.extend(chunk)

- Es más rápido que la alternativa de concatenar.

In [None]:
everything = []
for chunk in list_of_lists:
    everything = everything + chunk

#### Sorting

- Puedes ordenar una lista in situ (sin crear un nuevo objeto) llamando a su función **sort**.

In [8]:
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

- **sort** tiene algunas opciones que ocasionalmente serán útiles. Una es la capacidad de pasar una _llave sort_ secundaria, es decir, una función que produce un valor para ordenar los objetos. Por ejemplo, podríamos ordenar una colección de strings por su longitud:

In [10]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

#### Binary search and maintaining a sorted list

- El módulo built-in **bisect** implementa la búsqueda binaria e inserción en una lista ordenada. **bisect.bisect** encuentra la ubicación donde un elemento debe ser insertado para mantener la lista ordenada, mientras que **bisect.insort** inserta el elemento en esa ubicación.

In [33]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)

4

In [34]:
bisect.bisect(c, 5)

6

In [35]:
bisect.insort(c, 6)
print(c)

[1, 2, 2, 2, 3, 4, 6, 7]


- Las funciones del módulo **bisect** no verifican si la lista está ordenada, ya que hacerlo sería computacionalmente costoso. Por lo tanto, usarlas con una lista no ordenada no generará errores, pero puede dar lugar a resultados incorrectos.

#### Slicing

- Puedes seleccionar secciones de la mayoría de los tipos de secuencia utilizando la notación de **corte**, que en su forma básica consiste de pasar **inciar:finalizar** al operador de indexación **[]**.

In [36]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

- Los cortes también pueden asignarse a una secuencia.

In [37]:
seq[3:4] = [6, 3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

- Se incluye el elemento del índice de inicio, el índice de final no se incluye, por lo que el número de elementos en el resultado es **finalizar - iniciar**. Se puede omitir el inicio o el final, en cuyo caso se establece de manera predeterminada el inicio de la secuencia o el final de la secuencia, respectivamente.

In [38]:
print(seq[:5])
seq[3:]

[7, 2, 3, 6, 3]


[6, 3, 5, 6, 0, 1]

- Índices negativos cortan la secuencia relativa hasta el final.

In [40]:
print(seq[-4:])
seq[-6:-2]

[5, 6, 0, 1]


[6, 3, 5, 6]

- Un **step** también puede ser usado después de un segundo colon para, por ejemplo, tomar cualquier otro elemento:

In [51]:
print(seq)
seq[::3]

[7, 2, 3, 6, 3, 5, 6, 0, 1]


[7, 6, 6]

- Un uso inteligente de esto es pasar **-1**, que tiene el efecto útil de revertir una lista o tupla:

In [52]:
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### Built-in Sequence Functions

Python tiene varias funciones de secuencia útiles.

#### enumerate

- Es común cuando se itera sobre una secuencia querer realizar un seguimiento del índice del elemento actual. Un enfoque de práctico se vería así:

In [None]:
i = 0
for value in collection:
    # do something with value
    i += 1

- Como es una necesidad muy común, Python tiene una función integrada **enumerate**, que retorna una secuencia de tuplas (i, value).

In [None]:
for i, value in enumerate(collection):
    # do something with value

- Cuando indexas datos, un patrón útil que utiliza **enumerate** es computar un **dict** que asigna los valores de una secuencia (que se supone que son únicos) a sus ubicaciones en la secuencia:

In [54]:
some_list = ['foo', 'bar', 'baz']
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### sorted

- La función **sorted** retorna una nueva lista ordenada de los elementos de cualquier secuencia. (no in-place)
    - La función **sorted** acepta los mismos argumentos que el método **sort** en listas.

In [58]:
print(sorted([7, 1, 2, 6, 0, 3, 2]))
sorted('horse race')

[0, 1, 2, 2, 3, 6, 7]


[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### zip

- **zip** "empareja" los elementos de varias listas, tuplas u otras secuencias para crear una lista de tuplas.

In [59]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

- **zip** puede tomar un número arbitrario de secuencias, y el número de elementos que produce está determinado por la secuencia _más corta_:

In [60]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

- Un uso muy común de **zip** es iterar simultáneamente sobre múltiples secuencias, posiblemente también combinado con **enumerate**.

In [64]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


- Dada una secuencia "comprimida", **zip** puede aplicarse de una manera inteligente para "descomprimir" la secuencia. Otra forma de pensar esto es convertir una lista de filas en una lista de columnas. La sintaxis, que parece un poco mágica, es:

In [66]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)

print(first_names)
last_names

('Nolan', 'Roger', 'Schilling')


('Ryan', 'Clemens', 'Curt')

#### reversed

- **reversed** itera sobre los elementos de una secuencia en orden inverso.
    - Tenga en cuenta que **reversed** es un generador, así que no crea la secuencia invertida hasta que se materializa (por ejemplo, con una lista o un bucle for).

In [67]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### dict

## Functions