# Built-in Data Structures, Functions

Analizaremos las capacidades integradas en el lenguaje Python que se utilizarán de manera ubicua en todo este libro. Si bien las bibliotecas de complementos como pandas y NumPy agregan funcionalidad computacional avanzada para conjuntos de datos más grandes, están diseñadas para usarse junto con las **herramientas de manipulación de datos integradas** de Python.

Comenzaremos con las estructuras básicas de Python: tuplas, listas, dictados y conjuntos. Luego, discutiremos la creación de propias funciones Python reutilizables. Finalmente, veremos la mecánica de los objetos de archivo Python e interactuaremos con el disco duro local.

## Data Structures and Sequences

### Tuple

- Una tupla es una secuencia **inmutable** de **longitud fija**. La forma más fácil de crear una es con una secuencia de valores separados por comas.

In [1]:
tup = 4, 5, 6
tup

(4, 5, 6)

- Cuando defines tuplas en expresiones más complicadas, a menudo es necesario encerrar los valores entre paréntesis, como en este ejemplo donde se crea una tupla de tuplas:

In [3]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

- Puedes convertir cualquier **secuencia** o **iterator** en una tupla invocando **tuple**.

In [5]:
tuple([4, 0, 2])

(4, 0, 2)

In [6]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

- Los elementos pueden ser accedidos con corchetes **[]**, como la mayoría de los otros tipos de secuencia. Como en C, C++, Java y muchos otros lenguajes, las secuencias están indexadas desde 0 en Python. 
- Si bien los objetos almacenados en una tupla pueden ser **mutables**, una vez creada la tupla no es posible modificar ninguno de los objetos almacenados en cada ranura.

In [8]:
tup = tuple(['foo', [1, 2], True])
print(tup[0])
tup[2] = False

foo


TypeError: 'tuple' object does not support item assignment

- Si un objeto dentro de una tupla es **mutable**, como una **lista**, puede ser modificado "in-situ":

In [9]:
print(tup)
tup[1].append(3)
tup

('foo', [1, 2], True)


('foo', [1, 2, 3], True)

- Puedes concatenar tuplas usando el operador + y producir tuplas más largas.

In [11]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

- Multiplicar una tupla por un número entero, como con las **listas**, tiene el efecto de concatenar ese número de veces las copias de la tupla. 
    - Tenga en cuenta que los objetos en sí no se copian, sino solo las referencias a ellos.

In [12]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### Unpacking tuples

- Si intenta _asignar_ a una expresión de variables similar a una tupla, Python intentará _desempaquetar_ el valor en el lado derecho del signo igual:

In [13]:
tup = (4, 5, 6)
a, b, c = tup
b

5

- Incluso las secuencias con tuplas anidadas se pueden _desempaquetar_.

In [15]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

- Con esta funcionalidad, puedes intercambiar nombres de variables fácilmente, una tarea que en muchos idiomas podría verse: 

In [None]:
tmp = a
a = b
b = tmp

In [None]:
a, b = 1, 2
print(a)
print(b)
b, a = a, b
print(a)
print(b)

- Un uso común del _desempaquetado_ de variables es iterar sobre secuencias de tuplas o listas.

In [17]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


- Otro uso común es devolver múltiples valores de una función. El lenguaje Python adquirió recientemente un _desempaquetado_ de tuplas más avanzado para ayudar con situaciones en las que es posible que se desee "extraer" algunos elementos desde el comienzo de una tupla. Esto usa la sintaxis especial **\*rest**, que también se usa en firmas de funciones para capturar una lista arbitrariamente larga de argumentos posicionales:

#### Tuple methods

Dado que el tamaño y el contenido de una tupla no se pueden modificar, es muy ligera en métodos de instancia. Uno particularmente útil (también disponible para listas) es **count**, que cuenta el número de apariciones de un valor.

In [1]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

### List

- A diferencia de las tuplas, las **listas** son de longitud variable y su contenido se puede modificar en el lugar. Puede definirlos usando corchetes [] o usando la función de **tipo list**.

In [32]:
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [33]:
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

- Las **listas** y **tuplas** son semánticamente similares (aunque las tuplas no se pueden modificar) y se pueden usar indistintamente en muchas funciones.
    - La función **list** se usa con frecuencia en el procesamiento de datos como una forma de materializar un iterador o una expresión generadora:

In [10]:
gen = range(10)
print(gen)
list(gen)

range(0, 10)


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### Adding and removing elements

- Los elementos se pueden agregar al final de la lista con el método **append**.

In [34]:
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

- Usando **insert** puede insertarse un elemento en una ubicación específica en la lista.
    - El índice de inserción debe estar entre 0 y la longitud de la lista.

In [35]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

- **insert** es computacionalmente costoso en comparación con **append**, porque las referencias a elementos posteriores tienen que desplazarse internamente para hacer espacio para el nuevo elemento. Si necesitas insertar elementos tanto al principio como al final de una secuencia, es posible que desee explorar **collections.deque**, una cola de dos extremos, para este propósito.
- La operación inversa para insertar es **pop**, que elimina y devuelve un elemento en un índice particular.

In [36]:
b_list.pop(2)

'peekaboo'

In [37]:
b_list

['foo', 'red', 'baz', 'dwarf']

- Los elementos pueden eliminarse por valor con **remove**, que localiza el primer valor y lo elimina del último.

In [38]:
b_list.append('foo')
print(b_list)
b_list.remove('foo')
print(b_list)

['foo', 'red', 'baz', 'dwarf', 'foo']
['red', 'baz', 'dwarf', 'foo']


- Si el rendimiento no es una preocupación, usando de **append** y **remove**, puede usar una lista de Python como una estructura de datos "multiset" perfectamente adecuada.
- Se comprueba si una lista contiene un valor utilizando la palabra clave **in**.

In [39]:
'dwarf' in b_list

True

- La palabra clave **not** puede usarse para negar **in**.

In [40]:
'dwarf' not in b_list

False

- Verificar si una lista contiene un valor es mucho más lento que hacerlo con dictos y conjuntos (que se presentarán en breve), ya que Python realiza un escaneo lineal a través de los valores de la lista, mientras que puede verificar los demás (según las tablas hash) en tiempo constante

#### Concatenating and combining lists

- Al igual que con tuplas, se pueden concatenar dos listas con **+**

In [1]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

- Si tienes una lista definida puedes agregarle múltiples elementos usando el método **extend**.

In [3]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

- Ten en cuenta que la concatenación de listas por adición es una operación comparativamente costosa ya que se debe crear una nueva lista y copiar los objetos. Por lo general, es preferible utilizar **extend** para agregar elementos a una lista existente, especialmente si se está creando una lista grande.
- Por ejemplo este código:

In [None]:
everything = []
for chunk in list_of_lists:
    everything.extend(chunk)

- Es más rápido que la alternativa de concatenar.

In [None]:
everything = []
for chunk in list_of_lists:
    everything = everything + chunk

#### Sorting

- Puedes ordenar una lista in situ (sin crear un nuevo objeto) llamando a su función **sort**.

In [8]:
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

- **sort** tiene algunas opciones que ocasionalmente serán útiles. Una es la capacidad de pasar una _llave sort_ secundaria, es decir, una función que produce un valor para ordenar los objetos. Por ejemplo, podríamos ordenar una colección de strings por su longitud:

In [10]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

#### Binary search and maintaining a sorted list

- El módulo built-in **bisect** implementa la búsqueda binaria e inserción en una lista ordenada. **bisect.bisect** encuentra la ubicación donde un elemento debe ser insertado para mantener la lista ordenada, mientras que **bisect.insort** inserta el elemento en esa ubicación.

In [33]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)

4

In [34]:
bisect.bisect(c, 5)

6

In [35]:
bisect.insort(c, 6)
print(c)

[1, 2, 2, 2, 3, 4, 6, 7]


- Las funciones del módulo **bisect** no verifican si la lista está ordenada, ya que hacerlo sería computacionalmente costoso. Por lo tanto, usarlas con una lista no ordenada no generará errores, pero puede dar lugar a resultados incorrectos.

#### Slicing

- Puedes seleccionar secciones de la mayoría de los tipos de secuencia utilizando la notación de **corte**, que en su forma básica consiste de pasar **inciar:finalizar** al operador de indexación **[]**.

In [36]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

- Los cortes también pueden asignarse a una secuencia.

In [37]:
seq[3:4] = [6, 3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

- Se incluye el elemento del índice de inicio, el índice de final no se incluye, por lo que el número de elementos en el resultado es **finalizar - iniciar**. Se puede omitir el inicio o el final, en cuyo caso se establece de manera predeterminada el inicio de la secuencia o el final de la secuencia, respectivamente.

In [38]:
print(seq[:5])
seq[3:]

[7, 2, 3, 6, 3]


[6, 3, 5, 6, 0, 1]

- Índices negativos cortan la secuencia relativa hasta el final.

In [40]:
print(seq[-4:])
seq[-6:-2]

[5, 6, 0, 1]


[6, 3, 5, 6]

- Un **step** también puede ser usado después de un segundo colon para, por ejemplo, tomar cualquier otro elemento:

In [51]:
print(seq)
seq[::3]

[7, 2, 3, 6, 3, 5, 6, 0, 1]


[7, 6, 6]

- Un uso inteligente de esto es pasar **-1**, que tiene el efecto útil de revertir una lista o tupla:

In [52]:
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### Built-in Sequence Functions

Python tiene varias funciones de secuencia útiles.

#### enumerate

- Es común cuando se itera sobre una secuencia querer realizar un seguimiento del índice del elemento actual. Un enfoque de práctico se vería así:

In [None]:
i = 0
for value in collection:
    # do something with value
    i += 1

- Como es una necesidad muy común, Python tiene una función integrada **enumerate**, que retorna una secuencia de tuplas (i, value).

In [None]:
for i, value in enumerate(collection):
    # do something with value

- Cuando indexas datos, un patrón útil que utiliza **enumerate** es computar un **dict** que asigna los valores de una secuencia (que se supone que son únicos) a sus ubicaciones en la secuencia:

In [9]:
some_list = ['foo', 'bar', 'baz']
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i

mapping

0
1
2


{'foo': 0, 'bar': 1, 'baz': 2}

#### sorted

- La función **sorted** retorna una nueva lista ordenada de los elementos de cualquier secuencia. (no in-place)
    - La función **sorted** acepta los mismos argumentos que el método **sort** en listas.

In [58]:
print(sorted([7, 1, 2, 6, 0, 3, 2]))
sorted('horse race')

[0, 1, 2, 2, 3, 6, 7]


[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### zip

- **zip** "empareja" los elementos de varias listas, tuplas u otras secuencias para crear una lista de tuplas.

In [59]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

- **zip** puede tomar un número arbitrario de secuencias, y el número de elementos que produce está determinado por la secuencia _más corta_:

In [60]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

- Un uso muy común de **zip** es iterar simultáneamente sobre múltiples secuencias, posiblemente también combinado con **enumerate**.

In [64]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


- Dada una secuencia "comprimida", **zip** puede aplicarse de una manera inteligente para "descomprimir" la secuencia. Otra forma de pensar esto es convertir una lista de filas en una lista de columnas. La sintaxis, que parece un poco mágica, es:

In [66]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)

print(first_names)
last_names

('Nolan', 'Roger', 'Schilling')


('Ryan', 'Clemens', 'Curt')

#### reversed

- **reversed** itera sobre los elementos de una secuencia en orden inverso.
    - Tenga en cuenta que **reversed** es un generador, así que no crea la secuencia invertida hasta que se materializa (por ejemplo, con una lista o un bucle for).

In [67]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### dict

- **dict** es probablemente la estructura de datos built-in más importante de Python. Un nombre más común para esto es _hash map_ o _associative array_. Es una colección de pares llave-valor de tamaño flexible, donde **llave** y **valor** son objetos de Python. Un enfoque para crear un **dict** es usar llaves **{}** y dos puntos para separar llaves y valores.

In [15]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

- Puedes acceder, insertar o establecer elementos utilizando la misma sintaxis que para acceder a los elementos de una lista o tupla:

In [16]:
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [17]:
d1['b']

[1, 2, 3, 4]

- Puedes verificar si un **dict** contiene una **llave** usando la misma sintaxis utilizada para verificar si una lista o tupla contiene un valor:

In [13]:
'b' in d1

True

- Puedes eliminar valores utilizando la palabra clave **del** o el método **pop** (que simultáneamente devuelve el valor y elimina la llave):

In [18]:
d1[5] = 'some value'
d1['dummy'] = 'another value'
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [19]:
del d1[5]
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [20]:
ret = d1.pop('dummy')
ret

'another value'

In [21]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

- Los métodos **keys** y **values** dan iteradores de las llaves y valores del **dict**. Los pares llave-valor no están en ningún orden en particular, estas funciones generan las claves y los valores en el mismo orden:

In [23]:
print(list(d1.keys()))
list(d1.values())

['a', 'b', 7]


['some value', [1, 2, 3, 4], 'an integer']

- Puedes fusionar un **dict** en otro utilizando el método **update**.
    - El método **update** cambia los dict in-place, por lo que cualquier clave existente en los datos pasada a **update** tendrá los valores antiguos descartados.

In [24]:
d1.update({'b' : 'foo', 'c' : 12})
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

#### Creating dicts from sequences

- Es común tener dos secuencias que quieres emparejar elemento por elemento en un **dict**. Como primer corte, puedes escribir código como este:

In [None]:
mapping = {}

for key, value in zip(key_list, value_list):
    mapping[key] = value

- Dado que un **dict** es esencialmente una colección de 2 tuplas, la función **dict** acepta una lista de 2 tuplas:

In [25]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

#### Creating dicts from sequences

- Es común tener la siguiente lógica:

In [None]:
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

- Por lo tanto, los métodos dict: **get** y **pop** pueden tomar un valor predeterminado para ser devuelto, por lo que el bloque if-else anterior se puede escribir simplemente como:

In [None]:
value = some_dict.get(key, default_value)

- **get** por defecto devolverá **None** si la llave no existe, mientras que **pop** generará un exception. Con la _configuración_ de valores, algo común es que los valores en un **dict** sean otras colecciones, como listas. Por ejemplo, categorizar una lista de palabras por sus primeras letras, como un **dict** de listas:

In [29]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

- El método **dict** **setdefaul** es precisamente para este propósito. El bucle anterior puede reescribirse como:

In [44]:
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

- El módulo built-in **collections** tiene la clase **defaultdict**, que lo hace aún más fácil. Para crear uno, pasas un tipo o función para generar el valor predeterminado para cada ranura en el **dict**:

In [45]:
from collections import defaultdict

by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

#### Valid dict key types

- Si bien los valores de un **dict** pueden ser cualquier objeto de Python, las llaves generalmente deben ser objetos inmutables como los tipos **scalar** (int, float, string) o tuplas (todos los objetos en la tupla también deben ser inmutables). El término técnico aquí es _hashability_. Puede verificar si un objeto es hashaable (puede usarse como una llave en un dict) con la función **hash**. 

In [60]:
print(hash('string'))
hash((1, 2, (2, 3)))

-3239272165475941099


1097636502276347782

In [61]:
hash((1, 2, [2, 3])) # fails because lists are mutable

TypeError: unhashable type: 'list'

- Para usar una lista como llave, una opción es convertirla en una tupla, que se puede cambiar siempre y cuando sus elementos también puedan:

In [62]:
d = {}
d[tuple([1, 2, 3])] = 5
d

{(1, 2, 3): 5}

### set

- Un **set** es una colección desordenada de elementos únicos. Puede pensar en ellos como **dicts**, pero solo llaves, sin valores. Un **set** se puede crear de dos maneras: mediante la función **set** o mediante un **set literal** con llaves **{}**:

In [63]:
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [64]:
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

- Los **set** admiten operaciones matemáticas de conjuntos como unión, intersección, diferencia y diferencia simétrica. Considere estos dos conjuntos:

In [65]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

- La unión de estos dos conjuntos es el conjunto de elementos distintos que ocurren en cualquier conjunto. Esto se puede calcular con el método **union** o con el operador binario **|**.

In [66]:
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [67]:
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

- La intersección contiene los elementos que ocurren en ambos conjuntos. Se puede utilizar el operador **&** o el método **intersection**.

In [68]:
a.intersection(b)

{3, 4, 5}

In [69]:
a & b

{3, 4, 5}

- Lista de métodos **set** comúnmente utilizados:

|Función|Sintaxis alternativa| Descripción|
|---|--|--|
|a.add(x)| N/A |  Añade el elemento x al conjunto a
|a.clear() | N/A | Restablece el conjunto a a un estado vacío, descartando todos sus elementos  
|a.remove(x) | N/A | Elimina el elemento x del conjunto a 
|a.pop() | N/A | Eliminar un elemento arbitrario del conjunto a, arroja KeyError si el conjunto está vacío
|a.union(b) | a \| b | Todos los elementos únicos en a y b
|a.update(b) | a \|= b | Establece el contenido de a como la unión de elementos en a y b 
|a.intersection(b) | a & b | Todos los elementos en a y b
|a.intersection_update(b) | a &= b | Establece el contenido de a como la intersección de elementos en a y b
|a.difference(b) | a - b | Los elementos en a que no están en b
|a.difference_update(b)  | a -= b | Establezca a los elementos en a que no están en b
|a.symmetric_difference(b) | a ^ b | Todos los elementos en a o b pero no en ambos
|a.symmetric_difference_update(b) | a ^= b | Establezca a para contener los elementos en a o b pero no ambos
|a.issubset(b) | N/A | True si todos los elementos de a están contenidos en b
|a.issuperset(b) | N/A | True si todos los elementos de b están contenidos en una
|a.isdisjoint(b) | N/A | True si a y b no tienen elementos en común

- Todas las operaciones lógicas de conjuntos tienen contrapartes in-situ, que le permiten reemplazar los contenidos del **set** en el lado izquierdo de la operación con el resultado. Para **sets** muy grandes, esto puede ser más eficiente:

In [71]:
c = a.copy()
c |= b
c

{1, 2, 3, 4, 5, 6, 7, 8}

In [72]:
d = a.copy()
d &= b
d

{3, 4, 5}

- Al igual que los **dict**, los elementos **set** generalmente deben ser inmutables. Para tener elementos tipo lista, debes convertirlo en una tupla:

In [73]:
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

- También puedes verificar si un **set** es un subconjunto (está contenido en) o un superconjunto (contiene todos los elementos de) de otro **set**:

In [75]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)

True

In [76]:
a_set.issuperset({1, 2, 3})

True

- Los **sets** son iguales si y solo si sus contenidos son iguales:

In [77]:
{1, 2, 3} == {3, 2, 1}

True

### List, Set, and Dict Comprehensions

_List comprehensions_ son una de las características del lenguaje Python más queridas. Permiten formar de manera concisa una nueva **lista** filtrando los elementos de una colección, transformando los elementos que pasan el filtro en una expresión concisa. Toman la forma básica:

``[expr for val in collection if condition]``

Que es equivalente al siguiente loop:

In [None]:
result = []
for val in collection:
    if condition:
        result.append(expr)

La condición del filtro se puede omitir, dejando solo la expresión. Por ejemplo, dada una lista de cadenas, podríamos filtrar cadenas con una longitud de 2 o menos y también convertirlas a mayúsculas:

In [2]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

**Set** y **dict** comprehensions son una extensión natural, produciendo **sets** y **dicts** de una manera idiomáticamente similar en lugar de listas. Una dict comprehensions tiene esta forma:

``dict_comp = {key-expr : value-expr for value in collection if condition}``

**set** comprehension es parecido a **list** comprehension, excepto que con llaves **{}** en lugar de corchetes:

``set_comp = {expr for value in collection if condition}``

Al igual que **list** comprehension, los **set** y **dict** comprehension son en su mayoria convenientes, pueden hacer que el código sea más fácil de escribir y leer. Considere la lista de cadenas de antes. Supongamos que deseamos un conjunto que contenga solo las longitudes de las cadenas contenidas en la colección; fácilmente podríamos calcular esto usando **set** comprehension:

In [3]:
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

También podríamos expresar más funcionalmente usando la funcion **map**:

In [4]:
set(map(len, strings))

{1, 2, 3, 4, 6}

Como ejemplo de un **dict** comprehension podríamos crear un mapa de búsqueda de estas cadenas con sus ubicaciones en la lista:

In [5]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

#### Nested list comprehensions

- Supongamos que tenemos una lista de listas que contienen nombres en inglés y español:

In [11]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'], ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

- Es posible que haya decidido organizarlos por idioma. Ahora, supongamos que deseamos obtener una lista única que contenga todos los nombres con dos o más "e" en ellos. Podríamos hacer esto con un simple **for** loop:

In [14]:
names_of_interest = []

for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

names_of_interest

['Steven']

- En realidad, toda esta operación puede estar dentro de una sola *nested list comprehension*, que se verá así:

In [16]:
result = [name for names in all_data for name in names if name.count('e') >= 2]
result

['Steven']

- Al principio, los **nested list comprehensions** son un poco difíciles de entender. Las partes **for** de la **list comprehension** se organizan de acuerdo con el orden de anidamiento, y cualquier condición de filtro se coloca al final. Aquí hay otro ejemplo donde "aplanamos" una **lista** de tuplas de enteros en una simple **lista** de enteros:

In [17]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

- Ten en cuenta que el orden de las expresiones **for** sería el mismo si escribiera un bucle **for** anidado en lugar de una **list comprehension**:

In [19]:
flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

- Puedes tener arbitrariamente muchos niveles de anidación, aunque si tiene más de dos o tres niveles de anidación, probablemente deberías a cuestionarte si tiene sentido desde el punto de vista de la legibilidad del código. Es importante distinguir la sintaxis que se muestra de una **list comprehension** dentro de una **list comprehension**, que también es perfectamente válida.
    - Esto produce una lista de listas, en lugar de una lista aplanada de todos los elementos internos.

In [20]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

## Functions

La función es el principal y más importante método de organización y reutilización de código en Python. Como regla general, si anticipa la necesidad de repetir el mismo código o uno muy similar más de una vez, puede valer la pena escribir una función reutilizable. Las funciones también pueden ayudar a que el código sea más legible al asignarle un nombre a un grupo de declaraciones de Python.
Las funciones se declaran con la palabra clave **def** y se devuelven con la palabra clave **return**:

In [None]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

No hay problema con tener múltiples declaraciones **return**. Si Python llega al final de una función sin encontrar una declaración de devolución, devuelve automáticamente **None**.
Cada función puede tener argumentos _posicionales_ y argumentos _keyword_. Argumentos _keyword_ se usan más comúnmente para especificar valores predeterminados o argumentos opcionales. En la función anterior, x e y son argumentos _posicionales_, mientras que z es un argumento _keyword_. Esto significa que la función se puede llamar de cualquiera de estas formas:

In [None]:
my_function(5, 6, z=0.7)
my_function(3.14, 7, 3.5)
my_function(10, 20)

La principal restricción en los argumentos de la función es que los argumentos _keyword_ deben seguir los argumentos _posicionales_ (si los hay). Puede especificar argumentos _keyword_ en cualquier orden; esto le libera de tener que recordar en qué orden se especificaron los argumentos de la función y solo cuáles son sus nombres.

- También es posible usar _keywords_ para argumentos *posicionales*, esto puede facilitar la legibilidad. En el ejemplo anterior, también podemos escribir:

In [None]:
my_function(x=5, y=6, z=7)
my_function(y=6, x=5, z=7)

### Namespaces, Scope, and Local Functions

- Las funciones pueden acceder a variables en dos ámbitos diferentes: *global* y *local*. Un nombre alternativo y más descriptivo que describe el alcance de una variable en Python es el *namespace*. Ninguna de las variables que se asignan dentro de la función de forma predeterminada son asignadas al *namespace*. El *namespace* se crea cuando se llama a la función y se llena inmediatamente con los argumentos de la función. Una vez finalizada la función, se destruye el *namespace* (con algunas excepciones). Considere la siguiente función:

In [21]:
def func():
    a = []
    for i in range(5):
        a.append(i)

- Cuando se llama a **func()**, una la lista vacía "a" es creada, cinco elementos son añadidos y luego se destruye "a" cuando se cierra la función. Supongamos, en cambio, que hemos declarado "a" de la siguiente manera:

In [23]:
a = []

def func():
    for i in range(5):
        a.append(i)

- Es posible asignar variables fuera del alcance de la función, pero esas variables deben declararse como *globales* mediante la palabra clave **global**.

In [25]:
a = None

def bind_a_variable():
    global a
    a = []
bind_a_variable()

print(a)

[]


- Generalmente desaliento el uso de la palabra clave **global**. Por lo general, las variables globales se utilizan para almacenar algún tipo de estado en un sistema. Si te encuentras usándolo mucho, podría indicar una necesidad de programación orientada a objetos (usando clases).

### Returning Multiple Values

- Una de las características de Python es la capacidad de devolver múltiples valores de una función y con sintaxis simple. Ejemplo:

In [28]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()
a, b, c 

(5, 6, 7)

- En el análisis de datos y otras aplicaciones científicas, puede encontrar esto a menudo. Lo que sucede aquí es que la función en realidad solo devuelve un objeto, es decir, una tupla, que luego se descomprime en variables de resultado. En el ejemplo anterior, podríamos haber hecho esto en su lugar:

In [30]:
return_value = f()
return_value

(5, 6, 7)

- En este caso, return_value sería una tupla de 3 con las tres variables devueltas. Una alternativa potencialmente atractiva para devolver múltiples valores como antes podría ser devolver un **dict** en su lugar.
    - Esta alternativa puede ser muy útil dependiendo de lo que tratas de hacer.

In [32]:
def f():
    a = 5
    b = 6
    c = 7
    return {'a' : a, 'b' : b, 'c' : c}

f()

{'a': 5, 'b': 6, 'c': 7}

### Functions Are Objects

- Dado que las funciones de Python son objetos, muchas construcciones pueden ser expresadas fácilmente aunque sean difíciles de hacer en otros lenguajes. Supongamos que estamos haciendo un poco de limpieza de datos y necesitamos aplicar un montón de transformaciones a la siguiente lista de cadenas:

In [33]:
states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda', 'south carolina##', 'West virginia?']

- Cualquiera que haya trabajado con datos de encuestas enviadas por usuarios ha visto resultados desordenados como estos. Es necesario que sucedan muchas cosas para que esta lista de cadenas sea uniforme y esté lista para el análisis: eliminar espacios en blanco, eliminar símbolos de puntuación y estandarizar la capitalización adecuada. Una forma de hacerlo es utilizar el métodos **string** built-in junto con el módulo de biblioteca estándar **re** para expresiones regulares.

In [47]:
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

- Un enfoque alternativo que puede resultar útil es hacer una lista de las operaciones que desea aplicar a un conjunto particular de **strings**:

In [49]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

- Un patrón más *funcional* como este permite modificar fácilmente cómo se transforman los **strings** a un nivel muy alto. La función clean_strings ahora también es más reutilizable y genérica. 
- Puedes usar funciones como argumentos para otras funciones como la función built-in **map**, que aplica una función a una secuencia de algún tipo:

In [53]:
for x in map(remove_punctuation, states):
    print(x)

 Alabama 
Georgia
Georgia
georgia
FlOrIda
south carolina
West virginia


### Anonymous (Lambda) Functions

- Python tiene soporte para las llamadas funciones _anónimas_ o _lambda_, que son una forma de escribir funciones que consisten en una sola declaración, cuyo resultado es el valor de retorno. Se definen con la palabra clave **lambda**, que significa "estamos declarando una función anónima".

In [38]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

equiv_anon

<function __main__.<lambda>(x)>

- Son especialmente convenientes en el análisis de datos porque, hay muchos casos en los que las funciones de transformación de datos tomarán funciones como argumentos. A menudo es menos tipeado (y más claro) pasar una función lambda en lugar de escribir una declaración de función completa o incluso asignar la función **lambda** a una variable *local*. Por ejemplo, considere este ejemplo tonto:

In [40]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

- También podría haber escrito``[x * 2 for x in ints]``, pero aquí pudimos pasar sucintamente un operador personalizado a la función apply_to_list. Como otro ejemplo, suponga que desea ordenar una colección de **strings** por el número de letras distintas en cada **string**:

In [42]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

# Podemos pasar una función lambda al método de lista sort

strings.sort(key=lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

- Una razón por la que las funciones **lambda** se denominen funciones anónimas es que, a diferencia de las funciones declaradas con la palabra clave **def**, el objeto de función en sí mismo nunca recibe un atributo explícito **\_\_name\_\_**.

### Currying: Partial Argument Application

- *Currying* es una jerga informática (que lleva el nombre del matemático Haskell Curry) que significa derivar nuevas funciones de las existentes mediante *partial argument application*. Por ejemplo, supongamos que tenemos una función trivial que suma dos números juntos:

In [43]:
def add_numbers(x, y):
    return x + y

- Con esta función, podríamos derivar una nueva función de una variable, add_five, que agrega 5 a su argumento.

In [46]:
add_five = lambda y: add_numbers(5, y)
add_five

<function __main__.<lambda>(y)>

- El segundo argumento para agregar_números es llamado *curried*. Aquí no hay nada muy elegante, ya que todo lo que realmente hemos hecho es definir una nueva función que llame a una función existente. El módulo **functools** incorporado puede simplificar este proceso utilizando la función **parcial**:

In [58]:
from functools import partial

add_five = partial(add_numbers, 5)
add_five

functools.partial(<function add_numbers at 0x0000023143EF5BF8>, 5)

### Generators

- Tener una forma consistente de iterar sobre secuencias, como objetos en una lista o líneas en un archivo, es una característica importante de Python. Esto se logra mediante el *iterator protocol* , una forma genérica de hacer que los objetos sean iterables. Por ejemplo, iterar sobre un **dict** produce las llaves dict:

In [4]:
some_dict = {'a': 1, 'b': 2, 'c': 3}

for key in some_dict:
    print(key)

a
b
c


- Cuando escribe "for key" en some_dict, el intérprete de Python primero intenta crear un iterador a partir de some_dict:

In [6]:
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x1a0f849fe58>

- Un **iterator** es cualquier objeto que producirá objetos al intérprete de Python cuando se use en un contexto como un bucle for. La mayoría de los métodos que esperan una lista o un objeto similar a una lista también aceptarán cualquier objeto iterable. Esto incluye métodos built-in como **min, max y sum**, y constructores **type** como list y tuple:

In [7]:
list(dict_iterator)

['a', 'b', 'c']

- Un *generator* es una forma concisa de construir un nuevo objeto iterable. Mientras que las funciones normales ejecutan y devuelven un solo resultado a la vez, los generadores devuelven una secuencia de resultados múltiples perezosamente, haciendo una pausa después de cada uno hasta que se solicite el siguiente. Para crear un *generator*, use la palabra clave **yield** en lugar de **return** en una función:

In [26]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

- Puedes en realidad llamar al *generator*, ningún código es ejecutado inmediatamente:

In [30]:
gen = squares()
gen

<generator object squares at 0x000001A0F913CDE0>

- No es hasta que solicitas elementos del *generator* que se ejecuta código:

In [31]:
for x in gen:
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### Generator expresssions

- Otra forma aún más concisa de hacer un *generator* es mediante el uso de un *generator expression*. Este es un *generator* análogo a **list, dict, and set comprehensions**; para crear uno, incluir lo que de otro modo sería un **list comprehension** entre paréntesis () en lugar de []:

In [32]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x000001A0F913CE58>

- Es completamente equivalente al siguiente *generator* más largo.

In [34]:
def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()
gen

<generator object _make_gen at 0x000001A0F913CF48>

- *Generator expressions* pueden ser usadas como argumentos de función en lugar de **list comprehension**:

In [35]:
sum(x ** 2 for x in range(100))

328350

In [36]:
dict((i, i **2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

#### itertools module

- El módulo **itertools** de la biblioteca estándar tiene una colección de *generators* para muchos algoritmos de datos comunes. Por ejemplo, **groupby** toma cualquier secuencia y una función, agrupando elementos consecutivos en la secuencia por cada valor de retorno de la función. Aquí un ejemplo:

In [44]:
import itertools

first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names es un generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


- Una lista de las otras funciones de **itertools**:

|Funciones|Descripción|
|-|-|
|combinations(iterable, k) | Genera una secuencia de todas las posibles k-tuplas de elementos en el iterable, ignorando el orden y sin reemplazo
| permutations(iterable, k) | Genera una secuencia de todas las posibles k-tuplas de elementos en el iterable, respetando el orden
| groupby(iterable[, keyfunc]) | Genera (key, sub-iterator) para cada llave única 
| product(*iterables, repeat = 1) | Genera el producto cartesiano de los iterables de entrada como tuplas, similar a un for loop anidado

### Errors and Exception Handling

- El manejo correcto de errores o excepciones de Python es una parte importante de la construcción de programas robustos. En las aplicaciones de análisis de datos, muchas funciones solo funcionan con ciertos tipos de entrada. Como ejemplo, la función **float** de Python es capaz de convertir un **string** a un número de punto flotante, pero falla con **ValueError** en entradas incorrectas:

In [54]:
float('something')

ValueError: could not convert string to float: 'something'

- Supongamos que queremos que una versión de **float** falle correctamente, devolviendo el argumento de entrada. Podemos hacer esto escribiendo una función que encierra la llamada a **float** en un bloque *try / except*:

In [55]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

- El código del *except* solo se ejecutará si float(x) arroja una excepción.

In [58]:
attempt_float('1.2345')

1.2345

In [57]:
attempt_float('something')

'something'

- Puedes notar que float(x) puede arrojar otras excepciones a parte de *ValueError*: 

In [59]:
float((1, 2))

TypeError: float() argument must be a string or a number, not 'tuple'

- Es posible que solo desee suprimir *ValueError*, ya que un *TypeError* podría indicar un error legítimo en el programa. Para hacer eso, escriba el tipo de excepción después de *except*.

In [61]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [62]:
attempt_float((1, 2))

TypeError: float() argument must be a string or a number, not 'tuple'

- Puedes capturar múltiples tipos de excepción escribiendo una tupla de tipos de excepción (los paréntesis son obligatorios):

In [63]:
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

- En algunos casos, es posible que no se desee suprimir una excepción, pero sí que se ejecute algún código. Independientemente de si el código en el bloque *try:* tiene éxito o no. Para hacer esto usar:

In [None]:
f = open(path, 'w')
try:
    write_to_file(f)
finally:
    f.close()

- Aquí, el identificador de archivo f *siempre se* cerrará. Del mismo modo, puede tener un código que se ejecute solo si el bloque *try:* funciona correctamente con *else:*

In [None]:
f = open(path, 'w')
try:
    write_to_file(f)
except:
    print('Failed')
else:
    print('Succeeded')
finally:
    f.close()

## Files and the Operating System

Es importante entender lo básico de cómo trabajar con archivos en Python. Para abrir un archivo para lectura o escritura, usa la funcion built-in **open** con path absoluto o relativo.

In [169]:
path = 'segismundo.txt'
f = open(path)

Por default el archivo esta abierto con modo lectura **'r'**. Podemos tratar el identificador de archivo **f** como una lista e iterar sobre las líneas de esta manera:

In [66]:
for line in f:
    pass

Las líneas salen del archivo con los marcadores de fin de línea (EOL) intactos, por lo que a menudo verás código para obtener una lista de líneas sin EOL en un archivo, así:

In [170]:
lines = [x.rstrip() for x in open(path, encoding = 'utf-8')]
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

Cuando utiliza **open** para crear objetos archivo, es importante cerrar explícitamente el archivo cuando haya terminado con él. Cerrar el archivo libera sus recursos nuevamente al sistema operativo:

In [171]:
f.close()

Una de las formas de facilitar la limpieza de archivos abiertos es usar la instrucción **with**. 
- Esto cerrará automáticamente el archivo f cuando salga del bloque **with**.

In [105]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

Si hubiéramos escrito ``f = open(path, 'w')``, se habría creado un nuevo archivo en segismundo.txt, sobrescribiendo cualquier archivo en su lugar. También está el modo de archivo 'x', que crea un archivo grabable pero falla si la ruta del archivo ya existe.

Para los archivos legibles, algunos de los métodos más utilizados son **read, seek y tell**. **read** devuelve un cierto número de caracteres del archivo. Lo que constituye un "carácter" está determinado por la codificación del archivo (por ejemplo, UTF-8) o simplemente bytes sin formato si el archivo se abre en modo binario:

In [151]:
f = open(path, encoding='utf-8') 
f.read(10)

'Sueña el r'

In [111]:
f2 = open(path, 'rb') # modo Binary
f2.read(10)

b'Sue\xc3\xb1a el '

El método **read** avanza la posición del identificador de archivo por el número de bytes leídos. **tell** te da la posición actual:

In [119]:
f.tell()

11

In [117]:
f2.tell()

10

Aunque leemos 10 caracteres del archivo, la posición es 11 porque esos bytes para decodificar 10 caracteres usando la codificación predeterminada. Puede verificar la codificación predeterminada en el módulo **sys**:

In [120]:
import sys
sys.getdefaultencoding()

'utf-8'

**seek** cambia la posición del archivo al byte indicado en el archivo:

In [155]:
f.seek(3)

3

In [156]:
f.read(1)

'ñ'

Finalmente recuerda cerrar los archivos:

In [157]:
f.close()
f2.close()

|Modo| Descripción|
|- | -|
|r | Modo de solo lectura
|w | Modo de solo escritura; crea un nuevo archivo (borrando los datos de cualquier archivo con el mismo nombre)
|x | Modo de solo escritura; crea un nuevo archivo, pero falla si la ruta del archivo ya existe
|a | Añadir al archivo existente (crea el archivo si aún no existe)
|r+ | Leer y escribir
|b | Agregar el modo de archivo binario (es decir, 'rb' o 'wb')
|t | Modo de texto para archivos, añadir 'rt' o 'xt' (decodificado automático de bytes a Unicode). Este es el default si no se especifica.

Para escribir texto en un archivo, puede usar los métodos de archivo **write** o **writelines**. Por ejemplo,
podríamos crear una versión de segismundo.txt sin líneas en blanco como esta:

In [178]:
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

with open('tmp.txt', encoding='utf-8') as f:
    lines = f.readlines()

lines

['Sueña el rico en su riqueza,\n',
 'que más cuidados le ofrece;\n',
 'sueña el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sueña el que a medrar empieza,\n',
 'sueña el que afana y pretende,\n',
 'sueña el que agravia y ofende,\n',
 'y en el mundo, en conclusión,\n',
 'todos sueñan lo que son,\n',
 'aunque ninguno lo entiende.\n']

Métodos o atributos de archivos Python:

|Método | Descripción|
|-|-|
|read([size])| Devuelve datos del archivo como string, con argumento opcional size que indica el número de bytes para leer
|readlines([size])| Devuelve la lista de líneas en el archivo, con argumento opcional size 
|write(str) | Escribe el string pasado al archivo
|writelines(strings) | Escribe la secuencia de strings pasados al archivo
|close() |Cerrar la conexión
|flush() |Vacíar el búfer de E/S interno en el disco
|seek(pos)| Mover a la posición de archivo indicada (entero)
|tell() |Devuelve la posición actual del archivo como entero
|closed | True si el archivo está cerrado

### Bytes and Unicode with Files

- El comportamiento predeterminado para los archivos Python (ya sea legible o grabable) es el *modo de texto*, lo que significa que la intención es trabajar con strings (es decir, Unicode). Esto contrasta con el *modo binario*, que puedes obtenerlo agregando b en el modo de archivo. Veamos el archivo (que contiene caracteres no ASCII con codificación UTF-8) de la sección anterior:

In [180]:
with open(path, encoding = 'utf-8') as f:
    chars = f.read(10)

chars

'Sueña el r'

- UTF-8 es una codificación Unicode de longitud variable, por lo que cuando solicitamos el número de caracteres del archivo, Python lee suficientes bytes (podrían ser tan pocos como 10 o hasta 40 bytes) del archivo para decodificar esa cantidad de caracteres. Si abrimos el archivo en modo 'rb' en su lugar, **read** solicita números exactos de bytes:

In [181]:
with open(path, 'rb') as f:
    data = f.read(10)

data

b'Sue\xc3\xb1a el '

- Dependiendo de la codificación del texto, puedes decodificar los bytes a un objeto **str**, pero solo si cada uno de los caracteres Unicode codificados está completamente formado:

In [182]:
data.decode('utf8')

'Sueña el '

In [183]:
data[:4].decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

- El modo de texto, combinado con la opción *encoding* de **open**, proporciona una manera conveniente de convertir de una codificación Unicode a otra:

In [196]:
sink_path = 'sink.txt'
with open(path, encoding='utf-8') as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())

with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))

Sueña el r


- Ten cuidado al usar **seek** cuando abras archivos en cualquier modo que no sea binario. Si la posición del archivo se encuentra en el medio de los bytes que definen un carácter Unicode, las lecturas posteriores generarán un error:

In [198]:
f = open(path, encoding='utf-8')
f.read(5)

'Sueña'

In [199]:
f.seek(4)

4

In [200]:
f.read(1)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte