<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'> Modificado en 2019-1 y 2019-2 por Equipo Docente IIC2233. </font>
</p>

Esta semana estudiaremos detalles del uso de archivos y de la representación de *strings* en Python. Aprenderemos que no solamente podemos almacenar *strings* como caracteres que podemos ver en la pantalla, sino que podemos también manipular la representación de más bajo nivel en el lenguaje que habla el computador: *bytes*.

# *Input/Output*

En este capítulo, estudiaremos a fondo el manejo de *strings*, *bytes*, arreglos de *bytes*, archivos, y *context managers*.

## *Strings*

Hasta ahora, hemos trabajado muchas veces con *strings* que, como sabemos, corresponden a una secuencia inmutable de caracteres. En Python 3, todos los *strings* se representan en [Unicode](https://es.wikipedia.org/wiki/Unicode), codificación que permite representar virtualmente cualquier caracter en cualquier lenguaje que veremos con más detalle posteriormente. Entonces, pensemos que en Python un *string* es una secuencia inmutable de caracteres Unicode. A continuación, algunas formas distintas de crear un *string* en Python:

In [1]:
a = "programando"
b = 'mucho'
c = '''un string
con múltiples
lineas'''

d = """Multiples con
     comillas dobles"""
e = ("Tres" " strings" " juntos")
f = "un string " + "concatenado"
g = ("Otra forma de string que nos permite "
    "utilizar más de una línea pero en verdad solo es una,"
    " lo que es muy útil para cumplir PEP-8 :)")

print(a)
print(b)
print(c)
print(d)
print(e)
print(f)
print(g)

programando
mucho
un string
con múltiples
lineas
Multiples con
     comillas dobles
Tres strings juntos
un string concatenado
Otra forma de string que nos permite utilizar más de una línea pero en verdad solo es una, lo que es muy útil para cumplir PEP-8 :)


### Métodos disponibles

La clase `str` tiene muchos métodos para manipular *strings*. La función [`dir`](https://docs.python.org/3/library/functions.html#dir) nos permite obtener la lista:

In [2]:
print(dir(str))

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


Los siguientes métodos nos permiten responder preguntas sobre un string (una instancia) en particular. "¿Está compuesto solo por dígitos?" (`str.isdigit()`). "¿Termina con este otro string?" (`str.endswith(s)`). "¿En qué posición empieza este otro string?" (`str.index(s)`). Veamos algunos ejemplos:

In [3]:
# El método isalpha retorna True si todos los caracteres del string
# están en el alfabeto de algún lenguaje.
print("abñ".isalpha()) 

# Si hay algún número, espacio o puntuación dentro del string, retornará False.
print("t/".isalpha())

# El método isdigit retorna True si todos los caracteres en el string
# son dígitos numéricos.
print("34".isdigit())

s = "estoy programando"
print(s.startswith("est"))
print(s.endswith("do"))

# Devuelve el índice donde comienza en s la secuencia que se pasa como argumento.
print(s.find("y p"))

# El método index retorna el índice donde comienza la secuencia.
# Acepta dos argumentos opcionales:
# - la posición inicial donde comenzar la búsqueda
# - y la posición final (hasta dónde llega buscando)
print(s.index("y", 4, 10))
print(s.index("p", 5, 10))

True
False
True
True
True
4
4
6


A diferencia de los anteriores, existen otros métodos que actúan diractamente sobre el *string* y retornan un *string* nuevo, sin modificar el original, ya que **los *strings* son objetos inmutables**. Algunos ejemplos útiles:

In [4]:
s = "hola a todos, cómo están"

# Retorna una lista de strings a partir de separar el original en base a " "
s2 = s.split(" ")
print(s2)

# Concatena todos los elementos de la secuencia dada por medio del string "#"
s3 = "#".join(s2)
print(s3)

# Entrega un nuevo string en que se reemplazó cada " " por "**"
print(s.replace(" ", "**"))

# Notar que el string inicial sigue intacto, solo obtuvimos nuevas versiones
print(s)

['hola', 'a', 'todos,', 'cómo', 'están']
hola#a#todos,#cómo#están
hola**a**todos,**cómo**están
hola a todos, cómo están


### Uso de variables dentro de un *string*

A lo largo del curso, seguramente has visto este uso de *strings*. Los *f-strings* son una forma de formatear *strings* que permite añadir expresiones de Python directamente en un *string*. Para indicarle a Python que utilizaremos esta funcionalida, debemos antemponer el string con la letra `f` (de ahí el nombre *f-string*). 

Este método es muy útil para completar un *string* que estemos usando como "plantilla", para insertar valores de variables dentro de un *string*. Las ventajas de esta sintaxis, son que el código queda más legible, conciso y es menos susceptible a errores, además de ser más rápida que otras formas de concatenación.

In [5]:
nombre = "Juan Pérez"
nota = 4.5
if nota >= 4.0:
    resultado = "aprobado"
else:
    resultado = "reprobado"

print(f"Hola {nombre}, estás {resultado}. Tu nota fue un {nota}.")

Hola Juan Pérez, estás aprobado. Tu nota fue un 4.5.


Si queremos incluir las *llaves* (`{`, `}`) dentro del *string*, podemos agregar un *escape character*, que permite invocar una interpretación alternativa de los caracteres siguientes. Más concretamente, las llaves en este caso, se utilizan para encapsular la variable que queremos imprimir. Sin embargo, la representación alternativa, sería la representación literal de la llave. Luego, para este caso, si queremos imprimir una llave, esto se logrará con una doble llave.

Veamos un ejemplo. Digamos que buscamos imprimir una simple definición de una clase en Java.

In [6]:
# Con estas variables generaremos el string
clase = "MiClase"
salida = "'hola mundo'"

# En nuestra plantilla utilizamos llaves dobles cuando queremos mantenerlas...
codigo = f"""
public class {clase} 
{{
       public static void main(String[] args) 
       {{
           System.out.println({salida});
       }} 
}}"""

# ... pero en el resultado a imprimir solo se verá una llave simple
print(codigo)


public class MiClase 
{
       public static void main(String[] args) 
       {
           System.out.println('hola mundo');
       } 
}


A veces queremos incluir muchas variables dentro de un *string*, pero como vimos eso no es un problema. Sin embargo, a veces queremos asociar estas variables dentro de objetos más complejos, que hagan sentido en nuestra modelación. Pensemos en el siguiente ejemplo, dándole forma a un correo:

In [7]:
# Las variables necesarias para crear nuestro string
from_email = "cruz@ing.puc.cl"
to_email = "alumnos@iic2233.com"
message = ("\nEste es un mail de prueba.\n"
           "\nEspero que el mensaje te sea de mucha utilidad!")
subject = "IIC2233 - Este correo es urgente"

# Nuestro f-string
print(f"""
From: <{from_email}>
To: <{to_email}>
Subject: {subject}
{message}
""")


From: <cruz@ing.puc.cl>
To: <alumnos@iic2233.com>
Subject: IIC2233 - Este correo es urgente

Este es un mail de prueba.

Espero que el mensaje te sea de mucha utilidad!



Podemos utilizar estructuras más complejas que una variable, tales como listas, tuplas o diccionarios como variables dentro de nuestro *f-string*.

In [8]:
# Las variables necesarias para crear nuestro string
emails = ("a@ejemplo.com", "b@ejemplo.com")
message = {
    'subject': "Tienes un correo",
    'message': "\nEste es un correo para ti",
}

# Nuestro f-string
print(f"""
From: <{emails[0]}>
To: <{emails[1]}>
Subject: {message['subject']}
{message['message']}
""")


From: <a@ejemplo.com>
To: <b@ejemplo.com>
Subject: Tienes un correo

Este es un correo para ti



También podemos usar un diccionario que contenga listas e indexar la lista dentro del *string*.

In [9]:
# Las variables necesarias para crear nuestro string
message = {
    "emails": ["yo@ejemplo.com", "tu@ejemplo.com"],
    "subject": "mira este correo",
    "message": "Sorry no era tan importante"
}

# Nuestro f-string
print(f"""
From: <{message['emails'][0]}>
To: <{message['emails'][1]}>
Subject: {message['subject']}
{message['message']}
""")


From: <yo@ejemplo.com>
To: <tu@ejemplo.com>
Subject: mira este correo
Sorry no era tan importante



Esto puede ser aún mejor: podemos pasar cualquier objeto como argumento, por ejemplo, una instancia de una clase. Luego, dentro del *string* podemos acceder a cualquiera de los atributos del objeto.

In [10]:
# Esta clase representa a un email
class EMail:
    def __init__(self, from_addr, to_addr, subject, message):
        self.from_addr = from_addr
        self.to_addr = to_addr
        self.subject = subject
        self.message = message


# Creamos nuestra instancia de la clase
email = EMail("a@ejemplo.com", "b@ejemplo.com","Tienes un correo","\nEl mensaje es inútil\n\nSaludos")

print(f"""
From: <{email.from_addr}>
To: <{email.to_addr}>
Subject: {email.subject}
{email.message}""")


From: <a@ejemplo.com>
To: <b@ejemplo.com>
Subject: Tienes un correo

El mensaje es inútil

Saludos


Otro elemento muy útil de Python es el uso de `str.format()`. Si queremos usar una plantilla, es decir, un string que queremos usar muchas veces reemplazando elementos con distintas variables, podemos crear un string con una notación similar a la de *f-strings* y usar `str.format()` para hacer el reemplazo de los valores.

In [11]:
correo_1 = "a@ejemplo.com"
correo_2 = "b@ejemplo.com"

saludar_usuario = "Hola {}, te damos la bienvenida!"

print(saludar_usuario.format(correo_1))
print(saludar_usuario.format(correo_2))

Hola a@ejemplo.com, te damos la bienvenida!
Hola b@ejemplo.com, te damos la bienvenida!


Sin embargo, dado que podemos hacer múltiples reemplazos a través del uso de múltiples llaves dentro del *string*, podemos asignarle un nombre a cada uno de estos espacios y elegir qué valor darle a ese espacio particular a través del uso de *keyword arguments*:

In [12]:
saludo_entre_usuarios = "Hola {saludado}, te saluda el usuario {saludador}"

print(saludo_entre_usuarios.format(saludado=correo_2, saludador=correo_1))

Hola b@ejemplo.com, te saluda el usuario a@ejemplo.com


### Mejorando la impresión de los *strings*

También podemos mejorar el formato de los *strings* que se imprimen. Por ejemplo, en casos como la impresión de una tabla con datos, muchas veces queremos que datos pertenecientes a la misma variable se vean alineados en columnas:

In [13]:
compra = [('leche', 2, 120), ('pan', 3.5, 800), ('arroz', 1.75, 960)]

In [14]:
print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print(f"{producto} {cantidad} ${precio} ${subtotal}")

PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL
leche 120 $2 $240
pan 800 $3.5 $2800.0
arroz 960 $1.75 $1680.0


Como puedes ver, los elementos de cada línea no quedan alineados, pero Python nos permite utilizar elementos extra en la formación de *strings* para darle una forma más estructurada:

In [15]:
print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print(f"{producto:8s}{cantidad: ^9d}    ${precio: <8.2f}${subtotal: >7.2f}")

PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL
leche      120       $2.00    $ 240.00
pan        800       $3.50    $2800.00
arroz      960       $1.75    $1680.00


Notar que, dentro de cada llave, existe un item tipo diccionario; es decir, antes de los dos puntos va la variable que utilizamos normalmente en nuestro *f-string*. Después de los dos puntos, por ejemplo, `8s`, significa que el dato es un *string* de ocho caracteres. Por defecto, si el *string* es más corto que los ocho caracteres, el resto se llenará con espacios (por la derecha). Notar que también, por defecto, si el *string* que ingresamos es más largo que los 8 caracteres, este no será truncado:

In [16]:
compra = [('lecheeeeeeeeeeeeeee', 2, 120), ('pan', 3.5, 800), ('arroz', 1.75, 960)]

In [17]:
print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print(f"{producto:8s}{cantidad: ^9d}    ${precio: <8.2f}${subtotal: >7.2f}")

PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL
lecheeeeeeeeeeeeeee   120       $2.00    $ 240.00
pan        800       $3.50    $2800.00
arroz      960       $1.75    $1680.00


Podemos cambiar esta situación obligando a que el *string* sea truncado si se pasa del largo máximo. Basta con agregar un punto y la precisión luego del número que indica el largo del *string*. La precisión para tipos no numéricos indica el largo máximo de caracteres usados para este campo.

In [18]:
print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print(f"{producto:8.8s}{cantidad: ^9d}    ${precio: <8.2f}${subtotal: >7.2f}")

PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL
lecheeee   120       $2.00    $ 240.00
pan        800       $3.50    $2800.00
arroz      960       $1.75    $1680.00


Para la cantidad de producto el formato es `{cantidad: ^9d}`, `cantidad` corresponde a la variable de la tupla en la iteración actual, el espacio después de los dos puntos dice que los lugares vacíos deben ser llenados con espacios (en los tipos enteros, por defecto, se llenará con ceros), el símbolo `^` es para que el número quede centrado en el espacio disponible, `9d` significa que será un entero de hasta nueve dígitos. Notar que siempre el orden de estos parámetros (aunque son opcionales) debe ser de izquierda a derecha después de los dos puntos: **primero el caracter para llenar los espacios vacíos, después el alineamiento, después el tamaño y finalmente el tipo**.

Para el precio, por ejemplo, `{precio: <8.2f}` significa que el dato se leerá de la variable `precio`, luego los lugares que queden libres se llenarán con espacios, el símbolo `<` significa que el alineamiento es a la izquierda, el formato será un *float* (`f`) de hasta ocho caracteres, con dos decimales.

De la misma forma, para el subtotal, `{subtotal: >7.2f}` significa que el dato se sacará de la variable `subtotal`, el caracter de llenado será espacio, el alineamiento es a la derecha y será un *float* de siete dígitos, dos de ellos decimales, incluyendo el `.` como carácter.

## *Bytes* y I/O

Al comienzo del capítulo, dijimos que los *strings* en Python eran una colección de caracteres Unicode inmutables. Unicode no es realmente un formato de almacenamiento de datos, sino de representación. Muchas veces leemos información correspondiente a algún *string* desde un archivo o un [*socket*](https://es.wikipedia.org/wiki/Socket_de_Internet) en bytes, no en Unicode. Los *bytes* son el formato de almacenamiento de más bajo nivel. Representan una secuencia de 8 *bits*, descritas en general como un entero entre 0 y 255, un [hexadecimal](https://es.wikipedia.org/wiki/Sistema_hexadecimal) equivalente entre `0` y `FF`, o un literal (sólo se permiten los caracteres [ASCII](https://es.wikipedia.org/wiki/ASCII) para representar *bytes*). 

Los *bytes* a secas pueden representar cualquier entidad, desde caracteres codificados de un *string*, o pixeles de una imagen. En general, necesitamos saber la forma en que fueron codificados para poder interpretar el tipo de datos correcto representados por los *bytes*. Por ejemplo, un patrón binario de 8 *bits* (1 *byte*) puede corresponder a un carácter en particular si lo decodificamos como un ASCII, pero puede corresponder a un caracter completamente distinto si lo decodificamos como un caracter Unicode. 

En Python los *bytes* se representan con el objeto de tipo `bytes`. Un objeto de tipo `bytes` es una secuencia **inmutable**, tal como los `str`. Para declarar que un objeto es un *byte* simplemente se pone al comienzo del objeto una `b`. Por ejemplo:

In [19]:
caracteres = b'\x63\x6c\x69\x63\x68\xe9'  # Lo que está entre las comillas es un objeto de tipo bytes
print(caracteres)

# Con bytes.decode() interpretamos los bytes utilizando la representaicón latin-1 para obtener un string
print(caracteres.decode("latin-1"))

b'clich\xe9'
cliché


In [20]:
caracteres = b"\x61\x62"  # 61 y 62 son la representación en hexadecimal de los caracteres a y b, respectivamente
print(caracteres.decode("ascii"))

ab


In [21]:
caracteres = bytes((97, 98))  # 97 y 98 corresponden al código ASCII de los caracteres a y b, respectivamente
print(caracteres)

b'ab'


In [22]:
# Esto generará un error ya que sólo se pueden usar literales ASCII para la creación de bytes
caracteres = b"áb"

SyntaxError: bytes can only contain ASCII literal characters. (<ipython-input-22-43e059be2fa0>, line 2)

El símbolo escape `\x` indica que los siguientes dos caracteres después de la `x` corresponden a un *byte* usando dígitos hexadecimales. Los *bytes* que coinciden con los *bytes* de ASCII son reconocidos inmediatamente, así cuando los tratamos de imprimir aparecen correctamente (*e.g.* `cliché`), el resto se imprime como hexadecimal. La `b` en la impresión nos recuerda que lo que está a la derecha es un objeto de tipo `bytes`, no un `str`. La sentencia `caracteres.decode("latin-1")` decodifica la secuencia de *bytes* usando el alfabeto `latin-1`.

El método `decode` retorna un *string* normal (Unicode). Si, por ejemplo, hubiésemos usado otro alfabeto, habríamos obtenido otro *string*.

In [23]:
caracteres = b'\x63\x6c\x69\x63\x68\xe9'
print(caracteres.decode("latin-1"))
print(caracteres.decode("iso8859-5"))
print(caracteres.decode("CP437"))

cliché
clichщ
clichΘ


Para codificar un *string* en un alfabeto específico, simplemente usamos el método `encode` de la clase `str`. Es necesario ingresar como argumento el conjunto de caracteres o alfabeto con que se quiere codificar.

In [24]:
caracteres = "estación"
print(caracteres.encode("UTF-8"))  # 8-bit Unicode Transformation Format
print(caracteres.encode("latin-1"))
print(caracteres.encode("CP437"))

# No se puede codificar en ASCII el caracter "ó" ya que no existe dentro 
# de los 128 caracteres de ASCII
print(caracteres.encode("ascii"))  

b'estaci\xc3\xb3n'
b'estaci\xf3n'
b'estaci\xa2n'


UnicodeEncodeError: 'ascii' codec can't encode character '\xf3' in position 6: ordinal not in range(128)

El método `encode` nos ofrece opciones de cómo manejar el caso en que el *string* que se quiere codificar no puede ser codificado con el alfabeto requerido. Estas opciones se ingresan a través del argumento opcional `errors`, donde los valores posibles son: `strict` (el valor por defecto), `replace`, `ignore` o `xmlcharrefreplace`. 

In [25]:
print(caracteres.encode("ascii", errors='replace'))  # en ascii se reemplaza el caracter desconocido con "?"
print(caracteres.encode("ascii", errors='ignore'))
print(caracteres.encode("ascii", errors='xmlcharrefreplace'))  # se crea una entidad xml que representa el caracter Unicode

b'estaci?n'
b'estacin'
b'estaci&#243;n'


En general, si queremos codificar un *string* y no sabemos con qué alfabeto deberíamos codificar, lo mejor es usar UTF-8, ya que los primeros 128 caracteres de UTF-8 son los mismos que en ASCII (es *backwards* compatible con ASCII). Recordar siempre que los objetos tipo *byte* son **inmutables**.

## `bytearrays`

Los *bytearrays* son **arreglos de `bytes`** que, a diferencia de los `bytes` **son mutables**. Los `bytearrays` se comportan como las listas: podemos indexar con la notación de *slicing*, y también podemos ir agregando `bytes` con el método `extend`. Para construir un `bytearray` podemos ingresar un objeto `bytes` inicial.

In [26]:
ba = bytearray(b"holamundo")
print(ba)

# Podemos ocupar la notación de slicing
print(ba[3:7])
ba[4:6] = b"\x15\xa3"
print(ba)

# Podemos agregar bytes con el método extend
ba.extend(b"programa")
print(ba)

bytearray(b'holamundo')
bytearray(b'amun')
bytearray(b'hola\x15\xa3ndo')
bytearray(b'hola\x15\xa3ndoprograma')


In [27]:
# Aquí se imprime un byte, representado por un entero, el ascii que corresponde a la letra "h"
print(ba[0])
# La función bin genera un string con la representación binaria del byte
print(bin(ba[0]))
# El método zfill(r) rellena con 0's al inicio hasta completar r caracteres
print(bin(ba[0])[2:].zfill(8))

104
0b1101000
01101000


La última línea permite imprimir directamente los valores de los *bits* correspondientes al primer *byte* (representado en el literal `h` o el entero 104). El `[2:]` es para partir desde la tercera posición, ya que las primeras dos posiciones contienen los caracteres `0b`, que simplemente indica que el formato es en binario (línea anterior). Al agregar `.zfill(8)` indicamos que se usarán 8 *bits* para representar el *byte*, lo cual tiene sentido cuando hay ceros por el lado izquierdo y el *default* no los muestra (línea anterior tiene sólo 7 bits después del `0b`). 

Un caracter de un *byte* puede ser convertido a un entero usando la función `ord`.

In [28]:
# Recordemos que imprimir un elemento de un bytearray nos muestra el int que le representa
print(bytearray(b"a")[0])
# La función ord hace esta conversión directamente a partir de un byte
print(ord(b"a"))

97
97


In [29]:
# Aqui ocupamos ambas formas (int directamente y ord) para hacer cambios en un bytearray
b = bytearray(b'abcdef')
b[3] = ord(b'g')         # El caracter g tiene como código ascii el 103
b[4] = 68                # El caracter D tiene como código ascii el 68, esto sería lo mismo que ingresar b[4] = ord(b'D')
print(b)

bytearray(b'abcgDf')


### *Chunks*

Un concepto importante en el manejo de *bytes* es lo que se entiende por ***chunk***: un grupo de *bytes*. Cuando trabajamos con una cantidad importante de *bytes*, no es convenientoe leerlos todos a la vez, ya que pueden ser mucho y pueden no caber en nuestra memoria; ni tampoco uno por uno, pues requiere más operaciones de I/O y es más lento. Sin embargo, podemos utilizar el punto medio: leer los *bytes* en *chunks* (grupos) de cierta cantidad de *bytes*. Por ejemplo, el siguiente *bytearray* lo leeremos en *chunks* de tamaño 4 (`TAMANO_CHUNK`):

In [17]:
muchos_bytes = bytearray(b"Una gran cantidad de bytes que quiero leer de a poquito")
TAMANO_CHUNK = 4

for i in range(0, len(muchos_bytes), TAMANO_CHUNK):
    # Aqui obtenemos nuestro chunk
    chunk = bytearray(muchos_bytes[i:i+TAMANO_CHUNK])
    print(chunk)

bytearray(b'Una ')
bytearray(b'gran')
bytearray(b' can')
bytearray(b'tida')
bytearray(b'd de')
bytearray(b' byt')
bytearray(b'es q')
bytearray(b'ue q')
bytearray(b'uier')
bytearray(b'o le')
bytearray(b'er d')
bytearray(b'e a ')
bytearray(b'poqu')
bytearray(b'ito')


## I/O de archivos

Hasta ahora hemos operado con la lectura y escritura de archivos de texto; sin embargo, los sistemas operativos representan los archivos como secuencias de *bytes*, no como texto. Dado que leer *bytes* y convertirlos a texto es una operación muy común en archivos, los lenguajes de programación proveen maneras de manejar los *bytes* para transformarlos a una representación en *string* usando métodos de codificación (*encoding*) y decodificación (*decoding*). La función `open` nos permite, además de abrir archivos, ingresar como argumentos el set de caracteres que se usará para codificar los *bytes* y la estrategia que se debe seguir cuando aparezcan *bytes* inconsistentes con el formato:

In [31]:
file = open('data/archivo_ejemplo', "r", encoding='ascii', errors='replace')
print(file.read())
file.close()

sorry pero ahora yo soy lo que habr�� dentro del archivo
yo me agregar�� al final



Veamos cómo cambia esto, si es que eligimos otro *encoding*.

In [32]:
file = open('data/archivo_ejemplo', "r", encoding='utf-8', errors='replace')
print(file.read())
file.close()

sorry pero ahora yo soy lo que habrá dentro del archivo
yo me agregaré al final



Ahora, escribiremos en un archivo el mismo contenido.

In [33]:
contenido = "sorry pero ahora yo soy lo que habrá dentro del archivo"
file = open("data/archivo_ejemplo_1", "w", encoding="utf-8", errors="replace")
file.write(contenido)
file.close()

Podemos también agregar contenido al final del archivo, reemplazando el modo de apertura del archivo, cambiando la `w` por una `a`, de *append*.

In [34]:
contenido = "\nyo me agregaré al final"
file = open("data/archivo_ejemplo_1", "a", encoding="utf-8", errors="replace")
file.write(contenido)
file.close()

file = open('data/archivo_ejemplo_1', "r", encoding='utf-8', errors='replace')
print(file.read())
file.close()

sorry pero ahora yo soy lo que habrá dentro del archivo
yo me agregaré al final


Para abrir un archivo como binario, simplemente debemos agregar una `b` por el lado derecho del modo de apertura. Por ejemplo, `wb` o `rb`. El archivo se comportará igual que un archivo de texto, sólo que sin la codificación automática de *byte* a texto.

In [35]:
contenido = b"abcde12"
file = open("data/archivo_ejemplo_2", "wb")
file.write(contenido)
file.close()

file = open('data/archivo_ejemplo_2', "rb")
print(file.read())
file.close()

b'abcde12'


Podemos concatenar *bytes* simplemente con el operador `+`. En el siguiente ejemplo, construimos un contenido dinámico para ser escrito en un archivo de *bytes*. Después leemos una cantidad fija de *bytes* desde el mismo archivo:

In [36]:
num_lineas = 100

file = open("data/archivo_ejemplo_3", "wb")
for i in range(num_lineas):
    # A la función "bytes" debemos pasarle un iterable con el contenido a convertir 
    # por eso le pasamos el entero dentro de una lista  
    contenido = b"linea_" + bytes([i]) + b" abcde12 "                                             
    file.write(contenido)
file.close()

file = open('data/archivo_ejemplo_3', "rb")
# El número dentro de la función read nos dice el número de bytes que se van a leer del archivo
print(file.read(41))
file.close()

b'linea_\x00 abcde12 linea_\x01 abcde12 linea_\x02 a'


## *Context Manager*

Dado que siempre necesitamos cerrar un archivo después de usarlo, debemos considerar la posibilidad de que ocurran excepciones mientras el archivo está abierto. Una forma clara de hacerlo es cerrar el archivo dentro de la sentencia `finally` después de un `try`; sin embargo, esto genera bastante código extra. En Python existe una forma de hacer lo mismo con menos código, a través de un *context manager*, que se encarga de ejecutar las sentencias `try` y `finally` sin la necesidad de llamarlas directamente. Sólo necesitamos llamar al archivo que queremos abrir usando la sentencia `with`. Veamos un ejemplo.

In [37]:
with open("data/archivo_ejemplo_4", "r") as file:
    contenido = file.read()

El código anterior sería equivalente a hacer lo siguiente:

In [38]:
file = open("data/archivo_ejemplo_4", "r")
try:
    contenido = file.read()
finally:
    file.close()

Si ejecutamos `dir` en un objeto de tipo archivo:

In [39]:
file = open("data/archivo_ejemplo_4", "w")
print(dir(file))
file.close()

['_CHUNK_SIZE', '__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', '_finalizing', 'buffer', 'close', 'closed', 'detach', 'encoding', 'errors', 'fileno', 'flush', 'isatty', 'line_buffering', 'mode', 'name', 'newlines', 'read', 'readable', 'readline', 'readlines', 'seek', 'seekable', 'tell', 'truncate', 'writable', 'write', 'writelines']


Vemos que existen dos métodos llamados `__enter__` y `__exit__`. Estos dos métodos transforman el archivo en un *context manager*. El método `__exit__` asegura que el archivo será cerrado incluso si aparece una excepción mientras esté abierto. El método `__enter__` inicializa el archivo o realiza cualquier acción necesaria para ajustar el contexto del objeto.

Para asegurarnos que un archivo usará los métodos `__enter__` y `__exit__`, simplemente debemos llamar a la apertura del archivo con el método `with`.

También podemos crear nuestros propios *context managers* a partir de cualquier clase. Simplemente agregamos los métodos `__enter__` y `__exit__` y podemos llamar a nuestra clase a través del método `with`. Del siguiente ejemplo, se puede ver cómo el método `__exit__` se ejecuta una vez que nos salimos del *scope* de la sentencia `with`.

In [40]:
import string, random

class StringUpper(list): 
        
    def __enter__(self):
        return self
    
    def __exit__(self, exc_type, exc_value, traceback):
        for index, char in enumerate(self):
            self[index] = char.upper()

with StringUpper() as s_upper:
    for i in range(20):
        # Aquí seleccionamos, en forma aleatoria, un ascii en minúsculas
        # y las agregamos a la lista.
        s_upper.append(random.choice(string.ascii_lowercase))
    print(s_upper)
        
print(s_upper)

['b', 'p', 'a', 'd', 'o', 'h', 't', 'f', 'y', 'd', 'v', 'b', 'y', 'y', 'n', 's', 'e', 'g', 'n', 'q']
['B', 'P', 'A', 'D', 'O', 'H', 'T', 'F', 'Y', 'D', 'V', 'B', 'Y', 'Y', 'N', 'S', 'E', 'G', 'N', 'Q']


El código anterior simplemente corresponde a una clase que hereda de la clase `list`. Al implementar los métodos `__enter__` y `__exit__`, podemos instanciar la clase a través de un *context manager*. En este ejemplo en particular, el *context manager* se encarga de transformar todos los caracteres ASCII de la lista a mayúsculas.

## Cómo emular archivos para I/O

Muchas veces tenemos que interactuar con algunos módulos de software que sólo leen y escriben sus datos desde y hacia archivos. Si queremos comunicar nuestro código que genera, por ejemplo, *strings*, para evitar tener que escribir nuestros datos en un archivo para que el otro programa los lea, podemos *emular* el tener un archivo usando los módulos de Python `StringIO` o `BytesIO`. El siguiente ejemplo muestra cómo usar estos módulos:

In [41]:
from io import StringIO, BytesIO
file_in = StringIO("información como texto y más") # aquí simulamos tener un archivo que contiene el string dado 
file_out = BytesIO()                               # aquí simulamos un archivo de Bytes para escribir la información

char = file_in.read(1)
while char:
    file_out.write(char.encode("ascii", "ignore"))
    char = file_in.read(1)

buffer_ = file_out.getvalue()
print(buffer_)

b'informacin como texto y ms'


## Más información

Para conocer más sobre *bytes*, puedes visitar [este enlace](http://www.dummies.com/programming/electronics/digital-electronics-binary-basics/).