# Archivos

Si queremos almacenar información y consultar información almacenada necesitamos escribir y leer archivos.

![Ilustración de un archivo como una secuencia de caracteres](img/archivo.svg)

## Lectura de archivos

Para poder leer el contenido de un archivo, primero es necesario abrirlo con la función predefinida `open`, que recibe el nombre de dicho archivo. Este puede ser una ruta relativa (por ejemplo, `poema.txt` para leer el archivo con ese nombre en la carpeta actual u `otros/poema.txt` para leer el archivo homónimo en la subcarpeta `otros` de la actual) o absoluta (como `/home/usuario/Documentos/poema.txt` en Linux/macOS o `C:\\Users\usuario\Documents\poema.txt` en Windows).

In [1]:
txt = open('poema.txt')

El objeto `txt` ofrece diversos métodos para manipular el archivo que veremos enseguida. Cuando se haya terminado de utilizar, el archivo se ha de cerrar para liberar los recursos ocupados y evitar pérdidas de datos.

In [2]:
txt.close()

La importancia de cerrar los archivos es relativa, especialmente en programas cortos. Sin embargo, para evitar descuidos y complicaciones, Python incluye un muy recomendable bloque `with` que se encarga de cerrar el archivo cuando se sale de él.

In [3]:
with open('poema.txt') as txt:
    pass # <operaciones sobre el archivo>

En este cuaderno de Jupyter no usaremos `with` para poder introducir texto entre las celdas de código.

In [4]:
txt = open('poema.txt')

Hay diversas formas de leer el contenido de un archivo:
* Leyendo el archivo entero como una cadena de texto con `read`.

In [5]:
txt.read()

'Un soneto me manda hacer Violante,\nque en mi vida me he visto en tal aprieto:\nCatorce versos dicen que es soneto:\nBurla burlando van los tres delante.\n\nYo pensé que no hallara consonante\ny estoy a la mitad de otro cuarteto:\nMas si me veo en el primer terceto\nno hay cosa en los cuartetos que me espante.\n\nPor el primer terceto voy entrando\ny parece que entré con pie derecho,\npues fin con este verso le voy dando.\n\nYa estoy en el segundo, y aun sospecho\nque estoy los trece versos acabando:\ncontad si son catorce, y está hecho.'

In [6]:
help(txt.read) # EOF = end of file (fin del archivo)

Help on built-in function read:

read(size=-1, /) method of _io.TextIOWrapper instance
    Read at most n characters from stream.
    
    Read from underlying buffer until we have n characters or we hit EOF.
    If n is negative or omitted, read until EOF.



Esto no siempre es conveniente, pues el tamaño del archivo podría exceder u ocupar innecesariamente la memoria disponible del ordenador al quedar almacenado en una cadena. Como dice la documentación de la función `read`, esta admite también un argumento `size` para limitar el número máximo de caracteres que se leerán.

* Leyendo fragmentos del contenido con `read(n)`.

In [7]:
txt.read(20)

''

El método `read` no ha leído nada porque el cursor de lectura de `txt` está al final del archivo tras la última lectura con `read()`. El objeto archivo `txt` tiene asociada una posición en el documento que se va desplazando con cada lectura. En un archivo regular, es posible moverse hasta una posición arbitraria, por ejemplo, rebobinar hasta el principio del archivo.

In [8]:
txt.seek(0)

0

In [9]:
txt.read(20)

'Un soneto me manda h'

In [10]:
txt.read(20)

'acer Violante,\nque e'

In [11]:
txt.tell()  # devuelve la posición actual (20 + 20)

40

En muchos casos, como en el ejemplo anterior, leer un número fijo de caracteres no tiene demasiado sentido. Es más razonable leer línea a línea, ya que estas tienen sentido propio.

* Leyendo línea a línea con `readline` o iterando sobre el archivo.

In [12]:
txt.readline()

'n mi vida me he visto en tal aprieto:\n'

In [13]:
txt.readline()

'Catorce versos dicen que es soneto:\n'

In [14]:
for línea in txt:
    línea = línea.rstrip()
    print(len(línea), línea)

36 Burla burlando van los tres delante.
0 
34 Yo pensé que no hallara consonante
36 y estoy a la mitad de otro cuarteto:
34 Mas si me veo en el primer terceto
44 no hay cosa en los cuartetos que me espante.
0 
34 Por el primer terceto voy entrando
35 y parece que entré con pie derecho,
37 pues fin con este verso le voy dando.
0 
38 Ya estoy en el segundo, y aun sospecho
36 que estoy los trece versos acabando:
36 contad si son catorce, y está hecho.


El objeto `txt` es iterable y devuelve sucesivamente las líneas del archivo desde la posición actual. Estas cadenas incluyen el carácter `'\n'` de salto de línea, que se puede descartar junto con el resto de espacio en blanco con el método `rstrip` (o simplemente `strip`) de `str`.

In [15]:
txt.close()

**Ejemplo 1:** dado un archivo que contiene un poema, queremos obtener el número de versos de cada estrofa.

In [16]:
def estrofas(nombre: str) -> list[int]:
    estrofas = []  # Versos en las estrofas anteriores
    versos = 0  # Versos en la estrofa actual 
    
    with open(nombre) as poema:
        for línea in poema:
            # Una línea vacía termina la estrofa
            if línea == '\n':
                estrofas.append(versos)
                versos = 0
            else:
                versos += 1
    
    # El final del archivo también termina una estrofa
    estrofas.append(versos)
    
    return estrofas

In [17]:
estrofas('poema.txt')

[4, 4, 3, 3]

## Escritura de archivos

La escritura de archivos sigue un procedimiento muy semejante al de la lectura. El archivo se ha de abrir con la función `open`, pero en este caso usando un argumento adicional `'w'` (*write*) que indica que se escribirá en él.

In [18]:
txt = open('salida.txt', 'w')

Si el archivo ya existe, el modo `'w'` descarta el contenido anterior y empezará a escribir al principio del archivo. En cambio, el modo alternativo `'a'` (*append*) mantiene el contenido anterior y empezará a escribir justo después de él. El método más sencillo para escribir es `write`, que recibe una cadena de caracteres.

In [19]:
txt.write('Primera línea del archivo\n')  # devuelve el número de caracteres escritos

26

Este método no admite otros tipos de datos, como enteros, que será necesario convertir.

In [20]:
txt.write(33)  # mal

TypeError: write() argument must be str, not int

In [21]:
txt.write(str(33))  # bien

2

La función `print` que hemos utilizado para escribir texto por pantalla también se puede utilizar sobre un archivo, indicándolo con el parámetro `file`.

In [22]:
print('Segunda línea con', 33, file=txt)

In [23]:
txt.close()

Tras las anteriores operaciones, el contenido de `salida.txt` es el siguiente:

In [24]:
def print_file(nombre: str):
    with open(nombre) as txt:
        print(txt.read())

print_file('salida.txt')

Primera línea del archivo
33Segunda línea con 33



**Ejemplo 2:** dado un archivo que contiene en cada línea una lista de números separados por espacios, queremos calcular las sumas de cada línea y guardarlas en un archivo.

In [25]:
def suma_líneas(nombre_origen: str, nombre_destino: str):
    with open(nombre_origen) as origen, open(nombre_destino, 'w') as destino:
        for línea in origen:
            suma = sum(float(n) for n in línea.split())
            print(suma, file=destino)

In [26]:
suma_líneas('números.txt', 'salida.txt')

In [27]:
print_file('salida.txt')

507.63
23.01
376.0
70.32
209.17999999999998
160.0
477.74
249.29
338.8
50.26
452.47
128.28



Como cualquier otro objeto, los archivos también se pueden pasar como argumentos a las funciones y esto puede resultar conveniente en diversas circunstancias.

In [28]:
def suma_líneas2(origen, destino):  # recibe dos archivos ya abiertos
    for línea in origen:  # copiado del suma_líneas anterior
        suma = sum(float(n) for n in línea.split())
        print(suma, file=destino)

In [29]:
import sys  # módulo con parámetros y funciones del sistema

with open('números.txt') as origen:
    suma_líneas2(origen, sys.stdout)

507.63
23.01
376.0
70.32
209.17999999999998
160.0
477.74
249.29
338.8
50.26
452.47
128.28


La salida estándar es un archivo accesible en la variable `sys.stdout`. Pasándola como argumento hemos hecho que el resultado se imprima directamente en pantalla. La entrada estándar (de la que lee la función `input`) se corresponde con la variable `sys.stdin`.

## Errores comunes

* Intentar abrir un archivo que no es de texto (imágenes, grabaciones, vídeos, etc).

In [30]:
with open('pdf/Archivos.pdf') as pdf:
    print(pdf.read(20))

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe4 in position 10: invalid continuation byte

Los archivos *binarios* también se pueden abrir con `'rb'` (`'wb'` o `'ab'` para escritura) como segundo argumento de `open`, pero esto no lo veremos en la asignatura.

* Intentar escribir en un archivo abierto para lectura.

In [31]:
with open('poema.txt') as txt:
    txt.write('Es la tierra de Soria árida y fría.\n')

UnsupportedOperation: not writable

* Intentar abrir un archivo que no existe.

In [32]:
with open('archivo_inexistente.txt') as txt:
    pass

FileNotFoundError: [Errno 2] No such file or directory: 'archivo_inexistente.txt'

El programador puede capturar explícitamente estos *errores* para que no interrumpan el programa, como veremos de pasada en uno de los últimos temas (una referencia es el [tutorial de Python](https://docs.python.org/3/tutorial/errors.html)). Existen formas más familiares de comprobar que un archivo existe antes de abrirlo.

In [33]:
import os  # funcionalidades del sistema operativo (archivos, procesos...)

os.path.exists('archivo_inexistente.txt')

False

In [34]:
# comprueba además que sea un archivo y no un directorio
os.path.isfile('pdf')

False

El paquete [`os`](https://docs.python.org/3/library/os.html) proporciona cantidad de funciones para obtener información sobre archivos, directorios y otros aspectos del sistema. Lo más conveniente en consultar su documentación cuando se quiera hacer algo de eso. 

## [Extra] Argumentos de la línea de comandos

En algunos casos los programas trabajan con archivos fijos cuyo nombre se puede incluir directamente en el programa, pero es habitual que el nombre del archivo sea un parámetro en ejecución del programa. Por ejemplo, cuando uno quiere ejecutar un script de Python pasa el nombre del archivo como argumento a su comando, `python mi_script.py`. O cuando uno hace clic en un icono del explorador de archivos, este llama al programa configurado para manejarlo con el nombre del archivo como primer argumento.

En Python, los argumentos de la línea de comandos se pueden consultar en la variable `argv` (*argument vector*) del paquete `sys`. El primer argumento es siempre el nombre del script de Python y los siguientes son los argumentos que se han pasado a continuación. 

In [35]:
sys.argv

['/usr/lib/python3.11/site-packages/ipykernel_launcher.py',
 '-f',
 '/tmp/tmpex3mtysv.json']

En este caso los valores son algo crípticos, porque estamos ejecutando el núcleo de un cuaderno de Jupyter. Sin embargo, si ejecutásemos en un terminal
```console
$ python mi_suma.py 1 2
```
el programa `mi_suma.py` dado por
```python
import sys

print(int(sys.argv[1]) + int(sys.argv[2]))
```
imprimiría un `3` por pantalla. También se pueden invocar comandos directamente desde IPython (por ejemplo, desde la consola integrada en Spyder) empezando la línea con un signo de exclamación.

In [36]:
!python mi_suma.py 2 3

5


In [37]:
!python mi_suma.py 2  # falta un argumento

Traceback (most recent call last):
  File "mi_suma.py", line 3, in <module>
    print(int(sys.argv[1]) + int(sys.argv[2]))
                                 ~~~~~~~~^^^
IndexError: list index out of range


El usuario del programa se puede equivocar al introducir los argumentos, por lo que es conveniente comprobar al menos que el número de argumentos proporcionado se corresponde con el esperado (por ejemplo, que se han pasado realmente dos números en el programa anterior) usando `len(sys.argv)`. Además, el código que se quiere ejecutar cuando se invoca el programa como un comando es habitual colocarlo al final y bajo una condición como la siguiente.
```python
import sys

def print_file(nombre: str):
    # lo que está más arriba

if __name__ == '__main__':  # código del comando
    if len(sys.argv) != 2:
        print('Se espera un nombre de archivo como argumento.')
    else:
        print_file(sys.argv[1])
```
Eso permite importar el archivo con `import` (si se quisiera reutilizar la función `print_file` en otro programa) sin ejecutar el código del comando.

En la práctica, `sys.argv` no se usa directamente, sino a través de bibliotecas como [`argparse`](https://docs.python.org/es/3/library/argparse.html) que analizan automáticamente la lista de argumentos según unas instrucciones.

## Referencias

* [§7.2 «Leyendo y escribiendo archivos»](https://docs.python.org/es/3/tutorial/inputoutput.html#reading-and-writing-files) del tutorial de Python.
* §7.3 «Files» del [libro de Guttag](https://ucm.on.worldcat.org/oclc/1347116367) (§4.6 en la [edición de 2013](https://ucm.on.worldcat.org/oclc/1025935018)).