# Procesamiento de archivos

El uso de datos y su procesamiento plantea algunas de las siguientes limitaciones:

- __Limitada capacidad de almacenamiento__ en la memoria central del ordenador.
- El almacenamiento de datos en la __memoria central es volatil__.

Estas limitaciones se pueden superar __almacenando los datos en archivos__ organizados de forma jerárquica en dispositivos de almacenamiento secundario.
Un archivo:

- Es un flujo de _bits_ tratado por el OS como una unidad lógica. 
- Su __tamaño__ puede ser cualquier número entero no negativo de ___bytes___. 
- La interpretación de su estructura básica (e.g. programa, texto, imagen), depende del software con el cual se procesa.

### Gestión de archivos
La gestión de archivos que tratan con la propia estructura del archivo son:

- __Create__: Crear una archivo mediante su nombre u atributos.
- __Open__: Establece la comunicación de la CPU con el soporte físico del archivo, de forma que los registros se vuelven accesibles para su lectura y/o escritura.
- __Append__: Incrementar, ampliar el tamaño del archivo.
- __Delete__: Eliminar el archivo del soporte físico.
- __Read/Write__: Transferencia de datos entre el archivo y la memoria central.

En el tratamiento de archivos, es una buena práctica seguir siguiente secuencia de pasos:

1. __Apertura del archivo__, indicando su ubicación (_path_) y modo de tratamiento de la información (e.g. leer, escribir)
2. __Transferencia de datos__ desde o hacia el archivo.
3. __Cerrar archivo__.

### Apertura de archivos

La función [`open()`](https://docs.python.org/3/library/functions.html#open), recibe como arguento dos parámetros: 

- Un valor de tipo `str` con el nombre (o ubicación del archivo), y
- El modo de apertura del archivo, que puede ser, `r`: leer, `w`: escribir y `a`: añadir. Por defecto es `'rt'`: `read` `text`.

Esta funció, retorna un objeto de tipo [_file object_](https://docs.python.org/3/glossary.html#term-file-object) a través del cual se pude manipular el contenido del archivo.

In [None]:
fid = open('data/lorem_ipsum.txt')
print(type(fid))

En los casos que se intente acceder a un archivo cuya ruta no existe, se retorna una excepción de tipo `FileNotFoundError`. 

Dos alternativas para el tratamiento de este error, consisten en:

- Validar si el archivo existe en la ruta especificada:

In [None]:
from os import path

if path.exists('lorem_ipsum.txt'):
    # tratamiento del archivo aquí!
    pass
else:
    print('Archivo no encontrado!')

- Capturar la excepción que genera el intento de apertura del archivo:

In [None]:
try:
    archivo = open('./dataset/lorem_ipsu.txt')
    # tratamiento del archivo aqui!
    
except FileNotFoundError:
    print('Archivo no encontrado!')

archivo.close()

### Cierre de archivos

El método `close()`, soportado por el objeto _file_, cierra el archivo. La ejecución de esta acción permite,
- __después de escribir__ contenido en el archivo, que los datos sean almacenados en disco.
- __después de leer__ el contenido, que se libere la memoria usada para manipular el archivo.

In [None]:
fid.close()

### Lectura por caracter

El método `read()` que recibe como argumento un valor (expresado en _bytes_), retorna una cadena de texto equivalente a la cantidad de _bytes_ leidos. 

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `''`.

En el siguiente ejemplo la función `obtener_peso()`, retorna la cantidad de bytes (o caracteres) que contiene un archivo cuyo nombre recibe como argumento, en este caso, el archivo `lorem_ipsum.txt`. Notar que la lectura del contenido del archivo se realiza de forma iterativa _byte_ por _byte_.

In [None]:
def obtener_peso(filename):
    # 1. Abrir el archivo
    archivo = open(filename)
    peso = 0
    # 2. Leer el contenido
    while archivo.read(1) != '':
        peso += 1
    # 3. Liberar la memoria
    archivo.close()
    return peso

peso =  obtener_peso("./data/lorem_ipsum.txt")
print(f"{peso/1024} Mbytes")

### Lectura por línea

El método `readline()` lee una línea del archivo, seguido del carácter de línea nueva `"\n"`. Cuando un valor en _bytes_ está presente como argumento de la función, retorna una cadena de texto, equivalente a la cantidad de _bytes_ (incluyendo el carácter de línea nueva).

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `""`.

Por ejemplo, el siguiente algoritmo muestra el contenido del archivo de texto `lorem_ipsum.txt` con su respectivo número de línea.

In [None]:
def imprimir(filename):
    archivo = open(filename, "r")
    i = 1
    while True:
        linea = archivo.readline()
        if linea == '':
            break
        print("{0:>2} ".format(i), linea.rstrip("\n"))
        i += 1
    archivo.close()
    return

imprimir("data/lorem_ipsum.txt")

La función [str.rstrip()](https://docs.python.org/3/library/stdtypes.html#str.rstrip) devuelve una copia de la cadena con los caracteres finales eliminados. Puede recibir como argumento, cadena de caracteres que especifica el conjunto de caracteres que serán eliminados. Elimina por defecto los espacios en blanco.

### Escritura de archivos

El método `write()` escribe cualquier cadena de texto en un archivo abierto en modo de escritura: `"w"` o `"a"`.

El siguiente ejemplo escribe en un archivo el contenido de una cadena de texto.

In [None]:
archivo = open("./data/output.txt", "w")
archivo.write("Esta primera oración se escribe en una línea.\nEsta es otra, en una nueva línea.")
archivo.close()

## Añadir a un archivo existente

Para agregar datos a un archivo, dicho archivo estar abierto en modo `"a"`. 
- En este caso, el método `write()`, añade al final del contenido del archivo, la cadena de caracteres que recibe como argumento.

En el siguiente ejemplo, el programa solicita al usuario de forma iterativa una cadena de texto, la cual es añadida al fichero de texto `notas.txt`. Por lo tanto, el fichero crece en una línea cada vez que se ingresa texto:

In [None]:
def agregar_nota(nombre_archivo, nueva_nota):
    archivo = open(nombre_archivo, 'a')
    archivo.write(nueva_nota + '\n')
    archivo.close()
    return

mis_notas = "./dato/notas.txt"
while True:
    nueva_nota = input('Ingrese una nota [Enter para salir]: ')
    if nueva_nota == '':
        break
    agregar_nota(mis_notas, nueva_nota)

### Renombrar y eliminar archivos

El método `rename()` de la libreria [`os`](https://docs.python.org/3/library/os.html), recibe como argumento dos cadenas de texto, correspondiente al nombre original del archivo y al nuevo nombre del archivo, respectivamente.

In [None]:
from os import rename

rename('data/notas.txt', 'data/mis_notas.txt')

Por otra parte, la función `remove()` elimina un archivo a partir de su nombre, recibido como argumento.

In [None]:
from os import remove

remove('data/mis_notas.txt')