# Procesamiento de archivos

El uso de datos y su procesamiento plantea algunas de las siguientes limitaciones:

- __Limitada capacidad de almacenamiento__ en la memoria central del ordenador.
- El almacenamiento de datos en la __memoria central es volatil__.

Estas limitaciones se pueden superar __almacenando los datos en archivos__ organizados de forma jerárquica en dispositivos de almacenamiento secundario.

Un archivo:

- Es un flujo de _bits_ tratado por el OS como una unidad lógica. 
- Su __tamaño__ puede ser cualquier número entero no negativo de ___bytes___. 
- La interpretación de su estructura básica (e.g. programa, texto, imagen), depende del software con el cual se procesa.

In [1]:
!cat "./dataset/lorem_ipsum.txt"

Lorem Ipsum is simply dummy text of the printing and typesetting industry.
Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,
when an unknown printer took a galley of type and scrambled it to make a type
specimen book.

## Gestión de archivos

La gestión de archivos que tratan con la propia estructura del archivo son:

- __Create__: Crear una archivo mediante su nombre u atributos.
- __Open__: Establece la comunicación de la CPU con el soporte físico del archivo, de forma que los registros se vuelven accesibles para su lectura y/o escritura.
- __Append__: Incrementar, ampliar el tamaño del archivo.
- __Delete__: Eliminar el archivo del soporte físico.
- __Read/Write__: Transferencia de datos entre el archivo y la memoria central.

En el tratamiento de archivos, es una buena práctica seguir siguiente secuencia de pasos:

1. __Apertura del archivo__, indicando su ubicación (_path_) y modo de tratamiento de la información (e.g. _read_, _write_)
2. __Transferencia de datos__ desde o hacia el archivo.
3. __Cerrar archivo__.

## Apertura de archivos

La función [`open()`](https://docs.python.org/3/library/functions.html#open), recibe como arguento dos parámetros: 

- Un valor de tipo `str` con el nombre (o ubicación del archivo), y
- El modo de apertura del archivo, que puede ser, `r`: leer, `w`: escribir y `a`: añadir. Por defecto es `'rt'`: `read` `text`.

In [2]:
mi_archivo = open('./dataset/lorem_ipsum.txt')

La función `open()`, retorna un objeto de tipo [_file object_](https://docs.python.org/3/glossary.html#term-file-object) a través del cual se pude manipular el contenido del archivo.

In [3]:
type(mi_archivo)

_io.TextIOWrapper

En el caso que se intente leer un archivo que no existe, se retorna una excepción de tipo `FileNotFoundError`. Dos alternativas para el tratamiento de este error, consisten en:

- Validar si el archivo existe en la ruta especificada:

In [4]:
from os import path

if path.exists('./dataset/lorem_ipsu.txt'):
    # tratamiento del archivo aqui!
    pass
else:
    print('Archivo no encontrado!')

Archivo no encontrado!


- Capturar la excepción que genera el intento de apertura del archivo:

In [5]:
try:
    mi_archivo = open('./dataset/lorem_ipsu.txt')
    # tratamiento del archivo aqui!
    
except FileNotFoundError:
    print('Archivo no encontrado!')

Archivo no encontrado!


## Cierre de archivos

El método `close()`, soportado por el objeto _file_, cierra el fichero. La ejecución de esta acción permite,
- __después de escribir contenido__, que los datos sean almacenados en disco.
- __después de leer__, que se libere la memoria usada para manipular el archivo.

In [6]:
mi_archivo.close()

## Lectura por caracter

El método `read()` que recibe como argumento un valor en _bytes_, retorna una cadena de texto equivalente a la cantidad de _bytes_ leidos. 

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `''`.

La siguiente función, imprime la cantidad de bytes (o caracteres) que contiene el archivo `lorem_ipsum.txt` de forma iterativa _byte_ por _byte_.

In [7]:
def obtener_peso(filename):
    mi_archivo = open(filename)
    peso = 0
    while mi_archivo.read(1) != '':
        peso += 1
    mi_archivo.close()
    return peso

print('{} bytes'.format(obtener_peso('./dataset/lorem_ipsum.txt')))

245 bytes


## Lectura por línea

El método `readline()` lee una línea entera del archivo, seguido del carácter de línea nueva `'\n'`. Cuando un valor en _bytes_ esta presente como argumento, retorna una cadena de texto, equivalente a la cantidad de _bytes_ (incluyendo el carácter de línea nueva).

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `''`.

El siguiente ejemplo, imprime el contenido del archivo de texto `lorem_ipsum.txt` con su respectivo número de línea.

In [8]:
mi_archivo = open('./dataset/lorem_ipsum.txt')
ln = 1
while True:
    linea = mi_archivo.readline()
    if linea != '':
        print('{0:>2} '.format(ln), linea.rstrip('\n'))
        ln += 1
    else:
        break
mi_archivo.close()

 1  Lorem Ipsum is simply dummy text of the printing and typesetting industry.
 2  Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,
 3  when an unknown printer took a galley of type and scrambled it to make a type
 4  specimen book.


## Escritura de archivos



El método `write()` escribe cualquier cadena de texto en un archivo abierto en modo de escritura: `'w'` o `'a'`.

El siguiente ejemplo escribe en un archivo el contenido de una cadena de texto.

In [9]:
texto = 'Esta es una frase.\nEsta es otra frase en una nueva línea.'
fout = open('./dataset/output.txt', 'w')
fout.write(texto)
fout.close()

In [10]:
!cat "./dataset/output.txt"

Esta es una frase.
Esta es otra frase en una nueva línea.

## Añadir a un archivo existente

Para agregar datos a un archivo, dicho archivo estar abierto en modo `'a'`. 
- En este caso, el método `write()`, añade al final del contenido del archivo, cualquier cadena de texto.

El siguiente ejemplo, solicita de forma iterativa una cadena de texto que es añadida al fichero de texto `notes.txt`. Por lo tanto, el fichero crece en una línea cada vez que se ingresa texto:

In [11]:
def agregar_nota(fichero_nombre, nota):
    archivo = open(fichero_nombre, 'a')
    archivo.write(nota + '\n')
    archivo.close()

fichero = './dataset/notas.txt'
while True:
    nota = input('Ingresa una nota [Enter para salir]: ')
    if nota == '':
        break
    else:
        agregar_nota(fichero, nota)

In [12]:
!cat "./dataset/notas.txt"

Primera nota...
Segunda nota...


## Renombrar y eliminar archivos

El método `rename()` de la libreria [`os`](https://docs.python.org/3/library/os.html), recibe como argumento dos cadenas de texto, correspondiente al nombre original del archivo y al nuevo nombre del archivo, respectivamente.

In [13]:
from os import rename

rename('./dataset/notas.txt', './dataset/mis_notas.txt')

Por otra parte, la función `remove()` elimina un archivo a partir de su nombre, recibido como argumento.

In [14]:
from os import remove

remove('./dataset/mis_notas.txt')