# Ficheros

### Contenidos

1. Archivos de texto
1. Flujo de trabajo con archivos
1. Operaciones básicas con archivos

10111111 01010100 01100101 00100000 01110100 01101111 01101101 01100001 01110011 01110100 01100101 00100000 01100101 01101100 00100000 01110100 01101001 01100101 01101101 01110000 01101111 00100000 01110000 01100001 01110010 01100001 00100000 01110100 01110010 01100001 01100100 01110101 01100011 01101001 01110010 00100000 01100101 01110011 01110100 01101111 00111111 00100000 01000111 01100001 01101110 01100001 01110011 01110100 01100101 00100000 00110000 00101110 00110101 00100000 01110000 01110101 01101110 01110100 01101111 01110011 00100000 01110000 01100001 01110010 01100001 00100000 01101100 01100001 00100000 01110000 01110010 11110011 01111000 01101001 01101101 01100001 00100000 01100101 01110110 01100001 01101100 01110101 01100001 01100011 01101001 11110011 01101110 00101110 00100000 01010011 01101001 00100000 01100100 01101001 01110011 01100101 11110001 01100001 01110011 00100000 01110101 01101110 00100000 01110000 01110010 01101111 01100111 01110010 01100001 01101101 01100001 00100000 01100101 01101110 00100000 01010000 01111001 01110100 01101000 01101111 01101110 00100000 01110000 01100001 01110010 01100001 00100000 01110100 01110010 01100001 01100100 01110101 01100011 01101001 01110010 01101100 01101111 00101100 00100000 01101111 01100010 01110100 01101001 01100101 01101110 01100101 01110011 00100000 00110000 00101110 00110101 00100000 01110000 01110101 01101110 01110100 01101111 01110011 00100000 01100001 01100100 01101001 01100011 01101001 01101111 01101110 01100001 01101100 01100101 01110011 00101110 00100000 00101000 01110011 11110011 01101100 01101111 00100000 00110001 00100000 01100101 01110011 01110100 01110101 01100100 01101001 01100001 01101110 01110100 01100101 00101001

Habitualmente, el uso de datos y su procesamiento plantea algunas de las siguientes limitaciones:

- __Limitada capacidad de almacenamiento__ en la memoria central del ordenador.
- El almacenamiento de datos en la __memoria central es volatil__.

Estas limitaciones se pueden superar __almacenando los datos en archivos__ organizados de forma jerárquica en dispositivos de almacenamiento secundario.

Un archivo:

- Es un flujo de _bits_ tratado por el OS como una unidad lógica. 
- Su __tamaño__ puede ser cualquier número entero no negativo de ___bytes___. 
- La interpretación de su estructura básica (e.g. programa, texto, imagen), depende del software y se basa en su __nombre__ y __contenido__.

## Operaciones básicas para la gestión de archivos de texto

La gestión de archivos que tratan con la propia estructura del archivo son:

- __Create__: Crear una archivo mediante su nombre u atributos.
- __Open__: Establece la comunicación de la CPU con el soporte físico del archivo, de forma que los registros se vuelven accesibles para su lectura y/o escritura.
- __Append__: Incrementar, ampliar el tamaño del archivo.
- __Delete__: Eliminar el archivo del soporte físico.
- __Read/Write__: Transferencia de datos entre el archivo y la memoria central.

En el tratamiento de archivo, es una buena práctica seguir siguiente secuencia de pasos:

1. __Apertura del archivo__, indicando su ubicación (_path_) y modo de tratamiento de la información (e.g. _read_, _write_)
2. __Transferencia de datos__ desde o hacia el archivo.
3. __Cerrar archivo__.

### Abrir archivo

La función [`open()`](https://docs.python.org/3/library/functions.html#open), recibe como arguento dos parámetros: valor de tipo `str` con el __nombre del archivo__ (o ubicación) y el __modo de apertura__ del archivo, que puede ser:

- `'r'`: abrir para leer.
- `'w'`: abrir para escribir.
- `'a'`: abrir para escribir, adjuntando los datos al final si existe contenido.

Además, por defecto, Python abre los archivo en modo de texto `'rt'`: `read` `text`.

In [12]:
mi_archivo = open('./data/lorem_ipsum.txt')

La función, retorna un objeto de tipo [_file object_](https://docs.python.org/3/glossary.html#term-file-object) a través del cual se pude manipular el contenido del archivo.

In [13]:
type(mi_archivo)

_io.TextIOWrapper

En el caso que se intente leer un archivo que no existe, Python (v3) retorna una excepción de tipo `FileNotFoundError`. Dos alternativas para el tratamiento de este error, consisten en:

- Validar si el archivo existe en la ruta especificada:

In [4]:
from os import path

if path.exists('./data/lorem_ipsu.txt'):
    # tratamiento del archivo aqui!
    pass
else:
    print('Archivo no encontrado!')

Archivo no encontrado!


El modulo `os.path` implementa algunas funciones útiles sobre las rutas. Se recomienda que las aplicaciones para Windows representen los nombres de archivo como cadenas de caracteres (Unicode)</strong>.

- Capturar la excepción que genera el intento de apertura del archivo:

In [14]:
try:
    mi_archivo = open('./misc/lorem_ipsu.txt')
    # tratamiento del archivo aqui!
    
except FileNotFoundError:
    print('Archivo no encontrado!')

Archivo no encontrado!


### Cerrar archivos

El método `close()`, soportado por el objeto _file_, cierra el fichero. La ejecución de esta acción permite,
- __después de escribir contenido__, que los datos sean almacenados en disco.
- __después de leer__, que se libere la memoria usada para manipular el archivo.

In [15]:
mi_archivo.close()

### Leer caracteres

El método `read()` que recibe como argumento un valor en _bytes_, retorna una cadena de texto equivalente a la cantidad de _bytes_ leidos. 

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `''`. Por ejemplo, la siguiente función calcula de forma iterativa _byte_ por _byte_ la cantidad de bytes (o caracteres) que contiene el archivo `lorem_ipsum.txt`.

In [16]:
def filesize(filename):
    mi_archivo = open(filename)
    mi_archivo_peso = 0
    while mi_archivo.read(1) != '':
        mi_archivo_peso += 1
    mi_archivo.close()
    return mi_archivo_peso

In [17]:
print('{} bytes'.format(filesize('./data/lorem_ipsum.txt')))

245 bytes


### Leer líneas 

El método `readline()` lee una línea entera del archivo, seguido del carácter de línea nueva `'\n'`. Cuando un valor en _bytes_ esta presente como argumento, retorna una cadena de texto, equivalente a la cantidad de _bytes_ (incluyendo el carácter de línea nueva).

- Cuando no hay más _bytes_ por leer, el método retorna una cadena vacía `''`. El siguiente ejemplo, imprime el contenido del archivo de texto `lorem_ipsum.txt` con su respectivo número de línea.

In [1]:
mi_archivo = open('./data/lorem_ipsum.txt', 'rt')
ln = 1
while True:
    linea = mi_archivo.readline()
    if linea != '':
        print('{0:>2} '.format(ln), linea.rstrip('\n'))
        ln += 1
    else:
        break
mi_archivo.close()

 1  Lorem Ipsum is simply dummy text of the printing and typesetting industry.
 2  Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,
 3  when an unknown printer took a galley of type and scrambled it to make a type
 4  specimen book.


### Escritura de archivos

El método `write()` escribe cualquier cadena de texto en un archivo abierto en modo de escritura: `'w'` o `'a'`. 

El siguiente ejemplo escribe en un archivo el contenido de una cadena de texto.

In [3]:
mi_texto = 'Esta es una frase.\nEsta es otra frase en una nueva línea.'
fout = open('./data/output.txt', 'w')
fout.write(mi_texto)
fout.close()

### Agregar datos a un archivo existente

Para agregar datos a un archivo abierto, dicho archivo estar abierto en modo `'a'`. En este caso, el método `write()`, añade al final del contenido del archivo, cualquier cadena de texto.

El siguiente ejemplo, solicita de forma iterativa una cadena de texto que es añadida al fichero de texto `notes.txt`. Por lo tanto, el fichero crece en una línea cada vez que se ingresa texto:

In [4]:
def agregar_linea(ruta, linea):
    mi_archivo = open(ruta, 'a')
    mi_archivo.write(linea + '\n')
    mi_archivo.close()

ruta = './data/notes.txt'
while True:
    nota = input('Ingresa una nota [Enter para salir]: ')
    if nota == '':
        break
    else:
        agregar_linea(ruta, nota)

### Renombrar y eliminar archivos

El método `rename()` de la libreria [`os`](https://docs.python.org/3/library/os.html), recibe como argumento dos cadenas de texto, correspondiente al nombre original del archivo y al nuevo nombre del archivo, respectivamente.

In [None]:
from os import rename

rename('./data/notes.txt', './data/old_notes.txt')


Por otra parte, la función `remove()` elimina un archivo a partir de su nombre, recibido como argumento.

In [None]:
from os import remove

remove('./data/old_notes.txt')

__Nota__: Es importante notar que una excepción de tipo `FileNotFoundError` se puede alcanzar en la ejecución del _script_ anterior, esto, en el caso que no se encuentren los archivos objetivos de renombrar y elimnar.

## Actividades

A1. Investigue y describa el uso de la sentencia `with`. Presente un ejemplo.

A2. En un archivo con texto en formato plano se almacena el resumen de un artículo escrito con letras minúsculas. Considerando que existe una regla gramatical que establece que después de cualquier punto se debe comenzar con una letra mayúsculas, diseñe una función que corrija el resumen lo alacene en un nuevo archivo.

__Nota__: Recordar que ([...](http://www.rae.es/consultas/ortografia-de-los-signos-de-interrogacion-y-exclamacion)) cuando un símbolo de exclamación o interrogación constituyen el final de un enunciado, la palabra siguiente se escribe con mayúscula inical.

A3. El fichero `etc/passwd` de los sistemas Unix contiene información acerca de los usuarios del sistema. Un ejemplo de un fichero con dos registros se presenta a continuación:

```
juanp:x0da11y:1000:2000:Juan Perez:/home/al55555:/bin/bash
d4niela:y1aff0x:1001:2000:Daniela Rojo:/home/d4niela:/bin/bash
```

En este archivo, cada campo está separado por dos puntos (<code>:</code>). En orden, aparecen:</p>

- `user`: Nombre de usuario
- `pass`: Contraseña cifrada
- `id`: Número único de usuario (id)
- `group`: Número de grupo
- `name`: Nombre real del usuario
- `userpath`: Ruta del directorio principal del usuario
- `bashpath`: Ruta del interprete de órdenes
    
A3.1. Diseñe la función `user2dict(fname)` que retorne un diccionario con de todos los usuario registrados en un archivo `etc/passwd`. Cada campo del registro deberá ser asociado a su respectiva clave en el diccionario, omitiendo los campos `userpath` y `bashpath`. Considere utilizar como identificador de cada usuario el nombre de usuario (`id`). Por ejemplo, para el archivo presentado anteriormente, el diccionario generado por la función debería quedar con la siguiente estructura:
```
{
    1000: {'user': 'juanp', 'pass': 'x0da11y', 'group': 2000, 'name': 'Juan Perez'}, 
    1001: {'user': 'd4niela', 'pass': 'y1aff0x', 'group': 2000, 'name': 'Daniela Rojo'}
}
```

A3.2. Diseñe la función `nombre(fname, usuario)` que retorne el nombre completo del usuario a partir de nombre de usuario (`usuario`).

A3.3. Diseñe la función `buscar(fname, keyword)` que retorne una lista con el número único de usuario (id) de todos los usuarios cuyo nombre contenga la palabra `keyword`.