## Trabajar con ficheros

En un sistema informático, toda la información que queramos almacenar de forma permanente acabará almacenado en un archivo o fichero informático. Un fihero informatico tiene un nombre y, normalmente, una extensión que indica el tipo de contenido del archivo. Por ejemplo, los programas en python se suelen guardar con la extensión `.py` para que tanto nosotros como el sistema sepamos que el contenido del fichero debería ser interpretado como código fuente Python. 

Algunas extensiones normales que podemos encontrar son .jpg, .gif o .png para imágenes, .avi, .mp4 o .mkv para películas, .wav, .ogg o .mp3 para canciones o audio, .txt para ficheros de texto, etc...

## Operaciones con ficheros



Con los ficheros o archivos, un programa puede hacer normalmente dos cosas, o bien escribir contenido al archivo o bien leer el contenido del archivo. Para trabajar con un archivo hay que tener en cuenta tres cosas muy importantes:

1.- Antes de poder trabajar con él, tenemos que **abrir** el archivo, llamado a la función `open`. Además, al abrir el archivo tenemos que indicar que tipo de operaciones vamos a realizar: para leer un archivo hay que **abrirlo para lectura**, mientras que si lo que queremos es escribir informacíon al archivo hay que abrirlo en **mode de escritura**.

2.- Mientras el fichero esté abierto, podemos leer datos de el -si se abrió
    para lectura- o escribir datos en el -si se abrió para escritura-. En el
    primer caso usamos el método `read` y en el segundo el método `write`

3.- Cuando hayamos acabado de trabajar con él, tenemos que cerrarlo, con el
    método `close`. Un archivo abierto consume recursos del sistema, así que
    conviene cerrarlo lo más pronto posible.



## Ejemplo de creación de un archivo

Veamos con un ejemplo el mecanismo para crear un archivo. Para empezar, hay que decidirse por un modo: ¿Escritura o lectura? Como vamos a crear un archivo, hay que usar el modo de escritura. El siguiente ejemplo guarda un texto en un archivo, con el nombre `quijote.txt`:


In [1]:
texto = '''En un lugar de la Mancha, de cuyo nombre
 no quiero acordarme, no ha mucho tiempo que vivía
 un hidalgo de los de lanza en astillero, adarga
 antigua, rocín flaco y galgo corredor. Una olla
 de algo más vaca que carnero, salpicón las más
 noches, duelos y quebrantos los sábados, lentejas
 los viernes, algún palomino de añadidura los
 domingos, consumían las tres partes de su hacienda.'''
    
f = open('quijote.txt', 'w')  # w para escribir (write)
f.write(texto)
f.close()

In [2]:
!ls -la qui*

-rw-rw-r-- 1 jileon jileon 396 mar 16 14:55 quijote.txt


### Ejemplo de lectura de un archivo

Ahora que hemos creado un archivo, podemos realizar la operación inversa, leer el contenido del
archivo. Para ello abrimos el fichero, ahora en modo lectura, y leemos el contenido en una variable:

In [3]:
f = open('quijote.txt', 'r')  # r para leer (read)
a = f.read()
f.close()
print(a)

En un lugar de la Mancha, de cuyo nombre
 no quiero acordarme, no ha mucho tiempo que vivía
 un hidalgo de los de lanza en astillero, adarga
 antigua, rocín flaco y galgo corredor. Una olla
 de algo más vaca que carnero, salpicón las más
 noches, duelos y quebrantos los sábados, lentejas
 los viernes, algún palomino de añadidura los
 domingos, consumían las tres partes de su hacienda.


## Apertura de ficheros con with

Un error muy común es olvidarse de cerrar un archivo. Como se ha comentado, un
archivo abierto consume recursos del sistema, así que es conveniente
cerrarlo lo más pronto posible. Esta es una circustancia muy común en informática: 
se adquiere un recurso (En este caso, el archivo), se hace uso del mismo y a continuación se cierra o libera. Hay una cierta simetría en estas operaciones, en el sentido
de que para cada `open` debería haber, en algún lugar, el `close` correspondiente.

Python ha creado una estructura de datos para resolver este problema que se llama `with`. Usando este sistema el cierre del archivo se realiza automáticamente y, por tanto, es imposible que se nos olvide. 

Por ejemplo, el código anterior se podría reescribir así:

In [4]:
with open('quijote.txt', 'r') as f:
    a = f.read()
print(a)

En un lugar de la Mancha, de cuyo nombre
 no quiero acordarme, no ha mucho tiempo que vivía
 un hidalgo de los de lanza en astillero, adarga
 antigua, rocín flaco y galgo corredor. Una olla
 de algo más vaca que carnero, salpicón las más
 noches, duelos y quebrantos los sábados, lentejas
 los viernes, algún palomino de añadidura los
 domingos, consumían las tres partes de su hacienda.


La sentencia `with` funciona así: Se ejecuta el bloque de código asociado, es decir, ejecuta todas las líneas que vengan a continuación y que estén indentadas. Cuando termine, realiza las operaciones de mantenimiento que corresponda; en este caso, el open de la primera línea informa al sistema que se debe realizar un `close` al terminar.

De esta forma el código es más sencillo de leer (Nos ahorramos una línea) y ganamos que el `close` se va a realizar siempre, no se nos puede olvidar, ya que se ejecutará automáticamente.

## Como se modifica el contenido de un archivo

El sistema de archivos está pensado como sistema de almacenamiento, así que solo
permite las operaciones de escritura o lectura. Normalmente, para modificar el contenido de un fichero, se lee el contenido en memoria, se modifica y luego se almacena de nuevo.

Una excepción a esto son los ficheros de registro o log. En estos ficheros las operaciones
son de escritura pero siempre al final del archivo. Para esto se implemente un tercer modo adicional a los que ya habiamos vista; ademas de poder abrir un archivo para lectura (modo `r` de _read_) o para escritura (modo `w` de _write_), también se puede abrir para añadir contenido (mode `a` de _append_), de forma que si escribimos al archivo, lo que escribimos se añadirá al final del archivo, en vez de sustituir el contennido total. Veamoslo con otr ejemplo, esta vez usando ya la sentencia `with` vista anteriormente para ahorrame el `close`.

In [5]:
parrafo_2 = '''
El resto della concluían sayo de velarte, calzas de velludo
 para las fiestas con sus pantuflos de lo mismo, los días
 de entre semana se honraba con su vellori de lo más fino.
 Tenía en su casa una ama que pasaba de los cuarenta, y
 una sobrina que no llegaba a los veinte, y un mozo de
 campo y plaza, que así ensillaba el rocín como tomaba
 la podadera.
'''
with open('quijote.txt', 'a') as f:
    f.write(parrafo_2)

Si volvemos a leer el archivo ahora, vemos que el contenido nuevo se ha añadido al contenido inicial:

In [6]:
with open('quijote.txt', 'r') as f:
    print(f.read())

En un lugar de la Mancha, de cuyo nombre
 no quiero acordarme, no ha mucho tiempo que vivía
 un hidalgo de los de lanza en astillero, adarga
 antigua, rocín flaco y galgo corredor. Una olla
 de algo más vaca que carnero, salpicón las más
 noches, duelos y quebrantos los sábados, lentejas
 los viernes, algún palomino de añadidura los
 domingos, consumían las tres partes de su hacienda.
El resto della concluían sayo de velarte, calzas de velludo
 para las fiestas con sus pantuflos de lo mismo, los días
 de entre semana se honraba con su vellori de lo más fino.
 Tenía en su casa una ama que pasaba de los cuarenta, y
 una sobrina que no llegaba a los veinte, y un mozo de
 campo y plaza, que así ensillaba el rocín como tomaba
 la podadera.



### Ejemplo: buscar palabras por rima consonante

En el fichero `data/spanish.txt` tenemos una lista de $174848$ palabras
en español. Podemos leer esta lista de palabras desde un archivo con el 
método `read`. Esto nos devolveria una variable de tipo texto con todo el contenido
del archivo:

In [7]:
with open('data/spanish.txt') as f:
    texto = f.read()
texto[0:255]

'a\nabacá\nabacera\nabaceras\nabaceria\nabacerias\nabacero\nabaceros\nabacial\nabaciales\nabad\nabadejo\nabadejos\nabadenga\nabadengas\nabadengo\nabadengos\nabades\nabadesa\nabadesas\nabadiato\nabadiatos\nabadía\nabadías\nabajamiento\nabajamientos\nabajeño\nabajeños\nabajo\nabalance\na'

**Nota:** En el texto vemos que hay una marca, representada como `\n`, que simboliza 
el salto de línea. 



Para este problema, es más comodo trabajar con una lista de líneas, y es fácil de obtener a partir de este texto con el método `split`. Este metodo de las cadenas de texto acepta como parámetro un caracter, divide el texto en partes usando el caracter pasado como punto de corte, y devulve una lista con cada sección de texto. Con un ejemplo se entiende mejor:

In [8]:
s = 'ABC:DEF:GHIJ'
l = s.split(':')
l

['ABC', 'DEF', 'GHIJ']

Así que si dividimos el texto usando como separador el salto de línea, obtenemos lo que queremos, una lista con todas las palabras del fichero. 

**Nota: ** este no es el método más eficiente, mirar el apéndice del final

In [9]:
palabras = texto.split('\n')
for palabra in palabras[0:5]:
    print(palabra)

a
abacá
abacera
abaceras
abaceria


**Ejercicio**: Listar las palabras que rimen (en rima consonante) con 'rizo'.

In [10]:
for palabra in palabras:
    if palabra[-4:] == 'rizo':
        print(palabra)

atemorizo
aterrizo
aterrorizo
autorizo
caballerizo
cabrerizo
caracterizo
caricaturizo
cauterizo
chorizo
cobrizo
desautorizo
desmilitarizo
desvalorizo
enterizo
erizo
exteriorizo
familiarizo
fronterizo
horrorizo
insonorizo
martirizo
motorizo
particularizo
pasterizo
popularizo
pulverizo
regularizo
rizo
secularizo
temporizo
terrizo
vaporizo
vaquerizo
vigorizo
vulgarizo


**Ejercicio:** Lo mismo pero con `erizo`:

In [11]:
for palabra in palabras:
    if palabra[-4:] == 'rizo':
        print(palabra)

atemorizo
aterrizo
aterrorizo
autorizo
caballerizo
cabrerizo
caracterizo
caricaturizo
cauterizo
chorizo
cobrizo
desautorizo
desmilitarizo
desvalorizo
enterizo
erizo
exteriorizo
familiarizo
fronterizo
horrorizo
insonorizo
martirizo
motorizo
particularizo
pasterizo
popularizo
pulverizo
regularizo
rizo
secularizo
temporizo
terrizo
vaporizo
vaquerizo
vigorizo
vulgarizo


**Ejercicio:** Hacer lo mismo, pero usando el método `endswith` de las cadenas de texto.

In [12]:
for palabra in palabras:
    if palabra.endswith('rizo'):
        print(palabra)

atemorizo
aterrizo
aterrorizo
autorizo
caballerizo
cabrerizo
caracterizo
caricaturizo
cauterizo
chorizo
cobrizo
desautorizo
desmilitarizo
desvalorizo
enterizo
erizo
exteriorizo
familiarizo
fronterizo
horrorizo
insonorizo
martirizo
motorizo
particularizo
pasterizo
popularizo
pulverizo
regularizo
rizo
secularizo
temporizo
terrizo
vaporizo
vaquerizo
vigorizo
vulgarizo


**Pregunta:** ¿Qué ventaja tendria usar el método `endswith` en vez de comparar usando slices?

**Apendice: Para leer un fichero como una lista de líneas de texto**
    
Normalmente, ala hora de trabajar con un fichero de texto, es 
más cómodo trabajar con una lista, donde cada elemento de la lista 
se corresponda con una de las lineas de texto del fichero. En el ejemplo
anterior usamos el método `split` para conseguir esto.

Afortunadamente, hay un método en el fichero, similar a `read`, pero que 
hace exactamente lo que queremos: divide el contenido del fichero en partes
usando como separador el salto de linea, y devuelve una lista con cada una 
de las líneas. Este método es `readlines`.

In [13]:
with open('data/spanish.txt', 'r') as f:
    words = f.readlines()

for w in words[0:5]:
    print(repr(w))

'a\n'
'abacá\n'
'abacera\n'
'abaceras\n'
'abaceria\n'


Tiene la pega de que todas las palabras incluyen el salto de línea del final, que a nosotros no nos sirve para nada, pero es fácil de eliminar usando el metodo `strip`.

In [14]:
with open('data/spanish.txt', 'r') as f:
    words = [l.strip() for l in f.readlines()]

for w in words[0:5]:
    print(repr(w))

'a'
'abacá'
'abacera'
'abaceras'
'abaceria'


Tienen la ventaja de que no carga el archivo entero en memoria (que podría ser inmenso) sino que va generando la lista línea a línea, por lo que el tamaño del archivo 
original no es problema.