
## Escritura y lectura a archivos

Nuestros programas necesitan interactuar con el mundo exterior. Hasta ahora utilizamos la función `print()` para imprimir por pantalla mensajes y resultados. Para leer o escribir un archivo primero debemos abrirlo, utilizando la función `open()`

In [1]:
f = open('../data/names.txt')   # Abrimos el archivo (para leer)

In [2]:
f

<_io.TextIOWrapper name='../data/names.txt' mode='r' encoding='UTF-8'>

In [3]:
s = f.read()                    # Leemos el archivo

In [4]:
f.close()                       # Cerramos el archivo

In [6]:
print(s[:100])

Aaa
Aaron
Aba
Ababa
Ada
Ada
Adam
Adlai
Adrian
Adrienne
Agatha
Agnetha
Ahmed
Ahmet
Aimee
Al
Ala
Alain


Básicamente esta secuencia de trabajo es la que uno utilizará siempre. Sin embargo, hay un potencial problema, que ocurrirá si hay algún error entre la apertura y el cierre del archivo. Para ello existe una sintaxis alternativa

In [8]:
with open('../data/names.txt') as fi:
  s = fi.read()
print(s[:50])

Aaa
Aaron
Aba
Ababa
Ada
Ada
Adam
Adlai
Adrian
Adri


In [11]:
# fi todavía existe pero está cerrado
fi

<_io.TextIOWrapper name='../data/names.txt' mode='r' encoding='UTF-8'>

La palabra `with` es una palabra reservada del lenguaje y la construcción se conoce como *contexto*. Básicamente dice que todo lo que está dentro del bloque se realizará en el contexto en que `f` es el objeto de archivo abierto para lectura.

### Ejemplos

Vamos a repasar algunos de los conceptos discutidos las clases anteriores e introducir algunas nuevas funcionalidades con ejemplos

#### Ejemplo 03-1


In [12]:
!head ../data/names.txt # Muestro el contenido del archivo

Aaa
Aaron
Aba
Ababa
Ada
Ada
Adam
Adlai
Adrian
Adrienne


In [14]:
# %load scripts/03_ejemplo_1.py
#!/usr/bin/env python3

fname = '../data/names.txt'
n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 3                      # longitud máxima

with  open(fname, 'r') as fi:
  lines = fi.readlines()        # El resultado es una lista

for line in lines:
  if minlen <= len(line.strip()) <= maxlen:
    n += 1
    print(line.strip(), end=', ')  # No Newline

print('\n')
if minlen == maxlen:
  mensaje = 'Encontramos {} palabras que tienen {} letras'.format(n, minlen)
else:
  mensaje = 'Encontramos {0} palabras que tienen entre {1} y {2} letras'\
      .format(n, minlen, maxlen)

print(mensaje)


Aaa, Aba, Ada, Ada, Ala, Alf, Ama, Ami, Amy, Ana, Ann, Art, Bea, Ben, Bib, Bob, Bob, Bub, Bud, Cdc, Dad, Dan, Deb, Del, Did, Dod, Don, Dud, Eke, Eli, Ere, Eva, Eve, Eve, Ewe, Eye, Fay, Gag, Gay, Gig, Gil, Gog, Guy, Hal, Hon, Hsi, Huh, Hui, Hwa, Ian, Iii, Ima, Ira, Jan, Jay, Jef, Jem, Jen, Jim, Jin, Job, Joe, Jon, Jos, Jun, Kaj, Kay, Kee, Ken, Kim, Kit, Kyu, Lar, Lea, Lee, Len, Leo, Les, Lex, Lin, Liz, Lou, Luc, Lui, Lum, Mac, Mah, Mat, Max, May, Meg, Moe, Mum, Mwa, Nan, Ned, Non, Nou, Nun, Old, Ole, Pam, Pap, Pat, Pdp, Pep, Per, Pia, Pim, Pip, Pop, Pup, Raj, Ram, Ray, Reg, Rex, Ric, Rik, Rob, Rod, Ron, Roy, S's, Sal, Sam, Sho, Sid, Sir, Sis, Son, Spy, Sri, Ssi, Stu, Sue, Sus, Suu, Syd, Tad, Tai, Tal, Tao, Tat, Ted, Tex, The, Tim, Tip, Tit, Tnt, Tom, Tor, Tot, Uma, Una, Uri, Urs, Val, Van, Vic, Wes, Win, Wow, Zoe, Zon, 

Encontramos 166 palabras que tienen 3 letras


Hemos utilizado aquí:

* Apertura, lectura, y cerrado de archivos 
* Iteración en un loop `for`
* Bloques condicionesles (if/else)
* Formato de cadenas de caracteres con reemplazo
* Impresión por pantalla

 La apertura de archivos se realiza utilizando la función `open` (este es un buen momento para mirar su documentación) con dos argumentos: el primero es el nombre del archivo y el segundo el modo en que queremos abrilo (en este caso la `r` indica lectura).

Con el archivo abierto, en la línea 9 leemos línea por línea todo el archivo. El resultado es una lista, donde cada elemento es una línea.

Recorremos la lista, y en cada elemento comparamos la longitud de la línea con ciertos valores. Imprimimos las líneas seleccionadas

Finalmente, escribimos el número total de líneas.

Veamos una leve modificación de este programa

#### Ejemplo 03-2

In [15]:
# %load scripts/03_ejemplo_2.py
#!/usr/bin/env python3

"""Programa para contar e imprimir las palabras de una longitud dada"""

fname = '../data/names.txt'

n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 3                      # longitud máxima

with  open(fname, 'r') as fi:
  for line in fi:
    p = line.strip().lower()
    if (minlen <= len(p) <= maxlen) and (p == p[::-1]):
      n += 1
      print('({:02d}): {}'.format(n, p), end=', ')  # Vamos numerando las coincidencias
print('\n')
if minlen == maxlen:
  mensaje = ('Encontramos un total de {} palabras capicúa que tienen {} letras'.
             format(n, minlen))
else:
  mensaje = 'Encontramos un total de {} palabras que tienen\
 entre {} y {} letras'.format(n, minlen, maxlen)

print(mensaje)


(01): aaa, (02): aba, (03): ada, (04): ada, (05): ala, (06): ama, (07): ana, (08): bib, (09): bob, (10): bob, (11): bub, (12): cdc, (13): dad, (14): did, (15): dod, (16): dud, (17): eke, (18): ere, (19): eve, (20): eve, (21): ewe, (22): eye, (23): gag, (24): gig, (25): gog, (26): huh, (27): iii, (28): mum, (29): nan, (30): non, (31): nun, (32): pap, (33): pdp, (34): pep, (35): pip, (36): pop, (37): pup, (38): s's, (39): sis, (40): sus, (41): tat, (42): tit, (43): tnt, (44): tot, (45): wow, 

Encontramos un total de 45 palabras capicúa que tienen 3 letras


Aquí en lugar de leer todas las líneas e iterar sobre las líneas resultantes, iteramos directamente sobre el archivo abierto.

Además incluimos un string al principio del archivo, que servirá de documentación, y puede accederse mediante los mecanismos usuales de ayuda de Python.

Imprimimos el número de palabra junto con la palabra, usamos `02d`, indicando que es un entero (`d`), que queremos que el campo sea de un mínimo número de caracteres de ancho (en este caso 2). Al escribirlo como `02` le pedimos que complete los vacíos con ceros.



In [16]:
s = "Hola\n y chau"
with open('tmp.txt','w') as fo:
    fo.write(s)
    

In [17]:
!cat tmp.txt

Hola
 y chau


## Archivos comprimidos

Existen varias formas de reducir el tamaño de los archivos de datos.  Varios factores, tales como el sistema operativo, nuestra familiaridad con cada uno de ellos, le da una cierta preferencia a algunos de los métodos disponibles. Veamos cómo hacer para leer y escribir algunos de los siguientes formatos: **zip, gzip, bz2** 


In [18]:
import gzip
import bz2

In [19]:
fi= gzip.open('../data/palabras.words.gz')
a = fi.read()
fi.close()

In [20]:
l= a.splitlines()
print(l[:10])

[b'\xc3\x81frica', b'\xc3\x81ngela', b'\xc3\xa1baco', b'\xc3\xa1bsida', b'\xc3\xa1bside', b'\xc3\xa1cana', b'\xc3\xa1caro', b'\xc3\xa1cates', b'\xc3\xa1cido', b'\xc3\xa1cigos']


Con todo esto podríamos escribir (si tuviéramos necesidad) una función que puede leer un archivo en cualquiera de estos formatos

In [22]:
import gzip
import bz2
from os.path import splitext
import zipfile

def abrir(fname, mode='r'):
  if fname.endswith('gz'):
    fi= gzip.open(fname, mode=mode)
  elif fname.endswith('bz2'):
    fi= bz2.open(fname, mode=mode)    
  elif fname.endswith('zip'):
    fi= zipfile.ZipFile(fname, mode=mode)
  else:
    fi = open(fname, mode=mode)
  return fi

In [23]:
ff= abrir('../data/palabras.words.gz')
a = ff.read()
ff.close()

In [24]:
l = a.splitlines()

In [25]:
print(l[0])

b'\xc3\x81frica'


-----

## Ejercicios 05 (a)

1. Realice un programa que:
  * Lea el archivo names.txt
  * Guarde en un nuevo archivo (llamado pares.txt) palabra por medio del archivo original (la primera, tercera, ...) una por línea, pero en el orden inverso al leído
  * Agregue al final de dicho archivo, las palabras pares pero separadas por un punto y coma (;)
  * En un archivo llamado longitudes.txt guarde las palabras ordenadas por su longitud, y para cada longitud ordenadas alfabéticamente.
  * En un archivo llamado letras.txt guarde sólo aquellas palabras que contienen las letras `w,x,y,z`, con el formato:
    - w: Walter, ....
    - x: Xilofón, ...
    - y: ....
    - z: ....
  * Cree un diccionario, donde cada *key* es la primera letra y cada valor es una lista, cuyo elemento es una tuple (palabra, longitud). Por ejemplo:
  ```python
  d['a'] = [('Aaa',3),('Anna', 4), ...]
  ```


2. Realice un programa para:
    * Leer los datos del archivo **aluminio.dat** y poner los datos del elemento en un diccionario de la forma:
```python
    d = {'S': 'Al', 'Z':13, 'A':27, 'M': '26.98153863(12)', 'P': 1.0000, 'MS':26.9815386(8)'}
    ```
    * Modifique el programa anterior para que las masas sean números (`float`) y descarte el valor de la incerteza (el número entre paréntesis)
    * Agregue el código necesario para obtener una impresión de la forma:
```
    Elemento: Al
    Número Atómico: 13
    Número de Masa: 27
    Masa: 26.98154
```
      Note que la masa sólo debe contener 5 números decimales

-----