# Persistencia de datos y módulos de biblioteca standard


## Escritura y lectura a archivos

Nuestros programas necesitan interactuar con el mundo exterior. Hasta ahora utilizamos la función `print()` para imprimir por pantalla mensajes y resultados. Para leer o escribir un archivo primero debemos abrirlo, utilizando la función `open()`

In [None]:
f = open('data/names.txt')      # Abrimos el archivo (para leer)

In [None]:
f

In [None]:
s = f.read()                    # Leemos el archivo

In [None]:
f.close()                       # Cerramos el archivo

In [None]:
print(s[:100])

Esta secuencia básica de trabajo en adecuada y muy común en el trabajo con archivos. Sin embargo, hay un potencial problema, que ocurrirá si hay algún error entre la apertura y el cierre del archivo. Para ello existe una sintaxis alternativa

In [None]:
with open('data/names.txt') as fi:
  s = fi.read()
print(s[:50])

In [None]:
# fi todavía existe pero está cerrado
fi

In [None]:
type(fi)

La palabra `with` es una palabra reservada del lenguaje y la construcción se conoce como *contexto*. Básicamente dice que todo lo que está dentro del bloque se realizará en el contexto en que `f` es el objeto de archivo abierto para lectura.

### Ejemplos

Vamos a repasar algunos de los conceptos discutidos las clases anteriores e introducir algunas nuevas funcionalidades con ejemplos

#### Ejemplo 05-1


In [None]:
fname = 'data/names.txt'
n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 4                      # longitud máxima

with open(fname, 'r') as fi:
  lines = fi.readlines()        # El resultado es una lista

print(type(lines))
print(len(lines))

In [None]:
lines[:3]

In [None]:
fname = 'data/names.txt'
n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 4                      # longitud máxima

with open(fname, 'r') as fi:
  lines = fi.readlines()        # El resultado es una lista

for line in lines:
  if minlen <= len(line.strip()) <= maxlen:
    n += 1
    print(line.strip(), end=', ')  # No Newline

print('\n')
if minlen == maxlen:
  mensaje = f"Encontramos {n} palabras que tienen {minlen} letras"
else:
  mensaje = f"Encontramos {n} palabras que tienen entre {minlen} y {maxlen} letras"

print(mensaje)


Hemos utilizado aquí:

* Apertura, lectura, y cerrado de archivos 
* Iteración en un loop `for`
* Bloques condicionales (if/else)
* Formato de cadenas de caracteres con reemplazo
* Impresión por pantalla

 La apertura de archivos se realiza utilizando la función `open` (este es un buen momento para mirar su documentación) con dos argumentos: el primero es el nombre del archivo y el segundo el modo en que queremos abrirlo (en este caso la `r` indica lectura).

Con el archivo abierto, en la línea 9 leemos línea por línea todo el archivo. El resultado es una lista, donde cada elemento es una línea.

Recorremos la lista, y en cada elemento comparamos la longitud de la línea con ciertos valores. Imprimimos las líneas seleccionadas

Finalmente, escribimos el número total de líneas.

Veamos una leve modificación de este programa

#### Ejemplo 05-2

In [None]:
"""Programa para contar e imprimir las palabras de una longitud dada"""

fname = 'data/names.txt'

n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 4                      # longitud máxima

with open(fname, 'r') as fi:
  for line in fi:
    p = line.strip().lower()
    if (minlen <= len(p) <= maxlen) and (p == p[::-1]):
      n += 1
      print(f"({n:02d}): {p}", end=', ')  # Vamos numerando las coincidencias
print('\n')
if minlen == maxlen:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen {minlen} letras"
else:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen entre {minlen} y {maxlen} letras"

print(mensaje)


Aquí en lugar de leer todas las líneas e iterar sobre las líneas resultantes, iteramos directamente sobre el archivo abierto.

Además incluimos un string al principio del archivo, que servirá de documentación, y puede accederse mediante los mecanismos usuales de ayuda de Python.

Imprimimos el número de palabra junto con la palabra, usamos `02d`, indicando que es un entero (`d`), que queremos que el campo sea de un mínimo número de caracteres de ancho (en este caso 2). Al escribirlo como `02` le pedimos que complete los vacíos con ceros.



In [None]:
"""Programa para contar e imprimir las palabras de una longitud dada"""

fname = 'data/names.txt'

n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 4                      # longitud máxima
L = []
with  open(fname, 'r') as fi:
  for line in fi:
    p = line.strip().lower()
    if (minlen <= len(p) <= maxlen) and (p == p[::-1]):
      n += 1
      #ss += f"\n{p}"  # ss += "\n" + p
      L.append(p)  # L += [p]
ss = " ".join(L)
if minlen == maxlen:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen {minlen} letras"
else:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen entre {minlen} y {maxlen} letras"

print(mensaje)

with open('data/tmp.txt','w') as fo:
    fo.write(ss)


## Módulo Pathlib

En la versión de Python 3.4 se agregó un módulo con definiciones de clases para representar *paths* y archivos, con representaciones para los distintos *filesystems*.


In [None]:
from pathlib import Path
home = Path().home()
here = Path(".")
print(home)
print(here)

In [None]:
parent = here / ".."

In [None]:
print(parent)

In [None]:
type(parent)

In [None]:
print(parent.resolve())

### Métodos y propiedades

El ejemplo anterior usa el método `resolve()` del objeto `Path()`. Veamos algunos otros:

In [None]:
# here y parent son ahora path completos
here = here.resolve()           
parent = parent.resolve()

In [None]:
here

In [None]:
parent

In [None]:
here.parent  # Propiedad

### Partes del *path*

In [None]:
here.parts

Podemos acceder a todas las carpetas que contienen el *path* actual simplemente iterando

In [None]:
for up in here.parents:
    print(up)

In [None]:
p = here / "05_1_inout.ipynb"
print(f'pathname : {p}')
print(f'path     : {p.parent}')
print(f'name     : {p.name}')
print(f'stem     : {p.stem}')
print(f'suffix   : {p.suffix}')

### Contenido de directorios

In [None]:
print(here)

In [None]:
for f in here.iterdir():
    print(f)

In [None]:
for f in here.glob('*.ipynb'):
    print(f)

El objeto tiene un iterador que nos permite recorrer todo el directorio. Por ejemplo si queremos listar todos los subdirectorios:

In [None]:
[x for x in direct.iterdir() if x.is_dir()]

Trabajo con rutas de archivos

In [None]:
print(direct.absolute())

In [None]:
p = direct / ".."
print(p)
print(p.resolve())

Podemos reemplazar el módulo `glob` utilizando este objeto:

In [None]:
for fi in sorted(direct.glob("0[1-7]*.ipynb") ):
    print(fi)

In [None]:
fi = direct / "programa_detalle.rst"
if fi.exists():
    s= fi.read_text()
    print(s)

### Leer un archivo

In [None]:
datos = here / 'data' / "names.txt"

In [None]:
type(datos)

In [None]:
datos.exists()

In [None]:
s = datos.read_text()

In [None]:
print(s[:50])

En este ejemplo leímos todo el archivo con un comando. 
En algunas ocasiones, por ejemplo si el archivo es muy largo, es preferible cada línea y procesarla antes de pasar a la siguiente.
El ejemplo anterior puede escribirse utilizando este módulo de una manera muy similar:

In [None]:
"""Programa para contar e imprimir las palabras de una longitud dada"""
from pathlib import Path
fname = Path(".")/ 'data'/'names.txt'
output = fname.parent / f"{fname.stem}_palindromo{fname.suffix}"
n = 0                           # contador
minlen = 3                      # longitud mínima
maxlen = 4                      # longitud máxima
L = []
with fname.open('r') as fi:
  for line in fi:
    p = line.strip().lower()
    if (minlen <= len(p) <= maxlen) and (p == p[::-1]):
      n += 1
      #ss += f"\n{p}"  # ss += "\n" + p
      L.append(p)  # L += [p]
ss = " ".join(L)
if minlen == maxlen:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen {minlen} letras"
else:
  mensaje = f"Encontramos un total de {n} palabras capicúa que tienen entre {minlen} y {maxlen} letras"

print(mensaje)

with output.open(mode='w') as fo:
    fo.write(ss)



## Archivos comprimidos

Existen varias formas de reducir el tamaño de los archivos de datos.  Varios factores, tales como el sistema operativo, nuestra familiaridad con cada uno de ellos, le da una cierta preferencia a algunos de los métodos disponibles. Veamos cómo hacer para leer y escribir algunos de los siguientes formatos: **zip, gzip, bz2** 


In [None]:
import gzip
import bz2

In [None]:
with gzip.open('data/palabras.words.gz', 'rb') as fi:
  a = fi.read()

In [None]:
l= a.splitlines()
print(l[:10])

In [None]:
l[0]

Con todo esto podríamos escribir (si tuviéramos necesidad) una función que puede leer un archivo en cualquiera de estos formatos

In [None]:
import gzip
import bz2
from os.path import splitext
import zipfile

def abrir(fname, modo='r'):
  if fname.endswith('gz'):
    fi= gzip.open(fname, mode=modo)
  elif fname.endswith('bz2'):
    fi= bz2.open(fname, mode=modo)    
  elif fname.endswith('zip'):
    fi= zipfile.ZipFile(fname, mode=modo)
  else:
    fi = open(fname, mode=modo)
  return fi

In [None]:
ff = abrir('data/palabras.words.gz')
a = ff.read()
ff.close()

## String, bytes y codificaciones


Vemos que el archivo tiene algunos caracteres que no podemos interpretar. Por ejemplo:

```python

l[0] = "b'\\xc3\\x81frica'"

```

Esto indica que la variable es del tipo "bytes".

Para todo tipo de variables, y en todos los lenguajes de programación, tenemos -por necesidad- dos representaciones:

 1. La representación que se hace en memoria, que consiste en una cadena de unos y ceros
 2. La representación que vemos nosotros, que depende del tipo de variable.

Para cada tipo de variable existe una convención de qué significa la cadena de 1s y 0s. Por ejemplo, para un número entero como el `3`, la representación interna es `11`.

En la memoria solamente se pueden guardar bytes, entonces para guardar cualquier tipo de dato debemos además de guardar la cadena de unos y ceros, tener la información de cual es la convención para codificarlo (codificación o *encoding*). Esto ocurre por ejemplo si queremos guardar una imagen, debemos convertirlo a una cadena de bytes utilizando algún tipo de *encoding* usando una convención (de `jpg`, o `png`, o ...).

En el caso de los números, enteros o punto flotante, la codificación que suelen utilizar los lenguajes de programación es bastante standard (IEEE), pero en el caso de lenguaje, ha ido evolucionando a lo largo del tiempo y las diferencias en las distintas convenciones son un poco más visibles.

Históricamente, los lenguajes de programación borronearon la distinción entre los caracteres y la manera de guardar estos caracteres, igualando implícita o explícitamente la secuencia de bytes con un caracter en la codificación ASCII.

En Python 3, existen las dos representaciones de un caracter:
 - Un *byte string* es una secuencia de bytes, necesario para guardar en una computadora y no para leer por personas.
 - Un *character string*, llamado usualmente "*string*", es una secuencia de caracteres que podemos leer pero que para guardar en memoria tiene que ser convertido a *byte string* utilizando una convención (*encoding*). Hay muchas convenciones, entre ellas ASCII o UTF-8.

In [None]:
str(l[0], encoding='utf-8')

El *encoding* es entonces nada más (y nada menos) que la convención que vamos a utilizar para interpretar una cadena de bytes.
Entonces, si utilizamos dos convenciones diferentes para la misma cadena de bytes podemos obtener diferentes palabras

In [None]:
mis_bytes = b'\xcf\x84o\xcf\x81\xce\xbdo\xcf\x83'

In [None]:
type(mis_bytes)

In [None]:
list(mis_bytes)

In [None]:
mis_bytes.decode('utf-16')

In [None]:
mis_bytes.decode('utf-8')

In [None]:
list(mis_bytes.decode('utf-8'))

In [None]:
type(mis_bytes.decode('utf-8'))

Volviendo a la lista de palabras que leemos del archivo, para convertir de *bytes* a *string* utilizamos el método `decode()` con la codificación adecuada:

In [None]:
l[0]

In [None]:
list(l[0])

In [None]:
l[0].decode('utf-8')

-----

## Ejercicios 07 (a)

1. Realice un programa que:
  * Lea el archivo **names.txt**
  * Guarde en un nuevo archivo (llamado "pares.txt") palabra por medio del archivo original (la primera, tercera, ...) una por línea, pero en el orden inverso al leído
  * Agregue al final de dicho archivo, las palabras pares pero separadas por un punto y coma (;)
  * En un archivo llamado "longitudes.txt" guarde las palabras ordenadas por su longitud, y para cada longitud ordenadas alfabéticamente.
  * En un archivo llamado "letras.txt" guarde sólo aquellas palabras que contienen las letras `w,x,y,z`, con el formato:
    - w: Walter, ....
    - x: Xilofón, ...
    - y: ....
    - z: ....
  * Cree un diccionario, donde cada *key* es la primera letra y cada valor es una lista, cuyo elemento es una tuple (palabra, longitud). Por ejemplo:
  ```python
  d['a'] = [('Aaa',3),('Anna', 4), ...]
  ```


2. Realice un programa para:
    * Leer los datos del archivo **aluminio.dat** y poner los datos del elemento en un diccionario de la forma:

    ```python
    d = {'S': 'Al', 'Z':13, 'A':27, 'M': '26.98153863(12)', 'P': 1.0000, 'MS':'26.9815386(8)'}
    ```
    
    * Modifique el programa anterior para que las masas sean números (`float`) y descarte el valor de la incerteza (el número entre paréntesis)
    * Agregue el código necesario para obtener una impresión de la forma:

    ``` 
    Elemento: Al
    Número Atómico: 13
    Número de Masa: 27
    Masa: 26.98154
    ```

Note que la masa sólo debe contener 5 números decimales

-----

--------

>**Nota:** Los archivos de texto "names.txt" y "aluminio.txt" (así como otros archivos usados en las clases) pueden encontrarse en la carpeta [intro-python](https://drive.google.com/drive/folders/1jv8qxgY9vVBw-3pBtFwjuQUH-C9aVGSR?usp=sharing)

--------
