## Lectura y escritura de archivos

Siempre necesitamos leer y escribir archivos. Es la forma básica de interactuar con el resto del sistema, introducir y exportar datos para la "computación". Como en Python todo es un objeto, lo que tenemos es un "objeto manejador de archivos" . La forma más básica de obtener uno es con la función `open()` que se le dice la ruta al archivo y modo/s, que se especifican con 


       'r': lectura (default)
       'w': (sobre)escritura
       'a': agregar contenido al final 
       'x': para escribir, pero no sobreescribe si existe el path
       'b': modo binario
       't': modo texto (default)
       '+':	actualizar contenido
       



Vamos a leer un archivo de coordenadas en formato `.xyz`. La forma de estos archivos es:

`natoms`

`El1   x1   y1   z1`

`El2   x2   y2   z2`

`El3   x3   y3   z3`

`El4   x4   y4   z4`

...

Abrimos el archivo en modo lectura:

In [4]:
coords = open('benceno.xyz', 'r')

Pero `coords` es un **objeto**

In [6]:
type(coords)

_io.TextIOWrapper

Para leer las líneas hay varias opciones. Si el archivo no es muy pesado se puede cargar completamente en la memoria RAM, con el método `readlines()`

In [7]:
lines = coords.readlines()

In [8]:
lines #es una lista, cada elemento es una línea completa del archivo

['   12\n',
 'Geometry Step: 0\n',
 '    H      1.39607000      0.43074000      2.15996000      0.92968011\n',
 '    C      0.85913000      0.50351000      1.20875000      4.07031277\n',
 '    C     -0.53080000      0.56071000      1.19732000      4.07032900\n',
 '    H     -1.08772000      0.53293000      2.13935000      0.92967479\n',
 '    C     -1.21318000      0.65312000     -0.01143000      4.07031685\n',
 '    H     -2.30692000      0.69804000     -0.02044000      0.92969535\n',
 '    C     -0.50578000      0.68838000     -1.20876000      4.07032999\n',
 '    H     -1.04276000      0.76109000     -2.15990000      0.92966796\n',
 '    C      0.88412000      0.63113000     -1.19730000      4.07031927\n',
 '    H      1.44077000      0.65875000     -2.13946000      0.92967718\n',
 '    C      1.56654000      0.53873000      0.01143000      4.07031519\n',
 '    H      2.66024000      0.49368000      0.02049000      0.92968155\n',
 '   12\n',
 'Geometry Step: 1\n',
 '    H      1.399

In [9]:
len(lines) #número de líneas

112

In [10]:
lines[0]

'   12\n'

Obviamente la primera línea no es el número de átomos directamete, hay que hacerle unos cambios para poder leer de ahí el número. En primer lugar quitar el \n del final, esto se hace con el método `strip()`. También hay que convertirlo a entero, con la función `int`.

In [11]:
lines[0].strip()

'12'

In [12]:
natoms = int(lines[0].strip())

In [13]:
natoms

12

Luego sabemos que la línea 1 no contiene información útil. A partir de la línea 2, queremos guardar en listas el símbolo del elemento y las coordenadas. Aquí deberemos usar el método `split()`, que genera una lista separando todos los strings separados por espacios en la línea.   

In [16]:
linea2 = lines[2].strip().split()

In [17]:
linea2

['H', '1.39607000', '0.43074000', '2.15996000', '0.92968011']

In [20]:
linea2[0],float(linea2[1]),float(linea2[2]),float(linea2[3])

('H', 1.39607, 0.43074, 2.15996)

El método más fácil es generar listas vacías e ir guardando sucesivamente la información que se lea del archivo usando `append`. 

In [18]:
names = []
x = []
y = []
z = []

In [21]:
for idx in range(2,natoms+2):
    linea = lines[idx].strip().split()
    names.append(linea[0])
    x.append(float(linea[1]))
    y.append(float(linea[2]))
    z.append(float(linea[3]))

In [22]:
names

['H', 'C', 'C', 'H', 'C', 'H', 'C', 'H', 'C', 'H', 'C', 'H']

A todo esto lo podemos encapsular en una función a la que le demos el archivo y nos devuelva las listas:

In [25]:
def readCoords(filename):
    coords = open(filename, 'r')
    lines = coords.readlines()
    natoms = int(lines[0].strip())
    names = []
    x = []
    y = []
    z = []
    for idx in range(2,natoms+2):
        linea = lines[idx].strip().split()
        names.append(linea[0])
        x.append(float(linea[1]))
        y.append(float(linea[2]))
        z.append(float(linea[3]))
    return names, x, y, z

In [26]:
Bname, Bx, By, Bz = readCoords('benceno.xyz')

-------------------------------
Ahora supongamos que queremos **escribir** un archivo de coordenadas. Para eso abrimos un archivo en modo "write" y usamos el método `write` para escribir línea a línea, recordando introducir un salto de línea `\n` cuando corresponda.

Algo importante es saber escribir cadenas con números dándoles un formato. Esto se hace colocando llaves donde van los números, dentro de las cuales se indica el formato, y al final usando el método `format()` de las cadenas, rellenar esas llaves con los valores adecuados. Por ejemplo:

In [31]:
import math

In [34]:
ejemplo = 'El número pi con 10 cifras decimales es {:.10f}'.format(math.pi)
print(ejemplo)

El número pi con 10 cifras decimales es 3.1415926536


Ahora vamos a la escritura del archivo en sí:

In [49]:
outcoords = open('out_benceno.xyz', 'w')

In [50]:
outcoords.write('{}\n'.format(natoms))

3

In [51]:
outcoords.write('\n') # linea en blanco

1

In [None]:
for idx in range(natoms):
    outcoords.write('{} \t {:.15f} \t {:.15f} \t {:.15f} \n'.format(names[idx],2*x[idx],y[idx],z[idx]))

(`\t` quiere decir `<TAB>` )

In [53]:
outcoords.close()

In [56]:
!cat out_benceno.xyz

12

H 	 2.792140000000000 	 0.430740000000000 	 2.159960000000000 
C 	 1.718260000000000 	 0.503510000000000 	 1.208750000000000 
C 	 -1.061600000000000 	 0.560710000000000 	 1.197320000000000 
H 	 -2.175440000000000 	 0.532930000000000 	 2.139350000000000 
C 	 -2.426360000000000 	 0.653120000000000 	 -0.011430000000000 
H 	 -4.613840000000000 	 0.698040000000000 	 -0.020440000000000 
C 	 -1.011560000000000 	 0.688380000000000 	 -1.208760000000000 
H 	 -2.085520000000000 	 0.761090000000000 	 -2.159900000000000 
C 	 1.768240000000000 	 0.631130000000000 	 -1.197300000000000 
H 	 2.881540000000000 	 0.658750000000000 	 -2.139460000000000 
C 	 3.133080000000000 	 0.538730000000000 	 0.011430000000000 
H 	 5.320480000000000 	 0.493680000000000 	 0.020490000000000 
