<a href="https://colab.research.google.com/github/molecular-mar/molecular-mar.github.io/blob/master/Taller_PyQComp_S2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lectura de archivos

## Trabajando con archivos

Una de las tareas más comunes al realizar investigación es el análisis de datos. La salida de los programas de Química Computacional contienen grandes cantidades de información, tanto numérica como textual, que necesitamos analizar. Podemos auxiliarnos de Python para realizar estas tareas.

### Archivos en el equipo / Comandos

Podemos ver nuestros archivos usando el comando `ls`. *NOTA:* Este comando es un comando de la terminal, no de Python, pero funciona de forma directa en las Jupyter Notebooks.

In [None]:
  ls sample_data

No todos los comandos de la terminal pueden usarse de esta forma. Para usar otros, es necesario incluir `!` al inicio.

In [None]:
!ls sample_data
!pwd

De momento no tenemos archivos de interés en nuestra *máquina virtual*. Vamos a descargar algunos de la siguiente [liga](https://molecular-mar.github.io/data.zip).

Luego, seleccionemos el ícono de carpeta que encontramos a la izquierda. Podemos arrastrar nuestro archivo *zip*, y usando la siguiente celda descomprimirlo. También podríamos subir los archivos descomprimidos.


In [None]:
!unzip data.zip

Supongamos que deseamos usar el archivo *ethanol.out*, ubicado en la carpeta *outfiles*. Para ello haremos uso de una *biblioteca*, un compendio de código en Python con variables y funciones. Para poder usar una biblioteca usamos `import biblioteca`.

En específico, usaremos la biblioteca `os`, que incluye una función para definir una ruta de un archivo, `os.path.join`.

Si bien podríamos usar solo una variable string ('outfiles/ethanol.out'), `os.path.join` genera rutas adaptables al Sistema Operativo o OS donde ejecutamos el código (en Windows las rutas usan diagonales `\` en lugar de '/', entre otras diferencias).

In [None]:
import os

ethanol_file = os.path.join('outfiles', 'ethanol.out')
print(ethanol_file)

In [None]:
#Otro ejemplo de biblioteca
import math # Incluye funciones y variables matemáticas
print(math.pi)
print(math.sqrt(2))

Como habrás notado, para usar una función de una biblioteca importada debemos escribir el nombre de la biblioteca, seguido del nombre de la función, separando por un punto.

En el caso de `os.path.join`, podemos pensar que en la biblioteca `os` hay un grupo de funciones `path` que incluyen la función `join`.

## Lectura de archivos

Para leer un archivo, primero debemos abrirlo. La función `open(archivo,r)` genera un objeto de tipo *archivo* en el modo *lectura* (podemos abrirlo en otros modos, incluyendo *escritura*). Una forma de ver la documentación de una función es colocando el cursor sobre dicha función.

Una vez que abrimos que abrimos el archivo, asociandolo a una variable, podemos *leer* el archivo en su totalidad y almacenar su contenido. Esto podemos lograrlo usando la función `readlines()`, propia de los objetos tipo `archivo`, y guardando el resultado en una variable. Dicho resultado es una lista con el contenido linea por linea del archivo almacenado como `strings`.

Suele recomendarse abrir archivos usando `with open(archivo) as objecto_archivo:`, identando las acciones que se realizarán sobre el archivo, ya que de esta forma nos aseguramos de *cerrar* el archivo una vez que hemos terminado de usarlo.

In [None]:
with open(ethanol_file,"r") as outfile:
    data = outfile.readlines()

In [None]:
#Verifica el numero de lineas del archivo

## Buscando patrones

Podemos usar un ciclo For para buscar una linea que cumpla un cierto patrón. El operador lógico `texto in string` regresa `True` si en una *string* se encuentra un *texto* esperado. Busquemos *Final Energy* en el archivo de etanol:

In [None]:
for line in data:
    if 'Final Energy' in line:
        energy_line = line
        print(energy_line)


Imprimimos de esta manera el *string* de la linea correspondiente. Podemos dividir el *string* usando `string.split()`:

In [None]:
energy_line.split() # Por default se divide por espacios.

In [None]:
# El argumento de split determina que usamos para dividir.
energy_line.split(':')

Considerando que el formato de este archivo es estándar, podemos determinar que la energía siempre es el último elemento en la lista luego del `split`.

In [None]:
final_energy = energy_line.split()[-1]
print(final_energy) # Verifica el tipo, y cambialo de ser necesario

## Buscando número de linea

En general, necesitamos tener cierto conocimiento del archivo que deseamos analizar. El archivo *ethanol.out* tiene un bloque con la información de geometría del sistema, precedido por la linea: *Center X Y Z Mass*.

Podemos buscar en qué linea aparece un patrón dado. Para ello, usaremos el siguiente ciclo For:

In [None]:
for linenum, line in enumerate(data):
    if 'Center' in line:
        match_line = linenum
        print(linenum)
        print(line)

La función `enumerate(lista)` genera a partir de una lista un objeto que incluye además el índice de cada elemento. Esto nos permite tener un For sobre dos variables: `linenum`, que lleva el índice, y `line` que tiene el valor en la lista. Esto es viable porque ambas cantidades tienen el mismo número de elementos.


Podemos usar esta información para recuperar información respecto a esta linea:

In [None]:
print(data[match_line])
print(data[match_line+1])
print(data[match_line+2])

Para busquedas más elaboradas (por ejemplo, buscar lineas que comiencen con una letra mayuscula acompañada de tres números), podemos hacer uso de expresiones regulares. Para leer más al respecto, sigue esta [liga](https://www.w3schools.com/python/python_regex.asp).

# ❓Ejercicio sugerido

El archivo *sapt.out* tiene información sobre la energía de interacción de un complejo eteno-etino, reportando diferentes contribuciones: *electrostatics*, *induction*, *exchange* y *dispersion*.
* Lee por separado el archivo para identificar que patrón/patrones buscar.
* Imprime los valores de cada contribución, así como la suma de ellas.
* La salida de tu código debería ser algo similar a:

```
Electrostatics : -2.25850118 kcal/mol
Exchange : 2.27730198 kcal/mol
Induction : -0.5216933 kcal/mol
Dispersion : -0.9446677 kcal/mol
Total Energy : 1.4475602000000003 kcal/mol
```



# Leyendo varios archivos

Buscar y copiar un valor de un archivo *a mano* puede resultar sencillo, pero se complica si necesitamos analizar grandes cantidades de archivos. Un primer paso para realizar esto es tener nuestros archivos a analizar en un lugar común (no es indispensable, pero es de gran ayuda). En la carpeta *outfiles* tenemos distintos archivos de salida.

Primero, generaremos una ruta de archivo que contemple todos los archivos *.out* en el folder *outfiles*:

In [None]:
file_location = os.path.join('outfiles', '*.out') # Nota el comodin *
print(file_location)

Luego, usaremos una función de la biblioteca `glob`, lo que nos ayudará a recuperar las rutas de los archivos contemplados en *file_location*:

In [None]:
import glob
filenames = glob.glob(file_location)
print(filenames)

Ahora podemos recuperar la energía final de cada sistema:

In [None]:
#Ciclo sobre los archivos
for f in filenames:
    with open(f,'r') as outfile:
       data = outfile.readlines()
    #Ciclo sobre las lineas del archivo.
    for line in data:
        if 'Final Energy' in line:
            energy_line = line
            words = energy_line.split()
            energy = float(words[3])
            print(energy)


In [None]:
# Para incluir el nombre de la molecula
for f in filenames:
    # Recuperamos el nombre de la molecula
    # os.path.basename(f) regresa el nombre del archivo
    file_name = os.path.basename(f)
    # Usamos split para separar de la extension
    split_filename = file_name.split('.')
    molecule_name = split_filename[0]

    # Lectura del archivo
    with open(f,'r') as outfile:
       data = outfile.readlines()

    # Ciclo sobre las lineas
    for line in data:
        if 'Final Energy' in line:
            energy_line = line
            words = energy_line.split()
            energy = float(words[3])
            print(molecule_name, energy)


## Escritura en un archivo

Si deseamos escribir la información recuperada en un nuevo archivo, podemos usar `open`, con la opción `'w+'`. El simbolo *+* indica que el archivo se crearea si no existe.

También podemos usar *a* (append) en lugar de *w* (write). Con *a* agregaremos el nuevo contenido al final del archvo, mientras que con *w* sobrescribiremos el archivo.

```python
datafile = open('file_name.dat', 'w+')
```

Para no agregar un nivel extra de identación, usaremos `open` y `close` en lugar de `with` en este caso.

Python solo pude escribir *strings* a un archivo. Para generar una *string* formateada, podemos usar las *f-strings*:

In [None]:
# La f-string comienza por una f, seguida del texto entre comillas.
# En una f-string puedes usar variables entre llaves. Nota además
# los caracteres especiales \n (nueva linea) y \t (tabulador)
print(f'{molecule_name} \t {energy} \n')

Incluyendo la escritura del archivo, tendríamos:

In [None]:
# Abrimos el archivo a generar
datafile = open('energies.dat','w+')
for f in filenames:
    # Recuperamos el nombre de la molecula
    file_name = os.path.basename(f)
    split_filename = file_name.split('.')
    molecule_name = split_filename[0]

    # Leemos las lineas
    outfile = open(f,'r')
    data = outfile.readlines()
    outfile.close()

    # Ciclo sobre las lineas
    for line in data:
        if 'Final Energy' in line:
            energy_line = line
            words = energy_line.split()
            energy = float(words[3])
            datafile.write(F'{molecule_name} \t {energy} \n')
# Muy importante, cerrar el archivo.
datafile.close()


Observa el nuevo archivo generado.

In [None]:
ls -lrt

# ❓ Ejercicio sugerido

Localiza el archivo 03_Prod.mdout, el cuál es un archivo de salida de Amber.

En dicho archivo encontrarás información con el siguiente formato:

```
 NSTEP =      100   TIME(PS) =      20.200  TEMP(K) =   296.43  PRESS =  -300.8
 Etot   =     -4585.1049  EKtot   =      1129.2368  EPtot      =     -5714.3417
 BOND   =         1.5160  ANGLE   =         6.9846  DIHED      =        11.7108
 1-4 NB =         4.3175  1-4 EEL =        49.9911  VDWAALS    =       882.6741
 EELEC  =     -6671.5358  EHBOND  =         0.0000  RESTRAINT  =         0.0000
 EKCMT  =       583.7810  VIRIAL  =       786.8823  VOLUME     =     31270.0410
                                                    Density    =         0.6104
 Ewald error estimate:   0.3214E-03
 ------------------------------------------------------------------------------
```

Genera a partir de este archivo uno nuevo que contenga los valores de energía total (*Etot*).


