<a href="https://colab.research.google.com/github/molecular-mar/molecular-mar.github.io/blob/master/Taller_PyQComp_S3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis y visualización de datos

## Manipulando datos de tablas con `pandas`

Antes de comenzar, cargemos de nuevo el archivo *data.zip* ([liga](https://molecular-mar.github.io/data.zip)). También debemos descomprimirlo:



In [None]:
!unzip data.zip

Es común que trabajemos con datos en formatos de tabla. Un formato de tabla común es el *comma separated values*, *.csv*. El archivo *distance_data_headers.csv* resulta de una simulación de 20 ns, con pasos de 2 fs, guardando la información de trayectoria cada 1000. Al final, contamos con 10,000 registros. Las trayectorias fueron generadas con AMBER, y finalmente las distancias y el archivo en cuestión fueron obtenidos con MDAnalysis.  

Importaremos de momento dos bibliotecas. La primera, `numpy`, contiene diversas herramientas para trabajar con arreglos como listas o matrices, incluyendo operaciones matemáticas especializadas (ej. para obtener valores y vectores propios).  

La segunda es `pandas`, que nos permite trabajar con tablas. Si bien podemos hacer esto solo con `numpy`, `pandas` puede resultar más intuitivo.




In [None]:
import numpy as np # la instrucción as sirve para indicar un alias
import pandas as pd

La función `pd.read_csv(distance_data_headers.csv)` nos permite leer directamente archivos *csv*.

In [None]:
tabla_distancias = pd.read_csv('distance_data_headers.csv')

In [None]:
tabla_distancias

In [None]:
# Para observar los tipos de nuestras columnas
tabla_distancias.dtypes

Algunas formas de acceder a los datos de la tabla:

In [None]:
# Seleccionar una columna
tabla_distancias['THR4_ATP']

In [None]:
# Seleccionar una fila (por indice)
tabla_distancias.loc[0]

In [None]:
# Seleccionar una fila (por posicion)
tabla_distancias.iloc[0]

In [None]:
# Seleccionar una fila (por posicion)
tabla_distancias.iloc[0]

In [None]:
# Un elemento de una columna
tabla_distancias['THR4_ATP'][0]

In [None]:
# Un fragmento de tabla
tabla_distancias[['THR4_ATP','TYR6_ASP']][0:4]

In [None]:
# Primeras o últimas lineas
print(tabla_distancias.head()) # Primeras
print(tabla_distancias.tail()) # Últimas

Podemos hacer ciertos análisis estadísticos:

In [None]:
# Podemos calcular el promedio
tabla_distancias.mean()

In [None]:
# Para una descripcion completa
tabla_distancias.describe()

In [None]:
# len solo nos regresa el numero de filas
len(tabla_distancias)

In [None]:
print(tabla_distancias.size)# Numero total de elementos
print(tabla_distancias.shape)# Dimensiones de la tabla

In [None]:
# Hay otras operaciones posibles.
tabla_distancias['TYR6_ATP'].sum()

In [None]:
# Escalemos las distancias:
tabla_distancias['THR4_ASP'] * 0.5

## Graficas con matplotlib

Con los datos de nuestra tabla, o con datos de listas, podemos realizar gráficas. Para ello, importemos `matplotlib`:

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(tabla_distancias['TYR6_ASP'])

Podemos añadir diversas características a nuestra gráfica:

In [None]:
etiqueta = tabla_distancias['THR4_ASP'].name # Nombre de la columna
plt.figure(figsize=(12,8)) # Definimos las dimensiones del gráfico (en pulgadas)
plt.xlabel('Frame') # Titulo eje x
plt.ylabel('Distancia (angstrom)') # Titulo eje y
# Nota el efecto de label
fig_1 = plt.plot(tabla_distancias['THR4_ASP'], label=etiqueta)
plt.legend() # Para incluir el recuadro de leyendas

plt.savefig(f'{etiqueta}.png', dpi=300) # Para guardar el grafico. dpi para aumentar calidad

Grafiquemos mas de una columna:

In [None]:
etiquetas = tabla_distancias.columns # Nombres de la columnas
plt.figure(figsize=(8,8))
plt.xlabel('Frame')
plt.ylabel('Distancia (angstrom)')
plt.plot(tabla_distancias['THR4_ATP'], label=etiquetas[1])
plt.plot(tabla_distancias['THR4_ASP'], label=etiquetas[2])
plt.legend()

La gráfica con todos los valores y la gráfica cada 100 pasos:

In [None]:
# Varios detalles a notas:
# Usamos iloc para usar notación de indices en lugar del nombre de columna
# '--' para usar una linea recortada en la gráfica
# En las rebanadas, podemos incluir un tercer valor para indicar el tamaño
# del paso.
plt.plot(tabla_distancias.iloc[:,0], tabla_distancias.iloc[:,1],'--')
plt.plot(tabla_distancias.iloc[0::100,0], tabla_distancias.iloc[0::100,1])

Gráficos múltiples:

In [None]:
headers = tabla_distancias.columns
#Con la siguiente linea definimos cuántos subgráficos tendremos
fig, ax = plt.subplots(len(headers)-1, 1, figsize=(10, 10), sharey=True)

for col in range(1, len(headers)):
    sample = headers[col]

    ax[col-1].plot(tabla_distancias.iloc[0::100,0], tabla_distancias.iloc[0::100,col], label=sample)
    ax[col-1].set_xlabel('Frame')
    ax[col-1].set_ylabel('Distancia (angstrom)')
    ax[col-1].legend()


# Visualizando estructuras con py3Dmol

Hay algunas bibliotecas que nos permiten visualizar nuestros sistemas, similar a Jmol o VMD. Aquí veremos la opción de py3Dmol, que es una implementación de la biblioteca 3Dmol de Javascript.

Para comenzar, es necesario que instalemos esta biblioteca: el resto de bibliotecas que hemos usado están disponibles por default en Colab.

Para instalar una biblioteca:

```python
!pip install biblioteca
```

In [None]:
# Intenta cargar la biblioteca sin instalarla
import py3Dmol

In [None]:
!pip install py3Dmol

In [None]:
import py3Dmol

Vamos a cargar el archivo *buckminsterfullerene.xyz*. Puedes cambiar solo la ruta para ver otra molécula.

In [None]:
# Ruta al archivo
archivo_xyz = '/content/buckminsterfullerene.xyz'
with open(archivo_xyz) as in_file:
    molecula = "".join([x for x in in_file])

In [None]:
# Creamos una vista
view = py3Dmol.view(width=400, height=300)
# Agregamos nuestro sistema. Podemos especificar el formato.
view.addModel(molecula,'xyz')
# Añadimos información sobre el estilo
view.setStyle({"stick":{}})
view.setBackgroundColor('0xeeeeee')
view.zoomTo()
view.show()

Otros formatos que puede interpretar son *.pdb* y *.mol*. También es posible consultar directamente las bases de datos PDB y PubChem, usando:



```
query=’pdb:pdb-id‘

query=’cid:pubchem-id‘
```



In [None]:
p = py3Dmol.view(query='mmtf:1ycr')
p.setStyle({'cartoon': {'color':'spectrum'}})
p