# Introducción a la manipulación de Estructuras de Datos avanzadas con Pandas

> **Nota:** Este libro esta disponible de dos maneras
> 1. Descargando el repositorio y siguiendo las instrucciones que estan en el archivo [README.md](https://github.com/ramirezlab/CHEMO/blob/main/README.md)
> 2. Haciendo clic aquí en [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ramirezlab/CHEMO/blob/main/2_PART_TWO/2.1_Dataframes.es.ipynb)


## Librería Numpy

*Numpy* es una librería de Python fundamental para la computación científica. Entre sus características está la creación de arreglos multidimensionales, que se pueden tratar como vectores, y posee una gran rapidez a la hora de hacer operaciones matemáticas sobre los mismos. Lo cual la hace una herramienta necesaria para proyectos con requerimientos de alta computación y cálculo matemático y es por eso de su gran popularidad en el ecosistema científico.

### Operaciones matemáticas con Arreglos de Numpy

Para empezar, importaremos la librería y creamos nuestro primer Arreglo de Numpy, luego lo afectaremos con algunas operaciones matemáticas básicas. Es común renombrar la librería `Numpy` como `np`.


In [None]:
# Se importa la librería numpy. Por lo general el acrónimo para la librería numpy es np.
import numpy as np

# Se crea un arreglo de números
nums = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Se imprime el valor del arreglo
nums

**Vale la pena mencionar que un arreglo de Numpy se parece mucho a una lista nativa de Python.** La diferencia principal radica en el tipo de operaciones de orden matemático que se pueden realizar sobre un arreglo de la librería y las listas nativas de Python.

Tomemos como punto de partida la suma de dos arreglos de `Numpy`, comparado con una suma de listas de Python:

In [None]:
# Se imprime la suma del arreglo de Numpy
nums + nums

Se mantuvo el tamaño de la lista, pero sus elementos fueron sumados, y es aquí el potencial y la simpleza de los arreglos de `Numpy`, y el porque de su basto uso en el mundo científico.

Miremos un código equivalente con una lista nativa de Python:

In [None]:
# Lista por compresión con adición de sus elementos
lista_nums = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[x + x for x in lista_nums]

No creemos que sea complicado estar creando *listas de comprensión* de Python, pero claramente se reducirían las líneas de código en nuestro programa usando los arreglos de **Numpy**. Y sería imposible lograrlo si necesitamos sumar dos listas.

Los *arreglos de Numpy* también pueden realizar las demás operaciones siguiendo el mismo modelo:

```markdown
<arreglo_numpy> <operacion (+, -, *, /)> <arreglo_numpy>
```
*Tengamos cuidado con la división si hay ceros en el denominador, recordemos que no es posible dividir entre cero, en tal caso saldría un error*

Ahora, para ver el potencial de los arreglos de Numpy, ¿qué pasaría si intentamos sumar dos arreglos de tamaño $n$, hablemos de arreglos de $10000000$ elementos?

In [None]:
#Se importa la libreria de Numpy
import numpy as np

#Se crean dos arreglos con 1 millón de elementos, en donde cada elemento tiene un valor aleatorio entre 0-10
x = np.random.choice(10, 10000000)
y = np.random.choice(10, 10000000)

print(x * y)

¿Lo vieron? La multiplicación tomo tan solo milisegundos. Y es ahí donde usar la librería vale la pena.

##  Introducción a las Series de Pandas

Antes de hablar de Dataframes es importante que hagamos un pequeño repaso sobre las **Series**, al mismo tiempo empezaremos a interactuar con la librería de Pandas.

**`Pandas`** es una librería de Python (Al igual que `Numpy`), que se caracteriza por proveer estructuras de datos que son de rápido procesamiento, que son fáciles de expresar para hacer que el trabajo con datos relacionales sea muy fácil e intuitivo. [Mas info aqui](https://pandas.pydata.org/docs/getting_started/overview.html)

¿Qué es una Serie? ¿Cómo se crea una Serie? Veamos las respuestas a estas preguntas:

Las Series son un tipo de estructura unidimensional *(1D)* muy parecida a un arreglo, con la característica de que podemos etiquetar en cierta medida sus datos a través de índices.

Para estudiar el potencial de las series vamos a interactuar con el archivo `iris.data` (./data/iris.data) que proviene del repositorio de datos de la [UCI Machine Learning](https://archive-beta.ics.uci.edu/).

In [None]:
import pandas as pd
import requests
from io import StringIO

# URL para el archivo iris.data
url = "https://raw.githubusercontent.com/ramirezlab/CHEMO/main/2_PART_TWO/data/iris.data"

# Obtener los datos de la URL
response = requests.get(url)
iris_data = response.text

# Crear un DataFrame de los datos obtenidos
serie_de_iris = pd.read_csv(StringIO(iris_data), header=None, names=["sepal_length", "sepal_width", "petal_length", "petal_width", "class"])

# Imprimir el DataFrame
print(serie_de_iris)

*De ahora en adelante siempre que queramos visualizar el contenido de una serie y/o un Dataframe usaremos el método `head`, el cual solo muestra los primeros datos y no todo el conjunto.*

Y así de fácil se construye una estructura de datos básica pero potente que nos da la libreria de *Pandas*. Exploremos lo que tenemos:

- Cada renglón es un arreglo de una dimensión con cinco elementos, se imprimieron $150$ filas, cada una con una lista de 5 elementos, más la columna de enumeración.

- Las *series* al igual que las listas y arreglos de *Numpy* poseen métodos y su manipulación también se logra por medio de indexación.


In [None]:
# Ejemplo 1: Se imprime los primeros datos de la serie utilizando el método head.
serie_de_iris.head()

Otro método útil es el método `index`, devuelve la lista de índices y su rango.

In [None]:
# Se imprimen los indexes del arreglo, en este caso hace referencia a la primera columna
serie_de_iris.index

Que tal si quisieramos acceder a los elementos de la posicion $120$ en adelante:

In [None]:
# Se imprimen los elementos desde la posición 120 en adelante
serie_de_iris[120:]

Como una *Serie* es una arreglo de una dimensión *(1D)*, cada fila contiene toda la información devuelta por el dataset original, representada en un arreglo nativo de *Python* para su manipulación. **Técnicamente esto hace que sea difícil** la manipulación de los datos al interior de cada serie (por ejemplo, hallar la media de la primera columna, lo que conlleva a que desperdiciemos las funcionalidades nativas de una Serie, porque tendríamos que crear una serie por cada columna de datos, luego serie ineficiente.

Veamos un ejemplo de cómo extraer los valores de la primera columna en cuestión, para esto, comenzamos cargando nuevamente el dataset original pero esta vez solo tomamos la primera columna:

In [None]:
import pandas as pd
import requests

# URL para el archivo iris.data
url = "https://raw.githubusercontent.com/ramirezlab/CHEMO/main/2_PART_TWO/data/iris.data"

# Obtener los datos de la URL
response = requests.get(url)
iris_data = response.text

# Se limpia el dataset y se construye la serie a partir del arreglo generado por el `split`
iris_dataset = iris_data.split('\n')

# Se extrae del dataset la primera columna y se convierte sus datos a tipo float
iris_dataset = [float(j[0]) if j[0] != '' else 0 for j in [i.split(',') for i in iris_dataset]]

# Se crea la serie con los datos del dataset
serie_de_iris_col_1 = pd.Series(iris_dataset)

# Se imprime la serie con la primera columna del dataset
print(serie_de_iris_col_1)

Y ahora si podemos encontrar algunas estadísticas como la media de todos los valores, y usaremos *Numpy* para esto:

In [None]:
import numpy as np

# Se calcula la media de la serie a partir del metodo mean de numpy
print('Tamaño promedio los datos:')
np.mean(serie_de_iris_col_1)

Debido a las limitaciones de las *Series (como lo vimos previamente)* tendremos que dar paso a una nueva estructura de datos, y es aquí en donde los *Dataframes* entran en juego. Pero, ¿qué tal si primero describimos las columnas que vienen de nuestro dataset?

De acuerdo con la descripcion encontrada en la página sabemos que tiene la siguiente estructura:

| No. |      Columna         |  Tipo de dato | Posibles Valores                                |
|-----|:--------------------:|--------------:|:------------------------------------------------|
| 1   |  longitud del sepalo | float/cm      | Positivos                                       |
| 2   |    ancho del sepalo  |   float/cm    | Positivos                                       |
| 3   |  longitud del petalo |    float/cm   | Positivos                                       |
| 4   |   ancho del petalo   |    float/cm   | Positivos                                       |
| 5   |    clase             | string/texto  | Iris Setosa, Iris Versicolour,  Iris Virginica  |

Es momento de que modifiquemos la *Serie*, y la convirtamos en un *Dataframe* y usemos a nuestro favor todo su potencial.

##  Introducción a los DataFrames

Un *DataFrame* es un arreglo de $n$ dimensiones de datos estructurados que puede almacenar datos de diferentes tipos. Si, es como una hoja de cálculo o una tabla de una base de datos.

Los DataFrame son más comunes que las Series *(Aparecen por todos lados en la computación científica, en el análisis y visualización de datos y entre otros)*  y es por esta razón que serán objeto de estudio en la práctica.

Por lo general se puede crear un `DataFrame` desde diferentes fuentes de datos, pero en esta ocasión seguiremos usando el dataset de los [`iris`](./data/iris.data).


In [None]:
import pandas as pd
import requests
from io import StringIO

# URL para el archivo iris.data
url = "https://raw.githubusercontent.com/ramirezlab/CHEMO/main/2_PART_TWO/data/iris.data"

# Obtener los datos de la URL
response = requests.get(url)
iris_data = response.text

# Convertir los datps en un DataFrame
column_names = ["long_sepalo", "ancho_sepalo", "long_petalo", "ancho_petalo", "clase"]
df_iris = pd.read_csv(StringIO(iris_data), names=column_names)

# Imprimir los primeros 5 elementos del DataFrame
print(df_iris.head())

*Nota: de ahora en adelante siempre que queramos importar el contenido de un dataset local usaremos el método `read_csv` de la librería de Pandas.*

Como vimos fue muy fácil construir el `DataFrame`, ahora, ¿qué tal si lo manipulamos?, podríamos contestar preguntas del tipo: ¿cuántas clases de iris tenemos?, ¿cuál es el tamaño promedio de la longitud del pétalo?, ¿para todas las clases o para una en particular? Veamos cómo se hace:

Si queremos trabajar con la primera columna, podemos hacerlo fácimente de esta manera:

In [None]:
df_iris['long_sepalo'].head()

Los elementos de la columna se almacenan como una `Serie`, con la que se puede operar fácilmente, por ejemplo encontrar el promedio de la longitud del sépalo.

In [None]:
### Ejemplo 1: Promedio de Longitud del Sépalo sin importar la clase
mean_long_sepalo = np.mean(df_iris['long_sepalo'])
print('Tamaño promedio del pétalo de las iris:')
print(mean_long_sepalo)

Eso fue sencillo, hallar la media de $150$ filas y con ello, darle un poquito más de significado al dataset.

Los *Dataframe* tienen muchos métodos que permiten operar, manipular, agrupar, filtrar los datos, entre otros. Veamos algunos de los más importantes:

* **groupby**: sirve para agrupar las filas en torno al valor de alguna de sus columnas
* **assign**: sirve para agregar nuevas columnas a partir de los valores de otras
* **query**: sirve para filtrar el dataset a partir de alguna condición *(Como por ejemplo el valor de una columna)*
* **filter**: filtra un Dataframe por columnas o filas de acuerdo con sus etiquetas en los índices. *(En buena medida, como el método `query` pero el filtro se basa en los índices)
* **value_counts()**: sirve para contar cuantos valores en una columna

¿Y ahora qué tal si calculamos la cantidad de clases de iris que tenemos? Veamos cómo se hace:

In [None]:
# Ejemplo 2: se hace uso del método groupby para agrupar el dataframe por la columna clase
print('El número de clases en el dataset es: ') 
len(df_iris.groupby('clase'))

In [None]:
# cuántos datos hay de cada clase
df_iris['clase'].value_counts()

Ahora vamos a darle paso a las respuestas de las preguntas faltantes, veamos cúál es la media de la longitud del pétalo para la clase de *Iris-setosa* por medio del método **query**:

In [None]:
# Ejemplo 2: Promedio de la Longitud del Pétalo para la clase Iris-setosa
df_iris_setosa = df_iris.query("clase == 'Iris-setosa'")
mean_long_petalo = np.mean(df_iris_setosa['long_petalo'])
print('Tamaño promedio del pétalo de la clase Iris-setosa:')
print(mean_long_petalo)

Y ahora haremos uso del **Method Chain** para calcular un valor computado en una nueva columna usando el método `assign`, ¿que significa eso del Method Chain?, difícil traducirlo al español pero digamos que es la posibilidad de invocar diferentes métodos sobre un mismo objeto en una misma línea de código, separando cada uno por un punto `.`
 Un ejemplo es mejor que mil palabras:

In [None]:
# Ejemplo 3: Proporción computada del tamaño del pétalo para la clase Iris-virginica
# Primero se filtran los elementos de clase Iris-virginica, luego se crea una nueva columna donde se divide el ancho y la longitud del pétalo, finalmente se muestran solo los primeros cinco elementos.
df_iris.query('clase == "Iris-virginica"').assign(proporcion_petalo=lambda i: i['ancho_petalo'] / i['long_petalo']).head()

Y con esto logramos contestar las preguntas propuestas previamente. De forma que es fácil manipular un *DataFrame* al tiempo que jugamos con sus datos.

## Más sobre los DataFrames


Para continuar con la práctica, sería bueno dar un pequeño repaso sobre las ideas de manipulación más básicas y estándar de los *DataFrames*. Lo haremos al mismo tiempo que encontraremos la *desviación estándar sobre la longitud de los pétalos* de la clase *Iris-versicolor*.

Este proceso demostrativo, de manipulación básica será paso a paso al mismo tiempo que nuevas columnas son agregadas, y para mayor comodidad trabajaremos con una porción del dataset original:

In [None]:
# Ejemplo 4: Calcular la desviación estándar del largo del pétalo para la clase Iris Versicolor
df_iris_versicolor = df_iris.query('clase == "Iris-versicolor"').copy()

# Se calcula la media del largo del pétalo
media_long_petalo = np.mean(df_iris_versicolor['long_petalo'])

# Se crea una columna con la resta de la media de cada largo del pétalo
df_iris_versicolor['long_petalo_minus_media'] = df_iris_versicolor['long_petalo'] - media_long_petalo

# Se crea una columna con la diferencia anterior al cuadrado
df_iris_versicolor['long_petalo_minus_media_square'] = (df_iris_versicolor['long_petalo'] - media_long_petalo)**2

# Se calcula la media elevada al cuadrado
media_long_petalo_error = np.mean(df_iris_versicolor['long_petalo_minus_media_square'])

# Se calcula desviación estándar
print(f'DevSt = {np.square(media_long_petalo_error)}')

# Se imprime el dataset
df_iris_versicolor

Como observamos, el cálculo fue bastante abrumador y es por esto por lo que los métodos previamente expuestos permiten de alguna forma que en tan pocas líneas de código se logre mucho.
Por ejemplo, podemos hacer lo mismo mucho más eficiente con el método `np.std()`. Tomando como parámetro la columna 'long_petalo'

In [None]:
devstd_long_petalo = np.std(df_iris_versicolor['long_petalo'])
print(f'DevSt = {devstd_long_petalo}')

# Práctica 1: Adquirir datos de ChEMBL

## Conceptos a trabajar
**[Uniprot](https://www.uniprot.org/):** Es una base de datos que busca proporcionar a la comunidad científica un recurso integral, de alta calidad y de libre acceso de secuencias de proteínas e información funcional<sup> **1** </sup>.

**[ChEMBL](https://www.ebi.ac.uk/chembl/):** Es una base de datos que contiene moléculas bioactivas, reune datos químicos, de bioactividad y genómicos<sup> **2** </sup>.

**Mitad de la concentración inhibitoria máxima (IC50):** Expresa la cantidad de fármaco necesaria para inhibir un proceso biológico a la mitad del valor no inhibido, es la medida más utilizada de la eficacia o potencia de un fármaco<sup> **3** </sup>.

**pIC50:** Es el logaritmo negativo en base diez del IC50, cuando las unidades de son **molares (M)**. Se usa para facilitar la comparación entre distintos IC50. También, es importante saber que a mayor pIC50 el fármaco tiene una mayor eficacia o mayor potencial<sup> **3** </sup>.

**Mitad de la concentración máxima efectiva (EC50):** Es la concentración efectiva para producir el 50% de la respuesta máxima, se usa para comparar las potencias de los fármacos. También, es importante saber que a menor valor del EC50 más potente será el fármaco. A esta medida también se le calcula el logaritmo negativo en base diez **(pEC50)** para facilitar su comprensión<sup> **4** </sup>.

**Constante de inhibición (Ki):** Es la concentración requerida para producir la mitad de la inhibición máxima, es útil para describir la afinidad de unión de una molécula a un receptor.

**SMILES (Simplified Molecular-Input Line-Entry System):** Es una notación de línea para describir estructuras químicas utilizando cadenas ASCII cortas<sup> **5** </sup>.

## Planteamiento del problema
Para una investigación queremos identificar los compuestos que actúan con un target específico, la proteína Glucógeno sintasa quinasa-3 beta, actúa como un regulador negativo en el control hormonal de la homeostasis de la glucosa, señalización Wnt y regulación de factores de transcripción y microtúbulos.

En esta práctica vamos a explorar y conocer los compuestos bioactivos de la proteína, sus estructuras y algunas características fisicoquímicas.

Para lo cual, usaremos la información que proporciona la base de datos **ChEMBL**, que nos permite filtrar y descargar los datos de bioactividad conocidos de los compuestos que interactúan con nuestro target de interés. Posteriormente, trabajaremos los datos en un ` DataFrame `, que nos permitirá organizarlos, visualizarlos y manipularlos fácilmente.

Lo primero que debemos hacer es conectarnos a **ChEMBL**, empleando la biblioteca **webresource client**

## Conectarse a la base de datos ChEMBL


In [None]:
!pip install chembl_webresource_client
!pip install rdkit

from chembl_webresource_client.new_client import new_client #Se importa la biblioteca webresource client que permite conectase a ChEMBL
import pandas as pd
import math
from rdkit.Chem import PandasTools

Se deben crear para el acceso a la API

In [None]:
targets = new_client.target
compounds = new_client.molecule
bioactivities = new_client.activity

## Datos del target 
Luego, debemos buscar el ID del target de interés en la base de datos Uniprot, que en este caso es Glucógeno sintasa quinasa-3 beta, ID: [P49841](https://www.uniprot.org/uniprot/P49841).

In [None]:
uniprot_id = 'P49841'
# Se toma sola alguna información de  ChEMBL que sea de interés
target_P49841 = targets.get(target_components__accession=uniprot_id) \
                     .only('target_chembl_id', 'organism', 'pref_name', 'target_type')
pd.DataFrame.from_records(target_P49841)

Vamos a seleccionar el target de interés `CHEMBL262` y guardar el ChEMBL-ID


In [None]:
# Seleccionar el target de interes
target = target_P49841[0]
print(f'El target de interés es: {str(target)}')

In [None]:
# Guardar el ChEMBL-ID
chembl_id = target['target_chembl_id']
print(f'El ChEMBL-ID de interés es: {chembl_id}')

## Datos de bioactividad

Ahora consultamos los datos de bioactividad que son de interés. Los pasos a seguir son:
1. Descargar y filtrar bioactividades para el target
    Los datos de bioactividad se van a filtrar de la siguiente manera:
        * Tipo de bioactividad: IC50, EC50, Ki
        * Relación: "="
2. Convertir los datos descargados en un data frame:
    Las columnas de interés son: `molecule_chembl_id`, `type`, `relation`, `pchembl_value`




In [None]:
# Primero, descargamos toda la base de datos
bioact_temp = bioactivities.filter(target_chembl_id = chembl_id)\
                      .filter(relation = '=') \
                      .only('molecule_chembl_id', 'type', 'relation', 'standar_value', 'standar_units', 'pchembl_value', )
df_bioact_temp = pd.DataFrame(bioact_temp)
# se re organizan las columnas
df_bioact_temp = df_bioact_temp[['molecule_chembl_id', 'type', 'relation', 'value', 'units', 'pchembl_value']]
df_bioact_temp

In [None]:
# Luego, filtramos por el tipo de actividad deseada
df_bioact = df_bioact_temp[(df_bioact_temp['type'] == 'IC50') |
                             (df_bioact_temp['type'] == 'EC50')|
                             (df_bioact_temp['type'] == 'Ki')]
print(f'Total de datos cargados: {len(df_bioact)}')

In [None]:
# primeros compuestos del dataframe
df_bioact.head()

Recordemos que el método `.head()` muestra los cinco primeros elementos del `dataframe`, sin embargo, podemos ver rápidamente qué elementos hay en las columnas *relation* y *type*.

In [None]:
df_bioact['relation'].value_counts()

In [None]:
df_bioact['type'].value_counts()

Ya que la columna *relation* tiene solo un tipo (esto se debe al filtro inicial de la base de datos), podemos quitarla:

In [None]:
df_bioact.pop('relation')
df_bioact.head()

### Limpiar los datos
Es posible que algunos compuestos tengan valores faltantes y también duplicados, ya que el mismo compuesto puede haber sido probado más de una vez (nosotros nos quedaremos solo con el que primero haya sido probado)

In [None]:
# Primero verificamos cuantos compuestos tenemos en total
ori_len = len(df_bioact)
print(f'Total de compuestos originales es: {ori_len}')

In [None]:
# Se eliminan los compuestos que no tienen pChEMBL_value
df_bioact = df_bioact.dropna(axis=0, how = 'any')
new_len = len(df_bioact)
print(f'Total de compuestos después de eliminar aquellos con datos faltantes: {new_len}')
# Se le resta al número total de compuestos el número total de compuestos al eliminar los que no tienen pChEMBL_value
print(f'Total compuestos eliminados {ori_len - new_len}')
ori_len = new_len

In [None]:
# Se eliminan los compuestos duplicados y nos quedamos con el primer compuesto probado
df_bioact = df_bioact.drop_duplicates('molecule_chembl_id', keep = 'first')
new_len = len(df_bioact)
print(f'Total de compuestos sin duplicados : {new_len}')
# Se le resta al número total de compuestos al eliminar los que no tienen pChEMBL_value el número total de compuestos sin duplicados
print(f'Total compuestos eliminados {ori_len - new_len}')
ori_len = new_len

In [None]:
df_bioact.head()

Ahora que hemos eliminado algunas filas restableceremos el índice para que este sea continuo

In [None]:
df_bioact.reset_index(drop=True, inplace=True)
df_bioact.head()

### Organizar los datos
Vamos a organizar el DataFrame de mayor a menor pchembl_value. Notemos que los valores de la columna no son numéricos

In [None]:
print(df_bioact['pchembl_value'][0],type(df_bioact['pchembl_value'][0]))

Por tanto, primero debemos convertirlos en tipo `float`.

In [None]:
df_bioact['pchembl_value'] = df_bioact['pchembl_value'].astype(float)
print(df_bioact['pchembl_value'][0],type(df_bioact['pchembl_value'][0]))

Ahora procedemos a organizar el DataFrame

In [None]:
# Organizamos de mayor a menor pchembl_value
df_bioact.sort_values(by="pchembl_value", ascending=False, inplace=True)
# Restablecemos el índice
df_bioact.reset_index(drop=True, inplace=True)
# Imprimimos los primeros datos del Dataframe
df_bioact.head()

### Guardar y cargar los datos
Para continuar usando el Data Frame en la práctica sin necesidad de siempre estarnos conectando a ChEMBL, vamos a guardar el Data Frame obtenido como un archivo separado por comas (data/compuestos_uniprot_id.csv)

In [None]:
!mkdir -p ./data
df_bioact.to_csv(f"./data/compounds_{uniprot_id}.csv", index=0)

En adelante, si queremos utilizar el Dataframe, podemos cargar el archivo guardado

In [None]:
url = 'https://raw.githubusercontent.com/ramirezlab/CHEMO/main/2_PART_TWO/data/compounds_P49841.csv'
df_bioact = pd.read_csv(url,parse_dates=[0])
df_bioact.head()

## Datos de los compuestos

A continuación vamos a obtener los datos de las moléculas que estan almacenados dentro de cada molecule_chembl_id

In [None]:
# Librería necesaria para comunicarse con CHEMBL
from chembl_webresource_client.new_client import new_client
# libreria para trabajar con base de datos (Dataframes)
import pandas as pd

# Declaración de variables para instanciar el cliente de CHEMBL y acceder a la base de datos de las moléculas
compounds = new_client.molecule

# Cargamos el archivo antes guardado
uniprot_id = 'P49841'

url = 'https://raw.githubusercontent.com/ramirezlab/CHEMO/main/2_PART_TWO/data/compounds_P49841.csv'
df_bioact = pd.read_csv(url,parse_dates=[0])

In [None]:
# Primero tenemos que obtener la lista de los compuestos que definimos como bioactivos
lista_comp_id = list(df_bioact['molecule_chembl_id'])
# Obtener la estructura de cada compuesto
lista_compuestos = compounds.filter(molecule_chembl_id__in = lista_comp_id) \
                            .only('molecule_chembl_id','molecule_structures')

Veamos la estructura de la información

In [None]:
lista_compuestos[0]

In [None]:
# Debemos convertir la lista obtenida en un dataframe. Esto puede tardar unos minutos
df_comp = pd.DataFrame(lista_compuestos)
# Eliminamos duplicados
df_comp = df_comp.drop_duplicates('molecule_chembl_id', keep = 'first')
print(f'Total de compuestos es: {str(len(df_comp))}')
df_comp.head()

Los compuestos tienen distintos tipos de representaciones como el SMILES, el InChI y el InChI Key. Nos interesa únicamente quedarnos con el SMILES, ya que describe la estructura química.

In [None]:
# Vamos a utilizar un ciclo for para iterar por cada renglón (df_comp.iterrows())
for i, cmpd in df_comp.iterrows():
    if df_comp.loc[i]['molecule_structures'] is not None:
        df_comp.loc[i]['molecule_structures'] = cmpd['molecule_structures']['canonical_smiles']
print(f'Total de compuestos: {len(df_comp)}')
df_comp.head()

### Limpiar las sales de los smiles
Si se revisa con detalle la representación de *smiles* de cada molécula, podemos ver que algunas tienen *sales* que se deben limpiar.
Primero filtremos las moleculas que tienen sales, usualmente se puede ver en los smiles porque tienen un punto en la cadena de texto:

In [None]:
df_comp[df_comp.molecule_structures.str.contains("\.")]

Es decir, de los 2658 compuestos iniciales, 67 tienen sales que deben ser limpiadas. Podemos utilizar un módulo de `rdkit` para limpiar sales llamado `rdkit.Chem.SaltRemover`.
Supongamos que queremos eliminar la sal del smile "CN1CCN(CCO/N=C2C(=C3/C(=O)Nc4cc(Br)ccc43)/Nc3ccccc3/2)CC1.Cl", se puede hacer los siguiente:

In [None]:
# librerías
from rdkit.Chem.SaltRemover import SaltRemover
from rdkit.Chem import MolFromSmiles, MolToSmiles

# Se carga el módulo para remover las sales
remover = SaltRemover()
# se convierte el smile a un objeto mol
mol = MolFromSmiles('Br.CCCCCc1n/c(=N\Cc2cccnc2)sn1-c1ccccc1')
# se remueve las sales (res=molécula, deleted=fragmento eliminado)
res, deleted = remover.StripMolWithDeleted(mol)
# se convierte el objeto mol a smiles nuevamente y se eliminan espacios en blanco
MolToSmiles(res).strip()

Ahora vamos a crear una función que haga este proceso para pasarla por el dataframe `df_comp`

In [None]:
def remover_sales(smile):
    remover = SaltRemover()
    mol = MolFromSmiles(smile)
    res, deleted = remover.StripMolWithDeleted(mol)
    return MolToSmiles(res)

Aplicamos la función a la columna de los smiles

In [None]:
df_comp['molecule_structures'] = df_comp['molecule_structures'].apply(remover_sales)
# Eliminar los espacios en blanco en los bordes de cada cadena en la columna "molecule_structures"
df_comp["molecule_structures"] = df_comp["molecule_structures"].str.strip()

Volvemos a buscar smiles que tengan sales para comprobar que la limpieza fue exitosa

In [None]:
df_comp[df_comp.molecule_structures.str.contains("\.")]

Ya limpiamos las sales de las moléculas, ahora debemos eliminar las moléculas con datos vacíos. Por ejemplo al limpiar la molécula "[Cl-].[Li+]" se eliminan las dos sales y la salida queda vacía `('')`. Para eliminar estos campos podemos utilizar `dropna` y filtrar por los que no son vacíos.

In [None]:
df_comp.dropna(subset=["molecule_structures"], inplace=True)
df_comp = df_comp[df_comp['molecule_structures'] != '']

Y ya tenemos el conjunto de moléculas limpias.

## Combinar los Dataframe

Ahora tenemos dos dataframes que vamos a combinar para tener todos los datos en uno solo dataframe y poder guardarlos

In [None]:
# En el Dataframe de bioactividad se filtran solamente dos columnas
df_output = pd.merge(df_bioact[['molecule_chembl_id','pchembl_value']], df_comp, on='molecule_chembl_id')
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

Se pueden renombrar las columnas

In [None]:
df_output = df_output.rename(columns= {'molecule_structures':'smiles'})
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

Para poder emplear la siguiente función de rdkit es necesario que todos los compuestos tengan SMILES, por esto eliminamos los compuestos sin SMILES en el dataframe

In [None]:
df_output = df_output[~df_output['smiles'].isnull()]
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

## Dibujar la molécula

Vamos a añadir una nueva columna al dataframe con la función `.AddMoleculeColumnToFrame` la cual convierte las moléculas contenidas en "smilesCol" en moléculas RDKit y las agrega al dataframe

In [None]:
PandasTools.AddMoleculeColumnToFrame(df_output, smilesCol='smiles')
df_output.head()

Ahora podemos llamar a cualquier compuesto para ver su representación en 2D

In [None]:
df_output.ROMol.iloc[0]

## Guardar el dataframe obtenido

Se va a guardar el dataframe como un archivo csv

In [None]:
!mkdir -p ./data
df_output.to_csv(f"data/compounds_{uniprot_id}_full.csv", index=0)

## Conclusiones
En esta práctica se empleó la base de datos ChEMBL para obtener datos de compuestos bioactivos frente a nuestro target de interés. Estos datos extraidos en forma de diccionarios y listas se convirtieron en un DataFrame el cual permite visualizar fácilmente la información obtenida. Además, se obtuvieron datos de los compuestos bioactivos, combinaron DataFrames, se renombraron columnas y se utilizó una herramienta de panda para añadir una nueva columna al DataFrame construido.

# Referencias
1. Coudert, E., Gehant, S., De Castro, E., Pozzato, M., Baratin, D., Neto, T., Sigrist, C. J. A., Redaschi, N., Bridge, A., The UniProt Consortium, Bridge, A. J., Aimo, L., Argoud-Puy, G., Auchincloss, A. H., Axelsen, K. B., Bansal, P., Baratin, D., Neto, T. M. B., Blatter, M.-C., … Wang, Y. (2023). Annotation of biologically relevant ligands in UniProtKB using ChEBI. Bioinformatics, 39(1), btac793. https://doi.org/10.1093/bioinformatics/btac793
2. Mendez, D., Gaulton, A., Bento, A. P., Chambers, J., De Veij, M., Félix, E., Magariños, M. P., Mosquera, J. F., Mutowo, P., Nowotka, M., Gordillo-Marañón, M., Hunter, F., Junco, L., Mugumbate, G., Rodriguez-Lopez, M., Atkinson, F., Bosc, N., Radoux, C. J., Segura-Cabrera, A., … Leach, A. R. (2019). ChEMBL: Towards direct deposition of bioassay data. Nucleic Acids Research, 47(D1), D930-D940. https://doi.org/10.1093/nar/gky1075
3. Aykul, S., & Martinez-Hackert, E. (2016). Determination of half-maximal inhibitory concentration using biosensor-based protein interaction analysis. Analytical Biochemistry, 508, 97-103. https://doi.org/10.1016/j.ab.2016.06.025
4. Waller, D. G., & Sampson, A. P. (2018). Principles of pharmacology and mechanisms of drug action. En Medical Pharmacology and Therapeutics (pp. 3-31). Elsevier. https://doi.org/10.1016/B978-0-7020-7167-6.00001-4
5. Daylight>cheminformatics. (2022). https://www.daylight.com/smiles/ 
