# Introducción a la manipulacion de Estructuras de Datos avanzadas con Pandas

## Introducción arreglos de Numpy

*Numpy* es una librearia fundamental para la computacion cientifica en Python. Entre sus caracteristicas esta la creacion de arreglos multidimensionales, que se pueden tratar como vectores, y posee una gran rapidez a la hora de hacer operaciones matematicas sobre los mismos. Lo cual la hace una libreria necesaria para proyectos con requerimientos de alta computacion y calculo matematico y es por eso de su gran popularidad en el ecosistema cientifico.

### Operaciones Matematicas con Arreglos de Numpy

Para empezar, importaremos la libreria y creamos nuestro primer Arreglo de Numpy, luego lo afectaremos con algunas operaciones matematicas:



In [2]:
# Se importa la libreria numpy y se renombra como es de constumbre a np. Por lo general el acronimo para la libreria numpy es np.
import numpy as np

# Se crea el arreglo de numeros del 1-10
nums = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Se imprime el valor del arreglo
nums

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

**Vale la pena mencionar que un array de Numpy se parece mucho a una lista de Python.** La diferencia principal radica en el tipo de operaciones de orden matematico que se pueden realizar sobre un arreglo de Numpy y las listas nativas de Python.

Tomemos como punto de partida la suma de dos arreglos de Numpy, comparado con una suma de Arreglos de Python:

In [3]:
# Se imprime la suma del arreglo de Numpy
nums + nums

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

Se mantuvo el tamano de la lista, pero sus elementos fueron sumados, y es aqui el potencial y la simpleza de los arreglos de *Numpy*, y porque de su basto uso en el mundo cientifico, miremos su codigo equivalente con las lista de Python:

In [4]:
# Lista por compresion con adicion de sus elementos
[x + x for x in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

No creemos que sea complicado estar creando *listas de comprension* de Python pero claramente se reducirian las lineas de codigo en nuestro programa usando los poderosos arreglos de **Numpy**. Y seria imposible lograrlo si necesitamos sumar dos listas.

Los *Arreglos de Numpy* tambien pueden realizar las demas operaciones siguiendo el mismo modelo:

```markdown
<arreglo_numpy> <operacion (+, -, *, /)> <arreglo_numpy>
```

*Tengamos cuidado con la division si hay ceros en el denominador*

Pero no hemos visto el potencial de los arreglos de Numpy, Que pasaria si intentamos sumar dos arreglos de tamano $n$, hablemos de Arreglos de $1,000.000$ de elementos?

In [6]:
#Se importa la libreria de Numpy
import numpy as np

#Se crean dos arreglos con 1 millon de elementos, en donde cada elemento tiene un valor entre 0-10
x = np.random.choice(10, 1000000)
y = np.random.choice(10, 1000000)

x * y

array([16,  0,  4, ...,  8,  0, 10])

Lo vieron? La multiplicacion tomo milisegundos. Y es ahi donde hace que usar la libreria valga la pena. 

##  Introducción a las Series de Panda

Antes de hablar de Dataframes es importante que hagamos un pequeno repaso sobre las **Series**, al mismo tiempo empezaremos a  interactuar con la libreria de Pandas.

**Panda** es una libreria de Python, que se caracteriza por proveer estructuras de datos que son de rapido procesamiento, que son faciles de expresar para hacer que el trabajo con datos relacionales sea muy facil e intuitivo. [Mas info aqui](https://pandas.pydata.org/docs/getting_started/overview.html)


Que es una Serie? Como se crea una Serie? Veamos las respuestas a estas preguntas:

Las Series son un tipo de estructura unidimensional *(1D)* muy parecida a un arreglo, con la caracteristica de que podemos etiquetar en cierda medida sus datos.

Para demostrar el potencial de las series vamos a interactuar con el archivo [iris.data](./data/iris.data) que proviene del repositorio de datos de la [UCI Machine Learning](ghttps://archive-beta.ics.uci.edu/).

In [38]:
import pandas as pd
#with open("data/iris.data", "r") as GEN:
 #   sec_CYP2C9 = GEN.read()

with open("data/iris.data", "r") as DATA:
    iris_dataset = DATA.read()

# Se limpia el dataset y se construye la serie a partir del arreglo generado por el `split` 
iris_dataset = iris_dataset.split('\n')
iris_dataset = [i.split(',') for i in iris_dataset]
serie_de_iris = pd.Series(iris_dataset)

# Se imprime la serie
serie_de_iris

0         [5.1, 3.5, 1.4, 0.2, Iris-setosa]
1         [4.9, 3.0, 1.4, 0.2, Iris-setosa]
2         [4.7, 3.2, 1.3, 0.2, Iris-setosa]
3         [4.6, 3.1, 1.5, 0.2, Iris-setosa]
4         [5.0, 3.6, 1.4, 0.2, Iris-setosa]
                       ...                 
147    [6.5, 3.0, 5.2, 2.0, Iris-virginica]
148    [6.2, 3.4, 5.4, 2.3, Iris-virginica]
149    [5.9, 3.0, 5.1, 1.8, Iris-virginica]
150                                      []
151                                      []
Length: 152, dtype: object

Y asi de facil se construye una estructura de datos basica pero potente que nos da la libreria de *Pandas*. Exploremos lo que tenemos:

La serie es como un arreglo de 1 dimension, (Ya lo sabiamos) y claramente es lo que vemos, se imprimieron aproximadamente $152$ filas cada una con 5 columnas, mas la columna de enumeracion. 

Las *series* al igual que las listas y arreglos de *Numpy* poseen metodos y su manipulacion tambien se logra por medio de indexacion.


In [16]:
# Se imprimen los indexes del arreglo, en este caso hace referencia a la primera columna
serie_de_iris.index

RangeIndex(start=0, stop=152, step=1)

In [None]:
Que tal si quisieramos acceder a los elementos de la posicion $120$ en adelante:

In [29]:
# Se imprimen los elementos desde la posicion 100 en adelante
serie_de_iris[120:]

120    [6.9, 3.2, 5.7, 2.3, Iris-virginica]
121    [5.6, 2.8, 4.9, 2.0, Iris-virginica]
122    [7.7, 2.8, 6.7, 2.0, Iris-virginica]
123    [6.3, 2.7, 4.9, 1.8, Iris-virginica]
124    [6.7, 3.3, 5.7, 2.1, Iris-virginica]
125    [7.2, 3.2, 6.0, 1.8, Iris-virginica]
126    [6.2, 2.8, 4.8, 1.8, Iris-virginica]
127    [6.1, 3.0, 4.9, 1.8, Iris-virginica]
128    [6.4, 2.8, 5.6, 2.1, Iris-virginica]
129    [7.2, 3.0, 5.8, 1.6, Iris-virginica]
130    [7.4, 2.8, 6.1, 1.9, Iris-virginica]
131    [7.9, 3.8, 6.4, 2.0, Iris-virginica]
132    [6.4, 2.8, 5.6, 2.2, Iris-virginica]
133    [6.3, 2.8, 5.1, 1.5, Iris-virginica]
134    [6.1, 2.6, 5.6, 1.4, Iris-virginica]
135    [7.7, 3.0, 6.1, 2.3, Iris-virginica]
136    [6.3, 3.4, 5.6, 2.4, Iris-virginica]
137    [6.4, 3.1, 5.5, 1.8, Iris-virginica]
138    [6.0, 3.0, 4.8, 1.8, Iris-virginica]
139    [6.9, 3.1, 5.4, 2.1, Iris-virginica]
140    [6.7, 3.1, 5.6, 2.4, Iris-virginica]
141    [6.9, 3.1, 5.1, 2.3, Iris-virginica]
142    [5.8, 2.7, 5.1, 1.9, Iris

Que tal si ahora describimos las columnas manipulando un poco la Serie? Bueno y es aqui en donde los *Dataframes* entran en juego:

De acuerdo con la descripcion del dataset sabemos que tiene la siguiente estructura:

| No. |      Columna         |  Tipo de dato | Posibles Valores                                |
|-----|:--------------------:|--------------:|:------------------------------------------------|
| 1   |  longitud del sepalo | float/cm      | Positivos                                       |
| 2   |    ancho del sepalo  |   float/cm    | Positivos                                       |
| 3   |  longitud del petalo |    float/cm   | Positivos                                       |
| 4   |   ancho del petalo   |    float/cm   | Positivos                                       |
| 5   |    clase             | string/texto  | Iris Setosa, Iris Versicolour,  Iris Virginica  |

Es momento de que modifiquemos la *Serie*, la convirtamos en un Dataframe y usemos a nuestro favor todo su potencial.

##  Introducción a los DataFrames

Un *DataFrame* es un arreglo de 2 dimensiones de datos estructurados que pueda almacenar datos de diferentes tipos. Si, es como una hoja de calculo o una tabla de una base de datos.

Los DataFrames son mas comunes que las *Series* y es por esta razon que seran objeto de estudia en esta practica.

Por lo General se puede crear un **DataFrame** desde diferentes fuentes de datos, pero en esta ocasion seguiremos usando el dataset de los [iris](./data/iris.data).

Es decir podamos usar un Diccionario, una lista, un arreglo de Numpy y hasta una Serie de Pandas. Veamos como se hace.


In [41]:
import pandas as pd

with open("data/iris.data", "r") as DATA:
    iris_dataset = DATA.read()

# Se limpia el dataset y se construye la serie a partir del arreglo generado por el `split` 
iris_dataset = iris_dataset.split('\n')

# Convertimos cada fila de datos en un arreglo
iris_dataset = [i.split(',') for i in iris_dataset]

# Creamos el DataFrame a partir de iris_dataset 
data_frame = pd.DataFrame(iris_dataset, columns=["long_sepalo", "ancho_sepalo", "long_petalo", "ancho_petalo", "clase"])

# Se imprime el dataframe
data_frame

Unnamed: 0,long_sepalo,ancho_sepalo,long_petalo,ancho_petalo,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,,,,


Como vieron fue muy facil construir el **DAtaFrame**, ahora que tal si lo manipulamos, podriamos contestar preguntas del tipo? cuantas clases de iris tenemos? cual es el tamano promedio de la longitud del petalo? para todas las clase o para una en particular? Veamos como se hace:


In [42]:
### Ejemplo 1: Promedio de Longitud del Sepalo sin importar la clase
data_frame["e**2"] = data_frame["long_sepalo"] + data_frame["long_sepalo"] ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

# Práctica: Adquirir datos de ChEMBL

## Conceptos a trabajar
**Uniprot:** Es una base de datos que busca proporcionar a la comunidad científica un recurso integral, de alta calidad y de libre acceso de secuencias de proteínas e información funcional. Referencia: [Uniprot](https://www.uniprot.org/).

**ChEMBL:** Es una base de datos que contiene moléculas bioactivas, reune datos químicos, de bioactividad y genómicos. Refernecia: [ChEMBL](https://www.ebi.ac.uk/chembl/)

**Half-maximal inhibitory concentration (IC50):** Expresa la cantidad de fármaco necesaria para inhibir un proceso biológico a la mitad del valor no inhibido, es la medida más utilizada de la eficacia o potencia de un fármaco. Referencia: [Aykul, S. y Martínez-Hackert, E. (2016)](https://doi.org/10.1016/j.ab.2016.06.025)

**pIC50:** Es el logaritmo negativo en base diez del IC50, cuando las unidades de son **molares (M)**. Se usa para facilitar la comparación entre distintos IC50. También, es importante saber que a mayor pIC50 el fármaco tiene una mayor eficacia o mayor potencial.

**Half maximal effective concentration (EC50):** Es la concentración efectiva para producir el 50 % de la respuesta máxima, se usa para comparar las potencias de los fármacos. También, es importante saber que a menor sea el EC50 más potente será el fármaco. A esta pedida también se le calcula el logaritmo negativo en base diez **(pEC50)** para facilitar su comprensión. Referencia: [Waller, D., & Sampson, A. (2018)](https://doi.org/10.1016/B978-0-7020-7167-6.00001-4)

**Inhibitor constant (Ki):** Es la concentración requerida para producir la mitad de la inhibición máxima, es útil para describir la afinidad de unión de una molécula a un receptor.

**SMILES (Simplified Molecular-Input Line-Entry System):** Es una notación de línea para describir estructuras químicas utilizando cadenas ASCII cortas. Referencia: [Daylight Chemical Information Systems](https://www.daylight.com/smiles/)

## Planteamiento del problema
Supongamos que tenemos un target en especifico que es de nuestro interes, en nuestro caso es la proteína Glucógeno sintasa quinasa-3 beta la cual actua como un regulador negativo en el control hormonal de la homeostasis de la glucosa, señalización Wnt y regulación de factores de transcripción y microtúbulos.

A nosotros nos interesa saber que compuestos son bioactivos frente a la proteína de interes y tener esos compuestos en un formato que nos permita su manipulación. Por esto usamos la base de datos ChEMBL que nos permite filtrar y descargar los datos de bioactividad que existen de los compuestos que interactuan con nuestro target de interés. Además, los datos obtenidos los organizamos en un DataFrame para visualizarlos mejor y manipularlos fácilmente.

## Conectarse a la base de datos ChEMBL ##


In [1]:
from chembl_webresource_client.new_client import new_client #Se importa la biblioteca webresource client que permite conectase a ChEMBL
import pandas as pd
import math
from rdkit.Chem import PandasTools

Se deben crear para el acceso a la API

In [2]:
targets = new_client.target
compounds = new_client.molecule
bioactivities = new_client.activity

## Datos del target 
* Se debe buscar el Uniprot-ID (https://www.uniprot.org/uniprot/P49841) para el target de interes que en este caso es Glucógeno sintasa quinasa-3 beta

In [3]:
uniprot_id = 'P49841'
# Se toma sola alguna información de  ChEMBL que sea de interesbut restrict to specified values only
target_P49841 = targets.get(target_components__accession=uniprot_id) \
                     .only('target_chembl_id', 'organism', 'pref_name', 'target_type')
pd.DataFrame.from_records(target_P49841)

Unnamed: 0,organism,pref_name,target_chembl_id,target_type
0,Homo sapiens,Glycogen synthase kinase-3 beta,CHEMBL262,SINGLE PROTEIN
1,Homo sapiens,Glycogen synthase kinase-3 beta,CHEMBL262,SINGLE PROTEIN
2,Homo sapiens,Glycogen synthase kinase-3,CHEMBL2095188,PROTEIN FAMILY
3,Homo sapiens,Axin-1/Glycogen synthase kinase-3 beta,CHEMBL3883309,PROTEIN-PROTEIN INTERACTION


Vamos a seleccionar el target de interes `CHEMBL262` y guardar el ChEMBL-ID 


In [4]:
# Seleccionar el target de interes
target = target_P49841[0]
print(f'El target de interes es:' + str(target))

El target de interes es:{'organism': 'Homo sapiens', 'pref_name': 'Glycogen synthase kinase-3 beta', 'target_chembl_id': 'CHEMBL262', 'target_type': 'SINGLE PROTEIN'}


In [5]:
# Guardar el ChEMBL-ID
chembl_id = target['target_chembl_id']
print(f'El ChEMBL-ID de interes es:' + chembl_id)

El ChEMBL-ID de interes es:CHEMBL262


### Datos de bioactividad

Ahora consultamos los datos de bioactividad que son de interés.

#### Descargar y filtrar bioactividades para el target
Los datos de bioactividad se van a filtrar de la siguiente manera:

* Tipo de bioactividad: IC50, EC50 y Ki
* Relación: "="

In [6]:
# No pudimos filtrar de forma incluyente con EC50 y Ki
bioact = bioactivities.filter(target_chembl_id = chembl_id) \
                      .filter(type = 'IC50') \
                      .filter(relation = '=') \
                      .only('molecule_chembl_id', 'type', 'relation', 'pchembl_value')
print(f'El total de compuestos bioactivos es:' + str(len(bioact)))

El total de compuestos bioactivos es:2648


#### Convertir los datos de bioactividad a Dataframe

Los datos descargados y filtrados se almacenan como un diccionario

In [7]:
print(f'El primer compuesto bioactivo es:')
bioact[0]

El primer compuesto bioactivo es:


{'molecule_chembl_id': 'CHEMBL322970',
 'pchembl_value': '6.42',
 'relation': '=',
 'type': 'IC50',
 'value': '0.38'}

Convertir el diccionario a un dataframe

In [8]:
dataframe_bioact = pd.DataFrame(bioact)
print(f'Los primeros 10 compuestos bioactivos son:')
dataframe_bioact.head(10)

Los primeros 10 compuestos bioactivos son:


Unnamed: 0,molecule_chembl_id,pchembl_value,relation,type,value
0,CHEMBL322970,6.42,=,IC50,0.38
1,CHEMBL112564,5.16,=,IC50,6.92
2,CHEMBL321421,6.39,=,IC50,0.41
3,CHEMBL388978,6.8,=,IC50,0.16
4,CHEMBL115875,5.02,=,IC50,9.6
5,CHEMBL325353,7.0,=,IC50,0.1
6,CHEMBL113168,5.94,=,IC50,1.16
7,CHEMBL112483,5.03,=,IC50,9.3
8,CHEMBL323944,6.62,=,IC50,0.24
9,CHEMBL113272,7.0,=,IC50,0.1


Es posible que hayan compuestos con valores faltantes y que hayan duplicados porque el mismo compuesto puede haber sido probado más de una vez (nosotros nos quedaremos solo con el que primero haya sido probado)

In [9]:
# Primero verificamos cuantos compuestos tenemos en total
print(f'El número total de compuestos es: ' + str(len(dataframe_bioact)))

El número total de compuestos es: 2648


In [10]:
# Se eliminan los compuestos que no tienen pChEMBL_value
dataframe_bioact = dataframe_bioact.dropna(axis=0, how = 'any')
print(f'El número total de compuestos al eliminar los que no tienen pChEMBL_value es: ' + str(len(dataframe_bioact)))

El número total de compuestos al eliminar los que no tienen pChEMBL_value es: 2626


Para saber cuantos compuestos eliminamos por no tener un valor de pChEMBL usamos la siguiente línea. 

In [11]:
# Se le resta al número total de compuestos el número total de compuestos al eliminar los que no tienen pChEMBL_value
print(f'El número de compuestos eliminados es:' + str(2648-2626))

El número de compuestos eliminados es:22


In [12]:
# Se eliminan los compuestos duplicados y nos quedamos con el primer compuesto probado
dataframe_bioact = dataframe_bioact.drop_duplicates('molecule_chembl_id', keep = 'first')
print(f'El número total de compuestos sin duplicados es: ' + str(len(dataframe_bioact)))

El número total de compuestos sin duplicados es: 2291


Para saber cuantos compuestos duplicados habían usamos la siguiente línea. 

In [13]:
# Se le resta al número total de compuestos al eliminar los que no tienen pChEMBL_value el número total de compuestos sin duplicados
print(f'El número de compuestos duplicados eran:' + str(2626-2291))

El número de compuestos duplicados eran:335


##### Ahora que hemos eliminado algunas filas restableceremos el índice para que este sea continuo

In [14]:
dataframe_bioact = dataframe_bioact.reset_index(drop=True) 
dataframe_bioact.head()

Unnamed: 0,molecule_chembl_id,pchembl_value,relation,type,value
0,CHEMBL322970,6.42,=,IC50,0.38
1,CHEMBL112564,5.16,=,IC50,6.92
2,CHEMBL321421,6.39,=,IC50,0.41
3,CHEMBL388978,6.8,=,IC50,0.16
4,CHEMBL115875,5.02,=,IC50,9.6


Vamos a organizar el DataFrame de mayor a menor pchembl_value

In [15]:
# Organizamos de mayor a menor pchembl_value
dataframe_bioact.sort_values(by="pchembl_value", ascending=False, inplace=True)
# Restablecemos el índice
dataframe_bioact.reset_index(drop=True, inplace=True)
# Imprimimos el Data Frame
dataframe_bioact.head()

Unnamed: 0,molecule_chembl_id,pchembl_value,relation,type,value
0,CHEMBL564450,9.85,=,IC50,0.00014
1,CHEMBL3957649,9.7,=,IC50,0.2
2,CHEMBL3942619,9.7,=,IC50,0.2
3,CHEMBL3963605,9.7,=,IC50,0.2
4,CHEMBL2386090,9.7,=,IC50,0.2


##### Para continuar usando el Data Frame en la práctica sin necesidad de siempre estarnos conectando a ChEMBL avamos a guardar el Data Frame obtenido

In [16]:
dataframe_bioact.to_csv("data/compuestos.csv")

### Datos de los compuestos

A continuación vamos a obtener los datos de las moléculas que estan almacenados dentro de cada molecule_chembl_id

In [17]:
# Cargamos el archivo antes guardado
dataframe_bioact = pd.read_csv("data/compuestos.csv")

In [18]:
# Primero tenemos que obtener la lista de los compuestos que definimos como bioactivos
lista_comp_id = list(dataframe_bioact['molecule_chembl_id'])
# Obtener la estructura de cada compuesto
lista_compuestos = compounds.filter(molecule_chembl_id__in = lista_comp_id) \
                            .only('molecule_chembl_id','molecule_structures')

In [19]:
# Debemos convertir la lista obtenida en un dataframe
dataframe_comp = pd.DataFrame.from_records(lista_compuestos)
# Eliminamos duplicados
dataframe_comp = dataframe_comp.drop_duplicates('molecule_chembl_id', keep = 'first')
print(f'El número total de compuestos es: ' + str(len(dataframe_comp)))
dataframe_comp.head()

El número total de compuestos es: 2291


Unnamed: 0,molecule_chembl_id,molecule_structures
0,CHEMBL6246,{'canonical_smiles': 'O=c1oc2c(O)c(O)cc3c(=O)o...
2,CHEMBL6291,{'canonical_smiles': 'Cn1cc(C2=C(c3cn(CCCSC(=N...
3,CHEMBL28,{'canonical_smiles': 'O=c1cc(-c2ccc(O)cc2)oc2c...
4,CHEMBL7463,{'canonical_smiles': 'CN(C)CCCn1cc(C2=C(c3c[nH...
5,CHEMBL50,{'canonical_smiles': 'O=c1c(O)c(-c2ccc(O)c(O)c...


Los compuestos tienen distintos tipos de representaciones como el SMILES, el InChI y el InChI Key. Nos interesa unicamente quedarnos con el SMILES ya que describe la estructura química.

In [20]:
for i, cmpd in dataframe_comp.iterrows():
    if dataframe_comp.loc[i]['molecule_structures'] != None:
        dataframe_comp.loc[i]['molecule_structures'] = cmpd['molecule_structures']['canonical_smiles']

### Combinar Dataframe

Ahora tenemos dos dataframes que vamor a combinar para tener todos los datos en uno solo dataframe y poder guardarlos

In [27]:
dataframe_output = pd.merge(dataframe_bioact[['molecule_chembl_id','pchembl_value']], dataframe_comp, on='molecule_chembl_id')
print(f'El número de compuestos es: ' + str(len(dataframe_output)))
dataframe_output.head()

El número de compuestos es: 2291


Unnamed: 0,molecule_chembl_id,pchembl_value,molecule_structures
0,CHEMBL564450,9.85,COc1cc(C2=C(c3cn(CCN4CCN(C)CC4)c4ccccc34)C(=O)...
1,CHEMBL3957649,9.7,Nc1ncc(-c2ccccc2F)nc1C(=O)Nc1cnccc1N1CCNCC1
2,CHEMBL3942619,9.7,COc1ccc(-c2cnc(N)c(C(=O)Nc3cnccc3N3CCC(N)CC3)n...
3,CHEMBL3963605,9.7,Nc1ncc(-c2ccccc2)nc1C(=O)Nc1cnccc1N1CCC(N)CC1
4,CHEMBL2386090,9.7,O=C1NC(=O)C(c2cn3c4c(cccc24)CN(C(=O)c2cnccn2)C...


Se pueden renombrar las columnas

In [28]:
dataframe_output = dataframe_output.rename(columns= {'molecule_structures':'smiles', 'pchembl_value':'pIC50'})
print(f'El número total de compuestos es: ' + str(len(dataframe_output)))
dataframe_output.head()

El número total de compuestos es: 2291


Unnamed: 0,molecule_chembl_id,pIC50,smiles
0,CHEMBL564450,9.85,COc1cc(C2=C(c3cn(CCN4CCN(C)CC4)c4ccccc34)C(=O)...
1,CHEMBL3957649,9.7,Nc1ncc(-c2ccccc2F)nc1C(=O)Nc1cnccc1N1CCNCC1
2,CHEMBL3942619,9.7,COc1ccc(-c2cnc(N)c(C(=O)Nc3cnccc3N3CCC(N)CC3)n...
3,CHEMBL3963605,9.7,Nc1ncc(-c2ccccc2)nc1C(=O)Nc1cnccc1N1CCC(N)CC1
4,CHEMBL2386090,9.7,O=C1NC(=O)C(c2cn3c4c(cccc24)CN(C(=O)c2cnccn2)C...


Para poder emplear la siguiente función de rdkit es necesario que todos los compuestos tenga SMILES, por esto eliminamos los compuestos sin SMILES en el dataframe

In [29]:
dataframe_output = dataframe_output[~dataframe_output['smiles'].isnull()]
print(f'El número total de compuestos es: ' + str(len(dataframe_output)))
dataframe_output.head()

El número total de compuestos es: 2291


Unnamed: 0,molecule_chembl_id,pIC50,smiles
0,CHEMBL564450,9.85,COc1cc(C2=C(c3cn(CCN4CCN(C)CC4)c4ccccc34)C(=O)...
1,CHEMBL3957649,9.7,Nc1ncc(-c2ccccc2F)nc1C(=O)Nc1cnccc1N1CCNCC1
2,CHEMBL3942619,9.7,COc1ccc(-c2cnc(N)c(C(=O)Nc3cnccc3N3CCC(N)CC3)n...
3,CHEMBL3963605,9.7,Nc1ncc(-c2ccccc2)nc1C(=O)Nc1cnccc1N1CCC(N)CC1
4,CHEMBL2386090,9.7,O=C1NC(=O)C(c2cn3c4c(cccc24)CN(C(=O)c2cnccn2)C...


#### Dibujar la molécula

Vamos a añadir una nueva columna al dataframe con la función `.AddMoleculeColumnToFrame` la cual convierte las moléculas contenidas en "smilesCol" en moléculas RDKit y las agrega al dataframe

In [30]:
PandasTools.AddMoleculeColumnToFrame(dataframe_output, smilesCol='smiles')
dataframe_output.head()

Unnamed: 0,molecule_chembl_id,pIC50,smiles,ROMol
0,CHEMBL564450,9.85,COc1cc(C2=C(c3cn(CCN4CCN(C)CC4)c4ccccc34)C(=O)...,
1,CHEMBL3957649,9.7,Nc1ncc(-c2ccccc2F)nc1C(=O)Nc1cnccc1N1CCNCC1,
2,CHEMBL3942619,9.7,COc1ccc(-c2cnc(N)c(C(=O)Nc3cnccc3N3CCC(N)CC3)n...,
3,CHEMBL3963605,9.7,Nc1ncc(-c2ccccc2)nc1C(=O)Nc1cnccc1N1CCC(N)CC1,
4,CHEMBL2386090,9.7,O=C1NC(=O)C(c2cn3c4c(cccc24)CN(C(=O)c2cnccn2)C...,


### Guardar el dataframe obtenido

Se va a guardar el dataframe como un archivo csv

In [31]:
dataframe_output.to_csv("data/GSK3B_compounds.csv")

## Actividad práctica
Teniendo en cuenta lo aprendido anteriormente:
1. 

## Conclusiones
En esta práctica se empleo la base de datos ChEMBL para obtener datos de compuestos bioactivos frente a nuestro target de interés. Estos datos extraidos en forma de diccionarios y listas se convirtieron en un DataFrame el cual permite visualizar fácilmente la información obtenida. Además, se obtuvieron datos de los compuestos bioactivos, combinaron DataFrames, se renombraron columnas y se utilizo una herramienta de panda para añadir una nueva columna al DataFrame construido.