## Obtención de ligandos usados por Ash & Fourches

El material suplementario donde se muestra un poco más de información sobre estas moléculas está en el siguiente link:
https://pubs.acs.org/doi/suppl/10.1021/acs.jcim.7b00048/suppl_file/ci7b00048_si_001.pdf

In [64]:
import pandas as pd
import numpy as np
import sys, os

### Moléculas de CSAR
Datos obtenidos de http://www.csardock.org/

In [65]:
# Lectura de los datos de CSAR/Vertex
df_csar_vrtx_ligs = pd.read_csv('./csar/Master_erk2_298_17October2014.csv')
df_csar_vrtx_ligs.head()

Unnamed: 0,mol,name,pKi,CSAR_exercise_number,crystal,Crystal designation,good crystal,Series,setup in 3D,Blinded_ID_ligand,Blinded_ID_crystal,Vertex name,canonical_smiles,BindingDB,ChemBL affinity,PDBID,CSAR pIC50,x-ray struc. (y/n),Crystal disposition
0,Clc1cc(cc(Cl)c1)-c1cnc(nc1-c1cc([nH]c1)C(=O)N[...,erk000031,6.64,,yes,stop (2.6A),,series_1,yes,erk2_ligand_8,erk2_crystal_12,erk000031,Nc1ncc(c2cc(Cl)cc(Cl)c2)c(n1)c3c[nH]c(c3)C(=O...,,,,6.64,yes,Discard -fails metrics
1,O=C(NCc1c2c(ccc1)cccc2)c1[nH]cc(c1)-c1nc(ncc1C)NC,erk000036,7.24,,no,,,series_1,,erk_ligand_1141,,erk000036,CNc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)NCc3cccc4ccccc34,,,,7.24,,
2,O=C(NCc1c2c(ccc1)cccc2)c1[nH]cc(c1)-c1nc(ncc1C)N,erk000037,6.22,,no,,,series_1,,erk_ligand_1221,,erk000037,Cc1cnc(N)nc1c2c[nH]c(c2)C(=O)NCc3cccc4ccccc34,,,,6.22,,
3,Fc1cc(ccc1F)CNC(=O)c1[nH]cc(c1)-c1nc(ncc1C)NCC,erk000038,6.62,,no,,,series_1,,erk_ligand_1257,,erk000038,CCNc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)NCc3ccc(F)c(...,,,,6.62,,
4,FC(F)(F)c1ccccc1CNC(=O)c1[nH]cc(c1)-c1nc(ncc1C...,erk000039,5.34,3.0,no,,,series_1,yes,erk_ligand_1258,,erk000039,CCNc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)NCc3ccccc3C(...,,,,5.34,,


In [66]:
df_csar_vrtx_ligs.info()
# CSAR excerisice number parece tener en cuenta el número de ligandos (39) que reporta Fourches

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 298 entries, 0 to 297
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   mol                   298 non-null    object 
 1   name                  298 non-null    object 
 2   pKi                   298 non-null    float64
 3   CSAR_exercise_number  39 non-null     float64
 4   crystal               298 non-null    object 
 5   Crystal designation   20 non-null     object 
 6   good crystal          13 non-null     object 
 7   Series                297 non-null    object 
 8   setup in 3D           52 non-null     object 
 9   Blinded_ID_ligand     298 non-null    object 
 10  Blinded_ID_crystal    34 non-null     object 
 11  Vertex name           297 non-null    object 
 12  canonical_smiles      297 non-null    object 
 13  BindingDB             12 non-null     object 
 14  ChemBL affinity       12 non-null     object 
 15  PDBID                 1

In [67]:
# Vamos a eliminar algunas columnas
df_csar_vrtx_ligs.drop(['Crystal designation', 'Crystal designation', 'ChemBL affinity', 'Crystal disposition'], axis=1, inplace=True)

#### Nos interesa la columna 'CSAR_exercise_number'

In [68]:
# Inspeccionar los ligandos que poseen datos en CSAR_exercise_number
df_39_ligs_csar = df_csar_vrtx_ligs[df_csar_vrtx_ligs.CSAR_exercise_number.notnull()]
# Fourches menciona que estos ligandos tienen pKis en el rango de 4.8 a 9.0
df_39_ligs_csar.describe()
# Como se observa en el output, éstos son los ligandos usados por Fourches, al tener valores de pki de 4.8 a 9.0

Unnamed: 0,pKi,CSAR_exercise_number,CSAR pIC50
count,39.0,39.0,39.0
mean,6.902308,20.0,6.902308
std,1.176038,11.401754,1.176038
min,4.8,1.0,4.8
25%,6.045,10.5,6.045
50%,7.07,20.0,7.07
75%,7.755,29.5,7.755
max,9.0,39.0,9.0


In [69]:
df_39_ligs_csar.head()

Unnamed: 0,mol,name,pKi,CSAR_exercise_number,crystal,good crystal,Series,setup in 3D,Blinded_ID_ligand,Blinded_ID_crystal,Vertex name,canonical_smiles,BindingDB,PDBID,CSAR pIC50,x-ray struc. (y/n)
4,FC(F)(F)c1ccccc1CNC(=O)c1[nH]cc(c1)-c1nc(ncc1C...,erk000039,5.34,3.0,no,,series_1,yes,erk_ligand_1258,,erk000039,CCNc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)NCc3ccccc3C(...,,,5.34,
26,O=C(NCc1c2c(ccc1)cccc2)c1[nH]cc(c1)-c1nc(ncc1CC)N,erk000070,5.96,5.0,no,,series_1,yes,erk_ligand_1248,,erk000070,CCc1cnc(N)nc1c2c[nH]c(c2)C(=O)NCc3cccc4ccccc34,,,5.96,
27,Clc1ccc(cc1)-c1n[nH]c2c1CCCC2,erk000071,5.28,36.0,yes,good,series_3,yes,erk2_ligand_2,erk2_crystal_23,erk000071,Clc1ccc(cc1)c2n[nH]c3CCCCc23,,,5.28,yes
28,o1nc(c(-c2nc(ncc2)NC2CCC(O)CC2)c1C)-c1ccccc1,erk000075,6.0,24.0,yes,good,series_2,yes,erk2_ligand_10,erk2_crystal_5,erk000075,Cc1onc(c2ccccc2)c1c3ccnc(NC4CCC(O)CC4)n3,,,6.0,yes
29,o1nc(c(-c2nn(cc2)C(=O)NC(C)C)c1C)-c1ccccc1,erk000088,4.82,21.0,yes,,series_2,yes,erk2_ligand_9,erk2_crystal_11,erk000088,CC(C)NC(=O)n1ccc(n1)c2c(C)onc2c3ccccc3,,,4.82,yes


#### Las  moléculas poseen un SMILES canónico y un SMILES isomérico

In [70]:
# Ahora vamos tratar de aproximarnos al etiquetado que suó Fourches según su tabla de materiales suplementarios
# Para esto, he copiado parte de la tala S2 a un archivo de texto plano (intenté usar la librería ta ul, pero no funcionó)
# Cargamos el archivo:
lista_nombres = pd.read_csv('./csar/fourches_TABLE_S2_csar_molecules_sorted_by_pki.csv',header=None).values
# Como la tabla está ordenada por pKi, vamos a ordenar nuestro dataframe y luego asignarle los nombres correspondientes
df_39_ligs_csar_names = df_39_ligs_csar.sort_values('pKi', ascending=False)
df_39_ligs_csar_names['Name_fourches'] = lista_nombres
# Por comodidad ordenamos las columnas
cols = df_39_ligs_csar_names.columns.to_list()
cols_ = [cols[-1]] + cols[:-1]
df_39_ligs_csar_names = df_39_ligs_csar_names[cols_]
df_39_ligs_csar_names.head()
# listo, ahora tenemos identificadas las moléculas según Fourches

Unnamed: 0,Name_fourches,mol,name,pKi,CSAR_exercise_number,crystal,good crystal,Series,setup in 3D,Blinded_ID_ligand,Blinded_ID_crystal,Vertex name,canonical_smiles,BindingDB,PDBID,CSAR pIC50,x-ray struc. (y/n)
127,CSAR_erk2_18,OC[C@@H](NC(=O)c1[nH]cc(c1)-c1nc(ncc1C)NC(C)C)...,erk000522,9.0,18.0,no,,series_1,yes,erk_ligand_1145,,erk000522,CC(C)Nc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)N[C@H](CO...,,,9.0,
113,CSAR_erk2_20,Clc1cc(ccc1)[C@H](NC(=O)c1[nH]cc(c1)-c1nc(ncc1...,erk000507,8.7,20.0,yes,good,series_1,yes,erk2_ligand_15,erk2_crystal_21,erk000507,CC[C@@H](CO)Nc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)N[...,,,8.7,yes
245,CSAR_erk2_17,Clc1cc(ccc1)[C@H](NC(=O)c1[nH]cc(c1)-c1nc(ncc1...,erk000661,8.52,17.0,no,,series_1,yes,erk_ligand_1189,,erk000661,Cc1cnc(NNS(=O)(=O)C)nc1c2c[nH]c(c2)C(=O)N[C@H...,,,8.52,
237,CSAR_erk2_16,Clc1cc(ccc1)[C@H](NC(=O)c1[nH]cc(c1)-c1nc(ncc1...,erk000652,8.4,16.0,no,,series_1,yes,erk_ligand_1137,,erk000652,Cc1csc(Nc2ncc(C)c(n2)c3c[nH]c(c3)C(=O)N[C@H](...,,,8.4,
219,CSAR_erk2_15,OC[C@@H](NC(=O)c1[nH]cc(c1)-c1nc(ncc1C)NCC)c1c...,erk000634,8.4,15.0,no,,series_1,yes,erk_ligand_1044,,erk000634,CCNc1ncc(C)c(n1)c2c[nH]c(c2)C(=O)N[C@H](CO)c3...,,,8.4,


In [71]:
# Guardamos la tabla en formato json
df_39_ligs_csar_names.to_json('./CSAR_39mols_used_by_Fourches.json')

## Moléculas de CHEMBL

In [72]:
from chembl_webresource_client.new_client import new_client
activity = new_client.activity
erk2_activities = activity.filter(target_chembl_id="CHEMBL4040").filter(standard_type="Ki")
len(erk2_activities)

1767

In [73]:
# Crear un dataframe y guardar los resultados de la búsqueda
file_chembl4040_actives = './csar/CHEMBL4040_all_activemolecules_pki.csv'
if os.path.isfile(file_chembl4040_actives):
    df_chembl_erk2 = pd.read_csv(file_chembl4040_actives)
else: # Save the file
    df_chembl_erk2 = pd.DataFrame(erk2_activities)
    df_chembl_erk2.to_csv(file_chembl4040_actives)

In [74]:
# Tabla resultante
df_chembl_erk2.head(5)

Unnamed: 0.1,Unnamed: 0,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,bao_endpoint,bao_format,bao_label,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,0,,281885,[],CHEMBL732071,Inhibition of Mitogen-activated protein kinase 1,B,BAO_0000192,BAO_0000357,single protein format,...,Homo sapiens,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,1000.0
1,1,,1723169,[],CHEMBL860208,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,Homo sapiens,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,8800.0
2,2,,1723170,[],CHEMBL860208,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,Homo sapiens,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,8800.0
3,3,,1723171,[],CHEMBL860208,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,Homo sapiens,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,8800.0
4,4,,1723172,[],CHEMBL860208,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,Homo sapiens,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,3900.0


In [75]:
# inspección de columnas NO numéricas
df_chembl_erk2.select_dtypes(exclude = np.number ).info()
# Las columnas standard_value y value contienen los datos de Ki

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1767 entries, 0 to 1766
Data columns (total 30 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   activity_comment           1606 non-null   object
 1   activity_properties        1767 non-null   object
 2   assay_chembl_id            1767 non-null   object
 3   assay_description          1767 non-null   object
 4   assay_type                 1767 non-null   object
 5   bao_endpoint               1767 non-null   object
 6   bao_format                 1767 non-null   object
 7   bao_label                  1767 non-null   object
 8   canonical_smiles           1735 non-null   object
 9   data_validity_comment      3 non-null      object
 10  data_validity_description  3 non-null      object
 11  document_chembl_id         1767 non-null   object
 12  document_journal           162 non-null    object
 13  ligand_efficiency          119 non-null    object
 14  molecule

In [76]:
# inspección de columnas numéricas
df_chembl_erk2.select_dtypes(include = np.number ).info()
# Las columnas standard_value y value contienen los datos de Ki

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1767 entries, 0 to 1766
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            1767 non-null   int64  
 1   activity_id           1767 non-null   int64  
 2   document_year         162 non-null    float64
 3   pchembl_value         286 non-null    float64
 4   record_id             1767 non-null   int64  
 5   src_id                1767 non-null   int64  
 6   standard_text_value   0 non-null      float64
 7   standard_upper_value  0 non-null      float64
 8   standard_value        895 non-null    float64
 9   target_tax_id         1767 non-null   int64  
 10  text_value            0 non-null      float64
 11  toid                  0 non-null      float64
 12  upper_value           0 non-null      float64
 13  value                 895 non-null    float64
dtypes: float64(9), int64(5)
memory usage: 193.4 KB


In [77]:
# Preguntamos si los valores de dichas columnas son iguales
mask_ = (df_chembl_erk2.standard_value == df_chembl_erk2.value)
print('Are standard_values and values equal?', mask_.all())

# Se observa que todos los valores estándar están en
print('Unique values en standard_units and units')
print(df_chembl_erk2.standard_units.value_counts())
print(df_chembl_erk2.units.value_counts())
# No todas las filas son iguales
df_chembl_erk2[['standard_value', 'standard_units', 'value', 'units']][~mask_].head()
# Se observa que la columna values no es homogénea en las unidades de medida, como sí lo es la columna de standard_values
# Por lo cual trabajaremos con la columna 'standard_values' cuyas unidades del Ki son nanoMolar (nM)

Are standard_values and values equal? False
Unique values en standard_units and units
nM    895
Name: standard_units, dtype: int64
nM    92
uM    66
mM     3
Name: units, dtype: int64


Unnamed: 0,standard_value,standard_units,value,units
8,3400.0,nM,3.4,uM
9,2300.0,nM,2.3,uM
10,150.0,nM,0.15,uM
11,2.0,nM,0.002,uM
12,6.0,nM,0.006,uM


In [78]:
# También se observa que no todas las moléculas tienen valores estándar reportados
# Removeremos de la tabla todas las moléculas que no poseean dicho dato
df_pki_chembl = df_chembl_erk2[df_chembl_erk2.standard_value.notnull()]

In [79]:
# Fourches indica que llegaron a conservar 91 moléculas inicialmente; con pki entre 4.6 a 8.7
# 1) Convertir el Ki reportado a pKi, primero convirtiendo los valores de nM a M
df_pki_chembl['pKi'] = (- np.log10(df_pki_chembl.standard_value / 1e9)).round(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [80]:
# Estadísticas descriptivas de los valores de pKi
df_pki_chembl.pKi.describe()

count    895.000000
mean       5.647453
std        1.127948
min        3.000000
25%        5.100000
50%        5.100000
75%        5.700000
max       10.000000
Name: pKi, dtype: float64

In [81]:
# Filtramos de acuerdo al criterio de Fourches
df_pki_range = df_pki_chembl[(df_pki_chembl.pKi >= 4.6) & (df_pki_chembl.pKi <= 8.7)]
df_pki_range.pKi.describe()

count    856.000000
mean       5.509451
std        0.857832
min        4.600000
25%        5.100000
50%        5.100000
75%        5.400000
max        8.700000
Name: pKi, dtype: float64

In [82]:
## OJO: Aunque Fourches indica que seleccionaron los ligandos dentro de un rango de pKi de 4.8 a 9.0
# veremos que en la tabla de suplementarios los ligandos erk2_01 y erk2_02 tiene pKis por debajo de 4.8

In [83]:
# Tenemos como resultado 853 moléculas, pero Fourches indicó que sólo conservaron 91
len(df_pki_range.pKi)

856

In [84]:
# Bien, ahora descartemos moléculas por año, Fourches publicó su trabajo en enero del 2017, no obstante comenta que es el mismo dataset
# de una publicación a mediados de 2013: DOI: 10.1021/ci400216q
print('Moléculas al año 2012:', df_pki_range[df_pki_range.document_year <= 2012].shape[0])
print('Moléculas al año 2013:', df_pki_range[df_pki_range.document_year <= 2013].shape[0])
# Tenemos 101 moléculas
# No obstante, Fourches menciona haber conservado 91, y tras un proceso de curación quedarse finalmente con 48
df_pki_year = df_pki_range[df_pki_range.document_year <= 2013]

Moléculas al año 2012: 90
Moléculas al año 2013: 103


In [85]:
# Conservar sólo moléculas cuyo valor en la columna 'relation' sea '='
df_pki_year = df_pki_year[df_pki_year.relation == '=']
print('Moléculas con valor de selcción "=":', df_pki_year.shape[0])
# Listo, después de este filtro conservamos sólo 67 moléculas

Moléculas con valor de selcción "=": 67


In [86]:
# Ahora procedemos a hacer el curado de moléculas que Fourches propone, y además a comparar los valores de pKi en la lista de moléculas del material suplementario
# del trabajo principal sobre los descriptores MD (10.1021/acs.jcim.7b00048)

In [87]:
# Tabla de Moléculas de CHEMBL según el material suplementario de Fourches

In [101]:
# Extraemos la tabla de moléculas del Cheambl reportadas por fourches en el material sumplementario
import tabula
pdf_sup_file = "./fourches_supp_material.pdf"
df_chembl_mols_idx = tabula.read_pdf(pdf_sup_file, pages = [8], multiple_tables = False, 
                         pandas_options={'header':None, 'names': ['Name', 'GlideSP', 'GlideXP', 'pKi']})
df_chembl_mols_idx.dropna(inplace=True)
df_chembl_mols_idx.reset_index(drop=True, inplace=True)

# IMPORTANTE!!!!
# *********************+
# Por alguna razón la primer molécula no aparece en la tabal, esta molécula es la erk2_54
# En realidad estos valores están ocultos tras el cabezal de la tabla en el pdf: erk2_54 -9.73 -10.17 8.7
# Así que la vamos a tener que añadir manualamente
erk2_54_row = pd.DataFrame(dict(zip(['Name', 'GlideSP', 'GlideXP', 'pKi'], ['erk2_54', -9.73, -10.17, 8.7])), index=['erk2_54'])
# Add the row
df_chembl_mols_idx = pd.concat([erk2_54_row, df_chembl_mols_idx], ignore_index=False)
df_chembl_mols_idx = df_chembl_mols_idx.set_index('Name')

 # En esta tabla (y en el pdf) falta el ligando 25
from IPython.display import display, HTML
display(HTML(df_chembl_mols_idx.iloc[:20].T.to_html()))
display(HTML(df_chembl_mols_idx.iloc[20:40].T.to_html()))
display(HTML(df_chembl_mols_idx.iloc[40:].T.to_html()))
# Pero podríamos asumir que su valor de pki está entre 6.59 y 6.51, ya que los autores presentan la tabla ordenada por pki

Name,erk2_54,erk2_53,erk2_52,erk2_51,erk2_50,erk2_48,erk2_49,erk2_46,erk2_45,erk2_44,erk2_43,erk2_42,erk2_41,erk2_40,erk2_39,erk2_38,erk2_37,erk2_36,erk2_35,erk2_32
GlideSP,-9.73,-12.53,-12.49,-13.17,-11.97,-12.63,-11.76,-9.85,-12.67,-9.97,-12.4,-9.83,-9.41,-12.65,-9.06,-9.06,-10.04,-10.1,-7.55,-8.86
GlideXP,-10.17,-13.39,-13.22,-12.43,-12.25,-13.4,-12.53,-9.62,-13.49,-8.65,-13.3,-10.45,-8.52,-13.5,-8.39,-7.98,-10.41,-10.33,-7.63,-7.73
pKi,8.7,8.52,8.52,8.4,8.4,8.3,8.3,8.15,7.89,7.85,7.82,7.66,7.62,7.47,7.46,7.4,7.36,7.2,7.07,6.8


Name,erk2_31,erk2_30,erk2_29,erk2_28,erk2_27,erk2_26,erk2_24,erk2_23,erk2_22,erk2_21,erk2_20,erk2_19,erk2_18,erk2_17,erk2_16,erk2_13,erk2_11,erk2_12,erk2_09,erk2_10
GlideSP,-8.13,-7.11,-6.67,-8.61,-8.96,-8.1,-7.65,-9.56,-6.99,-8.79,-9.13,-9.47,-7.43,-8.44,-8.99,-7.45,-7.34,-6.52,-9.53,-9.1
GlideXP,-6.75,-7.6,-5.35,-8.72,-8.32,-7.34,-3.38,-8.92,-5.99,-10.19,-9.35,-6.98,-5.41,-10.0,-9.85,-7.06,-5.9,-4.74,-9.71,-8.96
pKi,6.77,6.7,6.66,6.64,6.62,6.59,6.51,6.48,6.37,6.36,6.31,6.29,6.29,6.28,6.24,6.06,5.7,5.7,5.64,5.64


Name,erk2_08,erk2_07,erk2_06,erk2_05,erk2_04,erk2_03,erk2_02,erk2_01
GlideSP,-7.21,-6.29,-9.63,-7.22,-6.0,-6.64,-8.86,-6.0
GlideXP,-4.47,-6.31,-10.4,-5.5,-4.13,-7.58,-7.59,-5.9
pKi,5.47,5.41,5.4,5.33,5.24,5.09,4.64,4.6


In [102]:
# Conectar la tabla de df_pki_year con la tabla de moléculas de Fourches
# La intención es que podamos, mediante el purao valor de pKi, que tiene 2 decimales de presición, identificar las 47 moléculas que Fourches usó
# 1) Vamos a hacer un barrido por los valores de pKi de Fourches y contar cuantas moléculas en la tabla de chembl tienen ese valor de  pKi
df_chembl_mols = df_chembl_mols_idx.reset_index()

for pki in df_chembl_mols.pKi.unique():
    count_chembl = df_pki_year[df_pki_year.pKi == pki].shape[0]
    count_fourches = df_chembl_mols[df_chembl_mols.pKi == pki].shape[0]
    print(pki, '\t', count_fourches, '\t', count_chembl)
    
    # Comprobamos qué valores de pki, y ligandos en la tabla de fourches no se han encontrado
    if not count_chembl == count_fourches:
        # Get the name of the molecules in F table
        name = df_chembl_mols[df_chembl_mols.pKi == pki].Name.values
        #print(name, pki, '\t', count_fourches, '\t', count_chembl)
        
# Listo, hay duda sólo en una molécula, la  24 (Habiendo considerado la columna 'selection'). Además de que la molécula erk2_25 sigue pendiente

8.7 	 1 	 1
8.52 	 2 	 2
8.4 	 2 	 2
8.3 	 2 	 2
8.15 	 1 	 1
7.89 	 1 	 1
7.85 	 1 	 1
7.82 	 1 	 1
7.66 	 1 	 1
7.62 	 1 	 1
7.47 	 1 	 1
7.46 	 1 	 1
7.4 	 1 	 1
7.36 	 1 	 1
7.2 	 1 	 1
7.07 	 1 	 1
6.8 	 1 	 1
6.77 	 1 	 1
6.7 	 1 	 1
6.66 	 1 	 1
6.64 	 1 	 1
6.62 	 1 	 1
6.59 	 1 	 1
6.51 	 1 	 2
6.48 	 1 	 1
6.37 	 1 	 1
6.36 	 1 	 1
6.31 	 1 	 1
6.29 	 2 	 2
6.28 	 1 	 1
6.24 	 1 	 1
6.06 	 1 	 1
5.7 	 2 	 2
5.64 	 2 	 2
5.47 	 1 	 1
5.41 	 1 	 1
5.4 	 1 	 1
5.33 	 1 	 1
5.24 	 1 	 1
5.09 	 1 	 1
4.64 	 1 	 1
4.6 	 1 	 1


In [103]:
# Molécula 'erk2_24'
df_pki_year[df_pki_year.pKi == 6.51]['canonical_smiles']
# Solución, la molécula es la misma, cualquiera puede ser asignada

49    Nc1n[nH]c2nnc(-c3c(-c4ccccc4)nn4ccccc34)cc12
50    Nc1n[nH]c2nnc(-c3c(-c4ccccc4)nn4ccccc34)cc12
Name: canonical_smiles, dtype: object

In [104]:
# Molécula 'erk2_25', como se dijo, su pki debe estar entre 6.59 y 6.51
df_pki_year[(df_pki_year.pKi >= 6.51) & (df_pki_year.pKi <= 6.59)]
# Parece no haber alternativas... ¿Será que la la 24 y la  25 son la misma molécula y por eso está omitida en la tabla?

Unnamed: 0.1,Unnamed: 0,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,bao_endpoint,bao_format,bao_label,...,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value,pKi
7,7,,1739116,[],CHEMBL866209,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,260.0,6.59
49,49,,2136950,[],CHEMBL939354,Inhibition of ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,310.0,6.51
50,50,,2136952,[],CHEMBL939356,Binding affinity to ERK2,B,BAO_0000192,BAO_0000357,single protein format,...,MAP kinase ERK2,9606,,,Ki,nM,UO_0000065,,310.0,6.51


In [105]:
# Hecho el análisis anterior procedemos a substraer las moléculas:
# Creamos una máscara que conserve sólo las moléculas de CHEMBL con los mismos pKis que la tabla de Fourches
mask = [i in df_chembl_mols.pKi.unique() for i in df_pki_year.pKi]
# Aplicamos la máscara

df_48_mols_ = df_pki_year[mask]
df_48_mols_.reset_index(drop=True, inplace=True)
df_48_mols_.shape # A este puntotenemos las 48 moléculas de Fourches
# ahora procedemos a identificarlas
# 1) Primero creamos una nueva columna con valores vacios
df_48_mols_['Name_fourches'] = '-'
# 2) Luego vamos a eliminar algunas columnas que no aportan información necesaria
cols_to_keep = ['Name_fourches', 'pKi', 'activity_id', 'assay_chembl_id', 'canonical_smiles', 'document_year', 'ligand_efficiency', 'molecule_chembl_id',
               'record_id', 'pchembl_value', 'standard_type', 'standard_units', 'standard_value']
df_48_mols_ = df_48_mols_[cols_to_keep]

# 3) Ahora vamos a etiquetarlas con los nombres que Fourches usó (erk2_01 ... erk2_48)
# De la tabla de fourches elegimos una molécula i y comparamos su pki en la tabla actual para identificar la molécula correspondiente
for mol, pki in zip(df_chembl_mols.Name, df_chembl_mols.pKi):
    # Obten la molécula en chembl4040 con el pki similar
    index = df_48_mols_[df_48_mols_.pKi == pki].index.values
    # Asigna el valor a la fila correspondiente, pero verifica, si hay valores duplicados
    for ix in index:
        name_pos = df_48_mols_.loc[ix, 'Name_fourches']
        if name_pos == '-':
            df_48_mols_.loc[ix, 'Name_fourches'] = mol
            break
# Todas las moléculas están identificadas, salvo la molécula 25
# Vamos a quitarla de la tabla, ya que su SMILES es igual a la 24
df_final_chembl_fourches = df_48_mols_[df_48_mols_.Name_fourches != '-']
# Ahora ordenamos por valor de pki descendente, tal como la tabla de Fourchess
df_final_chembl_fourches = df_final_chembl_fourches.sort_values(['pKi', 'Name_fourches'], ascending=False)
df_final_chembl_fourches = df_final_chembl_fourches.reset_index(drop=True)
df_final_chembl_fourches.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,Name_fourches,pKi,activity_id,assay_chembl_id,canonical_smiles,document_year,ligand_efficiency,molecule_chembl_id,record_id,pchembl_value,standard_type,standard_units,standard_value
0,erk2_54,8.7,1820400,CHEMBL917079,O=C(N[C@H](CO)c1ccc(F)c(Cl)c1)c1cc(-c2n[nH]cc2...,2007.0,"{'bei': '18.94', 'le': '0.38', 'lle': '3.72', ...",CHEMBL387385,626614,8.7,Ki,nM,2.0
1,erk2_53,8.52,2938342,CHEMBL1044904,COc1cccc(Nc2ncc(C)c(-c3c[nH]c(C(=O)N[C@H](CO)c...,2009.0,"{'bei': '16.78', 'le': '0.32', 'lle': '3.86', ...",CHEMBL569181,853644,8.52,Ki,nM,3.0
2,erk2_52,8.52,2938362,CHEMBL1044904,CCc1ccccc1Nc1ncc(C)c(-c2c[nH]c(C(=O)N[C@H](CO)...,2009.0,"{'bei': '19.30', 'le': '0.35', 'lle': '3.97', ...",CHEMBL572361,853536,8.52,Ki,nM,3.0
3,erk2_51,8.4,2938359,CHEMBL1044904,Cc1cnc(Nc2ccccc2O)nc1-c1c[nH]c(C(=O)N[C@H](CO)...,2009.0,"{'bei': '19.55', 'le': '0.36', 'lle': '4.71', ...",CHEMBL570366,853520,8.4,Ki,nM,4.0
4,erk2_50,8.4,2938360,CHEMBL1044904,Cc1cnc(Nc2ccccc2C(F)(F)F)nc1-c1c[nH]c(C(=O)N[C...,2009.0,"{'bei': '17.44', 'le': '0.33', 'lle': '3.39', ...",CHEMBL571030,853460,8.4,Ki,nM,4.0


In [107]:
# Finalmente, guardamos el archivo en formato JSON
df_final_chembl_fourches.to_json('./CHEMBL4040_48mols_used_by_Fourches_erk2.json')