# Proteínas de DUD y DEKOIS2

In [1]:
import os
import numpy as np
import pandas as pd

###  Carga de los datos

In [2]:
df_targets = pd.read_json('targets_table.json')
df_targets.index.name = 'accession'
targets_pdb = pd.read_json('targets_PDB_IDS.json')
targets_pdb.index.name = 'accession'

## Tabla *df_prot_targets*

La tabla `df_prot_targets` contiene información de las proteínas que se encuentran en los sets *DUD 2006* y *DEKOIS2.0*.

- La primer columna de la tabla corresponde al _**accession number**_ de cada proteína, establecido como identificador único. La columna **name** corresponde al acrónimo dado a la proteína, y **long_name** al nombre completo de la proteína como aparece en *UNIPROT*.

- Las columnas **DUD** y **DEKOIS2** indican con un *1* o un *0* si la proteína se encuentra o no, respectivamente, en dicho set.

- Finalmente, las columnas **pdb_ids** y **n_crystals** indican cuántos y qué cristales hay disponibles en el PDB de dicha proteína.

In [3]:
df_prot_targets = pd.merge(df_targets, targets_pdb, left_index=True, right_index=True)
df_prot_targets.head()

Unnamed: 0_level_0,name,long_name,DUD,DEKOIS2,pdb_ids,n_crystals
accession,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
O14965,AURKA,Aurora kinase A,0,1,"[1MQ4, 1MUO, 1OL5, 1OL6, 1OL7, 2BMC, 2C6D, 2C6...",155
O15530,PDK1,3-phosphoinositide-dependent protein kinase 1,0,1,"[1H1W, 1OKY, 1OKZ, 1UU3, 1UU7, 1UU8, 1UU9, 1UV...",68
O76074,PDE5,"cGMP-specific 3',5'-cyclic phosphodiesterase",0,1,"[1RKP, 1T9R, 1T9S, 1TBF, 1UDT, 1UDU, 1UHO, 1XO...",37
P00374,DHFR,Dihydrofolate reductase,1,1,"[1BOZ, 1DHF, 1DLR, 1DLS, 1DRF, 1HFP, 1HFQ, 1HF...",79
P00533,EGFR,Epidermal growth factor receptor,1,1,"[1DNQ, 1DNR, 1IVO, 1M14, 1M17, 1MOX, 1NQL, 1XK...",189


### Número de porteínas por dataset
- El número de proteínas por dataset es:
    - 21 para **DUD**; **20 únicos**.
        - De los cuales ER_agonist y ER_antagonist son dos conformaciones de la misma proteína.
    - 81 para **DEKOIS**: **79 únicos**.
        - HIVRT y HIVPR es el mismo gen que codifica a una poliproteína del HIV-1 que incluye a la transcriptasa reversa y a la proteasa del HIV.
        - PYGL-in y PYGL-out son dos conformaciones de la misma proteína (glucógeno fosforilasa)


In [4]:
len_dud = len(df_prot_targets[df_prot_targets['DUD'] == 1])
print(f'Número de proteínas en DUD: {len_dud}')

len_dekois = len(df_prot_targets[df_prot_targets['DEKOIS2'] == 1])
print(f'Número de proteínas en DEKOIS: {len_dekois}')

Número de proteínas en DUD: 20
Número de proteínas en DEKOIS: 79


### Ejemplo: Proteína CDK2

In [5]:
df_prot_targets[df_prot_targets['name'] == 'CDK2']

Unnamed: 0_level_0,name,long_name,DUD,DEKOIS2,pdb_ids,n_crystals
accession,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
P24941,CDK2,CDK2_HUMAN Cyclin-dependent kinase 2 OS=Homo s...,1,1,"[1AQ1, 1B38, 1B39, 1BUH, 1CKP, 1DI8, 1DM2, 1E1...",410


## Proteínas presentes en DUD y en DEKOIS2

In [6]:
df_prot_targets[(df_prot_targets['DUD'] == 1) & (df_prot_targets['DEKOIS2'] == 1)]

Unnamed: 0_level_0,name,long_name,DUD,DEKOIS2,pdb_ids,n_crystals
accession,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
P00374,DHFR,Dihydrofolate reductase,1,1,"[1BOZ, 1DHF, 1DLR, 1DLS, 1DRF, 1HFP, 1HFQ, 1HF...",79
P00533,EGFR,Epidermal growth factor receptor,1,1,"[1DNQ, 1DNR, 1IVO, 1M14, 1M17, 1MOX, 1NQL, 1XK...",189
P00742,FXa,FA10_HUMAN Coagulation factor X OS=Homo sapien...,1,1,"[1C5M, 1EZQ, 1F0R, 1F0S, 1FAX, 1FJS, 1FXY, 1G2...",144
P04150,GR,Glucocorticoid receptor,1,1,"[1M2Z, 1NHZ, 1P93, 3BQD, 3CLD, 3E7C, 3H52, 3K2...",43
P10275,AR,Androgen receptor,1,1,"[1E3G, 1GS4, 1T5Z, 1T63, 1T65, 1XJ7, 1XOW, 1XQ...",82
P11362,FGFR1,Fibroblast growth factor receptor 1,1,1,"[1AGW, 1CVS, 1EVT, 1FGI, 1FGK, 1FQ9, 1XR0, 2CR...",65
P12821,ACE,Angiotensin-converting enzyme,1,1,"[1O86, 1O8A, 1UZE, 1UZF, 2C6F, 2C6N, 2IUL, 2IU...",44
P24941,CDK2,CDK2_HUMAN Cyclin-dependent kinase 2 OS=Homo s...,1,1,"[1AQ1, 1B38, 1B39, 1BUH, 1CKP, 1DI8, 1DM2, 1E1...",410
