# 1. Introducción a STRING.

## 1.1. ¿Qué es?
STRING es una base de datos que recopila información sobre las relaciones entre proteínas. Esta herramienta ofrece un grafo que establece las compatibilidades, así como similitudes entre las moléculas. Para ello, STRING hace uso de una amplia fuente de datos, así como mecanismos de análisis, para ofrecer detalles sobre estos elementos.


## 1.2. ¿Cómo funciona?
STRING proporciona detalles sobre las relaciones entre proteínas a través de cuatro fuentes de datos principales, enriquecidas con mecanismos adicionales y tecnologías de análisis y predicción. Las fuentes de datos que alimentan la red de proteínas, así como algunos recursos adicionales, son:
- Datos sobre las fusiones génicas.
- Información del contexto genómico de las proteínas.
- Vecindad entre proteínas.
- Los perfiles filogénicos dentro del árbol de la vida.
- Similitudes entre expresiones genéticas.
- Experimentos sobre interacciones entre proteínas.
- Datasets curados.
- Pathway moleculares.
- Mapas bioquímicos.
- Machine Learning.
- Deep Learning.

Todo el conocimiento extraído y almacenado en la base de datos de STRING es accesible a través del portal web de la plataforma. Del mismo modo, con el objetivo de facilitar la integración de los resultados en implementaciones propias, STRING proporciona una API que permite emprender consultas de manera programática. Como resultado, en estos ejercicios se repasaran las operaciones, así como las interacciones, más relevantes del servicio.

## 1.3. ¿Cómo resolver este notebook?
Este _notebook_ propone un recorrido breve pero profundo de las posibilidades de la API REST de STRING. Para ello, los ejercicios proponen dos enfocques principales: emprender solicitudes a la API REST a través de la URL y realizar consultas mediante la librería stringdb.

# 2. Acceso programático a los recursos de STRING.
STRING proporciona una API accesible mediante peticiones HTTP, así como una librería de Python para interacturar con los _endpoints_. A continuación, se propone un conjunto de ejercicios basados en la invocación directa de la API, así como en el uso de la librería.

## 2.1. Consultas mediante URL.
La API Rest de STRING propone un conjunto de _endpoints_ para interactuar. Estos puntos de consulta permiten indicar el tipo de información que se quiere obtener. De esta manera, se distingue un total de nueve _endpoints_. Puedes encontrar todos los detalles en https://string-db.org/cgi/help.pl?subpage=api.

---

https://string-db.org/api
  /FORMAT
  /METHODS

**/FORMAT**

Las opciones posibles para el formato de salida de la petición dependen activamente del _endpoint_ que se consulte. A continuación, junto con cada método, se detallará el conjunto de opciones válidas.

**/METHODS**

> get_string_ids

Formatos: tsv, tsv-no-header, json, xml.

Parámetros:
- identifiers= Indica el identificador o identificadores que se involucrarán en la consulta, separados por %0d. Ejemplo: identifiers=DRD1_HUMAN%0dDRD2_HUMAN.

- echo_query= [Opcional] Añade una columna con los datos proporcionadas como parámetro. Se indica mediante 0 o 1.
- limit=	[Opcional] Limita el número de coincidencias por identificador proporcionado. Las mejores coincidencias figurarán primero.
- species=	[Opcional] Indica el identificador taxon-NCBI ID de especies. Por ejemplo, en el caso del homo sapiens es 9606. Podrás encontrar más datas en https://string-db.org/cgi/input.pl?input_page_active_form=organisms.
- caller_identity= [Opcional]	Identificación de la petición.

Como salida de la petición, se recibirán los siguientes campos de información:
- queryItem [Opcional]. ID del elemento solicitado.
- queryIndex. Posición de la proteína en la consulta. Comienza en cero.
- strinId. Identificador en STRING.
- ncbiTaxonId. Identificador en taxon-NCBI.
- taxonName. Nombre de la especie.
- preferredName. Nombre común de la proteína.
- annotation. Anotaciones sobre la proteína.

> network?PARAMETERS

Formatos: image, highres_image, avg

Parámetros:
- identifiers= Indica el identificador o identificadores que se involucrarán en la consulta, separados por %0d. Ejemplo: identifiers=DRD1_HUMAN%0dDRD2_HUMAN.
- species= [Opcional] Indica el identificador taxon-NCBI ID de especies. Por ejemplo, en el caso del homo sapiens es 9606. Podrás encontrar más datas en https://string-db.org/cgi/input.pl?input_page_active_form=organisms.
- add_color_nodes= [Opcional] Establece una gama de colores en los nodos basado en la puntuación de las proteínas indicadas como argumento.
- add_white_nodes= [Opcional] Establece nodos blancos basados en la puntuación de las proteínas indicadas como argumento.
- required_score= [Opcional] Umbral de relevancia de las relaciones entre las proteínas a incluir. De esta manera, el valor se gradúa entre 0 y 1000.
- network_flavor= [Opcional] Estilo de las aristas de la red: evidence, confidence (default), actions.
- network_type= [Opcional] Tipo de relación que se quiere incluir: functional, physical.
- hide_node_labels= [Opcional] Indicando 0 o 1, permite configurar si se muestra o no el nombre de las proteínas en la red.
- hide_disconnected_nodes= [Opcional] 0/1.
- show_query_node_labels= [Opcional] 0/1. Permite indicar si la etiqueta de las proteínas indicadas como argumento debe mostrarse.
- block_structure_pics_in_bubbles [Opcional] 0/1.
- caller_identity= [Opcional]	Identificación de la petición.

Como salida de la petición, se recibirán los siguientes campos de información:

- imagen.

> get_link?PARAMETERS

Proporciona un enlace en STRING para la imagen de la red solicitada.

Formato: tsv, tsv-no-header, json, xml.

Parámetros:
- identifiers= Indica el identificador o identificadores que se involucrarán en la consulta, separados por %0d. Ejemplo: identifiers=DRD1_HUMAN%0dDRD2_HUMAN.
- species= [Opcional] Indica el identificador taxon-NCBI ID de especies. Por ejemplo, en el caso del homo sapiens es 9606. Podrás encontrar más datas en https://string-db.org/cgi/input.pl?input_page_active_form=organisms.
- add_color_nodes= [Opcional] Establece una gama de colores en los nodos basado en la puntuación de las proteínas indicadas como argumento.
- add_white_nodes= [Opcional] Establece nodos blancos basados en la puntuación de las proteínas indicadas como argumento.
- required_score= [Opcional] Umbral de relevancia de las relaciones entre las proteínas a incluir. De esta manera, el valor se gradúa entre 0 y 1000.
- network_flavor= [Opcional] Estilo de las aristas de la red: evidence, confidence (default), actions.
- network_type= [Opcional] Tipo de relación que se quiere incluir: functional, physical.
- hide_node_labels= [Opcional] Indicando 0 o 1, permite configurar si se muestra o no el nombre de las proteínas en la red.
- hide_disconnected_nodes= [Opcional] 0/1.
- show_query_node_labels= [Opcional] 0/1. Permite indicar si la etiqueta de las proteínas indicadas como argumento debe mostrarse.
- block_structure_pics_in_bubbles [Opcional] 0/1.
- caller_identity= [Opcional]	Identificación de la petición.

Como salida de la petición, se recibirán los siguientes campos de información:
- url. Link estable al rescurso.

> network?PARAMETERS

Devuelve los detalles de las relaciones de las proteínas proporcionadas.

Formato: tsv, tsv-no-header, json, xml.

Parámetros:
- identifiers= Indica el identificador o identificadores que se involucrarán en la consulta, separados por %0d. Ejemplo: identifiers=DRD1_HUMAN%0dDRD2_HUMAN.
- species= [Opcional] Indica el identificador taxon-NCBI ID de especies. Por ejemplo, en el caso del homo sapiens es 9606. Podrás encontrar más datas en https://string-db.org/cgi/input.pl?input_page_active_form=organisms.
- required_score= [Opcional] Umbral de relevancia de las relaciones entre las proteínas a incluir. De esta manera, el valor se gradúa entre 0 y 1000.
- network_type= [Opcional] Tipo de relación que se quiere incluir: functional, physical.
- add_nodes= [Opcional] Se añade un número adicional de proteínas a la red relacionadas con el parámetro de entrada. Cuando se indica únicamente una sola proteína, este valor se establece en 10. Por otro lado, si se indica una colección de proteínas, este valor permanecerá a cero por defecto.
- show_query_node_labels= [Opcional] 0/1. Permite indicar si la etiqueta de las proteínas indicadas como argumento debe mostrarse.
- caller_identity= [Opcional]	Identificación de la petición.

Como salida de la petición, se recibirán los siguientes campos de información:
- stringId_A.
- stringId_B.
- preferredName_A.
- preferredName_B.
- ncbiTaxonId.
- score. Puntuación combinada de la red.
- nscore. Puntuación de vecindad genética de la red.
- fscore. Puntuación de fusión genética.
- pscore. Puntuación del perfil filogenético de la red.
- ascore. Puntuación de coexpresión de la red.
- escore. Puntuación de experimentación.
- dscore. Puntuación de base de datos.
- tscore. Text mining score.

> homology?PARAMETERS

Devuelve proteínas similares a las proporcionadas.

Formato: tsv, tsv-no-header, json, xml.

Parámetros:
- identifiers= Indica el identificador o identificadores que se involucrarán en la consulta, separados por %0d. Ejemplo: identifiers=DRD1_HUMAN%0dDRD2_HUMAN.
- species= [Opcional] Indica el identificador taxon-NCBI ID de especies. Por ejemplo, en el caso del homo sapiens es 9606. Podrás encontrar más datas en https://string-db.org/cgi/input.pl?input_page_active_form=organisms.
- caller_identity= [Opcional]	Identificación de la petición.

Como salida de la petición, se recibirán los siguientes campos de información:

- ncbiTaxonId_A.
- ncbiTaxonId_B.
- stringId_A.
- stringId_B.
- bitscore. Smith-Waterman alignment bit score.

Puedes encontrar todos los detalles del resto de _endpoints_ en https://string-db.org/cgi/help.pl?subpage=api.

In [1]:
import shutil
import requests
import pandas as pd
import stringdb

### 2.1.1. Obtén el nombre común de proteínas a partir de su identificador.
ID de proteínas: 'Smo'.

Especie: Mus Musculus.

¿Cómo podemos hacer la búsqueda según su nombre?

In [1]:
base_url='https://string-db.org/api/json/'

url_request = base_url + "get_string_ids?identifiers=Smo&species=10090"
print("Requesting to "+url_request)

response = requests.get(url_request).json()
df = pd.DataFrame(response)
df

Requesting to https://string-db.org/api/json/get_string_ids?identifiers=Smo&species=10090


Unnamed: 0,queryIndex,queryItem,stringId,ncbiTaxonId,taxonName,preferredName,annotation
0,0,Smo,10090.ENSMUSP00000001812,10090,Mus musculus,Smo,Smoothened homolog; G protein-coupled receptor...


In [8]:
# ¿Cómo podemos hacer la búsqueda según su identificador?
url_request = base_url + "get_string_ids?identifiers=10090"
print("Requesting to "+url_request)

# ..

Requesting to https://string-db.org/api/json/get_string_ids?identifiers=10090


### 2.1.2. ¿A qué especies pertenecen las siguientes proteínas?.
ID de proteínas: 1, 2, 3, 4, 5. Recuerda utilizar %0d para separar los valores.

In [10]:
url_request = base_url + "get_string_ids?identifiers=1%0d2%0d3%0d4%0d5"
print("Requesting to "+url_request)

response = requests.get(url_request).json()
df = pd.DataFrame(response)
df

Requesting to https://string-db.org/api/json/get_string_ids?identifiers=1%0d2%0d3%0d4%0d5


Unnamed: 0,queryIndex,queryItem,stringId,ncbiTaxonId,taxonName,preferredName,annotation
0,0,1,7227.FBpp0081985,7227,Drosophila melanogaster,CG3281,LD47774p; Zinc ion binding; DNA-binding transc...
1,1,2,7227.FBpp0074558,7227,Drosophila melanogaster,AP-1-2beta,"Adaptor Protein complex 1/2, beta subunit (AP-..."
2,2,3,7227.FBpp0112135,7227,Drosophila melanogaster,CG12213,"Uncharacterized protein, isoform C."
3,3,4,7227.FBpp0077119,7227,Drosophila melanogaster,Traf4,TNF-receptor-associated factor 4 (Traf4) encod...
4,4,5,7227.FBpp0072162,7227,Drosophila melanogaster,Zfrp8,Zinc finger protein RP-8 (Zfrp8) encodes a hig...


### 2.1.3. Genera una imagen del grafo de relaciones de proteínas.
ID de proteínas: DRD2_HUMAN, DRD1_HUMAN, DRD3_HUMAN

Tipo de red: funcional.

La red debe mostrar TODOS los elementos independientemente de sus relaciones.

¿Y si incrementamos el número de nodos asociados al conjunto de proteínas a 55?

In [10]:
base_url="https://string-db.org/api/image/"
url_request = base_url + "network?identifiers=DRD2_HUMAN%0dDRD1_HUMAN%0dDRD3_HUMAN&network_type=functional"

print("Requesting to "+url_request)

response = requests.get(url_request, stream=True)
with open('img.png', 'wb') as out_file:
    shutil.copyfileobj(response.raw, out_file)
del response

Requesting to https://string-db.org/api/image/network?identifiers=DRD2_HUMAN%0dDRD1_HUMAN%0dDRD3_HUMAN&network_type=functional


In [14]:
# Número de nodos considerados = 55
url_request = base_url + "network?identifiers=DRD2_HUMAN%0dDRD1_HUMAN%0dDRD3_HUMAN&network_type=functional&add_color_nodes=55"

print("Requesting to "+url_request)

response = requests.get(url_request, stream=True)
with open('img.png', 'wb') as out_file:
    shutil.copyfileobj(response.raw, out_file)
del response
# ..

Requesting to https://string-db.org/api/image/network?identifiers=DRD2_HUMAN%0dDRD1_HUMAN%0dDRD3_HUMAN&network_type=functional&add_color_nodes=55


### 2.1.4. Genera una imagen del grafo de relaciones de proteínas.
ID de proteínas: trpB

El umbral de relación debe ser 70.

Número de nodos: 10.

Tipo de red: física.

La red debe mostrar únicamente aquellos elementos que cuenten con enlaces con otras proteínas.

¿Por qué no se muestran todos los nodos?



In [9]:
# ..
base_url="https://string-db.org/api/image/"
url_request = base_url + "network?identifiers=trpB&network_type=physical&add_color_nodes=10&required_score=70"

print("Requesting to "+url_request)

response = requests.get(url_request, stream=True)
with open('imog.png', 'wb') as out_file:
    shutil.copyfileobj(response.raw, out_file)
del response

# ¿Por qué no se muestran todos los 10 nodos?
# Porque no superan el umbral de relacion.

Requesting to https://string-db.org/api/json/network?identifiers=trpB&network_type=physical&add_color_nodes=10&required_score=70


### 2.1.5. Obtén las relaciones existentes para una proteína en particular.
ID de la proteína: BPSL2020

El umbral de relación debe ser de 40.

La especie con la que se debe corresponder la proteína proporcionada es Burkholderia.

Se deben mostrar 15 nodos relacionados con la proteína proporcionada.

Genera la red de relaciones que generaría esta relación.

In [5]:
base_url= 'https://string-db.org/api/json/'
url_request = base_url + "network?identifiers=BPSL2020&species=Burkholderia&add_nodes=15&required_score=40"

print("Requesting to "+url_request)

response = requests.get(url_request).json()
df = pd.DataFrame(response)
df

Requesting to https://string-db.org/api/json/network?identifiers=BPSL2020&species=Burkholderia&add_nodes=15&required_score=40


Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
0,272560.BPSL0019,272560.BPSS0294,BPSL0019,BPSS0294,272560,0.157,0.000,0,0.157,0.000,0.000,0,0.000
1,272560.BPSL0019,272560.BPSS0294,BPSL0019,BPSS0294,272560,0.157,0.000,0,0.157,0.000,0.000,0,0.000
2,272560.BPSL0019,272560.BPSS0538,BPSL0019,BPSS0538,272560,0.211,0.043,0,0.169,0.088,0.000,0,0.000
3,272560.BPSL0019,272560.BPSS0538,BPSL0019,BPSS0538,272560,0.211,0.043,0,0.169,0.088,0.000,0,0.000
4,272560.BPSL0019,272560.BPSS1350,BPSL0019,BPSS1350,272560,0.211,0.043,0,0.169,0.088,0.000,0,0.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
191,272560.BPSS0624,272560.BPSS1350,macB,BPSS1350,272560,0.181,0.063,0,0.000,0.000,0.081,0,0.126
192,272560.BPSS0624,272560.BPSS1348,macB,BPSS1348,272560,0.808,0.129,0,0.164,0.068,0.708,0,0.182
193,272560.BPSS0624,272560.BPSS1348,macB,BPSS1348,272560,0.808,0.129,0,0.164,0.068,0.708,0,0.182
194,272560.BPSS1348,272560.BPSS1350,BPSS1348,BPSS1350,272560,0.503,0.269,0,0.314,0.088,0.000,0,0.000


In [12]:
# Generación del grafo
base_url="https://string-db.org/api/image/"
url_request = base_url + "network?identifiers=BPSL2020&species=Burkholderia&add_nodes=15&required_score=40"
response = requests.get(url_request, stream=True)
with open('img.png', 'wb') as out_file:
    shutil.copyfileobj(response.raw, out_file)
del response

### 2.1.6. Obtén las relaciones existentes en un conjunto de proteínas.

ID de las proteínas: mats, wts, hpo, trc, polo.

El umbral de relación debe ser 80.

La especie debe ser Drosophila melanogaster.

¿Cuántas relaciones se obtienen?

¿Cuál es la media de la puntuación del perfil filogenético de la red?


In [13]:
base_url= 'https://string-db.org/api/json/'
url_request = base_url + "network?identifiers=mats%0dwts%0dhpo%0dtrc%0dpolo&species=7227&add_nodes=15&required_score=80"

print("Requesting to "+url_request)

response = requests.get(url_request).json()
df = pd.DataFrame(response)
df
# ..

Requesting to https://string-db.org/api/json/network?identifiers=mats%0dwts%0dhpo%0dtrc%0dpolo&species=7227&add_nodes=15&required_score=80


Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
0,7227.FBpp0071822,7227.FBpp0307973,CycB,mats,7227,0.257,0,0,0.0,0.064,0.141,0.0,0.150
1,7227.FBpp0071822,7227.FBpp0307973,CycB,mats,7227,0.257,0,0,0.0,0.064,0.141,0.0,0.150
2,7227.FBpp0071822,7227.FBpp0402906,CycB,yki,7227,0.283,0,0,0.0,0.000,0.068,0.0,0.262
3,7227.FBpp0071822,7227.FBpp0402906,CycB,yki,7227,0.283,0,0,0.0,0.000,0.068,0.0,0.262
4,7227.FBpp0071822,7227.FBpp0304464,CycB,trc,7227,0.463,0,0,0.0,0.051,0.251,0.0,0.306
...,...,...,...,...,...,...,...,...,...,...,...,...,...
209,7227.FBpp0306890,7227.FBpp0310068,stg,cdc14,7227,0.708,0,0,0.0,0.047,0.527,0.0,0.404
210,7227.FBpp0307973,7227.FBpp0310068,mats,cdc14,7227,0.770,0,0,0.0,0.000,0.154,0.0,0.739
211,7227.FBpp0307973,7227.FBpp0310068,mats,cdc14,7227,0.770,0,0,0.0,0.000,0.154,0.0,0.739
212,7227.FBpp0307973,7227.FBpp0402906,mats,yki,7227,0.971,0,0,0.0,0.071,0.234,0.9,0.649


In [19]:
# ¿Cuántas relaciones se obtienen?
len(df)

214

In [21]:
# Media de Puntuación del perfil filogenético de la red.
df['score'].mean()

0.671785046728972

### 2.1.7. Devuelve la compatibilidad (homology scores) entre dos proteínas particulares.
ID proteínas: dzip1 and osbpl1a.

¿Cuál será el bitscore medio de las relaciones?


In [23]:
base_url= 'https://string-db.org/api/json/'
url_request = base_url + "homology?identifiers=dzip1%0dosbpl1a"
print("Requesting to "+url_request)

response = requests.get(url_request).json()
df = pd.DataFrame(response)
df

# ..

Requesting to https://string-db.org/api/json/homology?identifiers=dzip1%0dosbpl1a


Unnamed: 0,ncbiTaxonId_A,stringId_A,ncbiTaxonId_B,stringId_B,bitscore
0,9606,9606.ENSP00000257312,9606,9606.ENSP00000257312,1796.6
1,9606,9606.ENSP00000320291,9606,9606.ENSP00000320291,1983.8


In [29]:
# Bitscore medio

df['bitscore'].astype('float64').mean()

1890.1999999999998

## 2.2. Consultas mediante stringdb.

La librería de Python stringdb proporciona un conjunto de operaciones que interactúan con la API Rest de STRING para ofrecer resultados. Para ello, se puede hacer uso de cinco métodos:
- get_enrichement: devuelve las relaciones funcionales del pathways del conjunto de proteínas proporcionadas como parámetro.
- get_interaction_partners: proporciona las interacciones identificadas para las proteínas indicadas.
- get_ppi_enrichment: calcula el valor de enriquecimiento de los valores indicados, es decir, el denominado Protein-Protein Interaction (PPI) enrichment (p-value), referencia que mide el nivel de interacción entre las entidades.
- get_network: devuelve la red de relaciones generadas entre las proteínas indicadas.
- get_functional_annotation: determina todos los pathways para la lista de proteínas indicadas.
- get_string_ids: muestra las características correspondientes a las proteínas proporcionadas como parámetro.
Adicionalmente, se proporciona un método que permite invocar directamente peticiones mediante una URL a los _endpoints_ de la API.

Es interesante considerar que los métodos proporcionan un DataFrame como resultado. De esta manera, será posible realizar operaciones de ordenado y clasificación, así como recorrido, de la información.





### 2.2.1. Configuración de la librería.

#### 2.2.1.1. Instala la librería stringdb.

In [40]:
%pip install stringdb

Note: you may need to restart the kernel to use updated packages.


#### 2.2.1.2. Importa la librería stringdb.
Tras este paso, ya podrás hacer uso de las funciones que proporciona la librería.

### 2.2.3. Ejercicios.

#### 2.2.3.1. Obtén las características completas de un conjunto de genes.
¿A qué especie pertenecen?
Colección de genes: 'TP53', 'BRCA1', 'FANCD1', 'FANCL'.


In [43]:
# Características de los genes.
genes =['TP53', 'BRCA1', 'FANCD1', 'FANCL']
string_ids=stringdb.get_string_ids(genes)
string_ids

Unnamed: 0,queryItem,queryIndex,stringId,ncbiTaxonId,taxonName,preferredName,annotation
0,TP53,0,9606.ENSP00000269305,9606,Homo sapiens,TP53,Cellular tumor antigen p53; Acts as a tumor su...
1,BRCA1,1,9606.ENSP00000418960,9606,Homo sapiens,BRCA1,Breast cancer type 1 susceptibility protein; E...
2,FANCD1,2,9606.ENSP00000369497,9606,Homo sapiens,BRCA2,Breast cancer type 2 susceptibility protein; I...
3,FANCL,3,9606.ENSP00000385021,9606,Homo sapiens,FANCL,E3 ubiquitin-protein ligase FANCL; Ubiquitin l...


In [46]:
# Especie a la que pertenecen:

string_ids['taxonName']

0    Homo sapiens
1    Homo sapiens
2    Homo sapiens
3    Homo sapiens
Name: taxonName, dtype: object

#### 2.2.3.2. Obtén una lista de las relaciones funcionales para una lista de proteínas.
Colección de proteínas: 'WDR70', 'PLRG1', 'DDB1', 'CUL4A'.

¿Hay alguna enfermedad entre las relaciones?

In [47]:
genes = ['WDR70', 'PLRG1', 'DDB1', 'CUL4A']

enrichment_df = stringdb.get_enrichment(genes)
enrichment_df.sort_values('fdr')

Unnamed: 0,category,term,number_of_genes,number_of_genes_in_background,ncbiTaxonId,inputGenes,preferredNames,p_value,fdr,description
1,Component,GO:0031464,2,13,9606,"DDB1,CUL4A","DDB1,CUL4A",3.24e-06,0.0066,Cul4A-RING E3 ubiquitin ligase complex
0,COMPARTMENTS,GOCC:0031464,2,15,9606,"DDB1,CUL4A","DDB1,CUL4A",4.2e-06,0.0097,Cul4A-RING E3 ubiquitin ligase complex
2,KEGG,hsa03420,2,46,9606,"DDB1,CUL4A","DDB1,CUL4A",3.48e-05,0.0117,Nucleotide excision repair
4,PMID,PMID:30791110,3,18,9606,"WDR70,DDB1,CUL4A","WDR70,DDB1,CUL4A",4.17e-09,0.0162,(2019) The Antiresection Activity of the X Pro...
5,PMID,PMID:25461807,3,26,9606,"DDB1,CUL4A,PLRG1","DDB1,CUL4A,PLRG1",1.15e-08,0.0222,(2015) BCAS2 promotes prostate cancer cells pr...
15,WikiPathways,WP4753,2,44,9606,"DDB1,CUL4A","DDB1,CUL4A",3.19e-05,0.0249,Nucleotide excision repair
6,PMID,PMID:33627782,3,33,9606,"WDR70,DDB1,CUL4A","WDR70,DDB1,CUL4A",2.24e-08,0.0289,(2021) CRL4A(DTL) degrades DNA-PKcs to modulat...
14,RCTM,HSA-6782210,2,64,9606,"DDB1,CUL4A","DDB1,CUL4A",6.6e-05,0.0349,Gap-filling DNA repair synthesis and ligation ...
13,RCTM,HSA-6782135,2,65,9606,"DDB1,CUL4A","DDB1,CUL4A",6.8e-05,0.0349,Dual incision in TC-NER
12,RCTM,HSA-6781823,2,53,9606,"DDB1,CUL4A","DDB1,CUL4A",4.57e-05,0.0349,Formation of TC-NER Pre-Incision Complex


In [48]:
# Número de enfermedades ('DISEASES') en el conjunto de salida.
diseases = 0
for mol in enrichment_df['category']:
    if(mol == 'DISEASES'):
        diseases = diseases + 1

diseases
# ..

0

#### 2.2.3.3. Genera el conjunto de relaciones asociadas a un conjunto de genes.
Colección de genes: 'CUL4B', 'RBX1', 'SNW1', 'CDC40'.

El umbral de compatibilidades (required_score) debe ser 400.

La especie de las proteínas (species) involucradas debe ser humana (9606).

¿Cuántas relaciones se han calculado?

In [49]:
genes = ['CUL4B', 'RBX1', 'SNW1', 'CDC40']

enrichment_df = stringdb.get_network(genes, required_score=400, species=9606)
enrichment_df

Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
0,9606.ENSP00000216225,9606.ENSP00000451129,RBX1,SNW1,9606,0.585,0,0,0,0.064,0.0,0.5,0.186
1,9606.ENSP00000216225,9606.ENSP00000451129,RBX1,SNW1,9606,0.585,0,0,0,0.064,0.0,0.5,0.186
2,9606.ENSP00000216225,9606.ENSP00000384109,RBX1,CUL4B,9606,0.999,0,0,0,0.074,0.993,0.9,0.996
3,9606.ENSP00000216225,9606.ENSP00000384109,RBX1,CUL4B,9606,0.999,0,0,0,0.074,0.993,0.9,0.996
4,9606.ENSP00000357928,9606.ENSP00000451129,CDC40,SNW1,9606,0.999,0,0,0,0.169,0.997,0.9,0.763
5,9606.ENSP00000357928,9606.ENSP00000451129,CDC40,SNW1,9606,0.999,0,0,0,0.169,0.997,0.9,0.763


In [50]:
# Número de relaciones obtenidas.
len(enrichment_df)

6

#### 2.2.3.4. Determina las interacciones entre las proteínas proporcionadas, así como el resto de moléculas de STRING.
Colección de genes: 'C2orf69', 'TYW5', 'CFAP300', 'ANKRD13C', 'MOSMO', 'ENSANIP00000001692'.

Determina cuál es la relación con el valor máximo de Text mining score.

In [2]:
genes = ['C2orf69', 'TYW5', 'CFAP300', 'ANKRD13C', 'MOSMO', 'ENSANIP00000001692']

enrichment_df = stringdb.get_network(genes)
enrichment_df

Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
0,9606.ENSP00000312770,9606.ENSP00000359982,C2orf69,ANKRD13C,9606,0.49,0,0,0,0.144,0,0,0.428
1,9606.ENSP00000312770,9606.ENSP00000359982,C2orf69,ANKRD13C,9606,0.49,0,0,0,0.144,0,0,0.428
2,9606.ENSP00000312770,9606.ENSP00000346627,C2orf69,TYW5,9606,0.598,0,0,0,0.08,0,0,0.582
3,9606.ENSP00000312770,9606.ENSP00000346627,C2orf69,TYW5,9606,0.598,0,0,0,0.08,0,0,0.582


In [5]:
# fila con el valor de text mining score más alto.
enrichment_df.loc[enrichment_df['tscore']==enrichment_df['tscore'].max()]

Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
2,9606.ENSP00000312770,9606.ENSP00000346627,C2orf69,TYW5,9606,0.598,0,0,0,0.08,0,0,0.582
3,9606.ENSP00000312770,9606.ENSP00000346627,C2orf69,TYW5,9606,0.598,0,0,0,0.08,0,0,0.582


#### 2.2.3.5. Calcula el valor de interacciones en un conjunto de proteínas.
Colección de genes: 'TMEM69', 'PRDX1', 'LRRC7', 'ENSANIP00000009605', 'NEK5'.

¿Cuál es el grado de relaciones medio por nodo?

In [15]:
genes = ['TMEM69', 'PRDX1', 'LRRC7', 'ENSANIP00000009605', 'NEK5']
interaction_partners_df = stringdb.get_interaction_partners(genes)
interaction_partners_df

Unnamed: 0,stringId_A,stringId_B,preferredName_A,preferredName_B,ncbiTaxonId,score,nscore,fscore,pscore,ascore,escore,dscore,tscore
0,9606.ENSP00000262746,9606.ENSP00000371388,PRDX1,SRXN1,9606,0.999,0.000,0,0.0,0.131,0.957,0.75,0.942
1,9606.ENSP00000262746,9606.ENSP00000363641,PRDX1,TXN,9606,0.990,0.048,0,0.0,0.289,0.720,0.50,0.915
2,9606.ENSP00000262746,9606.ENSP00000265462,PRDX1,PRDX5,9606,0.981,0.000,0,0.0,0.138,0.656,0.40,0.908
3,9606.ENSP00000262746,9606.ENSP00000216185,PRDX1,TXN2,9606,0.928,0.048,0,0.0,0.139,0.174,0.00,0.906
4,9606.ENSP00000262746,9606.ENSP00000361423,PRDX1,ABL1,9606,0.927,0.000,0,0.0,0.074,0.251,0.00,0.904
...,...,...,...,...,...,...,...,...,...,...,...,...,...
355,9606.ENSP00000361095,9606.ENSP00000417138,TMEM69,PLTP,9606,0.425,0.000,0,0.0,0.000,0.000,0.00,0.425
356,9606.ENSP00000361095,9606.ENSP00000321810,TMEM69,TRIT1,9606,0.415,0.000,0,0.0,0.249,0.000,0.00,0.253
357,9606.ENSP00000361095,9606.ENSP00000318029,TMEM69,ODF3L2,9606,0.415,0.000,0,0.0,0.000,0.000,0.00,0.415
358,9606.ENSP00000361095,9606.ENSP00000430025,TMEM69,LYRM2,9606,0.415,0.000,0,0.0,0.063,0.000,0.00,0.401


In [20]:
interaction_partners_df = stringdb.get_ppi_enrichment(genes)
interaction_partners_df

Unnamed: 0,number_of_nodes,number_of_edges,average_node_degree,local_clustering_coefficient,expected_number_of_edges,p_value
0,11,51,9.27,0.926,19,6.21e-10


Average node degree: 9.27

#### 2.2.3.6. Determina los pathways de un gen.
Colección de genes: 'BRCA1'.

In [22]:
genes = ['BRCA1']
interaction_partners_df = stringdb.get_functional_annotation(genes)
interaction_partners_df

Unnamed: 0,category,term,number_of_genes,ratio_in_set,ncbiTaxonId,inputGenes,preferredNames,description
0,COMPARTMENTS,GOCC:0000151,1,1.0,9606,BRCA1,BRCA1,Ubiquitin ligase complex
1,COMPARTMENTS,GOCC:0000152,1,1.0,9606,BRCA1,BRCA1,Nuclear ubiquitin ligase complex
2,COMPARTMENTS,GOCC:0000228,1,1.0,9606,BRCA1,BRCA1,Nuclear chromosome
3,COMPARTMENTS,GOCC:0000793,1,1.0,9606,BRCA1,BRCA1,Condensed chromosome
4,COMPARTMENTS,GOCC:0000794,1,1.0,9606,BRCA1,BRCA1,Condensed nuclear chromosome
...,...,...,...,...,...,...,...,...
1121,NetworkNeighborAL,CL:6149,1,1.0,9606,BRCA1,BRCA1,"Homologous DNA Pairing and Strand Exchange, an..."
1122,NetworkNeighborAL,CL:6150,1,1.0,9606,BRCA1,BRCA1,Resolution of D-loop Structures through Hollid...
1123,NetworkNeighborAL,CL:6195,1,1.0,9606,BRCA1,BRCA1,"BRCA1-C complex, and NIPBL role in DNA damage ..."
1124,NetworkNeighborAL,CL:6207,1,1.0,9606,BRCA1,BRCA1,BRCA1-C complex
