## Identificación de genes involucrados en carcinogénesis viral

Luz Rosario Guevara Cruz (lguevara@lcg.unam.mx) \
Cristina Sotomayor Vivas (cristina@lcg.unam.mx)

En este notebook realizaremos el análisis de la vía de señalización de carcinogénesis viral, con datos obtenidos de la base de datos KEGG. 

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

from genes import *
from pathways import * 
from DataFrame import *

Estamos interesadas en analizar la vía de carcinogénesis viral, cuyo código de acceso es 'hsa05203', obtenemos la vía por medio de la librería `pathways`.

In [2]:
pathway = GetPathway('hsa05203')
genes = ParsePathway(pathway)

Ahora con el módulo de DataFrame juntaremos la información en un DataFrame.  

In [48]:
df_genes = ListToData(genes)
df_genes.head()

Unnamed: 0,Entry,Name,Position,Pathways
0,7157,[(RefSeq) tumor protein p53],17p13.1,"[(hsa01522, Endocrine resistance), (hsa01524, ..."
1,7337,[(RefSeq) ubiquitin protein ligase E3A],15q11.2,"[(hsa04120, Ubiquitin mediated proteolysis), (..."
2,1739,[(RefSeq) discs large MAGUK scaffold protein 1],3q29,"[(hsa04390, Hippo signaling pathway), (hsa0453..."
3,23513,[(RefSeq) scribble planar cell polarity protein],8q24.3,"[(hsa04390, Hippo signaling pathway), (hsa0453..."
4,5829,[(RefSeq) paxillin],12q24.23,"[(hsa04062, Chemokine signaling pathway), (hsa..."


Mediante el código de acceso en la columna Entry observaremos cuáles son los genes que más se repiten

In [49]:
df_genes.Entry.count()

271

In [50]:
len(df_genes.Entry.unique())

185

Obtenemos 271 genes en total, de los cuales 185 son diferentes.

In [51]:
counts = df_genes.Entry.value_counts() 
counts[counts > 1]

7157      9
5291      4
8503      4
5296      4
5295      4
5293      4
1017      4
5290      4
1387      4
2033      4
5925      3
1021      3
6908      3
9519      3
4790      3
4791      3
5966      3
5970      3
387332    3
9586      2
90993     2
11317     2
5610      2
8717      2
64764     2
3516      2
595       2
894       2
896       2
890       2
8900      2
898       2
9134      2
1237      2
7531      2
84699     2
1026      2
468       2
7188      2
148327    2
836       2
8517      2
581       2
7185      2
7186      2
7187      2
3661      2
1388      2
1386      2
10488     2
1385      2
1739      2
Name: Entry, dtype: int64

Consideramos que los genes expresados al menos 4 veces tienen una evidencia más significativa.

In [22]:
signif_genes = counts[counts >= 4]
signif_genes_ids = signif_genes.index

In [66]:
# Quitamos líneas duplicadas del dataframe original 
df_genes = df_genes[~df_genes.Entry.duplicated()]

# Separamos los genes significativos
genes_data = df_genes[df_genes.Entry.isin(signif_genes_ids)]
genes_data

Unnamed: 0,Entry,Name,Position,Pathways
0,7157,[(RefSeq) tumor protein p53],17p13.1,"[(hsa01522, Endocrine resistance), (hsa01524, ..."
49,5290,"[(RefSeq) phosphatidylinositol-4,5-bisphosphat...",3q26.32,"[(hsa00562, Inositol phosphate metabolism), (h..."
50,5291,"[(RefSeq) phosphatidylinositol-4,5-bisphosphat...",3q22.3,"[(hsa00562, Inositol phosphate metabolism), (h..."
51,5293,"[(RefSeq) phosphatidylinositol-4,5-bisphosphat...",1p36.22,"[(hsa00562, Inositol phosphate metabolism), (h..."
52,5295,[(RefSeq) phosphoinositide-3-kinase regulatory...,5q13.1,"[(hsa01521, EGFR tyrosine kinase inhibitor res..."
53,5296,[(RefSeq) phosphoinositide-3-kinase regulatory...,19p13.11,"[(hsa01521, EGFR tyrosine kinase inhibitor res..."
54,8503,[(RefSeq) phosphoinositide-3-kinase regulatory...,1p34.1,"[(hsa01521, EGFR tyrosine kinase inhibitor res..."
62,1017,[(RefSeq) cyclin dependent kinase 2],12q13.2,"[(hsa04068, FoxO signaling pathway), (hsa04110..."
154,1387,[(RefSeq) CREB binding protein],16p13.3,"[(hsa04024, cAMP signaling pathway), (hsa04066..."
155,2033,[(RefSeq) E1A binding protein p300],22q13.2,"[(hsa04024, cAMP signaling pathway), (hsa04066..."


Queremos obetner los nombres de los genes sin formato de lista para compararlos.

In [45]:
# Juntamos en una lista
genes_list = genes_data.Name.to_list()

# Cada elemento es una lista en sí, accedemos al elemento del nombre y quitamos '(RefSeq) '
genes_list = [name[0].replace('(RefSeq) ', '') for name in genes_list]

In [46]:
genes_list

['tumor protein p53',
 'phosphatidylinositol-4,5-bisphosphate 3-kinase catalytic subunit alpha',
 'phosphatidylinositol-4,5-bisphosphate 3-kinase catalytic subunit beta',
 'phosphatidylinositol-4,5-bisphosphate 3-kinase catalytic subunit delta',
 'phosphoinositide-3-kinase regulatory subunit 1',
 'phosphoinositide-3-kinase regulatory subunit 2',
 'phosphoinositide-3-kinase regulatory subunit 3',
 'cyclin dependent kinase 2',
 'CREB binding protein',
 'E1A binding protein p300']

In [67]:
# Renombramos en DataFrame
genes_data.loc[:,'Name'] = genes_list

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[selected_item_labels] = value


A pesar de ser 10 genes diferentes observamos que varios se refieren a subunidades del mismo complejo proteico, lo que sugiere que el complejo participa en el proceso de carcinogénesis. Analizaremos ahora las vías de señalización en las que participan estos genes.

Para cada gen en el DataFrame, la columna 'Pathways' contiene una lista con parejas (id, name) para el identificador y el nombre de la vía metabólica. Crearemos un nuevo DataFrame donde las líneas contengan (gen, id, name) para todas las vías de todos los genes. 

In [70]:
pathway_list = []
for index, gene in genes_data.iterrows():
    # Accedemos a la lista con pathways
    pathways = gene.Pathways
    # Iteramos para guardar cada una como un renglón
    for code, pathway in pathways:
        pathway_list.append([gene.Entry, gene.Name, code, pathway])

In [73]:
# Guardamos en un DataFrame
df_pathways = pd.DataFrame(pathway_list, columns=['Gene_ID', 'Gene_Name', 'Pathway_ID', 'Pathway_Name'])

In [74]:
df_pathways

Unnamed: 0,Gene_ID,Gene_Name,Pathway_ID,Pathway_Name
0,7157,tumor protein p53,hsa01522,Endocrine resistance
1,7157,tumor protein p53,hsa01524,Platinum drug resistance
2,7157,tumor protein p53,hsa04010,MAPK signaling pathway
3,7157,tumor protein p53,hsa04071,Sphingolipid signaling pathway
4,7157,tumor protein p53,hsa04110,Cell cycle
...,...,...,...,...
744,2033,E1A binding protein p300,hsa05200,Pathways in cancer
745,2033,E1A binding protein p300,hsa05203,Viral carcinogenesis
746,2033,E1A binding protein p300,hsa05206,MicroRNAs in cancer
747,2033,E1A binding protein p300,hsa05211,Renal cell carcinoma
